big data
图片来源:Pixabay/CC0 公共领域

一项新的研究表明,应该为合成数据的生成和处理制定明确的指导方针,以确保透明度、问责制和公平性。

通过机器学习算法从原始现实世界数据生成的合成数据正在变得越来越重要,因为它可以为传统数据源提供保护隐私的替代方案。在实际数据太敏感而无法共享、太稀缺或质量太低的情况下,它特别有用。

合成数据与现实世界的数据不同,因为它是由算法模型生成的,称为生成器,例如生成对抗网络或贝叶斯网络。

该研究警告现有只适用于没有足够的能力来规范所有类型的合成数据的处理。

GDPR 等法律仅适用于个人数据的处理。GDPR 对个人数据的定义包括“与已识别或可识别的自然人相关的任何信息”。然而,并非所有合成数据集都是完全人造的,有些可能包含个人信息或存在重新识别的风险。原则上,完全合成的数据集不受 GDPR 规则的约束,除非有可能重新识别。

目前尚不清楚什么程度的重新识别风险足以触发它们在完全合成数据处理的背景下的应用。这给处理此类数据集带来了法律上的不确定性和实际困难。

学习,由埃克塞特大学 Ana Beduschi 教授撰写,发表在期刊上大数据与社会

它表示,应该有明确的程序来追究那些负责合成数据生成和处理的人的责任。应该保证合成数据的生成和使用不会对个人和社会带来不利影响,例如延续现有的偏见或创造新的偏见。

Beduschi 教授说:“应该为所有类型的合成数据建立明确的指导方针。他们应该优先考虑,。拥有这样的指导方针尤其重要,因为生成式人工智能和高级语言模型(例如 DALL-E 3 和 GPT-4)——既可以接受训练,也可以生成合成数据——可能会促进误导性信息的传播,并对社会产生有害影响。因此,遵守这些原则有助于减轻潜在危害并鼓励负责任的创新。

“因此,合成数据应明确标记,并且应向用户提供有关其生成的信息。”

更多信息:Ana Beduschi,综合数据保护:迈向数据监管范式变革?,大数据与社会(2024)。数字编号:10.1177/20539517241231277

引文:研究称,合成数据需要明确的指导方针,以确保透明度、问责制和公平性(2024 年,4 月 13 日)检索日期:2024 年 4 月 13 日来自 https://techxplore.com/news/2024-04-guidelines-synthetic-transparency-accountability-fairness.html

本文档受版权保护。除了出于私人学习或研究目的的任何公平交易外,不得未经书面许可,不得复制部分内容。所提供的内容仅供参考。