苹果的人工智能可能是市场上唯一经过合法训练的人工智能

由于版权问题困扰着生成式人工智能领域,苹果寻求通过创新的语言学习方法训练方法来保护隐私和合法性,同时避免争议。

近年来,与版权法相关的生成人工智能问题仍然是一个相对重要和复杂的问题。随着语言学习模型(LLM)和生成式人工智能应用程序越来越受欢迎,版权问题不断堆积,但没有任何有意义的解决方案。

当公司使用受版权保护的作品来训练其生成式人工智能软件时,以及当所述人工智能软件的输出包含受版权保护的作品的部分时,就会出现问题。

完整复制受版权保护的作品或使用此类作品的重要部分来训练生成人工智能软件均属侵犯版权。无论训练模型的公司怎么说或相信什么,人工智能训练都不存在“合理使用”的例外情况。

2023 年 12 月下旬,OpenAI 和微软被起诉经过纽约时报对于侵犯版权。在诉讼中,据称两家公司使用了纽约时报

这并不是 OpenAi 第一次面临有关模型训练的诉讼。2023年9月,公司被还起诉了由几位著名作家撰写,其中包括乔治·R·R·马丁、迈克尔·康纳利和乔纳森·弗兰岑。

生成式人工智能和版权问题的历史可以追溯到更早的时候,截至 2023 年 7 月,超过 15000作者签名一封致几家知名公司的公开信,包括 Alphabet、OpenAI、Meta、微软等。

这封信要求对作者的工作给予适当的认可和补偿,这些工作用于生成人工智能和语言学习模型的培训。

另一起类似的集体诉讼,指控侵犯版权已归档非小说作家 Nicholas Basbanes 和 Nicholas Gage 反对 OpenAI。该诉讼于 2024 年 1 月提起。

2024年4月下旬,又一起人工智能相关诉讼已归档,这次是对阵亚马逊。该诉讼称,一名亚马逊员工被指示故意忽视并违反版权法,以便亚马逊能够更有效地与竞争对手的产品和服务竞争。

在诉讼中,一名前亚马逊员工声称,一名主管就侵犯版权的人工智能培训告诉她,“其他人都在这样做”——这意味着竞争对手公司的人故意参与侵犯版权的行为。

而且,很明显它们是。

人工智能和出版商对复制受版权保护的内容的担忧

众所周知,人工智能会多次复制受版权保护的内容,问题的严重性促使公司分析这种情况发生的频率。

为了更好地了解人工智能聊天机器人生成受版权保护内容的速度,PatronusAI 公司决定调查此事。该公司评估生成式人工智能模型,比较了四个主要人工智能模型 - OpenAi 的 ChatGPT-4、Meta 的 Llama 2、Mistral 的 Mixtral 和 Anthropic 的 Claude 2.1。

Patronus AI 发现,人工智能生成受版权保护的内容的速度最终会根据模型的不同而有所不同,但受版权保护的内容生成率很高。该公司还发布了自己的工具,称为版权捕手,这将检测法学硕士中潜在的版权侵犯行为。

虽然受版权保护内容的生成具有严重影响,但出版商也担心在训练语言学习模型时使用受版权保护的材料。

An Adobe Firefly-generated image of a wizard mouse.

Adobe Firefly 生成的向导鼠标图像。绝对不是迪士尼“幻想曲”中的米奇

2024 年 3 月,华尔街日报 报道知名出版商正在调查其受版权保护的作品在生成人工智能模型训练中的使用情况。出版商希望通过人工智能使用他们的作品获得报酬。

考虑到与生成人工智能和版权相关的诉讼数量以及出版商所表达的担忧的严重性,像苹果这样的公司会尽力避免任何潜在的法律问题是有道理的。

据报道,为了避免在训练自己的生成式人工智能软件时出现类似的版权问题,苹果公司一直在授权主要新闻出版物的作品。

2023 年 12 月,被举报苹果公司计划尝试从康泰纳仕出版社(Conde Nast)获得作品授权时尚纽约客。该公司还与 IAC 和 NBC News 进行了交谈,试图达成一项价值约 5000 万美元的交易。

Apple 开发了其语言学习模型,内部称为 Ajax,具有基本的设备上的功能,该公司对更高级的功能采取了不同的方法。苹果考虑授权软件(例如 Google Gemini)来执行需要互联网连接的更复杂的任务。

通过采用这一策略,苹果显然是想避免版权问题。通过付费许可,Apple 不对 Google Gemini 等软件造成或实施的版权侵权负责。

在发表于的一篇研究论文中2024年3月,苹果公司透露,它使用精心策划的图像、图像文本和基于文本的输入的混合来培训其内部法学硕士。苹果使用的方法可以同时实现更好的图像字幕、多步骤推理和保护隐私。

An example of an image from an Apple generative AI graphic tool.

来自 Apple 生成 AI 图形工具的图像示例。

行业消息人士告诉我们,Apple 的 Ajax LLM 保护隐私,因为它不需要互联网连接即可进行基本文本分析。这意味着设备上的 LLM 无法连接到数据库并在离线模式下识别受版权保护的内容,尽管文本生成等更高级的功能可能会具有此类检查和连接。

除了报告和记录项目之外,护栏和许可只有得到执行才同样安全。熟悉苹果人工智能测试环境的消息人士表示苹果内幕透露,似乎几乎没有任何限制来阻止某人在设备测试环境的输入中使用受版权保护的材料。

我们的消息来源并不清楚苹果内部防止侵犯版权的培训的规定。然而,输出可能会受到更多监管,以避免逐字复制受版权保护的材料。

苹果应该在期间推出其生成式人工智能技术全球开发者大会从 6 月 10 日开始。