OpenAIに対するニューヨーク・タイムズの訴訟は、マシン・インテリジェンスの開発に大きな影響を与える可能性がある

2024-01-11 18:38:20

1954年、ガーディアン紙の科学特派員は、飛行機の座席割り当てなどの情報を数秒で検索できる一種の記憶装置を備えた「電子頭脳」について報告した。

ai system — クレジット: Pixabay/CC0 パブリックドメイン

1954年、ガーディアン紙の科学特派員「電子頭脳」について報道されましたこれには、航空会社の座席割り当てなどの情報を数秒で取得できる形式の記憶が備わっていました。

今日では、コンピュータが情報を保存するという考えが非常に一般的になっており、「メモリ」などの言葉が実際に何を意味するのかについて考えることさえありません。しかし、1950 年代には、この言語はほとんどの人にとって目新しいものであり、「電子頭脳」というアイデアは可能性を秘めていました。

2024 年、電子レンジは 1950 年代に脳と呼ばれていたものよりも多くの計算能力を備えていますが、人工知能の世界は言語と弁護士に新たな課題を突きつけています。先月、ニューヨークタイムズ紙が訴訟を起こした人気の AI ベースのテキスト生成ツールの所有者である OpenAI と Microsoft に対してチャットGPT、システムのトレーニング（改善）とテストに使用するデータにタイムズの記事を使用した疑いをめぐって。

彼らは、OpenAI が ChatGPT 作成プロセスの一環としてジャーナリズムを利用して著作権を侵害したと主張しています。そうすることで競合製品を開発したと訴訟は主張している。彼らのビジネスを脅かすもの。OpenAIの反応これまでのところ非常に慎重だが、同社が発表した声明で概説されている重要な原則は、オンラインデータの使用が「フェアユース」として知られる原則に該当するというものだ。これは、OpenAI が主張するところによれば、プロセスの中で作業が新しいもの、つまり ChatGPT によって生成されたテキストに変換されるからです。

この問題の核心はデータの使用の問題です。OpenAI のような企業はどのようなデータを使用する権利を持っているのでしょうか?また、これらの文脈において「変換」などの概念は実際には何を意味するのでしょうか?AI システムや ChatGPT のようなモデルをトレーニングするデータをめぐるこのような質問は、依然として学術上の激しい戦場です。法律は業界の行動よりも遅れていることがよくあります。

AI を使用してメールに返信したり、仕事を要約したりしたことがある場合は、ChatGPT が手段を正当化する目的であると考えるかもしれません。しかし、それを達成する唯一の方法が、他のすべての人に適用される法律から特定の法人を除外することであるならば、おそらく私たちは心配する必要があるでしょう。

それは、今回のような著作権訴訟を巡る議論の性質を変える可能性があるだけでなく、社会が法制度を構築する方法を変える可能性を秘めています。

基本的な質問

このような事件は、法制度の将来について厄介な問題を引き起こす可能性がありますが、AI モデル自体の将来にも疑問を投げかける可能性があります。ニューヨークタイムズは、ChatGPT が長期的な存続を脅かす新聞の。この点について、OpenAI は声明の中で次のように述べています。報道機関との協力ジャーナリズムに新たな機会を提供すること。同社の目標は「健全なニュースエコシステムをサポートする」ことと「良きパートナーになる」ことだとしている。

たとえ AI システムが私たちの社会の将来に必要な部分であると信じているとしても、AI システムが最初にトレーニングされたデータのソースを破壊するのは悪い考えのように思えます。これは、ニューヨーク・タイムズなどのクリエイティブな取り組みに共通の懸念です。ジョージ・R・R・マーティン、そしてまたオンライン百科事典ウィキペディア。

ChatGPT などの AI チャットボットの基礎となるテクノロジーである大規模言語モデル (LLM) を強化するために使用されていたような大規模なデータ収集の支持者は、AI システムがデータセットから「学習」することでトレーニングに使用するデータを「変換」すると主張しています。そして何か新しいものを生み出す。

事実上、彼らが意味するのは、研究者が人が書いたデータを提供するそして、ユーザーからの実際の質問に対処するときと同じように、これらのシステムに文内の次の単語を推測するように依頼します。これらの答えを隠してから明らかにすることで、研究者は「はい」または「いいえ」の二者択一の答えを提供し、AI システムを正確な予測に向けて推進することができます。LLM が膨大な量の文書を必要とするのはこのためです。

もし私たちがニューヨーク・タイムズのウェブサイトから記事をコピーし、人々にアクセス料金を請求したとしたら、これは（同紙の訴訟が述べているように）「大規模な組織的窃盗」となることにほとんどの人が同意するだろう。しかし、上で示したように、AI を導くためにデータを使用して AI の精度を向上させることは、これよりも複雑です。

OpenAI のような企業は、トレーニングデータそして、データセットに取り込まれたニューヨーク・タイムズの記事は実際には再利用されていないと主張しています。しかし、この AI 擁護に対する反論は次のとおりです。証拠がありますChatGPT などのシステムはそのまま「漏洩」する可能性があるトレーニングデータからの抜粋。OpenAIによると、これは「珍しいバグ」。

ただし、これらのシステムは、トレーニングに使用されたデータの一部を「意図せず」に保存および記憶し、特定の方法でプロンプトが表示されると、そのデータをそのまま吐き出す可能性があることを示唆しています。これにより、営利出版物が知的財産を保護するために設けるペイウォールが回避されることになります。

言語使用

しかし、このような場合に私たちが法律に取り組む方法に長期的な影響を与える可能性があるのは、私たちの言葉の使い方です。ほとんどの AI 研究者は、「学習」という言葉は、AI が実際に行っていることを説明するのに使用するには非常に重く、不正確な言葉だと言うでしょう。

社会がAI時代への大規模な移行を経験する中、現行の法律が人々を保護し支援するのに十分であるかどうかという疑問が問われなければならない。著作権で保護された既存の作品を元の作品とは異なる方法で構築するかどうかは「変形的使用」と呼ばれ、OpenAI が使用する防御策です。

しかし、これらの法律は、人々がすでに外の世界にリリースされた作品をリミックス、再結合、実験することを奨励するように設計されています。同じ法律は、実際には、人間のライターが望むことのできる数十億ドル規模のテクノロジー製品を保護するために設計されたものではありません。

大規模な防衛の多くの問題データ収集と使用法は、英語の奇妙な使用法に依存しているということです。AI は「学習する」、「理解する」、「考える」ことができると言います。ただし、これらはたとえ話であり、正確な専門用語ではありません。

1954 年に人々が壊れた電卓に相当する現代のものを見て「脳」と呼んだのと同じように、私たちは古い言葉を使ってまったく新しい概念に取り組んでいます。何と呼んでも、ChatGPT のようなシステムは私たちの脳のようには機能しませんし、AI システムは社会において人間が果たしているのと同じ役割を果たしません。

1950 年代にコンピューターを理解するために新しい言葉とテクノロジーの新しい共通理解を開発する必要があったのと同じように、2020 年代には社会を守るために新しい言語と新しい法律を開発する必要があるかもしれません。

この記事はから転載されています会話クリエイティブ・コモンズ・ライセンスに基づいて。読んでください元の記事。

引用:OpenAIに対するニューヨーク・タイムズの訴訟は、マシン・インテリジェンスの開発に大きな影響を与える可能性がある (2024年1月11日)2024 年 1 月 11 日に取得https://techxplore.com/news/2024-01-york-lawsuit-openai-major-implications.html より

この文書は著作権の対象です。個人的な研究や研究を目的とした公正な取引を除き、書面による許可なく一部を複製することができます。コンテンツは情報提供のみを目的として提供されています。