RedditとGoogleがAIコンテンツのライセンス契約を締結

携帯電話を持つ手

ロイター は、RedditがGoogleと合意し、Redditユーザーが投稿したコンテンツをGoogleの人工知能(AI)モデルの学習に利用できるようにしたと報じた。

情報筋によれば、このライセンス契約は年間約6000万ドルの価値があるという。

アルス・テクニカ は次のように報じている。

最近の証券取引委員会の提出書類で、人気のあるオンラインフォーラムは、今後3年間で、この契約とその他の不特定のAIデータライセンス契約から2億300万ドルを得ることを明らかにした。

報道によれば

レディットのデータをライセンス供与するグーグルや他のAI企業は、「継続的なアクセス権」を得ることになる。 [Reddit's] 申請書によると、「Reddit のデータ API と、契約期間中の Reddit データの四半期ごとの転送」である。なぜなら、「Redditのデータは、ユーザーがコミュニティに参加し、お互いに交流することで、常に成長し、再生成される」からである。

しかし、すでに多くの企業がRedditのデータを使って、Redditからのライセンスなしに大規模言語モデル(LLM)をトレーニングしている。

アルス・テクニカ Redditは、AIモデルが投稿やコメントを無料で収集し続ける可能性があることをよく理解しているようだ。

2023年、Redditは利用規約を更新し、Redditからの明示的なライセンスまたは各ユーザーの明示的な許可なく、機械学習トレーニングをそのコンテンツの無許可使用として呼び出した。

レディットはSEC提出書類の中で次のように認めている:

このような企業に対し、当社は積極的に法的措置を講じる予定ですが、そのような法的措置は解決に何年もかかる可能性があり、多大な費用が発生し、経営陣の注意やその他のリソースが散漫になり、最終的に成功するとは限りません。

Redditユーザーの中には、自分の投稿がAIの訓練に使われることに不満を持っている人もいる。

によると テックレーダー ,

プライバシーの心配をするユーザーもいれば、Redditのコンテンツ(正直に言うと、かなり有害なものになる可能性がある)で学習させたAIのアウトプットの質について懸念を表明するユーザーもおり、また単にAIを学習させるために自分の投稿が「盗まれる」ことを望まないユーザーもいる。

Redditの利用規約は、合理的な範囲内でユーザーのコンテンツを好きなように使用する広範な権利を与えており、「盗用」論は否定される。

しかし サラ・ギルバート のリサーチ・ディレクターである。 市民とテクノロジー研究所 の研究ディレクターであり、コンテンツモデレーションとデータ倫理の専門家であるサラ・ギルバートは、次のように述べている。 次のように述べている。 :

ユーザーの期待値と、Redditが彼らのデータをどのように利用させるかの間にズレが生じれば、Redditにとって破滅的な事態になりかねない。 サイトへの貢献意欲に影響を与えたり、ユーザーが抗議として破壊行為に走る可能性さえある。

ライセンス供与はグーグルにとって素晴らしい計画だ

など、多くの企業が ニューヨーク・タイムズ などの多くの企業が、無許可のデータスクレイピングでAI企業を訴えているが、AI企業は著作権法上の「公正使用」としてこれを擁護している。

ジェネレーティブAI(GAI)ツールは、既存のコンテンツから「学習」するだけでなく、それをほぼそのまま再現することも多い。 例えば、OpenAIに対する訴訟では、次のように述べた。 ニューヨーク・タイムズ からのほぼ逐語的な抜粋を生成するGPT-4の100の例を紹介した。 タイムズ 記事の抜粋を生成した100の例を紹介した。

Open AIは、「"逆流 "はまれなバグであり、ゼロにするよう取り組んでいる」と回答した。

として アルス・テクニカ が論じている ,

逐語的コピーの例は、生成モデルが学習データから保護できない事実しか学習しないという議論を覆すものだ。 これらのモデルは、著作権で保護された創造的な表現を再現することを学習する。 AI被告にとって危険なのは、こうした事例が、訓練過程で何が起こっているのかについて裁判官の思考を色づけてしまう可能性があることだ。

として スタンフォード図書館 は説明する、 裁判官は、著作権法におけるフェアユースの紛争を解決するために4つの要素を用います:

  • 使用の目的と性格
  • 著作物の性質
  • 持ち出された部分の量と相当性。
  • その使用が潜在的市場に及ぼす影響。

同ライブラリーは、「市場への影響」という要素について次のような例を挙げている:

あるアーティストが、著作権で保護された写真を無断で木彫りの土台として使用し、写真のすべての要素をコピーしたケースがある。このアーティストは彫刻を販売し、数十万ドルを稼いだ。写真家が訴えたとき、芸術家は、写真家は彫刻を作ることなど考えもしなかっただろうから、自分の彫刻は公正な使用であると主張した。裁判所はこれに同意せず、写真家が彫刻の製作を考えたかどうかは問題ではなく、重要なのは写真の彫刻の潜在的市場が存在することであると述べた。(ロジャース対クーンズ960 F.2d 301 (2d Cir. 1992))。

同様に ニューヨーク・タイムズ そして、自分たちのコンテンツがAIシステムの訓練に使われることを禁止するために戦っている他の企業、組織、個人は、たとえ自分たちのコンテンツをAIの訓練に使おうとは考えなかったとしても、著作権で保護されたコンテンツをAIの訓練に使う潜在的な市場は明らかに存在すると主張することができる。

として アルス・テクニカ は、AIツールの学習に使用されるコンテンツのライセンス市場の確立は、裁判所がAIツールの学習にそのようなライセンスなしにコンテンツを使用することを著作権法上の「フェアユース」とみなすかどうかに影響を与える可能性があると指摘している:

今後数カ月でこのような契約が増えれば増えるほど、原告側はフェアユース分析の「市場に与える影響」の項目で、このライセンス市場を考慮に入れるべきだと主張しやすくなるだろう。

Redditは、さまざまなトピックに関するサブRedditと呼ばれる約13万8000のアクティブなディスカッション・グループを持ち、米国で6番目に訪問者数の多いインターネット・サイトであり、11番目に訪問者数の多いインターネット・サイトであると言われている。 世界で最も訪問者の多いサイト。 登録ユーザー数は15億人、そのうち月間アクティブユーザー数は43万人、毎日アクティブユーザー数は5200万人と言われている。

2005年に設立されたレディットは最近、新規株式公開申請を開始した。 2021年の資金調達ラウンドでは約100億ドルと評価され、株式の約10%を一般に売却しようとしている。

として ロイター 指摘するように、ソーシャルメディア企業のIPOは2019年にピンタレストが上場して以来となる。

カテゴリー: ライセンス