2025年のトップAIトレーニングケースのレビュー
人工知能(AI)法と技術の両面で新たな進展が見込まれる新年を迎えるにあたり、昨年の重要な決定を見直す良い機会のように思えます。
背景として、ChatGPTやGrokなどの生成型人工知能(GenAI)大規模言語モデル(LLM)ツールは、著作権で保護される可能性のある資料(書籍、新聞、雑誌記事など)上で訓練されています。
一部の生成AI企業は著作権者と契約を結び、これらの素材をライセンスしています。それでも、多くの人は許可を取っていなかったか、無許可で使用が発覚してから初めて許可を求めました。
生成AIトレーニングに関しては、著作権法上2つの基本的な問題があります。
- ライセンスのない著作権保護資料を使って生成AIツールを訓練することは、著作権者の独占権を侵害するのでしょうか?
- 生成世代AI企業は著作権者の独占権を侵害する形で著作権で保護された資料を入手・処理したのでしょうか?
著作権法第 106条 および第107条から第122条の規定に従い、本タイトルの著作権者は以下のいずれかを行う独占的権利を有します。
- 著作権作品をコピーまたは音声レコードで再現すること、
- 著作権作品に基づく派生作品の作成;
- 著作権作品のコピーやフォノレコードを、販売やその他の所有権移転、または賃貸、賃貸、貸出によって一般に配布すること;
- 文学、音楽、演劇、振付作品、パントマイム、映画やその他の視聴覚作品の場合、著作権作品を公に上演すること;
- 文学、音楽、演劇、振付作品、パントマイム、絵画、グラフィック、彫刻作品、映画やその他の視聴覚作品の個別画像を含む場合、著作権作品を一般に展示すること;そして
- 音声録音の場合、デジタル音声送信を通じて著作権作品を公に演奏すること。
「生成AIの訓練に作品を使う」(またはその他の訓練形態)は、これらの独占権に明確に記載されていないことは明らかです。
しかし、「コピー」は著作権者の独占的な権利 です 。
人間が著作物を訓練に使用する場合、必ずしもコピーする必要はない。
例えば、人間はギターを弾いたりパスタを作ったりすることができるのは、その分野に関する本を読むことでです。その知識は人間の脳、すなわち「ウェットウェア」に「蓄えられています」。
しかし、コンピュータが著作権で保護された素材から学習するには、通常、その素材をサーバー(ハードウェア)に読み込んで処理する必要があります。
人間は本を合法的にも違法にも入手できます。新品または中古で書店で購入でき、電子書籍サイト(オーディオブックも含む)から合法的にダウンロードでき、友人や図書館から借りたり盗んだりすることができます。
現在の訴訟では、生成AIツールの訓練に使われた何百万冊もの書籍やその他の資料が「盗まれた」ことが明らかになりました。つまり、電子書籍やその他のソースから違法に「リッピング」されたコピーが海賊版のウェブサイトにアップロードされ、その後GenAI企業によってダウンロード(すなわち再びコピー)されたのです。
もし行為が著作権者の独占的権利のいずれかを侵害する場合、それは「フェアユース」の原則の下で認められることがあります。
スタンフォード図書館が指摘するように、
残念ながら、特定の使用がフェアユースかどうかを決定的に判断する唯一の方法は、連邦裁判所で解決することです。裁判官はフェアユースの争いを解決するために4つの要素を用いており、以下で詳しく説明します。これらの要素はあくまで裁判所がケースバイケースで対応できる指針に過ぎないことを理解することが重要です。言い換えれば、裁判官はフェアユースの判断に大きな自由を持っているため、どの事件でも結果を予測するのは難しいのです。
裁判官が考慮する4つの要素は以下の通りです。
- 使用の目的と性格
- 著作物の性質
- 持ち出された部分の量と相当性。
- その使用が潜在的市場に及ぼす影響。
バーツ対人格的
2025年9月、Anthropicは書籍著者と出版社を巻き込んだ集団訴訟で和解し、同社が数百万件の著作権作品を違法にダウンロード・保存したと裁判官が判断したため、15億ドルの支払いに同意しました。
もし会社が和解しなければ、法定損害賠償額は1兆ドルを超えていた可能性があると Wiredは伝えています。
この ブログでも書いたように、
… Anthropic事件では、裁判所は合法的に取得した著作権のある書籍をAI大規模言語モデルの訓練に使用することはフェアユースに該当する一方で、海賊版の書籍をダウンロードして永久保存することは著作権法に違反すると判断しました。
公聴会の証人である一人は、生成AI企業による海賊版書籍サイトの利用が特に懸念されると指摘しました。
彼は、Metaの従業員が海賊版サイトの利用が違法であることを知っていたにもかかわらず、Metaの会長マーク・ザッカーバーグがそれでも手続きを進めることを決めたことを示す文書に記していると指摘しました。証人は「著作権法にはAI企業が大量海賊行為を行うことを禁じる例外はない」と結論づけました。
カドリー対メタ
Anthropic判決のわずか2日後、同じ地区の北カリフォルニアの別の地方裁判所の判事も、著作権のある書籍を用いてLLMを訓練することはフェアユースであると判断しました。
その事件の裁判官は、LLMが海賊版の本で訓練されることに問題はなく、トレーニングプロセス全体(すべての手順を含む)をフェアユースと認定しました。
上記の4つ目のフェアユース要素について、裁判官は、AIトレーニングのための著作権作品のライセンス市場が明確に定義されていなかったため、原著の潜在的市場への影響に関する事実争点はないと判断しました。しかし、その決定以降、その市場は発展を続けており、いくつかのライセンス契約が報告されています。
ROSSインテリジェンス
この事件は、トムソン・ロイター傘下のウェストローと競合するAI搭載の法務調査ツールを構築しようとしたロスに関するものでした。
ロイターがコンテンツのライセンスを拒否した際、ロスはウェストローの著作権で保護されたヘッドノートから生成された「一括メモ」を入手し、それを研修に利用しました。
ヘッドノートは数値重みを生成するためだけにコピーされており、エンドユーザーに表示されることはありませんでした。
裁判所は、ロスがウェストロー自身の資料を使って競合しようとしていたため、それはフェアユースに該当しないと判断しました。
