AIトレーニングモデルとウェブサイトの利用規約
最近、我々は人工知能(AI)についてよく書いているが、それには理由がある。 AI技術は急速に進歩しており、特にジェネレーティブAI(GAI)では、ベンチャーキャピタルへの投資からハリウッドのストライキ、議会公聴会に至るまで、あらゆるものに影響を及ぼしている。
大規模言語モデル(LLM)は、大量の言語(テキストなど)を使用して、プロンプトに応答して「新しい」言語を生成するようにAIを訓練するAI技術の一種である。
大量のテキストはどこから来るのか? トレーニングテキストのソースは、Common Crawl、The Pile、MassiveText、Wikipedia、GitHubなど。
もしあなたがネットに何かを投稿したことがあれば、それがLLMの訓練に使われるかもしれない。
多くの人は、自分のコンテンツがAIのトレーニングに使われることを快く思っていない。
すでに述べたように、一部のアーティストはGAI社のStability AI、Midjourney、DeviantArtを訴えた。 この事件は、アーティストの作品をジェネレーティブAIシステムに使用し、大量の著作権侵害を行ったとして同社を告発したものだ。
The Vergeの報道によると、コメディアンで作家のサラ・シルバーマンと、作家のクリストファー・ゴールデン、リチャード・カドリーは、著作権侵害の疑いでOpenAIと Metaを連邦裁判所に提訴している:
[sic]特に、OpenAIのChatGPTとMetaのLLaMAは、彼らの作品を含む違法に取得されたデータセットで学習されたとしている。これらのデータセットは、Bibliotik、Library Genesis、Z-Libraryなどの「影の図書館」ウェブサイトから取得されたもので、書籍は「トレントシステム経由で大量に入手可能」であると指摘している。
原告側は、ChatGPTが著書を要約できることを示し、GAIツールはそれを可能にするためにテキストをコピーしたに違いない(著者の著作権を侵害している)と主張している。
AI関連の訴訟の多くは、AI企業が著者のコンテンツを無断で使用したという主張に基づいている。 しかし、もしAI企業がその許可を得ていたとしたら?
多くの人は、ウェブサイトの利用規約(利用規約(ToS)または利用規約(ToU))を目にすることなく......ましてや読んだり理解したりすることなく「承諾」している。
利用規約は拘束力があり、強制力のある契約と考えることができますが、すべてのToUが同じように作成されるわけではありません。
「ブラウズラップ」契約は、ユーザーがウェブサイトを訪問しただけでユーザーを拘束するようなものである。 ブラウズラップ用語へのリンクは、ウェブページの下部に小さなテキストリンクで表示されるのが一般的です。 ブラウズラップ条項は広く普及しているが、裁判所によって執行される可能性が最も低いタイプのToUである。
「クリックラップ」契約は、サイトの使用(または使用の継続)、購入などを行うために、ユーザーに「同意する」ボタンまたはボックスをクリックまたはチェックすることを要求します。 ブラウズラップ規約よりもクリックラップ規約の方が、ユーザーが規約を読んだかどうかにかかわらず、ユーザーがその言葉に同意したことが明らかであるため、裁判所はクリックラップ規約を執行する可能性が高い。
"スクロールラップ "条件は、クリックラップよりもさらに強力で、ユーザーが "同意する "をクリックする前に条件の最後までスクロールすることを要求する。
利用規約は通常、ウェブサイト運営者に、ウェブサイトを通じてアップロードまたは送信されたコンテンツを使用する広範な権利(ライセンス)を与える。 例えば、フェイスブックの規約にはこうある:
...私たちのサービスを提供するために、我々はあなたが私たちにこのコンテンツを使用するいくつかの法的許可( "ライセンス")を与える必要があります。...
具体的には、お客様が当社製品上で、または当社製品に関連して、知的財産権の対象となるコンテンツを共有、投稿、またはアップロードする場合、お客様は、当社に対し、お客様のコンテンツのホスト、使用、配布、変更、実行、コピー、公に上演または表示、翻訳、および派生物の作成(お客様のコンテンツと一致する)を行うための、非独占的、譲渡可能、サブライセンス可能、ロイヤルティフリーの世界的ライセンスを付与するものとします。 プライバシーと アプリケーションの設定)。 これは、例えば、お客様がFacebookで写真を共有する場合、お客様は、Meta Productsまたはこれらの製品およびサービスをサポートするサービスプロバイダーなど、他者との保存、コピー、共有を許可することを意味します(この場合も、お客様の設定に従います)。 このライセンスは、お客様のコンテンツが当社のシステムから削除された時点で終了します。
このような広範なライセンスには、フェイスブックがAIを訓練するためにユーザーコンテンツを使用する権利がすでに含まれているかもしれない。 しかし、一部の企業は、ToUに特定のAIトレーニング権を追加している。
また、GAIツールを使用する際に入力するプロンプト(例えば、「サラ・シルバーマン風にウサギに関する5分間のスタンダップ・ルーティンを書いてください」)は機密事項とはみなされず、AIシステムのトレーニングに使用できることをユーザーは認識すべきである。
GAIツールの利用規約には、ユーザーがプロンプトの出力を「所有する」と書かれているかもしれないが、そのような創作物を所有する人がいるかどうかは疑わしい。 このブログで取り上げたように、米国著作権局はMidjourney AIツールを使って生成されたコミック・ブックのアートの登録を拒否した。
多くのウェブサイト所有者が、ユーザーがアップロードして送信したコンテンツを使用する権利を求めているように、ウェブサイト運営者もまた、自分が投稿したコンテンツを他者がAIモデルの学習に使用するのを防ぎたいと考えるかもしれない。
ウェブサイトの規約では、コンテンツの自動的な「スクレイピング」を禁止しているのが一般的です。 「Captcha」パズルは、人間だけがコンテンツにアクセスできるようにすることで、これを防ぐことを目的としている。
2020年、第9巡回区控訴裁判所は、企業が公共のウェブサイトをスクレイピングしても、コンピューター詐欺・乱用防止法(CFAA)に違反しないという判決を下した。 しかし、スクレイピングはウェブサイトのToUを破る可能性があるため、契約違反による民事訴訟に発展する可能性がある。
例えば、ライアンエアーのToUにはこうある:
本ウェブサイト(モバイルアプリ、ryanair.comのウェブドメインを通過するウェブページおよび/またはデータを含む)、その基礎となるコンピュータプログラム(アプリケーションプログラミングインターフェース(API)を含む)、ドメイン名、ユニフォームリソースロケータ(「URL」)、データベース、機能、またはそのコンテンツを、私的かつ非商業的な目的以外で使用することは許可されていません。 第三者によって運営されているか否かを問わず、自動化されたシステムまたはソフトウェアを使用して、商業目的で本ウェブサイトからデータを抽出すること(「スクリーンスクレイピング」)は固く禁じられています。
一部のウェブサイト運営者は、さらに踏み込んで、AIモデルの学習にウェブサイトのコンテンツを使用することを禁止している。 たとえば、あるウェブサイトには次のような言葉がある:
このサイトの素材のライセンス料は、モデルが使用されている年またはその一部につきユニークなURL1つにつき1,000ドルです。 AIまたは機械学習モデルの作成において、本サイトのいずれかのページを使用することは、本規約に同意したものと解釈される。
もしあなたが、自動化されたウェブ・クローラーにこれらの条項を読ませるのは不合理だと主張するのであれば、ライセンス料を支払った時点で、私はあなたに大いに共感しよう。 一方、ライセンス条項を読むのはあなたの問題であって、私の問題ではない。 私のライフワークを盗んではいけない。盗んではいけない方法を考えるのは、あなたにとって都合が悪いからだ。