2023年06月30日 16時00分ソフトウェア

ChatGPT開発のOpenAIがAI学習用データをめぐって集団訴訟を起こされる

人工知能企業・OpenAIの開発したチャットボットAI「ChatGPT」を訓練するために用いた学習用データセットが無数の人々の著作権とプライバシーを侵害しているとして、カリフォルニアを拠点とするクラークソン法律事務所がOpneAIに対して集団訴訟を起こしました。

The AI Arms Race and Why We Need to Come Together Now — Clarkson
https://clarksonlawfirm.com/the-ai-arms-race-and-why-we-need-to-come-together-now/

OpenAI Complaint
(PDFファイル)https://storage.courtlistener.com/recap/gov.uscourts.cand.414754/gov.uscourts.cand.414754.1.0.pdf

OpenAI Sued for Using 'Stolen' Data, Violating Your Privacy With ChatGPT | PCMag
https://www.pcmag.com/news/openai-sued-for-using-stolen-data-violating-your-privacy-with-chatgpt

ChatGPT maker OpenAI faces class action lawsuit over data to train AI - The Washington Post
https://www.washingtonpost.com/technology/2023/06/28/openai-chatgpt-lawsuit-class-action/

OpenAIの開発したChatGPTは、GPTという大規模言語モデルをベースに開発されています。そして、GPT 3.5が学習に用いたデータセットの一部には非営利団体・Common Crawlが提供しているオープンソースのデータセットが使われています。このCommon Crawlが提供しているデータセットは2008年以降にインターネットから収集された合計45TBものテキストで構成されており、学習向けにフィルタリングを行ってもなお570GBものサイズがあるとのこと。

クラークソン法律事務所は、OpenAIがユーザーに同意を求めたり警告したりすることなく、インターネット上にある膨大な量のテキストを使ってGPTならびにChatGPTの学習を行ったことは連邦および州のプライバシー法に違反すると主張。2023年6月28日付けでカリフォルニア州北部地区連邦裁判所に訴状を提出しました。原告側であるクラークソン法律事務所は、OpenAIに対して「さまざまな安全対策を講じられるまでChatGPTの提供を一時的に停止する」こと、さらにOpenAIのAIを評価する独立した評議組織の設立、同意なしに個人情報をスクレイピングしたことに対する損害賠償の支払いを求めています。

クラークソン法律事務所は公式ブログで、「OpenAIとそのパートナーであるMirosoftは同意なしに個人情報を収集しているにもかかわらず、AI技術からばく大な利益を得る準備をしている」と主張しました。

また、クラークソン法律事務所は「MicrosoftはOpenAIに数十億ドル(約数千億円)の投資を行い、その強力なテクノロジーを用いて世界規模のAI軍拡競争を引き起こしました。最も革新的なテクノロジーを構築するために、ほとんど考えられないレベルで膨大なデータが収集されました。この情報の大部分は、あらゆる年齢の子どもを含む、インターネットを使用したことのあるほぼ全員の個人データから許可なく収集されたものです。あらゆる場所で、あらゆる人から、あらゆるものが一度に」と述べています。

アメリカでは学習用データセットに使われるデータの著作権について、法的には明確に定まっていません。アメリカには「フェアユース」の考えが存在しますが、この学習用データセットへのデータ利用がフェアユースに当たるかどうかは記事作成時点でもなお議論されているところ。ChatGPTと同じジェネレーティブAIであるStable DiffusionやMidjourneyも、学習に用いたデータセット「LAION-5B」に含まれる画像がアーティストやクリエイターからの同意なしに使われているとして集団訴訟を起こされています。

画像生成AI「Stable Diffusion」と「Midjourney」に対して集団訴訟が提起される - GIGAZINE

アメリカの日刊紙・The Washinton PostやIT系ニュースサイトのPCMagはOpenAIにコメントを求めましたが、返答はなかったそうです。

なお、OpenAIは2023年4月に、入力した個人情報や機密情報を学習に利用しないように拒否する設定をChatGPTに追加しています。

ChatGPTで秘密情報の流出を防ぐ学習拒否設定の方法＆会話履歴のダウンロード方法まとめ - GIGAZINE