ネットサービス

TumblrやWordPressがユーザーデータをAIトレーニングに提供する契約を結ぼうとしていたことが判明


SNSのTumblrとWordPressを保有するAutomatticが、AI企業であるOpenAIやMidjourneyと、AIのトレーニングのためにユーザーデータを提供する旨の契約を結ぼうとしていたことが明らかになりました。データがすでに提供済みかまだ提供されていないかは不明ですが、社内からは、契約には含まれないはずの個人的なデータまで提供するための準備が進められていたとの指摘があるということを、内部文書を入手したニュースサイト・404Mediaが報じています。

Tumblr and WordPress to Sell Users’ Data to Train AI Tools
https://www.404media.co/tumblr-and-wordpress-to-sell-users-data-to-train-ai-tools/



Tumblr’s owner is striking deals with OpenAI and Midjourney for training data, says report - The Verge
https://www.theverge.com/2024/2/27/24084884/tumblr-midjourney-openai-training-data-deal-report

Tumblr and WordPress posts will reportedly be used for OpenAI and Midjourney training
https://www.engadget.com/tumblr-and-wordpress-posts-will-reportedly-be-used-for-openai-and-midjourney-training-204425798.html

404Mediaによると、AutomatticとOpenAI・Midjourneyとの契約は締結間近で、現地時間2024年2月28日からTumblrとWordPressにおいて、ユーザーがAI企業を含む第三者とのデータ共有をオプトアウトできる新設定が導入される予定だとのこと。


AI企業に提供するデータは、専用のデータ収集クエリで集められたことが、Tumblrのプロダクトマネージャーであるサイル・ゲージ氏の内部投稿で明らかになっています。

ゲージ氏の情報によれば、収集対象に含めるべきではなかった投稿IDのリスト作成をエンジニアが行っているほか、CSAMやその他のコミュニティガイドライン違反のフラグが立てられたパスワード付き投稿・DM・メディアファイルは含まれていないとのことですが、2014年から2023年の以下の投稿はすべて含まれているとみられます。

・公開ブログへの非公開の投稿
・削除または停止されたブログへの投稿
・回答が得られるまで非公開のはずの、未回答の質問
・質問者のみ閲覧可能なプライベートな回答
・「成人向け」「NSFW」などのフラグが立てられた投稿
・Automatticが共有する権利を持たない、過去のAppleによるブログなどのプレミアムパートナーブログ

404Mediaがこの件についてAutomatticに問い合わせを行ったところ、Automatticは「ユーザー選択の保護」と題した声明を公開したとのこと。

Protecting User Choice – Automattic
https://automattic.com/2024/02/27/protecting-user-choice/


声明においてAutomatticは「デフォルトで主要なAIプラットフォームクローラーをブロックしており、新たなクローラーがリリースされるとリストを更新」する旨を明らかにし、外部のクローラーによるデータ収集は認めていないことを示しています。

一方で、「Automatticのコミュニティが関心を持っているもの(アトリビューション、オプトアウト、コントロール)と特定のAI企業のプロジェクトが一致する場合、直接協力しています」と言及し、AI企業を完全に排除しているわけではないことも明らかにしました。

今回の件で集められたデータがすでにAI企業に送られたのか、それともまだ送られていないのかは不明です。

なお、Tumblr上では1週間ほど前に「TumblrのスタッフがMidjourneyにアートデータを販売したというのはどういうことですか?」という質問があり、元Tumblr従業員からの伝聞ながら「数カ月前から、AutomatticとMidjourneyとの間で契約の話が進められている」という情報が投稿されていました。

TumblrのPress any key to start: What is this about the tumblr staff wanting to sell art data to midjourney?
https://www.tumblr.com/jv/742956751128805376/what-is-this-about-the-tumblr-staff-wanting-to

Automatticは2019年、TumblrをVerizonから買収しました。

ブログサービスのTumblrがWordPressの親会社に買収される - GIGAZINE


しかし、多額の投資にもかかわらず復興策の成果はなく、2023年に運営チームが大幅に縮小されています。

Tumblr復活のために150億円以上が費やされたものの最盛期には及ばず運営チームの大幅縮小が決定 - GIGAZINE


◆フォーラム開設中
本記事に関連するフォーラムをGIGAZINE公式Discordサーバーに設置しました。誰でも自由に書き込めるので、どしどしコメントしてください!Discordアカウントを持っていない場合は、アカウント作成手順解説記事を参考にアカウントを作成してみてください!

• Discord | "SNSへの投稿がAIの学習に使われるのは許せる?許せない?" | GIGAZINE(ギガジン)
https://discord.com/channels/1037961069903216680/1212332093690880030

この記事のタイトルとURLをコピーする

・関連記事
AIモデルのトレーニングデータを開示することを義務付ける法案が提出される - GIGAZINE

GoogleがRedditの投稿内容をAPIでリアルタイム取得してAIのトレーニングに活用へ、Redditは新規株式公開目前 - GIGAZINE

RedditがAIモデルのトレーニングに自社コンテンツの利用を許可するライセンス契約を締結か - GIGAZINE

XのデータをAI開発のトレーニングに使うことが規約で明言されイーロン・マスクもコメント - GIGAZINE

Googleが生成AIのトレーニングに自分のウェブサイトが使われないようにするオプションを発表、もう遅いという指摘も - GIGAZINE

「オンラインで公開されたものすべてをAIのためにスクレイピングする」とGoogleが発表 - GIGAZINE

8500人超の作家が「AIのトレーニングに人間の作品を無断使用するな」とOpenAIやMetaなどのAI開発企業に求める公開書簡に署名 - GIGAZINE

in ネットサービス, Posted by logc_nt

You can read the machine translated English article here.