AI産業発展の陰に潜む児童労働──有害コンテンツを含むデータラベリングの実態

データラベリングされたAIの学習用データを大手テック企業に提供しているのは、クラウドソーシング・プラットフォームだ。ここでは、未成年者や児童が労働に参加している実情が見えてきた。
AI産業発展の陰に潜む児童労働──有害コンテンツを含むデータラベリングの実態
PHOTO-ILLUSTRATION: CAMERON GETTY; GETTY IMAGES

15歳のハッサンは、同年代のほかの子どもたちと同じように、多くの時間をオンラインで過ごしていた。新型コロナウイルスのパンデミック以前は、パキスタン・パンジャーブ地方にある故郷のブレワラで、地元の子どもたちとサッカーをするのが好きだった。しかしロックダウンをきっかけに、ハッサンはスマートフォンを手放さない世捨て人のようになった。

「何か食べる時以外、部屋からは出ません」。現在18歳の彼は法的措置が下る可能性があることを理由に仮名の「ハッサン」を使っている。普通のティーンエイジャーと違って、ハッサンはTikTokをスクロールしているわけでも、ゲームをしているわけでもない。子ども部屋で彼は、世界的な人工知能(AI)のサプライチェーンのために働いている。世界最大級のAI企業のアルゴリズムを訓練するため、データをアップロードし、ラベリングしていたのだ。

最低賃金よりも上

機械学習のアルゴリズム構築に使用されるローデータは、まず人の手により構造化やラベル付けされる。その精度の評価には、人間の検証も必要だ。このデータラベリングは、単純な作業──例えば街灯の画像を識別したり、ネット販売の類似商品を比較したり──から、インターネットの隅々からかき集めたデータから有害なコンテンツを分類するコンテンツ・モデレーションのような、非常に複雑な作業まで多岐にわたる。

こうした仕事は、「Toloka」のようなオンラインのクラウドソーシング・プラットフォームを介して、ギグワーカーに委託されることが多い。ハッサンもTolokaから仕事を受託している。

友人に紹介された同サイトは、いつでもどこからでも仕事ができる、という点を売りにしていた。1時間の労働で約1~2ドルの収入が得られる。当時のパキスタンの最低賃金(約0.26ドル)よりも高い。ハッサンの母親は主婦で、父親は機械労働者である。

「うちは貧しい家庭だと言えます」。パンデミックが起きたとき、ハッサンはこれまで以上に働く必要があった。家に閉じこもり、ネットで調べ、落ち着かない日々を過ごしていた時、Tolokaのことを知った。

「AIは何でもできる“魔法の箱”のように紹介されています」と、ノースイースタン大学シビックAI研究所所長サイフ・サベージは言う。「人々はただ、舞台裏に人間の労働者がいることを知りません」

その中には子どももいる。プラットフォームは受託者の登録に18歳以上を条件としているが、未成年だったハッサンは親戚の情報を入力し、その個人に対応する支払い方法を入力しただけで審査を回避した。

年齢確認をすり抜け働く

『WIRED』はパキスタンとケニアで、同じく未成年でプラットフォームに参加したという労働者3人に話を聞き、このような行為が広く行われている証拠を掴んだ。

「中学生のころ、10代の若者の多くが親のIDを使ってネットで仕事を受ける方法について周りで話していました」

16歳で「Appen」に登録したケニア人の労働者(匿名希望)は語った。放課後、彼と友人たちは夜遅くまで、しばしば8時間以上にわたってアノテーション(データに情報を注釈して意味づけすること)作業に没頭していたという。

「ユーザーが同意の内容に違反している疑いがあった場合、Tolokaは身元確認を行い、写真付き身分証明書と本人の写真を要求します」とToloka運営責任者のジオ・ジカエフは言う。

市場調査・コンサルティング会社のGrand View Researchは、データラベリング・収集産業の世界市場は2030年までに171億ドル以上に成長すると予想している。AIの世界的な駆け込み需要に牽引されてのことだ。Toloka、Appen、Clickworker、Teemwork.AI、OneFormaなどのクラウドソーシング・プラットフォームは、グローバルサウスにいる何百万人ものリモート・ギグワーカーとシリコンバレーのテック企業を結びつけている。

クラウドソーシング・プラットフォームは、アマゾン、Microsoft Azure、セールスフォース、グーグル、エヌビディア、ボーイング、アドビなど、テック系企業のクライアントからのマイクロタスクをサイトに掲載する。Clickworkerをはじめとする多くのプラットフォームは、マイクロソフト独自のデータサービスプラットフォーム「Universal Human Relevance System(UHRS)」と提携している。

東アフリカ、ベネズエラ、パキスタン、インド、フィリピンにいる労働者が主だが、難民キャンプでラベリング・評価・データ生成をしている労働者もいる。報酬は作業ごとに支払われ、1セントから数ドルまで幅がある。しかし、数ドルになるような案件は希少だという。

「仕事の性質上、デジタルな奴隷状態みたいだと感じることも多いですが、生計のために必要です」。そう語るハッサンは、 ClickworkerとAppenからも仕事を受託している。

私的な情報の提供を求められることも

こういった労働者は時折、AIの学習用に音声や画像、動画をアップロードするよう求められることもある。多くの場合、自分のデータがどのように処理されるか知らされないが、これはかなり私的な情報だ。Clickworkerの求人には、こんなタスクがある。

「あなたの赤ちゃんかお子さんを見せてください! 写真を5枚撮って、AIの学習を手伝ってください!(2ユーロ、約320円)」

「あなたの周りにいる未成年(13~17歳)に、面白い自撮りプロジェクトに参加してもらいましょう!」

AIが無害なコンテンツと、暴力やヘイトスピーチ、アダルトな画像を含むコンテンツを区別できるように、コンテンツ・モデレーションが必要な場合もある。 ハッサンは『WIRED』にタスクの画面収録を見せた。UHRSのタスクでは、テキストから「fuck」「c**t」「dick」「bitch」を特定するよう求められていた。

Tolokaでは、ハッサンは性的な画像、ランジェリーの広告、露出の多い彫刻、ルネサンス様式の絵画の裸体など、何ページにもわたって裸の体を見ていた。そのタスク内容は、アルゴリズムが淫らな胴体と許容できる胴体とを区別できるよう、無害なものとアダルトコンテンツの違いを判別するというものだった。

未成年の時、UHRSでのコンテンツ・モデレーション作業がメンタルヘルスに重くのしかかったとハッサンは振り返る。露骨な内容のコンテンツが多かったのだ。それらは、裁判記録を基にした記事から引用されたレイプ事件の記述や殺人事件の記述、ソーシャルメディアへの投稿から引用されたヘイトスピーチ、未成年の性的な画像、成人女性の裸の画像、YouTubeやTikTokから引用された女性や少女のアダルトビデオなどだったという。

ハッサンによると、パキスタンのリモートワーカーの多くは未成年だそうだ。『WIRED』の代わりに、約1万人のUHRSワーカーとTelegramのグループチャットでハッサンに調査してもらったところ、96人の回答者の約5分の1が18歳未満だと答えた。

無給のトレーニング

ラホール出身のアワース(20歳)は、苗字を公表しないことを条件に取材に応じた。恋人の誕生日祝いに、パキスタン北部のターコイズブルーの湖や雪山への旅行を約束した後、Clickworkerを経由しUHRSで働き始めた。両親はお金を援助してくれなかったので、旅行費が必要だったのだ。当時16歳のアワースは、友人のIDカードを使ってデータ・ワークに参加した。「簡単だった」そうだ。

アワースは主に、マイクロソフトの「Generic Scenario Testing Extension」タスクをこなしながら、毎日オンラインで働いていた。これは、ホームページと検索エンジンの関連性の精度のテストだ。MSNで「自動車取引」を選択すると、車の写真が表示されるか? Bingで「cat」と検索すると、ネコの画像が表示されるか?

アワースの収入は毎日1~3ドル。仕事は単調で腹立たしいものだった。 特定のタスクを受けるには、無給のトレーニングを受けなければならず、結果的に1ドルのために10時間働くこともあった。トレーニングに合格しても、タスクがなかったり、受託までの制限時間を過ぎるとアカウントが停止されたりすることもあった。

その後、アワースは突然、最も報酬が高いタスクを受けられなくなった。これは定期的に起きることだという。 不正解が多い、回答が早すぎる、ほかの労働者の平均的なパターンから逸脱した回答をしたなど、受託禁止の理由はさまざまだ。

アワースは最終的に、合計70ドルを稼いだ。恋人を旅行に連れて行くのには十分な額だったので、プラットフォームからはログアウトした。

Clickworkerにコメントを求めたが、返答はなかった。マイクロソフトはコメントを拒否した。

「労働者がトレーニングを終了しても、その時点でプロジェクトの回答がほかの労働者により満たされてしまって、そのタスクを選択できない、というケースもあります」とジカエフは語る。 「しかし、同じようなタスクが他にあれば、追加のトレーニングを受けずに選択できます」

家族総出で労働

世界中でAI産業の背後に未成年労働の実態があるという証拠を、研究者たちが発見している。

イェール大学のアメリカ研究助教授、ジュリアン・ポサダは、AI産業における労働とデータ生産を研究している。ポサダは、ベネズエラでプラットフォームに参加した未成年の労働者に会った。

年齢の審査を回避するのは、非常に簡単だ。 ClickworkerやTolokaのように最もチェックが甘いプラットフォームは、労働者に18歳以上だと宣言させるだけだ。Remotasksのように厳しいプラットフォームは、顔認識技術を採用し、労働者の顔写真と提出された写真付きIDを照合する。しかし、それでも誤りが起きる可能性がある、とポサダは言う。チェック通過のために祖母の顔に電話を近づけたという従業員がいたからだ。

家族でひとつのアカウントを共有していても、未成年者が労働に加担することはできるとポサダは説明する。ベネズエラの家庭には、親が料理をしたり、用事を済ませたりしている間に、子どもたちがログインしてタスクをこなすケースもあるという。

ポサダが会った6人家族には13歳の子どももおり、全員がひとつのアカウントを共有していた。ポサダによると、その家族は家を工場のように稼働させており、常に2人がPCに向かってラベリングをしていたそうだ。

「ずっと座って作業するので、背中が痛くなります。だから大人は休憩をとって、その穴を子どもたちが埋めるんです」

AIを訓練する労働者と、サプライチェーンのもう一端にいる大手テック企業との間には、物理的な距離がある。ポサダはこれを「インターネットの脱領土化」と呼んでいる。テック企業側に労働者の姿や顔は見えていない。労働者の方は別のルールに支配されているか、あるいは何にも支配されない状況になる。

働き手に対する監視がないため、クライアントである企業側は、労働者が実際に収入を手にしているのかを知ることはできない。

インドのある労働者は、ひとつのオフィスに17人のUHRSワーカーを「雇用」し、PCや携帯電話、ネット環境を提供する代わりに、彼らの収入の半分を受け取っているという。Clickworkerユーザーである彼は、匿名で『WIRED』の取材に答えた。彼の「従業員」の年齢は18~20歳だが、Clickworkerには年齢確認の壁がないため、10代の若者がこのプラットフォームを使っていることを彼も認知していた。

「間接的にAIの進歩に貢献」

クラウドソーシング業界のより陰った部分では、児童労働者が公然と搾取されている。

CAPTCHA(Completely Automated Public Turing test to tell Computers and Humans Apart、コンピューターと人間を区別する完全自動化公開チューリングテスト)は、ユーザーがボットではなく生身の人間か確認するためのテストだ。最もわかりやすいのはグーグルのreCaptchaだろう。ユーザーがウェブサイトに入る時、画像内の対象を識別するよう要求する。

クラウドソーシング・プラットフォームが人間に報酬を払ってCAPTCHAを解かせていることは、AI産業のエコシステムのなかではあまり認識されていない。この正確な目的は、学問的には謎のままだとポサダは言う。「しかし、rグーグルのeCaptchaを含む多くの企業のサービスが、AIモデルを訓練するために利用されていることが確認できます。その結果、こういった労働者は、間接的にAIの進歩に貢献しているのです」

中国・杭州にある浙江大学による2019年の調査によると、前述のような業務形態が少なくとも152あり、そのほとんどが中国に拠点を置いているという。50万人以上が、明るみに出ないreCaptcha市場で働いている。

「すべての人に安定した仕事を。そう、すべての人に」と、reCaptchaのクラウドソーシング・プラットフォームのひとつであるKolotibabloのウェブサイトに書かれている。同社の宣伝サイトには、労働者の声が紹介されており、世界各地の幼い子どもたちの写真もある。

中には、11歳を迎えた誕生日ケーキを笑顔でカメラに向けるインドネシアの少年がいる。「将来のために貯蓄を増やせてとてもうれしい」と書いているのは、7歳か8歳くらいの男の子だ。ハローキティのワンピースに身を包んだ14歳の少女が、作業机を紹介している。バービーをテーマにしたピンクの机の上に、ノートPCが置かれている。

「これはデジタル奴隷制度」

『WIRED』が取材したすべての労働者が、これまであげたクラウドソーシング・プラットフォームに不満を感じていたわけではない。

17歳だったパキスタン人、ユニス・ハムディーンの友人のほとんどは、ウエイターをしていた。しかしハムディーンは、Appen経由でUHRSに参加し、高校と並行して1日3~4時間プラットフォームにログインして、月に最高100ドルを稼いだ。アマゾンに出品されている商品を比較するのが、彼が受託した中で最も収益の高い仕事だった。

現在18歳のハムディーンは、「このプラットフォームで働くのが大好きです」と言う。パキスタンでは珍しく、ハムディーンはドル建てで給料をもらっているため、為替の恩恵を受けている。

しかし、労働者たちの賃金がテック企業の社員の賃金に比べて信じられないほど低いこと、そしてこの仕事の利益が一方通行であること──つまりグローバルサウスからグローバルノースへ流れている──は、植民地主義と不快な類似性を示している。

「こういった労働によって、ある種の植民地主義が推進されているのではと考慮しなければなりません」とサベージは警告する。

ハッサンは最近、医療検査技術の学士課程に合格した。データラベリングは今も唯一の収入源だ。午前8時から午後6時まで、午前2時から午前6時まで働いている。しかし、パンデミック以降より多くの労働者が加わったため、需要が供給を上回り、彼の収入は月100ドルまで落ち込んだ。

ハッサンは、UHRSの報酬が1セントにも満たないことを嘆く。時には、Appenのソーシャルメディア・タスクのような、やや高報酬の仕事がある。それでもリサーチに費やす無報酬の時間が多いため、1時間のタスクをこなすのに5~6時間働かなければならず、すべて込みで稼げるのは2ドルだそうだ。「これはデジタル奴隷制度ですよ」とハッサンはつぶやいた。

WIRED US/Translation by Rikako Takahashi)

※『WIRED』による人工知能の関連記事はこちら


Related Articles
Lobby of AWS re:Invent 2023 conference hall
アマゾンがChatGPTのようなAIチャットボット「Amazon Q」を発表した。ビジネスユーザー向けに開発されたAIアシスタントで、AWSのサービスとの連携が強みとなる。同時発表した独自のAIチップと併せて、他社に追随する構えだ。
Elon Musk talking to reporters
イーロン・マスクの新会社であるxAIが新しいAIモデル「Grok」を発表した。その他のAIであれば回答を拒否するような問いにも対応し、Xのプラットフォームから得られる最新情報を利用できる点が特徴という。
Sam Altman
OpenAIで起きたサム・アルトマンの解任劇は、強大な力をもちうる技術を手がける企業のガバナンスの弱さを浮き彫りにした。こうした状況でのアルトマンの復帰が、人類の存亡にもつながる新たな「リスク」を生む危険性があると、AIの規制を求める専門家たちは憂慮している。

次の10年を見通す洞察力を手に入れる!
『WIRED』日本版のメンバーシップ会員 募集中!

次の10年を見通すためのインサイト(洞察)が詰まった選りすぐりのロングリード(長編記事)を、週替わりのテーマに合わせてお届けする会員サービス「WIRED SZ メンバーシップ」。無料で参加できるイベントも用意される刺激に満ちたサービスは、無料トライアルを実施中!詳細はこちら