Amazon Mechanical Turk (MTurk) を使ってみたメモ

経緯

研究の一環で Amazon Mechanical Turk (MTurk) を使う機会があった.日本語のドキュメントや記事が少なく,ところどころ苦戦したので,使用感などをメモっておく.

私が参考にした大変よくまとまった資料を以下に紹介する.MTurk を使うための資料としては本記事よりもこちらを読むことを推奨する.

www.slideshare.net

 

想定する読者

  • MTurk を使う予定の弊 lab 学生
  • クラウドソーシングでデータを集めようと思う人
  • MTurk についてなんでもいいから情報が欲しい人

 

MTurk の概要

MTurk は Amazon が提供する,クラウドソーシングを円滑に行うためのサービスである.MTruk ユーザはワーカかリクエスタどちらかの形態をとる.ワーカは仕事を行う人,リクエスタは仕事を発行する人である.

 

MTurk の利用:ワーカ編

ワーカは仕事(MTurk では1個の仕事を HIT と呼ぶ)を行う.

HIT 選び

サービス上で現在開かれている HIT 一覧を確認することができる.HIT には仕事内容の簡単な説明,報酬,ワーカ条件,制限時間などが定められている.だいたいどれくらいの時間でできる仕事なのかを説明のところに明記しているものが多いので,それで時給換算できる.ワーカ条件とはその HIT に取り組めるワーカの条件で,『US 在住』『今までで最低 50 件の HITs をこなした』などの項目がある.HIT をクリックすることでより詳細な仕事内容を確認することができる.

HIT への取り組み

詳細な HIT 内容を確認した上で,仕事に取り組むボタン(ボタンの名前は忘れた)を押して,実際に仕事を行う.仕事は選択肢から正解をどんどん選んでいくものもあれば,画像の物体位置に矩形とオブジェクトラベルを付与するようなものもある.このような仕事を制限時間内に行い,最後に submit を押すと仕事を行なったことになる.制限時間をすぎると submit できないので,集中して取り組む必要がある.

報酬の受け取り

ワーカが submit した成果は HIT 発行者であるリクエスタによって確認される.リクエスタが承認するとワーカは報酬を得る.否認すると報酬はもらえない.また,HIT 承認率はワーカ条件として指定可能なため,否認が増えると取り組める HIT が減ることになる.仕事には誠実に取り組みましょう.

 

MTurk の利用:リクエスタ編

リクエスタは HIT の発行と提出された成果の承認を行う.

HIT の発行

HIT の発行にあたり定義するべき項目はざっと以下の通りである.

  • HIT のタイトル
  • 仕事内容の簡単な説明
  • キーワード(ワーカがHITを検索する上で利用される)
  • 報酬
  • ワーカ人数
  • 制限時間(緩めに設定しておくことが推奨されている)
  • ワーカ募集期間(もちろん人数に達した時点で募集をやめることにはなる)
  • ワーカの submit から自動承認を行うまでの期間(この期間をすぎると否認できなくなる)
  • ワーカ条件

特に気をつけるべきは『報酬』と『制限時間』と『ワーカ条件』である.以下ではそれぞれについて注意点を述べる.

気をつけるべきポイント:報酬編

報酬は適切に定められることが望ましい.だいたい 5$/1h と風の噂で聞いたため,1 時間程度の HIT だった私は 5$ と設定した.ただ,あくまで時給換算は目安であることに注意すべきである.仕事内容や仕事画面の UX 設計によっては,たとえ同じ拘束時間であってもワーカの感じる仕事量に差が出ることがあり,必ずしも時給換算した報酬が適切とは限らない.ワーカが仕事内容の説明を読んで簡単そうだと思うのなら報酬は安めに設定すべきだし,難しそう/めんどそうだと思うのなら報酬は高めに設定すべきである.

特に,報酬が安すぎると全然ワーカが集まらないといったことが起こる.大変...

(20181116追記)クラウドソーシングにおける賃金設定のガイドラインがあるらしい.Guidelines for Academic Requesters - WeAreDynamo Wiki

気をつけるべきポイント:制限時間編

制限時間は厳守される.そのため,制限時間は『普通にやっていれば絶対に超えない時間』くらいには緩めに設定しておくべきである.私の場合は 1 時間の想定に対し制限時間を 2 時間と設定したにも関わらず,1 名のワーカが制限時間をオーバーしてしまった.3 時間くらいにしておけばよかったかなぁ...

気をつけるべきポイント:ワーカ条件編

ワーカ条件には様々なものが選べる.その中で設定するときに特に注意すべきが『HIT 承認率』である.これはそのワーカが今まで submit した仕事のうちどれくらい承認されたかを表すものである.私は最初これを『greater than 99%』としていた.さて,これを和訳するとどういう意味になるだろうか.答えは『99% より上』である.サービスの実装上,この条件だと,承認率 99.3% のワーカも条件外になってしまう.正しくは『greater than or equal 99%(99%以上)』であるべきだ.こんなところで英語力のなさが露呈した...

提出された成果の承認

リクエスタは成果提出者のワーカIDと実際の成果物を確認し,成果物の質によって承認/否認を決定する.何もしなければ自動的に承認される.成果物の質の定義は様々で,私の場合はダミー問題を用意しそれへの正解率を基準に決定した.

否認することはリクエスタにとってもワーカにとってもリスクとなるため,基本的には行わないことが望ましい.よっぽど成果物の質が悪い場合にのみ否認を選択する.否認するときには否認理由を対象のワーカに通知することができる.ワーカはリクエスタのメールアドレスを見ることができるので,説明不足な否認を行うと抗議文が届いたりして面倒なことになりそう.否認理由はしっかりと書くことが望ましい.

 

その他 MTurk を利用した上で気になったこと

ワーカ-リクエスタ間のやり取りについて

ワーカからリクエスタにはメールを送ることができる.リクエスタからワーカには直接の連絡を取ることができない.リクエスタからワーカに連絡をとる唯一の方法は,成果物を否認するときのメッセージのみである.なんか不公平だよね.

仕事画面の作り方について

仕事画面は MTurk 上で作ることができる.結構様々な機能があるっぽい.ただしアップロードできるデータ量に制限があり,それを超えるような仕事の場合は自前でサイトを作成し,そこへのリンクを飛ばすという方法を取る.この場合 MTurk 上ではサイトから発行する仕事完了コードを受け取るだけになる.完了コードはワーカによって別々のものを発行することが望ましい.

ワーカは MTurk とサイトを行き来することになるので,途中で間違えてページを閉じてしまったりしても大丈夫なように自前サイトにはログイン機能を実装することをおすすめする.また,MTurk 上で受け取る情報はワーカ ID と終了コードのみになるため,成果物の確認をするならば自前サイト側でもワーカ ID をもらう必要があると思う.多分.ワーカ ID は大事なものなので,ちゃんと『もらった情報は研究にしか使いませんよ』的なことを説明書きに書いたり,最低限 https なサイトにしたりする方がいい.

 

あとがき

なかなか執筆時間が取れず,MTurk を使ってから結構時間が経っての投稿となってしまった.そのせいでところどころうろ覚えで,あまり意味のある文章にはならなかったように思われる.悲しい.弊 lab では今回,共同の MTurk リクエスタアカウントを作成し(てもらっ)た.今後この記事が弊 lab 学生の役に立つことを祈る.

 

参考にさせていただいたサイト

Amazon Mechanical Turk - Wikipedia

Amazon Mechanical Turk

実践 Amazon Mechanical Turk