つい最近、『On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?』という論文が発表された。その論文を発表したTimnit Gebruという研究者が突然Googleを解雇されてしまったことで大変な波紋を呼んでいる。ことのいきさつと論文の倫理についてはWiredのこの記事に詳しいので割愛する。
その渦中のツイートはこちら。
解雇についての倫理問題は別として、私たち翻訳者にとって重要なのは、この論文の内容だ。
『On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?』と題されたこの論文(Emily M. Bender et al 2021)は13ページのごく短いものなのですぐに読める。大きくわけていくつかの倫理問題に触れているので、簡単に日本語で説明したい。
まずこの題名「Stochastic Parrots」とはどのような意味なのだろうか。なぜ危険なのか。
実はSTOCHASTIC PARROTSという言葉には、言語モデルもオウムも決して人間のようにはなれないという揶揄が含まれている。機械翻訳は学習したデータを繰り返すだけのオウムに過ぎないという皮肉がこめられているというわけだ。機械翻訳は膨大な学習データを基礎に成り立っている。しかし機械翻訳は決して人間を超えることはなく、まるでオウムのように人間の言葉を繰り返しているにすぎないというのだ。
内容についてみていくと、まず「環境と経済的なコストについて」を冒頭にもってきている。BERTにはじまり、MegatronLM、最新のSwitch-Cに至るまで、さまざまな学習モデルがこれまでに登場してきているが、最新のSwitch-Cに至っては約1兆6000億ものパラメータを持つ巨大なデータを下に構築されている言語モデルだ。
Switch-Cの言語モデルについての論文はこちら。
C4 (Colossal Clean Crawled Corpus)やPileと呼ばれるウェブからデータを集積したコーパスを学習に使用しているのだが、Gebruらはこの論文でデータの巨大化のトレンドはこれからも続くだろうと予想している。BERTの多言語版であるmBERTなどはこれが多言語にわたるわけで、巨大化は必至だ。データセンターの増加だけでなく、データセンターそのものの高発熱、高密度化はこれまでも指摘されてきており、これらが地球に与える影響も少なくない。
データの縮小を目指したパラメータが少なくて高速なDistilBERT、ALBERTは日本語にも使用されている。パラメータが少ないものの、この言語モデルも大きなデータに依存しなくてはならないのだ。
この論文で言及されているStrubellの研究では、これらの言語モデルにかかるコストと得られる正確性についての面白い考察が得られている。パフォーマンスが高い大きな言語モデルを基礎としたタスクにおいては、ニューラルアーキテクチャにおける英語とドイツ語間でのBLEUスコアを0.1上げるためには、15万ドルもの計算コストがかかるばかりでなく、二酸化炭素の排出も膨大となることが指摘されている。
さらにデータの偏りによって不利益を受ける人たちも出てくるようだ。
以前GIGAZINEなどでも危険すぎると紹介されたことがあるTransformerをベースとしたテキスト生成モデルであるGPT-2について、データを取得しているRedditのユーザーについては米国在住ユーザーの約7割が男性で、その内の約7割が18歳から29歳であること、またTwitterから抽出されるデータにもユーザーの偏りからデータの偏りが生じることも指摘されている。このようなデータを学習した言語モデルで作られた自動会話は、首尾一貫性があるようで偏見が含まれていることもすでに指摘されている。
Ruha Benjaminが著した『Race After Technology: Abolitionist Tools for the New Jim Code』ではテクノロジーがもたらす新たな人種差別を語っている。白人が開発したソープディスペンサーが黒人の手を検出しないことや、黒人の顔が誤認識されて犯罪者として疑われる...新たな制度的差別(Systemic Racism)ならぬテクノロジー差別(Technology Racism)の台頭である。もし白人が開発した機械でアジア人の顔が取り違えて認識されたとしたら?それと似たような差別が言語モデルでも発生するかもしれないというのだ。
「偏った世界観でデータが作られる」ことの危険には自然言語の学習データにミソジニーや人種差別的な発言や暴力的な発言が含まれることにより、それが言語モデルに反映されてしまうというものも含まれている。その例としてFacebookで「おはよう」とアラブ語で挨拶した投稿が「攻撃せよ」と翻訳されてしまった危険性も記憶に新しいのではないか。
さらに機械翻訳については、流暢性が高まっていることもリスクであると指摘されている。流ちょうでありながら原文とは異なる、誤訳が含まれた文を生成する可能性についてだ。これはこれまでも日本の翻訳者も数多くが指摘してきたことである。流ちょうな文と不正確な文を比較してどちらが信頼性が高く感じるかを調べた研究(Marianna Martindale and Marine Carpuat. 2018)では、人は不正確な文よりも流ちょうな文を信頼する傾向にあることが分かっている。一見流ちょうな文が果たしてまったく間違っていたとしたら?あなたが信頼している機械翻訳は間違っているかもしれないのだ。
“Feeding AI systems on the world’s beauty, ugliness, and cruelty, but expecting it to reflect only the beauty is a fantasy.”(AIシステムに世界の美、醜さ、残酷さを入れておきながら、美だけが抽出されることを期待するのはファンタジーである)とはRuha Benjaminの言葉である。
REFERENCES :
Marianna Martindale and Marine Carpuat. 2018. Fluency Over Adequacy: A Pilot Study in Measuring User Trust in Imperfect MT. In Proceedings of the 13th Conference of the Association for Machine Translation in the Americas (Volume 1: Research Track). Association for Machine Translation in the Americas, Boston, MA, 13–25. https://www.aclweb.org/anthology/W18-1803
William Fedus, Barret Zoph, Noam Shazeer. 2021. Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity.
Emily M. Bender, Timnit Gebru, Angelina McMillan-Major, and Shmargaret Shmitchell. 2021 On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? FAccT ’21, March 3–10, 2021, Virtual Event, Canada.
Emma Strubell, Ananya Ganesh, and Andrew McCallum. 2019. Energy and Policy Considerations for Deep Learning in NLP. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. 3645–3650.
Ruha Benjamin. 2019. Race After Technology: Abolitionist Tools for the New Jim Code. Polity Press, Cambridge, UK.
Comments