2018年3月13日火曜日

AIに関する興味深い視点

テッククランチにAIに関する今まで考えた事が無かった、興味深い視点の話が載っていた。
AIが完璧に人間の代わりになり得るか、という問いに対する一つの回答の方向性になり得る、一見矛盾しているようにも見えるけどね。これまでのAIにたいする議論にはすでに存在した論点で単に自分が知らなかっただけかも知れませんが。AIに対する評価基準って今まで結構あやふやで単純にありがたがるのは問題が多そうです。今後AIが進化しても大したことではないかもよ、と言うのが結論です。なぜならAIによる活動を正しく評価する手法が存在しないから。その手法が正確であることを証明するのはこれまた難しいAIがどれほど人類に貢献できるか制限された単純な条件下でないと難しいでしょうね。

テクノロジー関連のニュースを読んでいると、AIがほとんどの産業と仕事を食い尽くしてしまうと思うようになっても仕方がない。今や、どこかのレポーターが息を切らしながら、人間の知性を脅かす新しい機械学習製品について報告する様子を、見ずに済む日はない。とはいえこの過剰な熱狂は、なにもジャーナリストだけに責任があるわけではない。実際のところ、彼らは単に研究者たちやスタートアップの創業者たちの大雑把な楽観主義を垂れ流しているだけとも言えるのだ。
ここ数年の間に、深層学習やその他の技法に関する誇大宣伝が高まるにつれて、人工知能と機械学習への関心が大いに高まっている。数万件を超えるAI関連の研究論文が毎年出版され、AngelListのAIスタートアップディレクトリには4000社以上のスタートアップが掲載されている。
AIが支配する時代の到来(もしお望みならシンギュラリティと呼んでも構わない)に関する膨大なストーリーに晒され続けた結果、アメリカ人の58%が、自動化や人工知能のような「新技術」に仕事を奪われることを心配している、というのは驚くような話ではない(この調査は、ノースイースタン大学とギャラップによって行われたものだ)。その恐怖は、移民とアウトソーシングに対して感じる恐怖を大きく上回っている。
*シンギュラリティとは、人工知能が人間の能力を超えた時、人間の生活に大きな変化が起こるという推測の考え方
しかし真実は遥かに複雑なのだ。専門家たちは、人工知能の「正確さ」が過度に誇張されていることに、徐々に気が付き始めた。さらに、一般的な出版物で報告されている精度の数値は誤解を招くものが多い。より厳密にデータを吟味してみれば、多くのAIアプリケーションには私たちが信じ込まされているよも多くの制限があることがわかる。最終的には、人類は本当に仕事をAIに譲ることになるかもしれないが、そこに至る道のりはまだまだ遠いのだ。
以前もここに書いたが、AIが囲碁や将棋で人に勝ったと言っても戦いの場における、AIと人の条件があまりにもかけ離れていることと似ている。そう言った条件や制限を見ないで、AIが人を打ち負かしても、AIの優位性の証明にはならないことに気がついていない人が多い。

もう一つの「再現性の危機」

過去10年ほどに渡り、研究者の世界には「再現性の危機(replication crisis)」と呼ばれてきた熱い論争が存在している。これは心理学腫瘍学といった様々な分野で、その分野の主要な論文の結果を、他の研究者たちが再現できない現象を示す言葉だ。再現の失敗の数がすべての論文の半分以上に及ぶと述べている研究もある。
この危機の原因は数え切れない。研究者たちは、仕事を続けるためには肯定的な結果が必要な「出版が破滅か」という状況に直面している。専門誌はより多くの読者を得るために派手な結果を望んでおり、「p値ハッキング」は研究者たちが統計をこねくり回してより良い結果を得ることを可能にしている。
人工知能の研究もこのような構造的要因とは無縁ではない。そして実際には事態はもっと悪いかもしれないのだ。何故ならAIを取り巻く熱狂の信じがたい高まりによって、研究者たちには最も新規性溢れた結果を見出して、より速く、そしてより広く、その結果を広めよ、という圧力がかかっているからだ。
現在、そして現在多くのAI研究において増えつつある懸念は、その結果の再現が(不可能ではないにせよ)困難なことである。1つの課題は、多くのAI論文では、基礎となるアルゴリズムを実行するために必要な重要なデータが欠落していることである。それどころが、酷いケースでは研究対象のアルゴリズムのソースコードが含まれていないことさえある。機械学習で使用されるトレーニングデータは、アルゴリズムの結果の成功の大きな部分を占めている。そのデータがなければ、特定のアルゴリズムが記述されているように機能しているかどうかを判断することはほとんど不可能なのだ。
さらに悪いことに、斬新で新しい結果を公表するのに急ぐあまり、結果が繰り返し得られることを示すために必要な、研究の再現性にあまり焦点が当たっていない。上にリンクしたMIT Technology Reviewの記事から引用してみよう:「…モントリオールのマギル大学のコンピュータ科学者であるPeter Hendersonが示したことは、トライ&エラーで学習するように設計されたAIの性能は、使われているコードに対して非常にセンシティブなだけでなく、訓練に使われた乱数や『ハイパーパラメーター』設定(アルゴリズムのコアではないが、どの位速く学習するかに影響を与えるもの)に対しても非常にセンシティブであることである」。すなわち非常に小さな変更が、巨大な違いを生み出すのである。
栄養科学の各研究がいつでも「疑いの目で見られる」(”be taken with a grain of salt”「ひとつまみの塩とともに受け取る」ということから「疑う」という意味に)必要があるように、新しいAI論文とサービスも、同程度の懐疑的態度で扱われるべきである。ある結果を示す、1本の論文またはサービスだけでは、正確性を証明することはできない。しばしば、これが意味することは、特別に選ばれたデータセットと特定の条件によって、特定の結果を得ることができるということであって、一般的な入力集合に対しては適用可能ではないということだ。

例えば、AIによる解析に基づいた経路を辿ったタクシーはベテランタクシー運転手より顧客利用率が高い、という話しはよく聞くが、これがどれほど再現性があるのか、ベテランの定義とは何か、とか、何人のベテラン運転手と比較したか、違うエリアではAIは応用が効くのか?
と言う検証が曖昧なまま、AIが素晴らしい、となっていることと同じ。ここにも比較の際の制限は無視されている。



正確性を正確に報告する

医療評価、文書スキャン、そしてテロ防止などの幅広い分野の問題を、AIが潜在的に解決可能なのでは、というあからさまな期待が高まっている。しかしその興奮は、ジャーナリストや研究者たちの、正確性を正確に報告する能力を曇らせてしまった。
AIを使用して大腸癌(結腸直腸癌)を検出する方法については、この最新の記事を見て欲しい 。この記事には「結果は印象的なものだった、得られた正確性の数値は86%だった。なお、この数値は結腸ポリープの病理診断が既に下されていた患者から得られたものである」と書かれている。記事には、元々の研究の主要な結果の段落の引用も含まれている。
あるいは言語翻訳を行うGoogleの機械学習サービスについての記事も見て欲しい。「場合によっては、GNMTシステムは人間レベルの翻訳精度に近づいている、とGoogleは言う。ただし、そうした高い精度は、英語からスペイン語、フランス語などの関連する言語間の翻訳に限定されている」。
これらは無作為に選ばれた記事だが、世の中には最新のAIの進歩を興奮しながら報告し、正確性を表す単一の数字だけや、「人間レベル」といった比喩の言葉だけを、事更に取り上げる何百もの記事が存在しているのだ。AIプログラムの評価がそんなに簡単なら誰も苦労はしない!
例えば肌の上にあるほくろが、癌であるかどうかを判断したいとしよう。これは2分類問題として知られるものだ。目標は、患者たちを癌のある人とそうでない人の2つのグループに分けることだ。完璧な正確性を持つ完全なアルゴリズムなら、癌を有するすべての人を癌と同定し、癌を有していないすべての人を癌を有していないと特定する。言い換えれば、結果には偽陽性や偽陰性は含まれていないということだ。
この話は単純に思えるが、問題は癌のような状態は、人間同様にコンピュータにとっても完璧な正確さで識別することは本質的に不可能だということだ。すべての医療診断テストでは、通常どの程度感度を高くするか(どれだけ多くの陽性を正しく特定できるか)と、どの程度特異的であるか(どれだけ多くの陰性を正しく特定できるか)の間のトレードオフが必要である。癌患者に対する誤診の危険性(死に至る可能性がある)を考慮して、検査は通常特異度を下げ、感度を上げるようにデザインされている(すなわち、たとえ偽陽性の可能性が増えても、より多くの陽性を見つけるということだ)。
製品デザイナーは、こうした競合する優先順位のバランスを取る方法を選択することができる。偽陽性と偽陰性のコストに応じて、同じアルゴリズムを異なる方法で実装することができる。もし研究論文またはサービスがこうしたトレードオフについて論じていないのなら、その正確性は公正に提示されていないことになる。
さらに重要なことは、「正確性を表す単一の値」という表現は誤解を招く言い方だということだ。正確さは、陽性の患者がどれくらい正しく陽性と判定され、陰性の患者がどれくらい陰性と判定されたかに依存している。しかし、ある数字を増やして他の数字を減らしたり、またその逆を行いながら、結果的に同じ正確性の数字を提示することも可能だ。言い換えれば、同じ正確性の数字を謳いながらも、あるテストは陽性の患者の検出に力を入れており、また別のテスをは陰性の患者を結果から取り除くことに力を入れていると主張することができる。それらは非常に異なる目標であり、どちらかの目標によりよく調整されるアルゴリズムもある。
これが単一の値を扱う難しさだ。比喩はさらに悪い。「人間レベル」という言い方は何も語っていない。そもそも人間についての良いエラー率のデータがあることは滅多にない。そして、もしそうしたデータがあったとしても、人間によって生み出されたエラーを機械学習によって生み出されたエラーと比べることは簡単なことではない。
これは、最も単純な分類問題の複雑さの一部に過ぎない。AIの品質を評価するための微妙な違いについて語るには少くとも1冊の本が必要となるだろう。そして実際に一部の研究者たちは、こうしたシステムの評価に一生を費やすことは間違いない。
人工知能で博士号を取得することは誰にでもできることではないが、これらの新しい技術の消費者としての私たちひとりひとりが、批判的な視線をこの明るい主張に向け、厳密に評価していく義務があるのだ。それが再現性あるいは正確性に関する主張であったとしても、私たちが頼る多くのAI技術はまだ生まれたばかりで、成熟するためにはまだまだ多くの時間を必要とすることを忘ないことが重要だ。

まだまだAIが人に追いつくのは、シンギュラリティの実現は先の事になりそうだ。

0 件のコメント :

コメントを投稿