人間の意思決定とAIの結果はどのような影響を与えるか、可能性と限界

f:id:crysade:20191026105602j:plain

１．はじめに

　「分かりやすい文章」を意識しすぎて、文章がぬるくなってきた気がする・・・

　と言うことで久々に分かりやすさを無視した話をしたいと思います。キャッチーなタイトルにしますが、AIの推論結果をどのように利用するのかという話です。

　以前のブログでも記載していますが、私は別に機械学習分野の研究者という訳ではないのですが、AI・データ契約ガイドラインというガイドラインの策定に関わる機会がありました。このガイドライン自体は、あくまでも契約の話しだったのですが、せっかくの機会だしということで基本書を買いあさり、必死で勉強しました（一応、昔から統計や確率モデルはそれなりに）。

　とは言え、別に機械学習にそこまで詳しいわけでもないですし、あくまでも私見です（気楽に読んでいただければ）。

　さて、ここからが本題ですが、最近ツイッター等を見ていて気になることが二つあります。一つは、AIの推論結果の「精度」に対する認識。もう一つは、AutoML絡みの件もありデータサイエンティスト不要論のようなものです。

　いずれも、「推論」という行為の理解とその「目的の欠如」により起こるような気がしており、自分なりの考えをまとめておきます。将来的には、AIと法律の絡む論点に言及するためのネタになるとは思いますが、現時点ではまだまだ不十分ですね。

　まず大前提として、AIによる推論の結果というのは、人間の意思決定をサポートするために利用されるものです。したがって、本来的に求められるのは、事象に対する対する「精度（再現性）」ではなく、人間の「意思決定に寄与できる要素を必要十分に満たす」ということが必要です。

　ただし、一つ例外があります。ｎ回の試行回数を前提とする場合です。例えば、保険会社の保険料の算出に利用される演算の中に統計的なパラメータの一環として機械学習の推論結果を利用するような場合は、単に精度が上がるかどうかだけの問題ですから精度は非常に重要です。このようなケースについては、今回の対象外とします（いずれどこかで）。

　これに対して、１回の試行回数の意思決定を行う場合はどうでしょうか。例えば、工場の異常を検知するようなシステムに機械学習の結果を利用する場合です。勿論、１００％の精度であれば話は別なのですが、９５％の精度を担保できるとすればそれは十分に高い精度を示す優秀なシステムのような気がします。

　しかし、異常を検知できなかった場合にリスクが極めて大きいという前提に立てばユーザにとって必要なのは、そのようなシステムではないはずです。

　例えば、異常がある可能性があれば１００％に近い精度でそれを拾い上げ、異常がない場合に間違って呼び出される可能性はできる限り減らしたい（あったところで本来大きな問題はない）というのがニーズと理解すれば、全体的な精度は９０％であっても異常がある可能性があればまずは知らせるというリスクヘッジを整えているシステムの方が有用な気もします。現実の社会では、確率や精度だけでは割り切れない事象が必ず存在します。今回の話のメインは、このような場合にどのように考えればいいのかという点です。

２．AIの推論結果の持つ意味

　もう少し別の事例で考えてみます。そもそも、AIの推論結果とはどのようなことを前提にして導かれるものなのでしょうか、現在の主流である教師あり学習において考えてみます。

　まず、教師あり学習においては、人の判断により学習に用いられるデータの解釈に対して「正解」が与えられることになります。いわゆるアノテーションと呼ばれる作業です。

　この「正解」という概念も実は結構厄介です。例えば、画像認識等の分野であれば、人が、これは「車の画像」、これは「人の画像」と言うような形で、所定の画像（若しくは画像の一部）に対して、正解を与えて行くことになります。

　つまり、この場合の正解とは、人が画像を視認した場合における人の判断と言うことになります。言い換えれば、あくまでも人の判断が基準であり、撮像された物が真に車なのか人なのかという点は問題にしていないということです。

　とは言え、人と画像の判別であれば比較的に個人差も少なく容易に行うことができますから、画像認識等の分野ではそれほど問題は生じません。

　では例えば、採用活動における人事担当者の判断を学習し、その結果を推論するようなケースはどうでしょうか。勿論、過去のデータとして採用・不採用の結論はありますから、データに対して「正解」を与えることは容易です。

　しかし、同じ（情報としてのパラメータを保有する）他の人物による面接の結果として、同様の結果になるでしょうか。もっと言えば、同じ人物が面接をした場合であっても、結果が変わるかもしれません。勿論、学習の結果、ある種汎用的な結果は出すことができますし、その結果にある程度の精度を求めることができると思います。

　しかし問題は、当日に当たった面接官、その年に一緒に面接を受けるライバル、面接を受ける企業の社内事情、といった特有の状況が結果に対して与える影響が非常に大きいということです。さらに言えば、面接を受ける人物にとって、採用の確率が６０％なのか７０％なのかという点が、実際に面接を受けるかどうかの意思決定に大きな影響を及ぼすのかというとかなり疑問があります。

　また、これはいずれのケースでも基本的には同様なのでが、AIの推論結果は、統計的機械学習を利用しているという前提において、確率的な指標として導き出されます。

　例えば、画像の結果は９９％の確率で「人」とか、面接を受ける人は６０％の確率で「採用」とかそのようなイメージです（不正確ですが、分かりやすさ優先で）。そして、断定した「結論」が欲しければ、閾値等も設けて結論を導くことができます。

　いずれにせよ、ここで言いたいことは、確率的な数値（指標）は、１回の試行回数の事象に対して有効な指標とはなりにくいということです。当たり前ですけどね。

３．本来必要なこと

　では、AIの推論結果を効果的に利用するために必要なことは何か。やはり、生じ得るバイアスを前提として意思決定に寄与する情報を合わせて提供することかと思います。

　具体的なイメージを持った方が良いと思うので、麻雀を例に少し説明します（AIというより単なる統計モデルですが）。自分がリーチを掛け、他の３人がそれを追いかけている状態を想像してみてください。

　もし、自分以外の３人が全て受け入れた牌をそのまま捨てたとすれば、自分が上がれる確率は単純計算（本当は当然もっと複雑）で約４倍です。しかし、自分以外の３人が全員安牌のみを捨てたとすると、基本的にはツモ以外では上がれません。

　このような状況において、意思決定者に対して、自分以外の３人は麻雀に精通している熟練者であるという情報が提供されたとします。麻雀に精通している熟練のうち手であれば、基本的に他家への振り込みはしないでしょうから、上がれる確率は低いかもしれません。

　ちなみに、もう少し精度を上げたいのであれば、他の３人の過去の振り込み率を考慮したり、その状況に応じた押し引き妥当性なんかを検討して、結果に考慮していくことで恐らく精度は上がります。

４．結論

　（特に試行回数が限られる状況において）AIの推論結果を含む統計的なデータをどのように考慮するかは意思決定者次第です。そして、そのために求められることは、単に精度の高い推論を実現するということではなく、意思決定者が行うための情報とリスクを過不足なく提示することこそ重要なはずです。

　さらに言えば、統計的機械学習のよる推論は、データの数を増やしていくことで、汎用的な精度の高さ（逆にここが本来的な強み）を実現することはできるものの、存在し得る多くの特殊事情に対しては有効に機能しない場合があります。

　特に１回の試行回数の意思決定を行う際には、その特殊事情のバイアスは無視できるものではなく結果を大きく左右するのが普通です。そのため、意思決定者は、その特有の事象を自身で判断して意思決定を行う以外の選択肢はなく、これは基本的に不可欠なプロセスです（最終的な責任を放棄することはそもそもできない）。

　という感じで「ガイドライン」の時点よりロジックを少し発展させました。どうでしょうね。結構気を使ってケアしているのですが、表現で気になる点があればご指摘ください。正直、まだまだまとまってないという自覚はありますが、もう少し思考が進めば法律論にも持って行けるかな、やる機会があるかどうかは別ですが。

　まぁいずれにせよ、機械学習然り、AutoML然り、社会実装フェイズに中間領域できる人材は大量に必要なわけで、データサイエンティストの市場価値は下がるどころか、まだ上がるんじゃないかなぁと思ってました。最後に、一応ガイドラインのリンクを張っておくので、興味がある方は是非。