トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

ベイズ統計

ベイズ統計では、経験や信念等、計算に取り入れにくいものを取り入れられます。 既知の事象の知識を使って、観測できない確率を計算してしまうという使い方もできます。

計算のよりどころは、ベイズの定理です。

ベイズの定理

ベイズの定理は、
ベイズの定理
と書かれます。

例えば、 P(A)= みかんが好きな人の割合、
P(B)= りんごが好きな人の割合、
P(B|A)= みかんが好きな人の中で、りんごが好きな人の割合、
P(A|B)= りんごが好きな人の中で、みかんが好きな人の割合、
と考える事ができます。

「P(A)、P(B)、P(B|A)のデータがあれば、P(A|B)のデータがなくても、P(A|B)は計算で求める事ができる。」、 というのが、ベイズの定理の意味です。

ベイズの定理はシンプル

ベイズの定理はベイズ統計の重要なものですが、 ベイズの定理自体は、とてもシンプルなものです。

上記では「割合」という言葉を、あえて使ってみました。 「確率の式」と考えてしまうと、実感がわきにくいと思いますが、 ベイズの定理を理解するには、「確率」という言葉は使わなくても大丈夫です。

ベイズの定理を応用するのがベイズ統計

ベイズ統計は、原因の解析や意思決定の理論に使われますが、 「りんごが好きな人の中で、みかんが好きな人の割合」という感じでベイズの定理を理解する段階では、こうした使い方はできません。

P(A)、P(B)、P(B|A)、P(A|B)をいろいろなものに応用する事で、原因の解析や、意思決定の理論になって来ます。

確率の理論へ

ベイズの定理の「割合」とした部分を「確率」と考えると、応用範囲が広がります。 何かを当てる精度を扱う理論として使えるようになります。

原因と結果の関係の理論へ

ベイズの定理で、「P(A)を原因を表すもの、P(B)を結果を表すもの」、と考えると、ベイズの定理の使い道がぐんと広がります。

例えば、「P(A)は故障している確率、P(B)はセンサーが反応する確率」と考えます。 故障とセンサーの反応が必ず一致するのなら、ベイズ統計を使う事もないのですが、 故障してもセンサーが反応しないとか、逆に、故障していないのにセンサーが反応すると言った事が現実にはあります。

「センサーが反応した時に、実際に故障している確率はどの程度か?」、という計算をするのに、ベイズの定理が役に立ちます。

実際の計算では、 P(A)=センサーが反応するかどうかに関係なく、とにかく故障している確率
P(B)=故障していて反応する確率と、故障していないのに反応する確率の合計
P(B|A)=故障した時に、センサーが反応する確率
の3つのデータが必要になります。 これらを使って、P(A|B)を計算します。

ちなみに、
故障していないのに、センサーが反応する確率 = 1 - P(B|A)
ですので、「センサーが反応した時に、実際は故障していない確率」も同じようにして求める事ができます。

ベイジアンネットワークで、複雑な因果関係の理論へ

原因と結果を表すものが、ひとつずつなら、上記の計算で良いのですが、 世の中では、原因の現象と結果の現象がいくつもあって、複雑な構造をしている事がよくあります。

計算が複雑になるものの、基本的な考え方はひとつずつの場合と同じです。 原因と結果がいくつも考えられる計算は、 ベイジアンネットワーク と呼ばれ、フリーソフトもあります。

逆問題を解く理論へ

ベイズの定理で扱うものを「故障とセンサー」のような関係のものにすると、 「故障」そのものを確認できなくても、故障しているかどうかを推測する事ができます。 つまり、ベイズの定理は、直接知る事ができない事を、知るための理論になります。

別の見方をすれば、「センサーの反応」という結果から、「故障発生」という原因を推測するための理論になっていますので、 ベイズの定理は、 逆問題 を解くための理論とも言えます。

事前確率と事後確率で、情報を更新できる理論へ

上記の故障の例では、センサーが反応するかどうかに関係なく、初めは故障している確率がP(A)と考えています。 「センサーが反応」という事実がわかった時に、 故障していると考えられる確率が、P(A|B)として計算され、認識が変わります。

この事から、
P(A)は事前確率、 P(A|B)は事後確率と呼ばれます。

ベイズ更新

「P(A)は事前確率」と考えるようにすると、ベイズの定理の使い道がさらに広がります。

例えば、センサーが1回反応するよりも、2回反応する方が、故障している確率は高いと考えられますが、 この確率を計算する時は、1回目に反応した時に計算した事後確率を、2回目に反応した時の事後確率を計算する時の事前確率として使います。

こうした計算をベイズ更新と言います。

ベイズ更新によって、ベイズ統計は得られたデータをどんどん採用する事によって、 最初に設定した確率から、 より確からしい確率を求める理論になって行きます。

持っている情報が増えるたびに、考え方を修正していくというものですので、 機械学習 の理論にもなっています。

主観確率で、経験やあいまいな情報を取り入れられる理論へ

ベイズ更新によって、事前確率はどんどんデータによって修正されますので、 事前確率は、「最初に仮に使う数字」や、「計算の初期値」程度になります。

このため、事前確率には、「たぶんこうだろう」という感じの主観的な確率(主観確率)を使うことができます。

主観確率を使うと、「自分が最初に思っていたものを、データで修正する」という使い方になります。

主観確率には賛否両論がある

ベイズ統計は主観確率を有効に使う理論です。 ところが、「観測していないことを前提にすることは、科学として認められない。」という立場の人にとっては、 主観確率は認められない概念です。 ベイズの定理は、200年前の理論ですが、統計学の専門家の間では長い間論争があり、 支持しない立場をとる方もいらっしゃるそうです。

ところで、立場どうこうの前に、現実の世界では、主観確率は役に立っています。 信頼性工学の「FMEA」や「FTA」 のように、主観確率を積極的に使っている手法もあります。 未知(未観測)の現象に挑戦していくのに、主観(経験)が役に立っています。

確率分布で、量的変数を扱える理論へ

上記のベイズの定理に対して、
P(A|B)とP(A)  ⇒ 「確率分布」
P(B|A) ⇒ 「尤度」
P(B) ⇒ 「定数」
、として、確率分布(確率の確率)を考えるようになると、ベイズの定理の応用がさらに広がります。

ベイズの定理が、統計の理論らしくなって来ます。

「みかん・りんご」や、「反応あり・なし」のような質的変数ではなく、量的変数を扱う理論になって来ます。



参考文献

見えないものをさぐる―それがベイズ 〜ツールによる実践ベイズ統計」 藤田一弥 著 オーム社 2015
ベイズの定理の実際の使われ方まで、平易な説明でたどり着けるようになっていました。
病気を確率で診断するのにベイズの定理を使う
 → ベイズ決定(意思決定の理論。  それぞれの確率にその場合の損失をかけて、足し合わせる事で、損失を試算して、どちらの行動の方が損なのかを選ぶ)
  ベイジアンネットワークをフリーソフトのWekaで
 → 確率分布
 → 大きな集団の情報を事前分布として、小さな集団の情報の確からしさを上げる
 → カルマンフィルタ(動的に状態が変わる時の理論)


「史上最強図解 これならわかる!ベイズ統計学」  涌井良幸・涌井貞美 著 ナツメ社 2012
ベイズ統計の考え方を、漫画や図解をたくさん使いながら丁寧に説明しています。 同じ著者の下記の本と比べると、Excelでの計算例は引かれています。


道具としてのベイズ統計」 涌井良幸 著 日本実業出版社 2009
ベイズの定理に、確率密度関数や尤度という考え方を入れるプロセスが丁寧に説明されています。 つまり、統計学や微積分に不慣れな人に親切です。 多くの話題を扱っている訳ではないですが、 MCMC法 や、階層ベイズ法等の重要な項目について、見通しの良い解説をしています。


Excelでスッキリわかる統計入門」 涌井良幸・涌井貞美 著 日本実業出版社 2010
「道具としてのベイズ統計」よりも入門的な内容に限定されていますが、 さらに整った形にまとめられています。 例題に取り組むことを繰り返して、段階的にベイズ統計の考え方に入っていくようになっています。 Excelで計算する流れも具体的に書かれています。


入門ベイズ統計−意思決定の理論と発展」 松原望 著 東京図書 2008
ベイズの定理の基本を述べた後に、応用への入門として、 意思決定・パターン認識・回帰モデル・カルマンフィルター・医学・信頼性工学・画像処理・ベイジアンネットワークを、 つまみ食いします。


ベイズ統計と統計物理」 伊庭幸人 著 岩波書店 2003
統計物理学(イジングモデル等)を勉強した方限定ですが、 この本はベイズ統計学の入門書になると思います。 遺伝学・氷・磁性体・画像修復が、同じ本の中で書かれている点でも面白い本です。 統計物理学のマルコフ連鎖モンテカルロ法(MCMC法)が、 ベイズ統計に使われているのは、アナロジーがあるからだそうです。
著者の修士論文は、氷がテーマとのことでした。 くしくも筆者も氷を修士論文で扱ったので、たのしく読ませていただきました。 筆者は「セラミックか。氷か。」、で迷っていた時に、 「万物の根源は水」という指導教官の一言で氷を選びました。 「氷は身近な物質なので、今さら調べることなんてないのでは?」、 と思う方もいらっしゃると思いますが、 そうでもないです。


ベイズ統計の理論と方法」  渡辺澄夫 著 コロナ社 2012
スッキリ書かれているようには思うのですが、数学ならではの書き方に慣れていない方(筆者がそうですが)には難解な本です。 相転移 も出て来るので、面白い本だと思うのですが、、、

ベイズ統計学とその応用」 鈴木雪夫・国友直人 編 東京大学出版会 1989
意思決定の話や、主観確率や事前確率についての論考があります。 難しい本です。


ベイズ統計学入門」 渡部洋 著 福村出版 1999
分布・平均・回帰等について、すべてベイズ推測という視点で書いてあります。 分布・平均・回帰等の統計学を、よく知っている人にとっての、「入門書」になっています。


「理工基礎 確率とその応用」 逆瀬川浩孝 著 サイエンス社 2004
確率で使う道具を順に解説していて、 条件付き確率のところでベイズの定理が出てきます。



順路 次は 多変量解析

Tweet