MENU

図解・ベイズ統計「超」入門

はじめに

 本の表紙から「マンガでわかる〜」シリーズ感がありますが、文章中心の構成です。 確率の話から始まり、ベイズの定理、ナイーブベイズベイズ統計学と進んで行く構成になっています。

  1. ベイズ統計学」ってなんだろう?
  2. 確率の「4つの基本」を押さえよう
  3. ベイズの定理」を理解しよう
  4. ベイズの定理」を応用しよう
  5. 「理由不十分の原則」と「ベイズ更新」を理解しよう
  6. ベイズ統計学を理解しよう
  7. 正規分布データをベイズ統計で分析しよう

ベイズ統計学とは?

 頻度主義の統計学では、確率の話がほとんど出てこないが、ベイズ理論では、ベイズの定理を出発点として確率を応用する。
ベイズの定理は200年以上も前の理論だが、ベイズの定理を応用する際に人の裁量が加わるため厳密性を求める数学において馴染まなかったらしい。その非厳密性が意思決定、過去と現在のデータの関係付けなどができるということ、また計算機による複雑な計算が可能になったことによって近年、着目されている。

ベイズ統計学で用いる確率の基本

ベイズ統計を理解するためには、同時確率、条件付き確率、乗法定理、加法定理の4つの基本が必要となる。 (それぞれの詳細はとりあえずあとでまとめるかも?)

ベイズの定理とは?

ベイズの定理は次の式で表される。

$$ p(H|D) = \frac{p(D|H)p(H)}{p(D)} $$

$H$を仮説(Hypothesis)、$D$をデータ(Data)と解釈すると、各確率は次のような解釈となる。

  • $p(H|D)$: データ$D$が得られたときに、仮説$H$が成り立つ確率
  • $p(D|H)$: 仮説$H$が成り立つときに、データ$D$が得られる確率
  • $p(H)$: 仮説$H$が成り立つ確率
  • $p(D)$: データ$D$が得られる確率

それぞれ、$p(H|D)$を事後確率、$p(D|H)$を尤度、$p(H)$を事前確率とよぶ。 事後確率はデータが得られた後の確率、事前確率はデータが得られる前の確率という意味で、尤度は仮説$H$のもとでもっともらしく起こる確率という意味で実用上は、仮説が成り立つ場合にデータが得られる確率である。

ベイズの定理を用いた有名な例題としてモンティホール問題、難病の検査の問題がある。 (あとで書くかも?)

理由不十分の原則

理由不十分の原則とは、不確かな事前確率には、とりあえず適当なものを使うというもの。この事前確率に対して融通が利く点が経験を活かせるということにつながる。経験に応じて、事前確率の設定を変えてやることができる。

ベイズ更新

ベイズ更新は、過去のデータを新しいデータの分析に活用する手段を与える。つまり、以前のデータで得られた事後確率を次のデータ解析における事前分布として採用するという技法である。この技法によって過去のデータと現在のデータをスムーズに融合することができる。

ベイズ統計学とは?

ベイズ統計学では、従来の統計学で用いられていた母数を確率分布とみなす。従来の統計学では母数は固定パラメータであったが、ベイズ統計学では、母数も確率分布として考えて議論をする。例えばコインの表か裏が出る問題を考える時、従来の統計学では表が出る確率と裏が出る確率はそれぞれ$0.5$としていたが、ベイズ統計学ではコイン自体が確率的に表と裏が出るとみなす。つまり、表が出る確率が$\theta$のコインを使っているものとする。

ベイズ統計学の応用分野

ベイズ統計学は次のような分野に応用することができる。

社会科学やビジネスの分野に幅広く応用することができる。

読んだ感想

 ベイズ統計自体はそこそろ勉強していたので、本自体はサクサク読めた。 従来の統計学との大きな違いは、事前分布に経験といった知識を盛り込めることだと思う。 ベイズの定理の式は知っているが、何に使えるのかいまいちピンときていない人が読むと幸せになれる本だと思う。 まあ、ビジネスの世界でこんなベイズ統計を駆使したデータ解析をするのかって言われるとちょっとよく分からないですが。