トップページ | ひとつ上のページ | 目次ページ | このサイトについて | ENGLISH

ロジスティック回帰分析

ロジスティック回帰分析は、Yが「ON」と「OFF」のように、質的データになっている時の分析方法です。 「 回帰分析 」となっていますが、中身や使い道がかなり違います。

ロジスティック回帰分析の見方

ロジスティック回帰分析

図は、ロジスティック回帰分析の図です。 カーブが表しているのは、 「Yが、Xによって、ONやOFFになる確率」です。 p は、OFFが発生する確率です。 1-p は、ONが発生する確率を表します。

プロットは、ONとOFFの1次元散布図です。 同じグラフに重ねてみました。

この図では、Xが大きいと1に近くなるということから、Xが大きいとYがOFFになる確率が高いことがわかります。

例えば、「OFF」の確率が0.9なら、「ON」の確率は0.1という意味です。 これは、同じXの値に対して、「OFF」が9回起きて、「ON」が1回起きるという意味です。

ロジスティック回帰分析の式

ロジスティック回帰分析の式は、
log (p / (1-p) ) = A1 * X1 + A2 * X2 + ・・・ + An * Xn + B
という形をしています。
左辺は、 ロジット です。 左辺を Z と置いてしまえば、普通の 重回帰分析 と同じ形になります。 図の例では、Xがひとつなので、
log (p / (1-p) ) = A * X + B
の式を使っています。
pを縦軸に、Xを横軸にしてグラフにすると、このページのようなカーブになります。

もともとのYはONとOFFですが、この値とXの値を使って、pとXの関係式を求めます。

プロビット分析

ロジスティック回帰分析は、結果は良いとしても、「なぜ、こんな計算をする?」と思ってしまいます。

統計的にもっとわかりやすく、ロジスティック回帰分析とよく似たものに、 プロビット を使うプロビット解析があります。

手作りロジスティック回帰分析

YとXから、pとXの式を作って式を求めることは、統計のソフトウェアなら自動でやってくれますが、 手作りでもやれないことはないです。

式を手作りで作るのでしたら、Xを区間で区切って、区間毎に発生確率p(OFFの割合)を計算して、
log (p / (1-p) )
ロジット変換 します。

pが0や1の場合は、この変換ができませんので、0.00000000001や、0.999999999999のように、 限りなく0に近い値や、1に近い値を代わりに使うと良いです。 どのくらい限りなくすると良いかは、変換したデータを見ながら調整します。

Z = log (p / (1-p) )
として、区間の真ん中の値をXとすると、
Z = A * X + B
という形になりますので、普通の回帰分析と同じ方法でAやBの係数を求めることができます。

p = 1 / 1 + (exp(-Z))
になります。この式は、 シグモイド関数 と言います。
Zを入れると、
p = 1) / (1 +exp(-(A * X + B)))
です。
求めたAとBを入れると、これがカーブを表す式になります。

ちなみに、この変換は、Yが「発生率」や「歩留」のような確率を表すデータの場合にも使えます。 このようなデータに、YとXの普通の回帰分析をしてしまうと、予測値の確率が0よりも小さくなったり、1よりも大きくなって困ることになるのですが、 それが起きなくなります。

ロジスティック回帰分析にぴったりのデータ

Yが、「ON」と「OFF」を例にしましたが、 ロジスティック回帰分析は、この例のように、相反するカテゴリがYになっている場合に適しています。 例えば、「あり・なし」、「起きる・起きない」、「良品・不良品」等です。

例えば、「トマト」と「キャベツ」がYになっている場合は、そのデータの中には、2つのYしかなくても、 「キュウリ」や「ジャガイモ」等、他にも考えられますので、このようなカテゴリの場合は不向きです。

ロジスティック回帰分析が脚光を浴びている理由

ロジスティック回帰分析がよくできているのは、 確率のデータの特徴を、数式で表現できていることです。 多変量解析 にはいろいろありますが、確率を扱うのに適した手法は、筆者の知る限り、他にはありません。

意思決定論リスク評価人工知能 といった分野では、確率を使うことが重要です。 昨今、ロジスティック回帰分析の解説をよく見かけるようになりましたが、その理由はこの辺りになるようです。



手法による得意な分布の違い

手法による結果の違い

手法の使い分け

参考文献

人文・社会科学のためのカテゴリカル・データ解析入門」 太郎丸博 著 ナカニシヤ出版 2005
質的データの統計解析や回帰分析の本です。 基本から実践のノウハウまでの知識をカバーしています。


統計的モデリング/情報理論と学習理論―データと上手につきあう法」 小西貞則・竹内純一 著 講談社 2008
ロジスティックモデルを使った リスク評価 があります。



順路 次は サポートベクターマシン

Tweet