科目学習書●情報処理



統計


|

http://www.infonet.co.jp/apt/March/syllabus/Literacies/statistics.html


分布 散布図 一様分布 正規分布 平均 分散 標準化 相関係数 回帰直線 最尤推定



集団 事例


 同質の事例(ocurrence。たとえば筑波大学の学生)がたくさんあって集団(set)を形づくっている場合に、そのそれぞれが共通の属性(attribute。出身都道府県や身長など)を持っていても、その値は事例によって違っている。このような属性をその事例の可変属性(variable attribute)という。
 集団が、取り扱おうとしている対象の一部でしかない場合、その集団を標本(sample)といい、標本に対してもとの全体の集団を母集団(matrix)という。母集団について調べたいのに標本の情報しか得られないことはよくあるが、うまく集められていれば、標本からでも母集団の特性をかなり正確に推定することができる。

 可変属性というのはこの科目だけの新しい術語だ。数学では、これによく似た概念を確率変数(random variable)と呼んでいる。
 でも、ここではもっと広い意味で学習したいのと、さらにそのためには確率とか変数とかいった語感がじゃまになるのとから、代わりに特別な術語を使うことにする。


分布


 値域が有限集合(たとえば{男, 女})と考えられる可変属性(この場合は性別)を有限可変属性(finite varient attribute)という。これに対して、値域が無限集合と考えられる可変属性を無限可変属性(infinite varient attribute)という。
 値域が実数の全体とかその一部の範囲にわたるような可変属性(たとえば身長)を実可変属性(real varient attribute)という。また、値域が整数の全体とかその一部の範囲にわたるような可変属性(たとえば年令)を整可変属性(integer varient attribute)という。実可変属性や整可変属性は一般には無限可変属性になる。


分布


 属性の値はそれぞれ対等というわけではない。ある値(たとえば出身が茨城県)を持つ事例は多く、別のある値(たとえば出身が外国のどこかの国)を持つ事例は少ないといった差がある。値が無数にありうるような属性(たとえば身長)では、特定の値を持つ事例が複数あることがめったにはないが、まとまりのある近い値の範囲については、範囲の広さの割りに事例が多いとか少ないとかの差が現われる。こういった分布のようすは、値に対する分布の密度の表、グラフ、規則を表わす式(そんなものはないかもしれないが)などによって表現できる。
 事例の集団が複数(たとえば第1学群の学生の全体と第2学群の学生の全体)あって、それらが共通の可変属性を持っている場合、事例と事例とを比べても意味がない。事例の組み合わせによって、属性が一致したり一致しなかったりするからだ。それでも、集団と集団とが似ているように見えたり似ていないように見えたりすることがある。これは、実は、可変属性の分布が似たり似なかったりすることから起こっている。


分布の表現
割合表


 有限可変属性の分布は、各値に対してそれが現われる割合の表を作れば完全に表現できる。このような表を割合表(▽図)という。

ぐぅ
1/3
ちょき
1/3
ぱぁ
1/3


0.20
曇り
0.25
晴れ
0.55

割合表
上:じゃんけんの手 下:ある1か月の天気

 割合表に代わるものとして、分割図(▽図)などの図式もよく使われる。

ぐぅ
1/3
ちょき
1/3
ぱぁ
1/3


0.20
曇り
0.25
晴れ
0.55

分割図
上:じゃんけんの手 下:ある1か月の天気

 実可変属性の値域はもちろん無限集合なので、そのまま割合表を作ることはできない。このような場合でも、値に対してではなく、適切に分割して作った階級に対して割合表を作れば、分布を近似的に表現することができる。

階級化


 実可変属性の値域をいくつかの部分になるべく均等に分割したものを階級(hierarchy。▽図)という。そして、もとの属性の代わりに、その値がどの階級に収まったかを表す属性をもとの属性の階級化属性という。実可変属性は無限可変属性なので、そのままでは取り扱うのが難しい(たとえば割合表が作れない)。それに対して、階級化属性はもちろん有限可変属性になる(分布の割合表も作れるようになる)ので、もとの属性の近似として代わりに使われる。
 階級化属性の割合表では、同じ階級の中の細かい違いまでは分からないが、全体としての分布の特徴は十分に読み取れる。


分布の表現
ヒストグラム


 実可変属性(や整可変属性)に対して、横軸を階級に、縦軸を個数にして、それぞれの階級に属性値が収まった事例の個数(だから有限集団に対してでないと作れないが)を棒グラフにしたものをヒストグラム(histogram。▽図)という。
 ヒストグラムに山が一つしかない場合、その山が高くてすそ野が狭いのは、分布の偏りが強いことを表し、逆に山が低くてすそ野が広いのは、分布の偏りが弱いことを表している。


分布の表現
散布図


 二つの実可変属性(や整可変属性)に対して、横軸をその一つの属性に、縦軸をもう一つの属性にして、それぞれの事例に対して二つの属性値の組合さった位置に点を打っていくと(だからこれも有限集団に対してでないと作れない)、点が一面にばら散かれたような図ができる。これを散布図(scattered diagram。▽図)という。
 散布図の中の点が濃い所は、その近くでは二つの属性の組合せが現れやすく、薄い所は二つの属性の組合せが現れにくい。このように、散布図を見ると、二つの属性の組合さり方にどんな癖があるかが分かる。


分布の表現
密度関数


 実可変属性では、特定の値は無数にある値のうちの一つでしかないから、さらに集団が無限集合の場合は、ある事例の属性がちょうどある一つの値(たとえばちょうど1)になる割合はいつも0にしかならないので、それを考えてみても役に立たない。つまり、有限可変属性の場合のような手段では、分布を表現することはできない。
 無限集団の実可変属性でも、属性の値がある範囲(たとえば1±1/2)に収まる割合ということなら多い少ないを考えることができる。この割合は、密度関数をグラフで表した場合に、その範囲を縦に切ってできる図形(▽図薄赤部)の面積として表示される。

   

単純な範囲に対する値が現れる割合

 実可変属性の分布は、各値の付近での割合の密度によって表現することができる。密度は各値によって決まるので、密度関数(dencity function)という。密度関数は、その大小が値の現れる割合を直接に意味しているように思えてしまうが、そうではないので気をつけて使わないといけない。

 ごく狭い幅をつけて各値の現われる割合を調べ、それを幅で割ると、その値の付近での密度が得られる。


平均値 分散 標準偏差


 実可変属性のように、属性の値が(単位を除いて)実数になる場合は、値とそれに対する分布密度(または割合表)から、分布の特徴を表わすいろんな指標を算出することができる。
 集団のすべての事例に対して属性の値を合計して均らした値を平均値(mean)という。
 値-平均値 は属性の値が分布の中心(平均値)からどれだけ離れているかを表わす。これを偏差という。偏差の平均値は必ず0になる。
 (値-平均値)^2、つまり偏差の平方も、属性の値が分布の中心(平均値)からどれだけ離れているかを表わすが、偏差と違って、小さい隔たりはより弱く、大きい隔たりはより強く反映した値になる。偏差の平方の平均値を分散(varient)という。さらに、分散の平方根を標準偏差という。
 分散や標準偏差の大小で、平均値の周りに分布が集中している強さの大小が分かる。特に、正規分布(あとで学習する)のような(ある意味できれいな)分布では、[平均値±2・標準偏差]の範囲ならほとんどの値が収まってしまう。実は、どんなに癖の悪い分布でも、[平均値±a・標準偏差]の範囲に値が収まる割合い(の上限)は、かなり厳しく算出することができること(とその理由)が知られている(チェビショフの定理)。


分布の典型
一様分布


 一様分布正規分布などのいくつかの分布は、単純な密度関数に基づいているので、平均値や分散を始めとする、分布の性質がはっきり分かっている。しかも、これらの分布は、実際の多くの集団について、その属性の分布を(少なくとも近似的に)よく再現していると考えられている。

 ある特定の最小値(▽図a)から最大値(▽図b)までの範囲の値しか現われなくて、しかも分布の密度が一定になっている可変属性の分布を一様分布(uniform distribution)という。
 一様分布のうち、[0〜1]の範囲の値をとり、分布密度が1で一定のものを標準一様分布という。一般の一様分布の性質は、標準一様分布の性質が分かれば、そこからほとんどが導き出せる。
 一様分布の密度は▽図のようなグラフで表わされる。


>拡大<

一様分布


分布の典型
正規分布


 多くの実可変属性の分布は、中央に山があって、その左右に向かって対称に下がっていくようになっている。このような分布で性質を割り出しやすいものはいくつか分かっているが、正規分布(またはガウス分布=Gauss distribution)という分布が、最も性質が割り出しやすい。
 正規分布の密度は▽図のようなグラフで表わされる。


>拡大<

正規分布

 正規分布では、平均値、中央値、最頻値の三つはすべて等しい。もちろん、ほかの分布ではこれらは一致するとは限らない。
 正規分布では、分布のグラフの曲線を頂上から左右に下りて行くと、途中で外に膨らんでいたのが中に膨らむように変化する境界がある。実は、正規分布では、頂上からここまでの幅(対称なので左右で同一)がちょうど標準偏差と等しくなっている。
 正規分布は平均値の周りへの集中がとても強い。平均値から左右に標準偏差(さらにその2倍、3倍、...)だけ広げた範囲への分布が全体の何%になるかはよく知られていて、▽図+▽表のようになっている。たとえば左右に標準偏差だけ取った範囲なら、事例の集団の全体に対して2/3弱が入ってしまう。


>拡大<

正規分布では[平均値(m)±標準偏差(σ)]の範囲(中央の2領域)に全体の2/3が集中している
範囲の幅を2倍に広げると全体の95%が含まれ、3倍(左端の縦線から右端の縦線まで)に広げるとほとんど全体が含まれてしまう

範囲
全体に対する
分布の割合い

[平均±1・標準偏差]
65%
[平均±2・標準偏差]
95%
[平均±3・標準偏差]
99.8%

正規分布の平均値、標準偏差と分布の割合い


中心極限定理


 同じ分布の可変属性がたくさんあって、しかもたがいに独立(あとで学習する)な場合に、それらを一つずつ選んで合計すると、その値は必ず正規分布する。もとの分布が正規分布の場合はもちろん、どんな分布でも無数に足し合わせると正規分布になってしまう。この性質は理由も分かっていて、中心極限定理と呼ばれている。
 社会的な現象や気体の性質を測定すると、無数の人々や分子からの影響によって現れる揺らぎが見られ、その分布は正規分布によく似ている。これは、中心極限定理に示されていることの現れだと考えられている。逆に、中心極限定理を根拠にして、同質の影響の合計だから正規分布しているはずだと仮定することによって、いろんな現象を正規分布の性質から推定することができる。


標準化


 典型でも現実のでも、以下のようにして分布を変形すると、統計や数式の取り扱いをもっと単純にできる。しかも、分布の基本になる性質(山がいくつかとか左右のどっちに寄っているかとか)は変わらない。

○もとの属性の代わりに 属性-その平均値 を扱うようにする。これによって分布のグラフは平均値の分だけ左に(0≦平均値なら)ずれて、縦軸に対して(より)対称になる。

○もとの属性の代わりに 属性/その標準偏差 を扱うようにする。これによって分布のグラフは標準偏差の分だけ狭まって(1≦標準偏差なら)、中央の重要な部分が区間[-1〜1]に収まるようになる。

 (分布に限らないが)このような関数の変換を標準化(normalization)という。


属性の独立性


 属性と属性との値の組合せ(たとえば身長と体重)は全く関係がないわけではない。ある組合せ(身長と体重なら大きい値と小さい値との組合せ)の近くでは分布が薄く、別の組合せ(大きい値どうし/小さい値どうしの組合せ)の近くでは分布が厚い。
 属性と属性との組合せについて、一つの属性の同じ値に対して、分布が、組合わさるもう一つの属性の値によって強く影響を受けるのを、その属性はもう一つの属性に従属しているという。また、影響が小さいのを、独立しているという。ある属性がもう一つの属性から完全に独立しているなら、二つ目の方の属性の値が何だろうと、一つ目の属性の値はその値だけで決まる一定の分布にしたがうだろう。
 このような属性と属性との関係は、それぞれの属性の値の大小を左右と上下とにとって組み合わせたグラフを描いてみるとよく分かる。このようなグラフを散布図という。
 二つの属性の組合せが強く従属しているとすると、その二つの属性は、互いに原因と結果の関係で結びついていたり、共通の原因をもっていたり、特定の組合せの事例が増強/抑制されるようになっていたりするのかもしれない。


相関係数


 ある属性ともう一つの属性との従属の強さを[-1〜1]で表わす指標の一つに相関係数(correlation coefficient)がある(こんな名前だがあとで学習する回帰係数とは違って何かの関数の係数というわけではない)。
 相関係数は、従属の強さを以下のように表現していると考えられている。

+1
完全に従属
...
ほどほど従属
0
完全に独立
...
ほどほど従属
(ただし増減が逆)
-1
完全に従属
(ただし増減が逆)


回帰関数


 ある属性がもう一つの属性に強く従属している場合、もしかすると、その属性の値はもう一つの属性の値の関数なんだけれど、そこにさらに幅の小さい乱れが加わっているのかもしれない。こう考えられる場合、この未知の(実在するかどうかも分からない)関数を回帰関数(regression function)という。そして、その関数のグラフを回帰曲線(regression curve)という。
 値の範囲をほどほどに狭く限定してしまえば、たいていのタイプの関数は1次関数(y=ax+bのタイプの関数)で近似できて、回帰曲線はただの直線、つまり回帰直線(regression line)になる。そこで、一般には、回帰関数を推定しなければならない場合は、関数のタイプを1次関数に限定して、回帰直線の傾きをともかく求めようとする。この値(y=ax+bのa)を回帰係数(regression coefficient)という。

 回帰関数は、以下の手順で求めることが多い。

00 2〜3の係数が違うだけの同じタイプの関数(たとえばy=ax+b)の集合に候補を絞り込む。

01 係数の組合せごとに、実際に得られている集団が、回帰関数と自然な乱れにとよって生じる確率を求める。

02 候補の中から、01の確率が最も高い関数を選ぶ。

 回帰関数として1次関数(y=ax+bのタイプの関数)を想定できる場合に限っては、実際には係数のいろんな組合せについていちいち確率を求めて比べる必要はない。代わりに、最小2乗法(least squares method)という方法が用いられている。最小2乗法では、問題になっている二つの属性の値から、公式によって、直接に係数(a,b)を算出することができる。ただし、公式とは言っても、全部の事例について、属性の値の和/差や積を算出して、それらを合計する作業が含まれているから、筆算より計算表システムの方が向いている。
 最小2乗法の手順はどんな教科書にも書いてある。きちんと学習するなら、[統計+確率のしくみ][Excelで学ぶ統計解析入門]などが読みやすい。


最尤推定


 いくつかの候補のうちの一つを選ばなければならない場合に、候補がいいか悪いか判断するための考え方にはいろんなものが考えられる。
 たとえば、最小2乗法では、回帰関数を求めるのに、実際の事例の集団が現われることが最も起こりそうな候補を選ぶ、という方針を採っている。このような方針を最尤原則といい、最尤原則に基づいていろんなことを統計から推定することを最尤推定という。
 最尤原則のほかにもいくつかの原則がある。最尤原則が達成できそうにない場合や、十分ではない場合にはほかの原則が採用される。


分布の特性


 平均値や分散は、実可変属性なら、実際の分布でも典型の分布でも、分布の違いとは関係なく考えられ、しかも、単純な手順で算出できる。そのため、以前は、分布が似ているかどうかを平均値や分散の違いだけで判定することが多かった。しかし、これからは、なるべく分布そのものを直接に検討するべきだろう。そのうえで、似ているように見える分布が実際に似ているかどうかをはっきりさせるためにだけ、これらの特性を調べるようにした方がいい。





[演習]

演習の進め方をよく確認してからとりかかりなさい


階級の細かさ

 実可変属性を階級化する場合には、広い階級が少しだけできるようにするか狭い階級がいくつもできるようにするか決めなければならない。どっちにしても、極端にすると役に立たないからだけれど、それぞれ極端にするとどんな問題が起こるか説明しなさい。

自分で考えなさい
50件ぐらいの大きさの集団について実際に試してみると何がまずいか分るだろう

報告例
小長井敬


偏差の平均

 偏差の平均はなぜ必ず0になってしまうのか説明しなさい。

自分で考えなさい
分かりやすく、しかもはっきりと説明しなさい
数学的証明をして見せるのが最も望ましいが、代わりに、具体例を通して説明するのでもかまわない

報告例
小長井敬


不偏原則

 最尤原則と同じように推定でよく使われる方針の一つに不偏原則がある。これはどんな原則か調べて説明しなさい。
 さらに、最尤原則と不偏原則とでは推定の結果が違ってしまう場合を実際に示してみなさい。

資料(たぶん平均値や分散の推定に関連して解説されているだろう)を自分で探して調べなさい
自分と同じぐらいの学年の学生になら理解させられるぐらいの説明のしかたを考えなさい
当然ながら適切な図が必要だろう
後半は特に難しいから省略してもいい





深く学習するための資料
(課題の学習には十分ではない)

有馬哲, 石村貞夫、多変量解析のはなし (東京書籍、87-10-15)
[郡山ほか][菅]の学習が終わったら、その次はこの本で学習しよう。多変量解析は人文/社会の分野の研究で使われている統計の手法の定番だ

郡山彬、和泉沢正隆、統計+確率のしくみ (日本実業出版社、97-08-10)
 お薦め。
 気になることがきちんと解説してあって、しかもさっぱりしてるから学習しやすい。

菅民朗、Excelで学ぶ統計解析入門 (オーム社、97-08-10)
裏の理屈まできちんと分かりたい人にはこっちがお薦め。ただし多少の数式を読むのを厭わないことが条件
[Excel]で実験ができるように、実験の材料が入ったCDがついている




|

このページの記事の一部は、著作者への配慮や媒体の容量の都合によって、バージョンによっては見ていただくことができない場合があります


Copyleft(C) 1999-03, by Studio-ID(ISIHARA WATARU). All rights reserved.


最新更新
03-02-16