標本調査
標本調査(ひょうほんちょうさ)とは、母集団をすべて調査対象とする全数調査(悉皆調査)に対して、母集団から標本を抽出して調査し、それから母集団の性質を統計学的に推定する方法である。
例としては、商品などの抜き取り調査、一般の社会調査や世論調査などがある。国勢調査は全数調査であり、選挙の投票も建前上は全数調査である。別の視点から言えば、投票行為そのものが標本作成であるということができる。社会調査は調査そのものが対象に影響を与えるため動機づけのひずみ(motivational bias)を考慮する必要がある[1]。
全数調査は一般に、以下のような理由により不可能なことが多いため、標本調査が必要になる。
標本調査は次のような段階を踏んで行われる。
- 対象とする母集団の定義
- 抽出の枠(測定する要素のリスト)の設定
- 枠から要素を選択する(標本抽出)方法の特定
- 標本抽出とデータ収集
- データ解析
- 再調査
方法としては単純無作為抽出を用いることが理想的だが、実際には容易でないので、枠と抽出法に関して他の方法が用いられることが多い。
Contents
母集団の定義
まず問題を定義する。例えば商品の一部を調べる場合、その商品全体が母集団である。一方動物実験のように、母集団を特定すること(実験データの理想化)がむしろ目的となる場合もある。
標本抽出
抽出の枠
次に、各要素を識別するための抽出枠(リスト)を設定する。
抽出枠は母集団を代表するものでなければならないが、これには統計学だけでなく個別の分野での判断も重要である。
一例を挙げると、1936年のアメリカ大統領選で、Literary Digestは230万人の調査から、対立候補がF.D.ルーズベルト候補に勝つ(57%対43%)と予想した。しかし、世論調査会社ギャラップははるかに少ない人数の調査からルーズベルトの勝利を予想し、結局こちらが正しかった。Literary Digestの調査では、電話や自動車の保有者リストを用いたことや、1,000万の調査対象に対し230万の有効回答しか得られなかったこと、読者層に保守派が多かったことなどが原因となって、標本のサイズが莫大だったにもかかわらず富裕層に偏ってしまった。同じようなことは、近年のインターネットによる調査でも問題になっている。
具体的には、まず全体を決め、次に以下のような枠組みを決定する。
単純抽出
これは全要素を平等に扱い、分割はしない方法である。
層化(層別)抽出(層化抽出法)
母集団が互いに重ならない複数のカテゴリからなる場合には、枠をそのカテゴリ、すなわち層に分ける。標本サイズは層の標準偏差、あるいは母集団において層の占める割合に比例したものにする。各層は、平均が互いに十分異なり、分散が全体の分散よりは小さいように選ぶ。
クラスター抽出
母集団の要素がクラスターを作っている場合、抽出にこれを利用してコストを省くことができる。例えば電話の通話を標本とする場合には、まず利用者を抽出し、その人の全ての通話(クラスターを作る)を調べるという方法がとれる。ただしクラスター内の各標本は無作為抽出した標本よりも互いに似た傾向があり、これを補うために標本サイズを大きくする必要がある。
割当て抽出(クォータ・サンプリング)
まず母集団を層別抽出と同じように別個の部分集団に分割し、次に各部分に対してそれぞれ決まった割合で対象を選抜する。例えば街頭で45歳から60歳までの女性200人と男性300人にインタビューする場合がこれにあたる。この方法は無作為でないことが一番の欠点である。
抽出方法
上記の各タイプの枠内で、次のような抽出法を、単独で、または組合せで使うことができる。
無作為(ランダム)抽出
無作為抽出は確率的抽出の代表的なもので、全ての要素の組合せの起こる確率がわかっている(必ずしも同じとは限らない)場合である。標本が母集団を適切に代表しないリスクはあるが、統計学理論により抽出に伴う誤差からそのリスクを計算し、適切な(リスクが容認できる範囲で実用的な)標本サイズを選ぶことができる。無作為抽出のうちで最も基本的な単純無作為抽出では、各要素を同じ確率で選び出す。しかしこれは実用的でない場合も多い。より実用的な確率的抽出として層化抽出(上述)や多段階抽出(無作為抽出を反復する)をよく用いる。社会調査では、層化、段階の設定など作業者の既知の情報に基づいてしか行わないため無作為であることはほぼ不可能である。第三者機関の調査でも、無作為であるかどうかよりも、公平であるかどうかを判断基準にすることがある。
無作為抽出が不可能な場合は、以下のような非確率的抽出が用いられる。
系統抽出
系統抽出の例としては、電話帳から10番目毎に抽出する方法がある。簡単ではあるが、データの非対称性と偏りから、結果の偏りが出やすい。電話帳自体が無作為化されていない限り非確率的抽出になる。
機械的抽出
機械的抽出とは、器具を使って物質をサンプリングする方法をいう。機械的抽出は、機械の設計の意図、機械の動作条件によって偏りが生じる可能性があるため、無作為ではない。機械の設計の意図、機械の動作条件を確率論的に表現できれば、確率的抽出の一種であるということもできる。標本が枠を確実に代表するように注意を要する。
便宜的抽出
要素を枠から任意に、構造を作らずに選ぶ方法である。誤差が大きくなりがちだが、実用的である。社会科学の研究で用いられる似た方法に雪だるま式抽出があり、これは確保した対象を使ってさらに多くの対象を集める方法である。
復元抽出
一度調査した対象をまた調査対象に含める[2]。複数の調査の期間が空いていたり、調査の目的が全集合を対象にした無作為抽出または作為抽出である必要がある場合に行う。
非復元抽出
一度調査した対象は調査対象から除外する[2]。複数の調査が短期間であったり、調査のお礼を渡す方式だったりすると、一度調査した対象は除外することがある。
抽出とデータ収集
データ収集には次のような注意が必要である:
- 既定の抽出過程に従って行う
- データの時間順序を守る
- 調査過程での注意点を記録する
- 調査不能となった対象を記録する
データ解析
伝統的な標本調査は、標本から中心極限定理と正規分布近似(場合によっては正規分布によらないノンパラメトリック推定も利用できる)を利用して、母集団と母数を推定することで行う。これは計画に基づく抽出といわれる。
現代的な方法としては、抽出過程からベイズ推定などを用いてモデルを作る、モデルに基づく抽出がある。この方法は標本サイズが小さいときに実用的であるが、モデルの前提の正しさを確認しておく必要がある。
標本の加重
層別抽出では、一般に標本として抽出される比率が層によって違うので、データには正しく母集団を代表するように加重をしなければならない。
例えば社会調査で単純無作為抽出をするには、僻地の人も含めねばならないが、僻地の人にインタビューするにはコストがかかる。このコストを節約する方法として、都会と地方に層化する方法がある。地方の標本サイズが小さくなっても、分析で重みをつけることにより補うことができる。
抽出過程の再調査
抽出後の分析での変動が起こす影響を検討するために、(最初に意図した方法ではなく)実際に行った抽出過程について再調査する必要がある。特に問題となるのは調査不能対象である。
調査不能者
特に人を対象とした社会調査で、標本とされた人が参加を拒否したり、連絡がつかなかったりすることがある。この場合、調査できた人と調査不能者との違いが、結果的に選抜の偏り(非確率的誤差)につながるおそれがあるので、しばしば追跡調査が必要になる。
脚注
- ↑ 福武 & 松原 1967, 動機.
- ↑ 2.0 2.1 西岡 2013, 4.3 乗法定理.
参考文献
- 『社会調査法』 有斐閣、1967年。
- 西岡, 康夫 『数学チュートリアル やさしく語る 確率統計』 オーム社、2013年。ISBN 978-4-274-21407-3。
- 伏見康治 『確率論及統計論』 河出書房、1942年。ISBN 978-4-87-472012-7。
- JIS Z 8101-1:1999 統計 − 用語と記号 − 第1部:確率及び一般統計用語, 日本規格協会, (1999)
- 日本数学会 『数学辞典』 岩波書店、2007年。ISBN 978-4-00-080309-0。