気合でなんとか

@ningensei848が頑張った記録

2017秋学期 木曜 量的調査法 6週目

前回までのあらすじ

ningensei848.hatenablog.com

 

 

調査結果の整理(8 章)


エディティング(点検と整理)


不確実なデータを除去する,ただし回収したデータはできるだけ生かす(相矛盾する要求)


・完全な無効票(全くの白紙およびフェイスシート以外に実質的な回答がほとんどないもの)を除去
・有効票として残ったものに通し番号をうつ
有効回収率=有効票数/配布(すべき)票数
有効回収率は調査結果の代表性を保証する上で必要な指標。配布数の記録を忘れないよう!
・記入ミスや回答方法の誤りを赤ペンで訂正する(データのねつ造や改ざんと区別)
・記入の不完全な項目を点検し,指示どおりに改訂できるものは改訂,それ以外は NA(無回答)にする(回答者が追跡可能な調査では再質問することもある)
・文字・数字について難読字,誤字を赤ペンで訂正
・設問間の論理的・数値的な矛盾について(必要があれば)点検する

 


コーディング

調査票調査は同一の定型的な質問を大量の被調査者に対して行う→機械的な処理の重要性データを(コンピュータで)分析しやすいように記号化すること


事前のコード化(プリ・コーディング)←調査票の作成段階
事後のコード化(アフター・コーディング)←回収後(自由回答形式を符号化)
数量データの数値階級化・非数量データの記号化
標準化されたコードを用いること(世間一般の常識的分類をできるだけ使用する。特に年齢階級や職業分類など)
コードカラムまたはコーディングシートへの転記(入力ミスを防ぐため;しないことも多い)


コーディングの原則
・ 数値(整数)を与える(回答が記号の場合は記号のままとすることもある)
・ 必ず値を与える(有効な回答,無回答,非該当にそれぞれコードを与える)
無回答の処理:欠損値 Missing Value
・非該当(答えるべきでない),記入漏れ(答えていない),回答拒否(答えたくない),回答不能(わからない)をできるだけ区別する
・実際には自記式調査で回答拒否と記入漏れを区別することは不可能→無回答(NA)として処理。また無回答と回答不能(DK)を区別することも難しい(選択肢に「わからない」を含めると,回答が「わからない」に集中する傾向がある)
・コーディングの習慣として,正規の回答と明らかに違う値を与える(9,99,8,88 など)

複数回答(MA)の処理…本質的には選択肢毎の Yes/No の集計であることを理解して欲しい

・どう入力するか(実は統計ソフトによっても違う)
データの入力
個人レベルではパーソナルコンピュータ用の表計算ソフトがデータ入力に便利(専用のソフトもあるが)。データ入力終了後テキスト保存してデータ解析用のソフトへ。実際にはExcel からなら直接取り込み OK
注意:
・ 無回答を含めて,必ず値を入力する習慣をつける。空白だと,入力漏れか無回答かが区別できない。
HowTo(怖いこと=カラムずれ,入力ミス)
・ 1 行 1 レコード(1 回答)で入力する
・ 1 行目は変数名を入れる(「ウィンドウ枠の固定」機能を使って見出しを常時表示する)
・ 1 列目は通し番号を入れる
・ 使用する統計ソフトの変数名に関する制約を確認すること(アンダースコアやハイフン)
・ オプションで[Enter]キーによるカーソル移動方向を変更する
単純集計の意味(9 章前半)
単純集計はある質問に対する回答の「分布」を記述するものである。
重要なこと:統計学は「数量を」分析するのではなく「数量で」分析する.非数量的な概念
(例えば賛成-反対)に対して,ある尺度を適用する(=同じものさしで測る)ことで数量としての分析を可能にしている。
統計では変数の「種類」に応じた「適切な」分析手法がある。例えば,年齢を調べた場合にその結果として平均年齢を示すことになるが,性別を調べた場合に「平均性別」は無い。


統計学の教科書では通常は以下の 4 つの尺度概念が示されるが,分析の実際上は間隔尺度と比尺度を区別しないので併せて「量的変数(連続尺度)」とし,同様にほとんど区別をしないので名義尺度と順序尺度を併せて「質的変数(離散尺度)」という。
離散尺度と連続尺度の集計結果はどう異なるか


名義尺度である性別と連続尺度である年齢では,先に述べたように同じ単純集計の分析
(集計)方法が異なっている。離散尺度ではカテゴリーごとの頻度を記述的に示す(どのカテゴリーに何人)のに対して,連続尺度ではそれが困難なのでヒストグラムとして図化したり,分布の特徴を示す値(特性値)を示したりする。


離散尺度の単純集計:度数分布表と棒グラフ・円グラフ
離散尺度ではそれぞれの尺度がどのような頻度で起きたかを表にまとめる。これを度数
分布表という。また,度数を直観的に比較するために棒グラフ,相対度数を表現するためには円グラフを使用する。科学の世界におけるグラフは数値を直観的に理解するための道具であり,数値を正確に表現することが本質であることに注意(ビジネスグラフの流儀を学んではいけない)

 


次回以降の準備としてソフトウェア(SPSS)の紹介
2010 年に IBM に買収され,IBM SPSS という名前になった.統計処理と多変量解析を行うためのソフトウェアで,SAS と並んで大型計算機時代からの長い歴史を持っている.日本の汎用統計ソフトウェア市場では,一般向けでは SPSS,研究者向けでは R(フリーソフト)がそれぞれ多くの利用者を獲得している。Mac 版,Linux 版もあり。


大学で本数無制限のサイトライセンス契約を結んだので,学生は私物の PC を含めて自由にインストール・使用できる(ただし,起動の際にライセンスサーバへの接続が必要)。最新版は version 25。リモートデスクトップでも使用可。

 

 

次回

まだ