【未経験から始める】SPSSってなに?というお話 基礎編
※内輪向けというか、入手方法に関しては学内限定のお話をしています。一般人が手に入れようとすると30万とかかかるシロモノなので注意…
前回までのあらすじ
IBM Knowledge Centerにあるバージョンごとのドキュメントを読みながら、データの読み込み(インポート)のやり方・データの分析に関してまとめた。というよりは、まずどうすればいいかわからないひとがこれを見てとりあえずやってみるかァ~~となれば幸いな感じの記事です。
データの読み込み(インポート:import)
データを処理しようにも、データそのものがなくては始まらない。SPSSに直接入力する方法と、外部からインポートする方法がある。
SPSSに直接入力
IBM® SPSS® Statistics データ・ファイルは、ケース (行) と変数 (列) で構成されています。 このデータ・ファイルで、ケースとは調査の個々の回答を指します。 変数は、調査に使用した個々の質問への回答を指します。
表計算ソフトと同様に行と列が存在し、それに直接入力することもできる。が、それをやるのは本質ではないと思う……。なので、ExcelなりCSVファイルなりをインポートすることを考える。
外部からインポートする
データ・エディターにすべてのデータを直接入力するのでなく、Microsoft Excel などのアプリケーションからデータを読み取ることができます。列見出しを変数名として読み取ることもできます。
メニューから、「ファイル」 > 「データのインポート」 > 「Excel」(or 「テキスト データ」,「データベース」)を選ぶことでダイアログが開き、そこから開きたいファイルを選ぶことでデータ・エディターが起動する。このとき、「データの最初の行から変数名を読み込む」とか、「文字列値から先行スペースを削除」など、細かな設定もできるようだ。
要約統計量……?
要約統計量 とは、標本の分布の特徴を代表的に(要約して)表す統計学上の値であり、統計量の一種。記述統計量(英: descriptive statistics value)、基本統計量、代表値(英: representative value)ともいう。
つまるところ、平均・分散・標準偏差や、中央値・四分位点・最大値/最小値・最頻値などのこと(より上位のクラス概念)である。統計とは、おおまかにいえば正規分布かそうでないかの二つに分かれる。正規分布なら平均や分散、標準偏差を用いて記述されるが、そうでなくデータのばらつきが大きくある場合、より頑健な中央値・四分位点・最大値/最小値・最頻値をつかうことになるらしい。
※頑健とは分布の非対称性や外れ値などの影響を受けにくいことを意味する統計用語
データの分析
メニューから、「分析」 > 「記述統計」 と辿ることでさまざまな分析方法があることがわかると思う。度数分布表・クロス集計・記述統計…など。ダイアログボックスから様々なことができるが……今は記述しきれない。
データさえあれば、ボタン一つですぐさま検定が実行できるようだ。(χ2乗検定とかτ検定とか)これはいいものだと感じた。授業でやった検定は手作業であり、何ともいかんともしがたかった記憶がある。やはりSPSS、神が賜りし神器なのかもしれない。
データの表現
図やグラフにしてデータを表現したい場合がある(というかだいたいの場面においてそれが最終目標である)。データエディタのメニューから、「グラフ」>「図表ビルダー」を選ぶとダイアログボックスが開く。変数や名称を選択していくことで、細かな設定ができるようだ。これもまた、豊富な種類の図表やグラフが用意されている。どういう種類のデータにどういうものが適しているのかはまだわからないが、これもまた授業で学ぶだろうか。デザイン領域の話も関わってきて煩雑になるかもしれないのでまた今度……
まとめ
ここまで、チュートリアル・ドキュメントを流し読みしつつ、データをいじる前に必要であろうことを一通り見てきた。本当に概要程度だが、これ以上の詳細は、文字で伝えるよりは実際に作業しながら、チュートリアル内に豊富に載せられている画像を参照にした方がよいかもしれない。
足早に流し読みというか、目次に目を通した程度でしかなかったが、実際にメニューを見るとその機能の豊富さには驚いた。統計に関することならおよそ何でもできそうな感じがする。使い倒せるかどうかは別だが、もしそうなったときの人材価値は高いものであると信じている。また、次回からは実践編としてサンプルファイルに触れつつケーススタディに進んでいこうと思う。ここまでほぼインプットだけだったので、少しづつアウトプットにシフト出来たらと願う。
次回
まだ