2017秋学期 火曜 知識情報演習III 1週目
2017/11/14 やっとこさ合流できた。ついていくことを目標に頑張る。
日程
重要な連絡
- 成績は出席と提出物で評価(試験免除)
欠席が多い場合や未提出が一つでもある場合は,成績がつかない - 毎回,宿題を次回の授業開始時に提出
- 授業終了時に授業中の課題を提出
※どちらか一方でも提出時にいない場合は欠席とみなす。 - 図書館のカウンター横に,NDC と BSH 利用して宿題に取り組むこと
※図書館からの持ち出しは禁止 - 宿題の得点は成績に反映
- この授業では以下の略語を使います。
NDC:日本十進分類法
BSH:基本件名標目表
授業の流れ
特に説明等はなく、指定された演習課題に延々と取り組む。毎回の指定範囲が終了したら添削してもらい、それが認められれば宿題の用紙がもらえる。この時、出席表に〇をつけ2コマ目の出席とする。次回提出の宿題をもってその回の1コマ目の出席とする。
今回
演習課題1-5に取り組んだ。1,2は「第二次区分表、第三次区分表を用いていくつかの主題に分類記号を付けよ」というものだった。3では細目表、4では総記の例学的な扱い方、5では細目表の例外事項について主題分析を行った。
※NDCは階層構造をとる分類法である。第一層で知識の分野を九つに分け、それらにあてはまらないものを0とし、十の分類をつくった。その作業を各分類においても行うことで一層ずつ細分化されていくことになる算段である。
NDCでは、基本的に三桁の分類記号を使うことになるのだが、これは人が一目見てわかりやすくなるように工夫されたものであると考えられる。さらに詳細な区分を知りたいときは、第四次区分以降(黒点以下の数字)をみればよい。しかし、この区分は限界を迎えているとおもう。実際に主題を検索してみればわかることだが、明らかに例外処理が多すぎる。(人が直観的に考えた分類と反することが多すぎる)厳密に分類するためには仕方のないことかもしれないが、知識の体系が細分化しすぎているいま、この分類法は実用に適していないと考える。
例えば、キーワード検索で分類記号が逆引きできないのは現在の技術を鑑みるにあり得ないことだと思う。いちいちNDCの分厚い書籍を手にしてページをめくらなければならないことを考えると、このシステムは全国の図書館員の貴重な時間を奪っているに等しい。また、その反対に分類記号から主題が一意に定められないのもおかしい。せめてレコメンドされるとか……なさらないんですか…………??
という旨のことを担当教員に聞いたところ、実際にはそのシステムがすでに存在しているらしい、がしかしそれは公表されないらしいのだ。どこのだれがそんなことしているのか甚だ疑問だが、図書館の理念に反していることだけは間違いない。
(NDCに関するシステムとして、筑波大学生の卒業研究でNDC Finderという、主題検索エンジンともいえるシステムを作成され、現在も整備が進んでいるようだ。ぜひとも頑張っていただきたい)
次回
未だ
秋B、はじまる
秋学期も三分の一が終わって一区切りということで感想の記事を書いてみる。
夏休みはアメリカに行って帰ってきてから(というか滞在している間も)ひどく精神的にやられてしまい自暴自棄はなはだしかった。いわゆる、「SNS疲れ」というやつであり、それを癒す手段さえもSNSに頼っているような、まさに血を血で洗う精神状態だった。よくここまで復帰することができたものだと感心する、自分でも。
唐突に新潟に逃げてみた。運転免許をとりに二週間ほど消えただけに過ぎないが、パソコンのない生活は快適だったし、何よりメシがうまかった。三食ビュッフェ形式であそこまで恵まれた環境だと、本当に2日3日ほど卒業が遅れてもイイカナーぐらいに思っていた(そして実際に3日延長した。相対的に難しいといわれるMTとはいえお恥ずかしい限りである)第一段階の筆記試験に二度落ちたときは世界を呪ったものだが、しかしまぁ今となってはいい思い出である。また、これは本当に偶然の出来事なのだが、なぜか見知った顔と遭遇する珍事もあったりした。
とまぁ、いい感じで過ごせていた夏休み終盤の九月末。唐突に日記みたいなものを書いたらいいんじゃないか?という結論に至った。経緯は覚えていない。それまではTwitterに徒然なるままに短文を書き捨てていたが、そのスタイルでは残せないものがあると感じたのかもしれない。事実、過去の出来事を振り返ろうとしたとき、Twitterでは高度な検索をかけて面倒な手続きを踏まねばならないが、ブログというプラットホーム上ではすぐさまに過去にアクセスできる。散文ではなく、エピソードとして文字に向き合えるので、Twitterと比べると相対的に過去の出来事に対して想起出来る度合いが異なる気もする。
基本的には、秋学期の授業のメモを置いておく場にすることにした。あとからまとめて目を通せるし、なにより学期を通してやり通せばきっと達成感や自己肯定感につながると思ったからだ。事実、何もやりたくない時でもこれに向き合えばなんとか文字を書くことはできたし(下書きに保存しておけるのが最高にありがたかった)ノートが完全に紙から電子へと媒体が遷移した。スマホとPCの両刀でノートを取り、わからなければすぐさま調べられるというのがここまで快適なのは気づきであった。
そうして秋Aが終わった。十月~今にかけての思い出について、まだきちんと詳細を述べていない京都への旅を筆頭に、腸閉塞を自力で直して生還した話や、今後の暮らし方の話題、アイデアの話題など、話そうと思えばいくらでも語れる気がするが、とりあえずはここで一区切りである。明日からはまた月曜日。秋Bのはじまりだ。
月曜一限は総合科目II が3学で、火曜一限は必修が春日で、水曜一限は再履が7A205 でそれぞれあるわけで、かつそれらはほとんど休むことは許されない。朝はひどく凍えるこのつくばの地で一限に向かう限界大学生。せめて、新たにあたたかな関係がもたらされたらと願う。
目標:一限出席&単位取得
2017秋学期 水曜 図書館建築論 5週目
前回までのあらすじ
※めちゃんこ眠かったのか何なのかメモがほぼない…来週に期待
図書館空間のつくりかた
建築の場所と対応
規模を決定付ける要因
- 蔵書規模
人口一人当たりの蔵書数の設定/閉架・開架の比率の設定(情報の鮮度なのか量なのか) - 予算規模
初動コスト(initial)と維持コスト(running) - 土地条件
機能と構成を図る
必要な機能(スペース)の設定…共用/管理/集会スペースなど
各機能の面積を設定する
単位面積当たりの蔵書収容能力は開架で80‐120冊、閉架では250‐400ほど
一年を通して、太陽光の角度や方角、一日を通した日の当たり方までシミュレーションしていく
次はデザイン的な話をしてくれるらしい。きちんと聞きたい…
次回
2017秋学期 木曜 量的調査法 6週目
前回までのあらすじ
調査結果の整理(8 章)
エディティング(点検と整理)
不確実なデータを除去する,ただし回収したデータはできるだけ生かす(相矛盾する要求)
・完全な無効票(全くの白紙およびフェイスシート以外に実質的な回答がほとんどないもの)を除去
・有効票として残ったものに通し番号をうつ
有効回収率=有効票数/配布(すべき)票数
有効回収率は調査結果の代表性を保証する上で必要な指標。配布数の記録を忘れないよう!
・記入ミスや回答方法の誤りを赤ペンで訂正する(データのねつ造や改ざんと区別)
・記入の不完全な項目を点検し,指示どおりに改訂できるものは改訂,それ以外は NA(無回答)にする(回答者が追跡可能な調査では再質問することもある)
・文字・数字について難読字,誤字を赤ペンで訂正
・設問間の論理的・数値的な矛盾について(必要があれば)点検する
コーディング
調査票調査は同一の定型的な質問を大量の被調査者に対して行う→機械的な処理の重要性データを(コンピュータで)分析しやすいように記号化すること
事前のコード化(プリ・コーディング)←調査票の作成段階
事後のコード化(アフター・コーディング)←回収後(自由回答形式を符号化)
数量データの数値階級化・非数量データの記号化
標準化されたコードを用いること(世間一般の常識的分類をできるだけ使用する。特に年齢階級や職業分類など)
コードカラムまたはコーディングシートへの転記(入力ミスを防ぐため;しないことも多い)
コーディングの原則
・ 数値(整数)を与える(回答が記号の場合は記号のままとすることもある)
・ 必ず値を与える(有効な回答,無回答,非該当にそれぞれコードを与える)
無回答の処理:欠損値 Missing Value
・非該当(答えるべきでない),記入漏れ(答えていない),回答拒否(答えたくない),回答不能(わからない)をできるだけ区別する
・実際には自記式調査で回答拒否と記入漏れを区別することは不可能→無回答(NA)として処理。また無回答と回答不能(DK)を区別することも難しい(選択肢に「わからない」を含めると,回答が「わからない」に集中する傾向がある)
・コーディングの習慣として,正規の回答と明らかに違う値を与える(9,99,8,88 など)
複数回答(MA)の処理…本質的には選択肢毎の Yes/No の集計であることを理解して欲しい
・どう入力するか(実は統計ソフトによっても違う)
データの入力
個人レベルではパーソナルコンピュータ用の表計算ソフトがデータ入力に便利(専用のソフトもあるが)。データ入力終了後テキスト保存してデータ解析用のソフトへ。実際にはExcel からなら直接取り込み OK
注意:
・ 無回答を含めて,必ず値を入力する習慣をつける。空白だと,入力漏れか無回答かが区別できない。
HowTo(怖いこと=カラムずれ,入力ミス)
・ 1 行 1 レコード(1 回答)で入力する
・ 1 行目は変数名を入れる(「ウィンドウ枠の固定」機能を使って見出しを常時表示する)
・ 1 列目は通し番号を入れる
・ 使用する統計ソフトの変数名に関する制約を確認すること(アンダースコアやハイフン)
・ オプションで[Enter]キーによるカーソル移動方向を変更する
単純集計の意味(9 章前半)
単純集計はある質問に対する回答の「分布」を記述するものである。
重要なこと:統計学は「数量を」分析するのではなく「数量で」分析する.非数量的な概念
(例えば賛成-反対)に対して,ある尺度を適用する(=同じものさしで測る)ことで数量としての分析を可能にしている。
統計では変数の「種類」に応じた「適切な」分析手法がある。例えば,年齢を調べた場合にその結果として平均年齢を示すことになるが,性別を調べた場合に「平均性別」は無い。
統計学の教科書では通常は以下の 4 つの尺度概念が示されるが,分析の実際上は間隔尺度と比尺度を区別しないので併せて「量的変数(連続尺度)」とし,同様にほとんど区別をしないので名義尺度と順序尺度を併せて「質的変数(離散尺度)」という。
離散尺度と連続尺度の集計結果はどう異なるか
名義尺度である性別と連続尺度である年齢では,先に述べたように同じ単純集計の分析
(集計)方法が異なっている。離散尺度ではカテゴリーごとの頻度を記述的に示す(どのカテゴリーに何人)のに対して,連続尺度ではそれが困難なのでヒストグラムとして図化したり,分布の特徴を示す値(特性値)を示したりする。
離散尺度の単純集計:度数分布表と棒グラフ・円グラフ
離散尺度ではそれぞれの尺度がどのような頻度で起きたかを表にまとめる。これを度数
分布表という。また,度数を直観的に比較するために棒グラフ,相対度数を表現するためには円グラフを使用する。科学の世界におけるグラフは数値を直観的に理解するための道具であり,数値を正確に表現することが本質であることに注意(ビジネスグラフの流儀を学んではいけない)
次回以降の準備としてソフトウェア(SPSS)の紹介
2010 年に IBM に買収され,IBM SPSS という名前になった.統計処理と多変量解析を行うためのソフトウェアで,SAS と並んで大型計算機時代からの長い歴史を持っている.日本の汎用統計ソフトウェア市場では,一般向けでは SPSS,研究者向けでは R(フリーソフト)がそれぞれ多くの利用者を獲得している。Mac 版,Linux 版もあり。
大学で本数無制限のサイトライセンス契約を結んだので,学生は私物の PC を含めて自由にインストール・使用できる(ただし,起動の際にライセンスサーバへの接続が必要)。最新版は version 25。リモートデスクトップでも使用可。
次回
まだ
2017秋学期 木曜 量的調査法 5週目
前回までのあらすじ
標本の抽出(教科書 5 章)
調査の母集団の決定(p.72 図 5.1)
仮説の真偽を確かめるための調査は誰を対象に行うべきか
母集団-調査テーマに関係する集団全員の集合
前提として明らかにすべきこと-属性,範囲,適用される時間
標本調査の意義
全数調査(悉皆調査)
調査の母集団全員を対象とする調査.例:国勢調査 670 億円(2015 年度単年度で)
極めて基礎的な統計,業務統計(本来は審査や会計事務など別の業務のために集められたデータ)など。または母集団が小規模な場合(標本調査では十分な精度が得られない)欠点:調査が大規模となり費用がかかる(調査費用,分析費用など)
標本調査
調査の母集団中の適当な部分集合(標本-sample)を対象に調査する方法
全体の中からその代表として一部を選んで調査することで,全体の傾向を推定する。
欠点:全体と完全に一致することはない
調査誤差の考え方
調査誤差=標本誤差+非標本誤差
標本誤差:標本と母集団のずれ。無作為抽出においては統計的に管理できる。一般に標本数に関わらず一定割合
非標本誤差:母集団と抽出枠のずれ,調査票の不適切な設計や調査員の誤った指示・態度に由来する誤差,被調査者の誤記や虚偽,メイキング(不正回答),集計段階でのコーディング・転記・集計などのミス。標本数に比例して増大する。
標本調査の意義
1) 全体としての精度を全数調査より高めることができる
2) 少数で良質な調査員を使うことができる
3) 調査全体の管理が容易・費用も安価
4) 調査による社会的な影響を小さく留めることができる
標本調査の種類
標本抽出の妥当性とは:母集団からの代表性,調査誤差の評価可能性
標本抽出の方法:無作為抽出と有意抽出
有意抽出
母集団をよりよく代表すると思われる標本を調査者が意図的に(恣意的に)選び出す方法
典型抽出法(judgmental sampling)
母集団の典型を示すような範囲(集団や地域)を意図的に標本とする方法。
通常は中間的(平均的)な性格の集団(例えば中位所得層や中位年齢層)を選ぶ。
→何が中間的かの判断が必要(判断の正当性が保証されない)
割り当て抽出法(quota sampling)
調査項目と関係が深いと思われる基本属性(性,年齢,居住地域など)ごとに母集団をわけ,その集団ごとに集団の大きさに応じた標本数を割り当てた上で,恣意的に標本を抽出する方法
割り当てなしの完全に恣意的な標本抽出よりも,外形的な母集団への近似性は高まる。
→割り当てに用いる属性の判断が必要
雪だるま式調査(snowball sampling)
少数の調査から開始し,被調査者を情報提供者として,次の被調査者を収集する方法。
社会的に隠れた母集団を対象とした調査などで使用する
→代表性は全く保証されない
無作為抽出(確率的抽出,ランダムサンプリング)
母集団を構成する全ての要素(個人あるいは世帯など)が等しく選ばれる可能性を持つように標本抽出をおこなう方法.母集団に対してどの程度の規模の標本を抽出すれば,どの程度の精度が達成されるかが評価できる。
抽出台帳 (sampling frame)
住民基本台帳,選挙人名簿,国勢調査や事業所調査の調査台帳,電話帳,職員名簿など
・完全性(もれがない,重複がない)
・更新性(対象集団の異動に伴い,リストが更新されること)
単純無作為抽出 p.76
抽出台帳から乱数表などで決められた標本数の標本を抜き出す方法.抽出台帳以外の予備知識の必要がない。
○母数の推定が簡単
×大標本の場合,台帳の調達が困難.抽出作業が煩雑.調査が困難
系統抽出法 p.77
単純無作為抽出の抽出作業の煩雑さを除くために,最初の標本を乱数で選んだ後は,一定間隔で以後の標本を抽出する方法。間隔は任意で良いが,通常は母集団の数を必要標本数で割った値(切り捨てで整数化)を用いる.または近辺の素数。
×台帳が規則的な場合に偏りが生じる可能性。
→標本数が大きい(n>50)とき,経験的に単純無作為抽出と同じ方法で標準誤差を計算して良いとされている。
多段抽出法 p.79
地理的単位(社会的な集団の単位)であらかじめ無作為な抽出をおこない(正確にはその単位の大きさに比例抽出),その地理的な単位の中で単純無作為抽出によって標本を抽出する方法
○抽出台帳の調達,標本抽出の費用,標本の地理的拡散による調査費用の面が大きな負担となるが,軽減する効果がある。
×標本誤差は増える。
→層別抽出法と組み合わせる(一段目の抽出において)ことが多い-層化多段抽出法
→経験的には単純無作為抽出に比べて,2 段で 1.5 から 2 倍,3 段で 2 から 3 倍程度の標本数を確保すれば精度を保てるとされている
層別(層化)抽出法 p.81
標本抽出には一定の標本誤差が必ずあるが,調査テーマに関係する重要な属性は,偏った標本とならないようにあらかじめ母集団を層別に分け,その層ごとに抽出すべき標本数を割り当てることで,標本誤差を減少させる方法。
→割り当て法との違いは,層内の抽出が無作為か恣意的かの違いにある
層別の標本数の割り当て方
比例割当
母集団の各層の大きさに比例するように標本数を配分
→事後の統計処理が簡単.場合によっては加重抽出(ある層だけ多くまたは少なく抽出
する)ことが必要
最適割当(ノイマン割り当て)
各層の大きさとその分散の積に比例するように標本数を配分
[実際の方法]
1. 地点あたりの標本数を決める-10~20 票程度(少ないと精度があがって,効率がさがる),標本数から調査地点数が決まる
2. 町丁字別人口を調べて人口に比例して町丁字を抽出する
3. 市町村役場で住民基本台帳から調査対象者を転記する(ここでは系統抽出する)
集落抽出法
地理的な単位(社会的な集団の単位)を無作為抽出し,それに対して全数調査をおこなう方法
無作為抽出における母集団と標本(p.82)
目標母集団,調査母集団,計画標本,有効標本 標本から母集団の特性値を推定する
標本分布(サンプリング分布 6 章 p.85)
中心極限定理⇒単純無作為抽出で得られた調査結果から推定される平均値(=標本平均
x)は,期待値が母数と一致し,分散は σ2/n の正規分布である.
・母集団の大きさと標本の大きさが共に大きい N>100, n>30 程度
・標本の大きさに比べて母集団の大きさが十分大きい N≫n
標本数の決定(教科書になし)
調査結果として得られる推定値が目的に充分な精度となるように標本数を決めればよい
次回
2017秋学期 金曜 質的調査法 5週目
前回までのあらすじ
今回はもうなんかだめです……
以下メモ書き。
コーディング?
分析の理論について
細かなテクニックやノウハウがあるが、大まかな部分は同じ。こだわらないこと。
得られたデータをまずはよく読む
コードはデータから立ち上げる
カテゴリの関係性についてよく考える
カテゴリの相関図からストーリーを立ち上げる
「捨てる」データは必ず出てきてしまう。
最後に
いい論文を書くためには、そのいい論文の例を知ること(読むこと)
そのうえで、いいところ悪いところ、足りないところを考えること
コーディングしてみる
次回
2017秋学期 月曜 コンピュータシステムとネットワーク 5週目
前回までのあらすじ
何ということでしょう、総合科目のレポートのために3時半まで起きていたはいいけれど、一限にぎりぎり着弾、終わって帰宅したと思ったら3時間以上眠りこけてしまったとさ。
そういうわけで、もう2回目の欠席になってしまいました…ちょっとやばいどころの話じゃないですね……
シラバスを見ると、「コンピュータネットワークとプロトコル」ということで、教科書でいうとなんと6章と7章をすでにやっていることになりそうです……3章以降やった記憶がない……
授業事態を受けていない今回は、教科書を見ながら重要そうな部分をまとめてみていくことにします。
WANとLAN
wide area networkの略でWAN(わん)と呼ぶ。LANとLANをつなぐ広域ネットワークを総称する概念。
local area newtworkの略でLAN(らん)と呼ぶ。大学の学内すべてをつなぐような大規模なものもあれば、一家に一本引いておくような小規模なものもある。
プロトコル
コンピュータ間の通信を円滑にいくようにするために相互間の接続方法を定めたり受け渡し方法をあらかじめ決めておく規約をプロトコル(または通信規約)と呼ぶ。層ごとに分けられており、それぞれが独立しているのが特徴である。階層的な一連の規約をプロトコルスタックという。これらは、国際標準化機構(ISO)によって歴史的に定められている。現在主に利用されているのはOSI参照モデルである。OSI参照モデルは、通信機能を七階層に分け、各層ごとの基本的な役割を定義している。より上位のプロトコルは、隣り合う下位のプロトコルの使い方さえ知っていれば、下層で何が起きていても気にせずに通信できるという特徴がある。
第一層では、物理層と呼ばれ、電気的・機械的なレベルでの接続/伝送方式を定めたものである。ケーブルの材質、コネクタの形状、データと電気の変換方式などがこの層で決められる。
第二層では、データリンク層と呼ばれ、ネットワーク上で直結された機器同士での通信方式について定められている。通信相手との物理的な経路を確保し、通信路を流れるエラーなどの検知をする。スイッチングハブなどの機器がこの層にあたる。
第三層では、ネットワーク層と呼ばれ、接続されているネットワーク同士の通信方式を定めたものである。相手までデータを届ける通信経路の選択や、通信経路内のアドレス管理(ネットワーク上での一意なアドレスの割り当て)を行う。ルータなど。
第四層では、トランスポート層と呼ばれ、データ転送の信頼性を確保するための方式を定めたものである。いわゆる通信方式であり、TCP、UDPなどがある。
第五層では、セッション層と呼ばれ、通信の開始や終了の際に送るデータの形式を規定したモノである。通信プログラム同士の仮想的な通路の確立や開放を行い、論理的な通信路が確立される。
第六層では、プレゼンテーション層と呼ばれ、圧縮文字や文字コードなど。データの表現形式を規定したものである。上下の層とのやり取りがおおい。
第七層では、アプリケーション層と呼ばれ、ネットワーク上のアプリケーションのうち、ユーザが直接操作するインタフェイスとプログラム間での通信方式を定める。
LANとインターネット(基本知識について)
ネットワーキングデバイス リピータ ハブ ブリッジ スイッチ ルータ
力尽きた……テスト勉強の時にでも補足します