2017秋学期 金曜 自然言語解析基礎 1週目
【重要な連絡】次回までの課題
1.自然言語処理ツールのうちの1つを触った感想を送る
2.言語処理学会のページにアクセスし、NLPの研究動向をまとめる
PDF / MSword 1ページ程度
メールにベタがきはダメ!
宛先 mail: yohei@slis.tsukuba.ac.jp
サブジェクト: nla2017-kadai1006
〆切 10/12
資料配布
http://cu.slis.tsukuba.ac.jp/class/nla2017/
u:nla2017,p:図書館情報メディア研究科2017
授業の「翌日に」内容をまとめたスライドを配布
授業はメモを取り、あとで復習すること
授業概要
人間の日常言語の内容を計算機で解析する自然言語解析は、機械翻訳、Web 検索、対話システム、質問応答、音声認識、仮名漢字変換などで実用的な成果をあげている。本講義は、自然言語処理の概要、形態素解析、言語モデル、構文解析、意味解析など自然言語解析の基礎理論を幅広く講義する。
※出席確認は毎回授業後の課題を出すことで行う
目標
自然言語解析とは何であるかを理解する。
自然言語解析の基礎理論とモデルについて理解する。
成績評価
評価= (中間試験+期末試験)/2
欠席が4回以上→不可
中間試験or期末試験の未受験→不可
スケジュール
中間試験 11/01,75分,3限
(水曜日なので気をつける)
期末試験 12/22,75分,3限
1.形態素解析 10/13
コスト最小法に基づく日本語の形態素解析や隠れマルコフモデルに基づく英語の
品詞タグ付けについて
2.統計言語モデル 10/20
N-グラムモデルを用いた単語の予測技術について
3.形式文法 10/27
文脈自由文法について
(中間試験) 11/01
4.構文解析 11/17
アーリー法,CKY 法などの構文解析手法について
5.意味解析 12/01
確率文脈自由文法を用いた構文のあいまい性解消について
6.機械学習と自然言語処理の応用 12/08
シソーラスやを用いた語義の類似時計算や, 語義のあいまい性の解消技術について
7.自然言語処理とソーシャルメディア 12/15
ナイーブベイズ,SVM, 決定木によるテキスト分類や,CRF を
用いた情報抽出について
(期末試験) 12/22
参考書
自然言語処理とは?
位置づけ
人が言葉を理解するようにコンピュータが言葉を理解するには?を科学する
自然言語処理,NLP,情報科学の一分野
コンピュータ上で自然言語を処理し、機械翻訳や対話システムの実現を目指す
海外では、計算言語学 言語工学と近い分野を指す
目標
機械翻訳・対話インターフェース・検索エンジン等で用いられている基礎技術を理解
内容
形態素解析、統計的言語モデル、形式文法、構文解析の仕組みを理解する
意味解析、機械学習、応用事例と基礎技術との関係を掴む
自然言語とは?
人工言語との対比であり,自然発生的に話されるようになった言語
ex.プログラミング言語
自然言語処理におけるタスク
1.自然言語のテキストをコンピュータが意味解釈する
2.コンピュータが自然言語を自動生成
方向が逆ではあるが技術的には同じ!
→機械翻訳は上記の2つの融合
HOTな話題がある?
・ソーシャルメディアを通じたbigdataを扱うように
・対話エージェントの利用機会が増加
言語処理の理解に必要な知識
・単語の判別(形態素解析)
・意味の識別(コンテクスト理解)
・照応関係の解析(指示語や主語の補足)
ex.「泳げない」→誰が?(ゼロ代名詞照応)
・含意関係
自然言語処理の課題
・表記の曖昧性問題の解決(表記揺れ)
・単語区切りの曖昧性
・品詞の曖昧性
・語義の曖昧性
・構文の曖昧性
・文章全体の意味の曖昧性
モデルとアルゴリズム
・有限状態機械(オートマトン)
品詞を状態とするマルコフモデル
状態の探索、学習など
・文脈自由文法
構文と文法規則と辞書規則
・構文解析木
・機械学習によるクラスタリング
自然言語処理の歴史
1940〜
シャノン オートマトンとコード化
チョムスキー 形式言語と文脈自由文法
1957〜1970
記号論と確率論の対立
→1956:人工知能の概念が提唱
1970〜1983
記号処理の発展
・論理モデル
・自然言語理解(?)
・談話焦点、対話モデル
1983〜1999
確率論への回帰と発展
・有限オートマトンによる形態素解析
・経験主義的アプローチによる品詞のタグ付け
・言語データを利用した確率アプローチ
2000〜
機械学習から実用タスクへ
・大規模コーパスを利用した教師あり学習
・最近は、コストの点から、
教師なし学習および強化学習が発展
・統計的機械学習
自然言語処理の学会
・ACL がトップ
自然言語処理ツール
- mecab
- juman++