2017秋学期 金曜 自然言語解析基礎 4週目
資料配布
http://cu.slis.tsukuba.ac.jp/class/nla2017/
u:nla2017,p:図書館情報メディア研究科2017
授業の「翌日に」内容をまとめたスライドを配布
授業はメモを取り、あとで復習すること
前回までのあらすじ
今回のテーマ: 形式文法
形式文法とは、形式的に与えられた(形式体系を参照)文法である。
「言語」をその言語における文の集合として与えるものとして、ここでは、(有限の)文字群上の有限長の文字列の(通常無限な)集合が、形式的に記述される。
形式文法にはふたつの捉えかたがある。それは「生成」と「分析」である。#チョムスキー階層の節および単独記事に詳細があるが、両者は対応するので、ある意味では同じものをそれぞれ逆の側から見たものにすぎない。
分析的文法においては、 解析対象の言語を形式的に定義し、そこから動作可能な構文解析器を生成することが目標である。自然言語についても計算言語学や自然言語処理などで必要であり、研究されている。
句構造規則
句構造規則とは、統語論において、文の構成素構造を産み出す規則のことである。1950年代にノーム・チョムスキーによって提唱された。自然言語の文を構成素に分解し、隣接する語句同士の意味的および機能的関係(句構造)を表そうとする方法論である。
句構造規則を補佐する形で変形生成文法が発展し、句構造規則そのものはXバー理論に発展した。(※変形生成文法は形式文法において、「生成」にあたるので割愛)
Xバー理論
Xバー理論とは、言語学において、全ての自然言語に共通する統語論的要素を識別しようとする理論である。Xバー式型(X-bar schema)と呼ばれる構文木を用い、あらゆる自然言語のあらゆる句を XP という構図、およびその組み合わせで示すことができるとする。1970年にノーム・チョムスキーが提唱し、レイ・ジャッケンドフがさらに発展させた。なお、Xバー理論は、あくまでも句構造文法という枠内における理論で、依存文法には適用されない。
チョムスキーらが1965年に想定した枠組みを元にして、世界の全言語における全種の句(名詞句・動詞句など)は普遍的な構造を持っているという理論である。
構文木
構文木とは、構文解析の経過や結果(またはそれら両方)を木構造で表したもの。
※構文木は、リンク先に例として画像があるので参照のこと
あいまいな文法
曖昧な文法というものがある。計算機科学において、形式文法が曖昧な文法(英: Ambiguous grammar)であるとは、文字列の解釈が複数存在することを意味する(すなわち、構文木が複数対応する)。
"言語が「本質的に曖昧」である"とは、その言語が曖昧な文法でしか生成できないことを意味する。
ある文法が曖昧かどうかという問題は一般に判定不能である。文法の曖昧性を判定できるアルゴリズムは存在しない。(このあたりの問題を深層学習が解決するかもしれない)
本日のお品書き
- 形式文法
- 文脈自由文法
- 文脈依存文法
1.形式文法
文法とは;三歳くらいまでに教育の力なしでマスターした母語話者の言語知識
構文とは;文法により単語の組み合わせ、関係を導出
形態素列を入力とし、構文構造を出力:木構造で表現
ノーム・チョムスキー:言語学(+計算機科学)の研究者/哲学者
- 普遍文法(言語に依存しない文法)
普遍的な原理+言語に依存したパラメタ
※パラメタにより、孤立言語・膠着語・屈折言語・SOV言語・SVO言語など決定 - チョムスキー階層
言語の生成規則を4種類に分類し、その違いにより言語別の生成能力の違いを説明
→ コンパイラの解析に応用
文法の構成要素
文に現れる単語のグループは、ある基本単位(構成要素)として同じようにふるまう(?)
ex.名詞句は動詞の前に先行できる…(?)
形態素の集合を正しく組み合わせる規則は明らかでなく難しい → 様々な理論が発生
2.文脈自由文法
※句構造文法(より広い概念)、BNF記法(表記法)としても知られる
以下から構成される
- 終端記号: 形態素(単語)
- 非終端記号: 名詞句、動詞句、文、名詞、動詞など文法の構成要素
- 文法規則: 一つの非終端記号を左辺に置き、
右辺の複数の終端または非終端記号に変換
決定詞(冠詞、指示詞)と複合名詞=>名詞句を形成
固有名詞=>単独で名詞句を形成 など
BNF記法(終端記号の表し方)
<記号>::=<記号>“終端記号”
チョムスキー階層
※下に行くほど能力が小さい
- 0型文法
α=>β α,βは記号列(終端の区別せず) - 文脈依存文法
α=>β |α|<|β| - 文脈自由文法
A => B - 正規文法
3.文脈依存文法
no data(Ne teta)
中間テストにあたって
コスト最小法の理解
正しい品詞が選択される根拠の理解
用語説明:隠れマルコフモデル
用語説明:Nグラム、パープレキシティ、スムージング、ニューラル言語モデル
以上の項目について確認してくるように
なお、次回の授業は11/01(水)です(金曜時程に変更されている)
次回
まだ