気合でなんとか

@Ningensei848が頑張った記録

2017秋学期 金曜 自然言語解析基礎 2週目

資料配布

http://cu.slis.tsukuba.ac.jp/class/nla2017/
u:nla2017,p:図書館情報メディア研究科2017
授業の「翌日に」内容をまとめたスライドを配布
授業はメモを取り、あとで復習すること

 

 

前回までのあらすじ

ningensei848.hatenablog.com

 

 

レポートを書いた

1.自然言語処理ツールのうちの1つを触った感想を送る

 

 “MeCabを「Windows10;Python3.5(64bit)」に入れる”

( https://qiita.com/o__mura/items/31fb75df6183199e95b6 ) を参考にして自分のPCにも入れてみようと思ったが、環境構築で敗走した。

"C:\Program Files (x86)\Microsoft Visual Studio 14.0\VC に移動"すればいいらしいのだが、残念ながらVS2017をインストールしただけではできなかった。(コンパイルの概念がklisにとって理解が難しいというのもあったかもしれない…)どうやらコマンドラインから、"vcvarsall.bat を実行して 64 ビット ツールセットを使用"すればいいらしいのだが、私の場合は「C:\Program Files (x86)」以下に\Microsoft Visual Studio しかなく(ver.情報がなかった)、今日は諦めてまた今度の機会に改めることにした。次の授業までには設定を終えたいところだ。

 配布元( http://taku910.github.io/mecab/#download )の説明を見る限り、形態素解析の雰囲気はなんとなくわかったように思える。とりあえず網羅的に分割していって、品詞を順に並べておかしくなければ正解とする…のような(意味が通ったらそれがエエやろ!という)

 

2.言語処理学会のページにアクセスし、NLPの研究動向をまとめる

 "音韻論, 形態論, …計算辞書学, ターミノロジー,…言語処理アルゴリズム,…機械翻訳, 情報検索…etc" というような分野に絞って学会活動を行うことはわかったが、近年の研究動向までは、HPだけではわからなかった。

 「自然言語処理 研究動向」でgoogle検索して出てきた結果を見た。殆どが人工知能や深層学習といった言葉が躍っている。少し考えればわかることであるが、膨大なデータを扱うためにコンピュータに計算をさせようというのは当然のことであり、近年著しい成長を遂げている機械学習・深層学習分野での応用をNLPに持ち込まないわけがないのであった。よって、近年の自然言語処理の研究動向としては、深層学習を用いたモデルが主流になっているようだ。

自然言語処理の重要性は何だろうかと考えた。それは、今後も膨大にあふれてくるデータを処理し加工し利用するための基礎の基礎の技術を支えることである。ディープラーニングと画像処理の発展により、物体認識で画像の名称・説明記述が出来るようになったり、AIが小説を生成するようになったり、waveNETはほぼ人が実際に話しているのと変わりないレベルでの音声生成を可能にした。現時点でもすごい業績が発表され続けているが、これはまだ序章に過ぎない。次なる分野は、AIとの共生というかコミュニケーションをもとにした字生活の改善である。人と人でしかなしえなかったコミュニケーション(≒対話)が、人と人工知能によって行われ、それがまたコミュニケーションを円滑にしていくためのデータとなる。俗にいう、強いAIも、自然言語処理の分野が発展し成熟していくとともに実現に近づけると思う。当然のことながら、逆説的に自然言語処理の分野が未発達ならば、そこにあるはずのデータをみすみす取り逃し、発展の機会も得られないということになる。いつの日か、デジタルネイチャーではないけれど、人と機械(≒人工知能,士郎正宗に言わせれば、“ghost”だが)が渾然一体となるときが来るのだろうが、来るその時のために、NLPの技術は必要不可欠であると考える。

 

形態素morpheme…意味を持つ言語の最小単位

自然言語の階層構造

・音素phoneme
形態素
・単語word
・文sentence
・文章/テキストtext

形態素解析

意味を持つ最小の言語単位を判別する
形態素の定義・難易度は言語に依存
英語の場合
・語基と接辞に分類→形態素の数、性、時制、人称、格などの決定
・各単語の品詞を分別(ここが難しい、多義語の判別)

日本語の形態素解析

・単語を区切る空白が存在しない
形態素の分割と同時に品詞を割り振る必要がある

日本語の場合の古典的方法…初期のJumanなど
・単語辞書と二単語間の「連接可能性辞書」を準備する
形態素解析をやるにあたって、辞書を作るというのは大切なこと)

 

 

ラティス構造を作りながら正解に迫っていく?

 

 

 

次回

ningensei848.hatenablog.com