自然言語処理の利用技術と基礎知識

Pocket

これから、自然言語処理について勉強して、まとめていきます。
まずは、この本を読んで概要をざっくり理解

自然言語とは何か?

自然言語
* 私たちが日常書いたり喋ったりしている日本語や英語などの言語
* コンピュータによって使われる言語と対になる言語
* 特徴:曖昧性→単語や句、文などの構造や意味の解釈が複数考えられる状況があり「はっきりと決まらない」

コンピュータ言語・形式言語
* コンピュータによって使われる言語
* HTMLやXMLといった マークアップ言語 や、CやJava、Python といった プログラミング言語 など

自然言語処理の利用技術

機械翻訳
* ある言語の文章を別の言語の文章に自動的に翻訳する処理
* 「英語とスペイン語」のように、語順が比較的近く、言語分類学(類型論)的にも類似している言語の翻訳であれば、機械翻訳はほぼ実用レベルに達しているが、多くの場合は外国語で書かれた文章を自分の理解できる言語へと翻訳し、その大意を確認するために使われている


検索エンジン
* 検索:クエリ(検索要求とも呼ばれるキーワード)を入力し、クエリに適合する何らかのモノをDBから取り出す
* ページランク機能スペル訂正クエリ提示(サジェスチョンとも呼ばれる)、検索結果の工夫(同じサイトのページをまとめたり、クエリに応じて付加情報を表示したりする)など、「文書を取ってくる」という基本機能以外にも様々な付加機能あり
* 音声検索:ユーザーの声を認識し、それをクエリ(キーワード)に変換するという音声認識 のステップを経て、テキスト検索が実行される

対話システム
* コンピュータがユーザーの発話を音声認識し、形態素解析などの「浅い」言語処理を経て、構文解析、意味解析と「深い」解析をした後、対話の意図理解、処理に入り、さらに逆のプロセスによって、応答を生成した上で音声合成により音声へと変換される
→かなり複雑な一連の処理を行っている
対話システム


音声認識
* 人の話す言語をコンピュータによって解析し、文字や文章などの書かれた言葉に変換する技術
音声認識システム
* どのような音素がどのような音(周波数成分)と対応しているかを規定する音響モデルと、どのような音素の並びが言語として自然かというのを規定する言語モデルからなる

自然言語処理の基礎知識(必要なツール)

自然言語処理では、コーパスや辞書、テキストマイニング、形態素解析、構造解析などを使って、知識を獲得し、情報を抽出する

1)言語資源
コーパス:言語に関する知識や言語現象を記録・蓄積した文書集合のこと

2)知識獲得
自然言語のそのままでは、コンピュータにとって単なる文字列に過ぎない情報を、処理することで、コンピュータにとって有益な知識の状態にすること

語彙の知識
語彙の知識
句や文など、単語よりも大きな単位の関係性に関する知識の獲得

分布類似度
* 「意味の類似している語は、使われる文脈も類似している」という仮説(分布仮説)に基づいて、文脈の似ている単語は意味も類似しているとし、同義語や類義語を獲得する考え方


3)情報抽出
自然言語から構造化された情報を抽出する技術

(例)イベント情報抽出
* 自然言語から、ある出来事の参加者や時間などを抽出
* ある出来事を表すパターンは無数にあり、それらをすべて網羅することは難しい。機械学習による手法も試されているが、高い精度で出来事を抽出するのは、難しいタスクとなっている
情報抽出

4)テキストマイニング
* 確率・統計的な手法を用いて大量のテキストから有用な情報を引き出す技術の総称
* 言語自体の処理よりも「役に立つ情報を引き出すこと」に重点が置かれている
テキストマイニング

5)形態素解析
言語を構成する最小単位である「単語」を切り出す技術
* 単語分割
* 品詞付与:文中の単語が、名詞か動詞かといった品詞を分類する処理

MeCab
* 精度の高い形態素解析ソフトウェア。ただし万能ではない。
* 新しい言葉や人名など、珍しい単語をうまく処理できない。新しい言葉や人名などの「未知語」は辞書に登録されていないため、MeCabが正しく認識できないから
* MeCab用のIPA辞書は新聞記事を基準に編集されているため、くだけた表現に弱いという欠点あり


6)構造解析
コンピュータで文の構造を扱うための技術
係り受け解析・句構造解析など

係り受け構造
* 「文中の単語が互いにどのような関係になっているか」に着目し、矢印を使って単語間の関係を表す
* ラベルなし係り受け:矢印だけで示す
* ラベルあり係り受け:矢印に付与するラベルが矢印でつながる単語間の関係を示す。表層格と深層格がある
係り受け構造

係り受け解析
* 係り受け構造を文に自動的に付与する技術
* Shift-reduce法と、MST法

①shift-reduce法
* メリット:解析のスピードが早い。効率的に解析できる
* デメリット:他の手法に比べて、精度はやや劣る
* 係り受け解析ソフト:(日本語)CaboCha、(英語)MaltParser
shift-reduce1
shift-reduce2

② 最小全域木に基づく係り受け解析(MST〈Minimum Spanning Tree〉法
* 文中の単語の組を列挙し、各組に係り受け関係がある確率を機械学習に基づいて計算。そして、文全体を解析するため、各組の関係と確率を1つのグラフ構造に表、その中で最適な木を探し出す
* shift-reduce 法より多少精度が高いが、処理に要する時間も長いという欠点あり
* 係り受け解析ソフト:(日本語)Eda、(英語)MSTParser
MST

句構造解析
* 単語列からなる句に着目して文の構造を解析

Pocket