自然言語処理(’19)【情報 専門科目】:シラバス概要
■ 講座情報
自然言語処理(’19)
Natural Language Processing ('19)
【主任講師】
黒橋 禎夫(京都大学教授)
【教材・資料】
・インターネット視聴
■ 講義概要
日本語や英語などの自然言語は
人間の知的活動の根幹をささえるメディアである。
自然言語のコンピュータ処理に関する研究・技術分野を
自然言語処理と呼ぶ。
近年のコンピュータおよびコンピュータネットワークの進展とともに
自然言語処理技術は劇的に進展し、ウェブサーチ、対話システム、
機械翻訳などの応用システムが我々の日常に浸透しはじめている。
本講では、その背後にある自然言語処理の仕組み、難しさ、
今後の展開などを解説する。
【授業の目標】
自然言語の性質、自然言語をコンピュータで処理するアルゴリズム、
難しさ等を理解する。
これによって、ウェブサーチや機械翻訳などの自然言語処理の
応用システムを健全に利活用する能力を身につける。
【履修上の留意点】
計算機科学および確率統計の入門的科目を履修していることが望ましい。
【講義項目】
- 第1回 自然言語処理の概要と歴史
- 第2回 文字列・テキスト処理の基礎
- 第3回 系列の解析(1)
- 第4回 コーパスに基づく自然言語処理
- 第5回 系列の解析(2)
- 第6回 意味の解析(1)
- 第7回 構文の解析(1)
- 第8回 構文の解析(2)
- 第9回 意味の解析(2)
- 第10回 文脈の解析
- 第11回 情報抽出と知識獲得
- 第12回 情報検索
- 第13回 対話システム
- 第14回 機械翻訳
- 第15回 まとめ
■ 講義内容
各講義回の概要とキーワード
第1回 自然言語処理の概要と歴史
まず、言語の働きと特徴を整理する。
次に、自然言語をコンピュータで扱うことの難しさをまとめ、
自然言語処理の基本問題、
応用システムの概要を本講の構成とともに説明する。
また、自然言語処理の歴史を概観する。
■ 【キーワード】
自然言語、言語の働き、自然言語処理の難しさ、自然言語処理の歴史
第2回 文字列・テキスト処理の基礎
コンピュータで自然言語を扱う上での基礎的事項として、
文字コードのきまり、文字列の辞書式順序、
文字列の探索の基本アルゴリズムなどを解説する。
■ 【キーワード】
文字コード、辞書式順序、ハッシュ法、トライ法
第3回 系列の解析(1)
文を単語に分割し、各単語の品詞、
活用形などを求める形態素解析の方法を解説する。
ラティス構造による文の分割結果からビタビアルゴリズムにより
解を求める方法、また日本語解析において重要となる
未知語の処理について説明する。
■ 【キーワード】
形態素解析、ラティス構造、ビタビアルゴリズム、未知語処理
第4回 コーパスに基づく自然言語処理
近年の自然言語処理の発展は、文書を大規模に収集し、
さらにそこに言語的解釈を与えたコーパスの活用によるところが大きい。
コーパス構築の概要と意義、コーパス活用事例として言語モデル、
さらに、分類問題としての自然言語処理の導入を行う。
■ 【キーワード】
生コーパス、注釈付与コーパス、言語モデル、分類問題
第5回 系列の解析(2)
隠れマルコフモデル(HMM)による品詞タグ付け、
さらに、機械学習に基づく系列ラベリングとしての品詞タグ付け、
固有表現認識について説明する。
■ 【キーワード】
隠れマルコフモデル(HMM)、品詞タグ付け、系列ラベリング、CRF、
固有表現認識
第6回 意味の解析(1)
語の意味をどのように定義するか、
また、辞書やシソーラスにおける意味の定義について説明する。
さらに、同義性、多義性の問題を整理し、
大規模コーパス中の共起をもとに計算する分布類似度、
および語義曖昧性解消について説明する。
■ 【キーワード】
内包的定義、外延的定義、メタファー、メトニミー、辞書、
シソーラス、同義性、分布類似度、多義性、語義曖昧性解消
第7回 構文の解析(1)
文は一次元の語の並びであるが、その中には構文、
すなわち語の結びつきの構造がある。
その表現形式である依存構造表現と句構造表現、
また、構文のコンピュータ処理の基礎となる
文脈自由文法および代表的な構文解析法であるCKY法を解説する。
■ 【キーワード】
依存構造表現、句構造表現、文脈自由文法、CKY法
第8回 構文の解析(2)
自然言語の文には多くの場合、構文的曖昧性がある。
構文的曖昧性の解消の手がかりを整理した後、
機械学習に基づく構文解析の代表的な手法である
グラフに基づく依存構造解析について、non-projectiveの場合、
projectiveの場合のアルゴリズムを説明する。
■ 【キーワード】
構文的曖昧性、グラフ表現に基づく依存構造解析、
Chu-Liu-Edmonds法、MSTParser
第9回 意味の解析(2)
文の意味表現として、述語を中心とした述語項構造を考え、
述語と項の関係として格や意味役割を考える。
英語の注釈付与コーパスに基づく意味役割付与、
また、日本語の大規模コーパスからの格フレーム構築と
これに基づく格解析について解説する。
■ 【キーワード】
述語項構造、格、意味役割、意味役割付与、格フレーム、格解析
第10回 文脈の解析
あるまとまった情報や意図は文章として表現される。
文章には、語句の間の照応関係や節・文の間の談話関係など、
さまざまなつながりが存在する。
これらの関係を明らかにする文脈解析について解説する。
■ 【キーワード】
結束性、一貫性、共参照、照応、ゼロ照応、談話構造、RST
第11回 情報抽出と知識獲得
テキストからの情報抽出および知識獲得について説明する。
情報抽出では主に固有名に関連する属性や、
特定のイベントの主要な項目を発見する手法を説明する。
知識獲得については、事態の間の関係の獲得と、
それをまとめたスクリプトの構築について述べる。
■ 【キーワード】
関係抽出、イベント情報抽出、事態間関係、スクリプト
第12回 情報検索
情報検索の基礎である転置インデックス、語の重要度の計算、
情報検索の評価尺度について解説する。
また、ウェブ検索におけるページの重要度尺度である
ページランクを紹介する。
■ 【キーワード】
転置インデックス、TF-IDF法、適合率、再現率、
F値、MAP、ページランク
第13回 対話システム
音声認識・合成技術の成熟、自然言語処理技術の向上、
携帯端末などの普及により、
人間と自由に対話することができる対話システムが
身近なものとなってきた。
発話の意味、質問に対する応答、
現在の音声対話システムの仕組みなどを解説する。
■ 【キーワード】
ELIZA、SHRDLU、発話の意味、会話の公理、質問応答、
音声対話、チューリングテスト
第14回 機械翻訳
ウェブの出現やグローバル化の進展にともない
機械翻訳への期待がますます高まっている。
近年の、コーパスに基づく機械翻訳の進展、
統計的機械翻訳とニューラル機械翻訳、
機械翻訳の評価尺度について解説する。
■ 【キーワード】
統計的機械翻訳、IBMモデル、単語アライメント、
RNN言語モデル、ニューラル機械翻訳、BLEU
第15回 まとめ
本講のまとめとして、
これまでに説明してきた自然言語処理の基本解析のまとめと
問題点の整理を行い、今後の改善について議論する。
さらに、自然言語処理の応用システムの発展の方向性を展望する。
■ 【キーワード】
クラウドソーシング、テキスト含意認識、end-to-end学習、言語生成