講義コード
授業番号
授業科目名統計的自然言語処理
科目名(英題)
講義題目
授業科目区分アドバンス科目
開講年度2009
開講学期後期
曜日時限
必修選択選択
単位数2.0
担当教員冨浦洋一
対象学部等システム情報科学府・情報学専攻
対象学年修士1年 修士2年
開講地区伊都地区
履修条件特になし
授業概要1990年代より,大規模な言語コーパスを用いて,形態素解析/構文解析,各種の知識抽出や分類問題を統計的に行なう研究が盛んに行なわれるようになってきた.本講義では,統計的言語モデルとそのパラメタ推定手法について述べた後,統計的構文解析手法,統計的手法による言語コーパスからの語意知識の抽出,文書分類・言語推定などについて解説する.
全体の教育目標統計的自然言語処理の基礎である統計的言語モデルとそのパラメタ推定法を理解し,自然言語処理の最大の問題である曖昧さの絞り込み手法を学ぶ.また,応用技術として,大量の電子化文書から必要な情報を取り出すための技術について学ぶ.
個別の学習目標(a) 統計的言語モデルとそのパラメタ推定法の理解.特に,不完全な観測データ(統計モデルに観測されない内部状態がある場合の観測データ)からのパラメタ推定法であるEMアルゴリズムを理解する. (b) 構造的な曖昧さを統計的言語モデルに基づいて絞り込む手法を理解する. (c) 単語の出現頻度,単語列の出現頻度,単語の共起頻度といった統計情報を利用した情報抽出技術や分類技術を理解する.
授業計画授業は次の項目で構成する.コマ数は目安であり,授業の進み具合によって適宜調整する.
1. 統計的自然言語処理概要(1コマ)
2. 基礎(1コマ)
  最尤推定量,制約条件下での極値問題の解法(Lagrangeの未定乗数法).
3. 統計的言語モデルとパラメタ推定(3コマ)
  統計的言語モデル:n-gram モデル,HMM,PCFG,最大エントロピーモデルなど.
  パラメタ推定:最尤推定法とEMアルゴリズム.
4. 頻度分布の性質とパラメタ値のスムージング(2コマ)
5. 統計的言語モデルによる構造的曖昧さの絞り込み(3コマ)
6. 選択制約(共起制約)と単語間の意味的類似度(2コマ)
7. 応用技術(2コマ)
  キーワード抽出,要約,文書分類.
キーワード自然言語処理,言語コーパス,統計的言語モデル,曖昧さ解消,文書要約,文書分類
授業の進め方配布資料を中心に授業を行います.課題を提示し,レポートの提出を求めます。
テキスト
参考書
学習相談教員室(場所は授業中に提示する)で学習相談を行います.希望する者は,事前に電子メールで相談希望日時,相談内容を連絡し,予約して下さい.
試験/成績評価の方法等課題レポート(50%)
筆記試験(50%)
その他