1. 音声生成 |
1.1 音声生成過程の観測 2 |
1.1.1 調音観測技術 2 |
1.1.2 音声生成にかかわる脳機能 10 |
1.2 声道音響モデル 13 |
1.2.1 声道音響理論 13 |
1.2.2 子音生成モデル 17 |
1.2.3 3次元声道音響モデル 18 |
1.3 調音モデル 20 |
1.3.1 幾何学的調音モデル 21 |
1.3.2 主成分調音モデル 21 |
1.3.3 生理的調音モデル 23 |
1.3.4 機械的調音モデル 25 |
1.4 調音運動軌道生成モデル 28 |
1.4.1 ターゲットモデル 29 |
1.4.2 タスクダイナミックモデル 30 |
1.4.3 音響タスクモデル 32 |
1.5 音声からの調音運動の推定 32 |
1.5.1 調音パラメータ推定における解の非一意性 33 |
1.5.2 声道断面積関数の推定 34 |
1.5.3 調音パラメータの推定 36 |
1.6 まとめ 39 |
2. 音声符号化 |
2.1 音声符号化の流れ 41 |
2.1.1 アナログからディジタルへ 41 |
2.1.2 音声符号化で考慮すべき項目 42 |
2.2 波形符号化技術 45 |
2.2.1 波形符号化の流れ 45 |
2.2.2 波形符号化の例 47 |
2.3 ボコーダ技術 48 |
2.3.1 ボコーダの始まり 48 |
2.3.2 音声の線形予測符号化とスペクトル推定 48 |
2.3.3 ボコーダの展開 49 |
2.3.4 極低ビットレート符号化 51 |
2.4 ハイブリッド符号化 52 |
2.4.1 CELP音声符号化技術 52 |
2.4.2 CELPの雑音符号帳の構成 55 |
2.4.3 CELP系符号化の標準化技術 58 |
2.5 MPEGのオーディオ符号化 61 |
2.6 これからの音声符号化の流れ 61 |
2.6.1 高品質化 61 |
2.6.2 高機能化 63 |
2.7 まとめ 64 |
3. 音声合成 |
3.1 音声合成の始まりからテキストからの音声合成まで 65 |
3.1.1 音声合成の始まり 65 |
3.1.2 分析合成 68 |
3.1.3 規則合成 69 |
3.1.4 テキストからの音声合成 73 |
3.2 高品質化に向けた展開 79 |
3.2.1 学習による音声合成単位生成 79 |
3.2.2 統計的手法による韻律制御 85 |
3.2.3 コーパスベース音声合成 89 |
3.3 多様化に向けた展開 94 |
3.3.1 発話様式の分析と変換 94 |
3.3.2 対話音声の合成 96 |
3.3.3 声質変換 98 |
3.3.4 音声多様表現のツール 101 |
3.4 音声合成のアプリケーション 104 |
3.4.1 文章校正・入力確認 105 |
3.4.2 電話予約 105 |
3.4.3 音声対話 106 |
3.4.4 福祉 106 |
3.4.5 CAI 107 |
3.5 まとめ 109 |
4. 音声認識 |
4.1 統計的音響モデル 113 |
4.1.1 DTWからHMMへ 113 |
4.1.2 HMMの利点 115 |
4.2 HMMのモデル構造の進展 117 |
4.2.1 出力確率分布表現の向上 117 |
4.2.2 時間構造の表現方法の向上 118 |
4.2.3 モデル構造の共有化 120 |
4.3 HMMパラメータ推定の進展 124 |
4.3.1 最尤学習 124 |
4.3.2 識別学習 126 |
4.3.3 ベイズ学習 130 |
4.3.4 適応学習 132 |
4.4 ハイブリッドアプローチ 135 |
4.4.1 初期のアプローチ 136 |
4.4.2 タンデムアプローチ 137 |
4.4.3 動的特徴量・長時間特徴量 141 |
4.5 実環境における音声認識 143 |
4.5.1 雑音に強い特徴量・距離尺度 143 |
4.5.2 スペクトルサブトラクション 144 |
4.5.3 HMMの合成・分解 145 |
4.5.4 マルチストリームアプローチ 146 |
4.5.5 音声強調 149 |
4.5.6 雑音下音声認識のための共通コーパス 150 |
4.6 大語彙連続音声認識 151 |
4.6.1 連続音声認識アルゴリズム 151 |
4.6.2 統計的言語モデル 155 |
4.6.3 DARPAにおける音声認識の歴史 159 |
4.6.4 日本語大語彙連続音声認識 163 |
4.7 字幕放送への応用 166 |
4.7.1 字幕制作のための音声認識 166 |
4.7.2 認識方式とモデルの学習 169 |
4.7.3 発話検出と男女並列音声認識 170 |
4.7.4 逐次早期確定 172 |
4.8 まとめ 173 |
5. 音声対話システム |
5.1 対話の意味理解と応答・進行の自然性 175 |
5.1.1 状態遷移に応じた音声理解と対話進行 176 |
5.1.2 深層的な意図を理解した対話進行 177 |
5.1.3 ユーザの自由な発話を許す対話進行 180 |
5.1.4 リスク最小化に基づく効率的な対話進行 181 |
5.1.5 確率モデルによる対話進行 182 |
5.2 会話のリズム 183 |
5.2.1 会話のリズムとターンテーキングの数理モデル 184 |
5.2.2 発話内容の動的制御 186 |
5.2.3 韻律情報の分析方法 190 |
5.3 ロボットによるマルチモーダル会話 191 |
5.3.1 初期の会話ロボット 193 |
5.3.2 パラ言語を表出する会話ロボット 195 |
5.3.3 パラ言語を理解する会話ロボット 198 |
5.3.4 グループ会話 200 |
5.4 まとめ 204 |
6. 言語処理・機械翻訳 |
6.1 言語処理へのアプローチ 206 |
6.2 言語処理システムと言語処理技術・言語知識 207 |
6.2.1 言語処理システムの構成(機械翻訳を例に) 207 |
6.2.2 言語解析技術 210 |
6.2.3 機械翻訳技術 220 |
6.2.4 言語知識の獲得・構築の方法論 224 |
6.3 音声翻訳 229 |
6.3.1 音声翻訳研究のためのコーパス 229 |
6.3.2 機械翻訳の評価指標と音声翻訳への適用 231 |
6.3.3 音声翻訳の現状 234 |
6.3.4 音声翻訳の今後 235 |
6.4 まとめ 236 |
7. 情報アクセス |
7.1 情報探索行動と情報アクセス技術 240 |
7.2 テキスト情報アクセス 244 |
7.2.1 テキスト情報検索 244 |
7.2.2 Web検索 249 |
7.2.3 質問応答 252 |
7.2.4 評価・評判情報へのアクセス 255 |
7.3 マルチメディア情報アクセス 256 |
7.3.1 マルチメディア情報アクセスの課題 256 |
7.3.2 音声認識を利用した映像インデクシング 259 |
7.3.3 視覚的特徴を利用した映像インデクシング 262 |
7.3.4 メタデータ制作・活用システム 264 |
7.3.5 今後の展開 265 |
7.4 まとめ 266 |
8. 展望 |
8.1 統計的アプローチと音声基礎科学 267 |
8.2 総合的音声応用システム開発技術 268 |
8.3 音声言語処理の部品化とアーキテクチャ 269 |
8.4 ユーザエクスペリエンス 271 |
8.5 まとめ 272 |
引用・参考文献 273 |
索引 302 |