上 |
訳者まえがき iii |
日本語訳へのまえがき vi |
まえがき viii |
第1章 音声認識の基礎 1 |
1.1 序論 1 |
1.2 音声認識のパラダイス 3 |
1.3 本書の概要 4 |
1.4 音声認識研究の簡単な歴史 7 |
第2章 音声信号とは:生成、知覚、音響音声学的特徴 16 |
2.1 序論 16 |
2.1.1 人間の音声生成と知覚の過程 16 |
2.2 音声生成過程 19 |
2.3 時間領域および周波数領域における音声の表現 23 |
2.4 音声とその特徴 29 |
2.4.1 母音 31 |
2.4.2 二重母音 36 |
2.4.3 半母音 38 |
2.4.4 鼻子音 38 |
2.4.5 無声摩擦音 40 |
2.4.6 有声摩擦音 41 |
2.4.7 有声破裂音と無声破裂音 43 |
2.4.8 練習問題 45 |
2.5 機械による自動音声認識へのアプローチ 51 |
2.5.1 音響音声学的アプローチ 55 |
2.5.2 音声認識への統計的パターン認識からのアプローチ 62 |
2.5.3 音声認識への人工知能からのアプローチ 64 |
2.5.4 ニューラルネットと音声認識への応用 68 |
2.6 まとめ 81 |
第3章 音声認識のための信号処理と分析の手法 85 |
3.1 序論 85 |
3.1.1 スペクトル分析モデル 86 |
3.2 フィルタバンクフロントエンド処理系 89 |
3.2.1 音声認識に用いられるフィルタバンクの種々の型 94 |
3.2.2 フィルタバンクの実現型 97 |
3.2.3 音声認識用フィルタバンクについての考察のまとめ 112 |
3.2.4 音声認識用フィルタバンクの実用例 114 |
3.2.5 フィルタバンク分析器の一般化 117 |
3.3 音声認識のための線形予測符号化モデル 120 |
3.3.1 LPCモデル 121 |
3.3.2 LPC分析方程式 122 |
3.3.3 自己相関法 (Autocorrelation Method) 125 |
3.3.4 共分散法 (Covariance Method) 128 |
3.3.5 練習問題 130 |
3.3.6 LPC分析の例 130 |
3.3.7 音声認識のためのLPC分析系 134 |
3.3.8 練習問題 142 |
3.3.9 典型的なLPC分析パラメータ 147 |
3.4 ベクトル量子化 148 |
3.4.1 ベクトル量子化の実現上の要点 150 |
3.4.2 VQ学習セット 151 |
3.4.3 類似度あるいは距離尺度 152 |
3.4.4 学習データのクラスタリング 152 |
3.4.5 ベクトル識別の手順 156 |
3.4.6 ベクトル量子化とスカラー量子化の比較 157 |
3.4.7 ベクトル量子化の拡張 158 |
3.4.8 VQ法の要約 160 |
3.5 聴覚に基づくスペクトル分析法 160 |
3.5.1 EIHモデル 162 |
3.6 まとめ 168 |
第4章 パターン比較技術 171 |
4.1 序論 171 |
4.2 音声(端点)検出 174 |
4.3 歪み尺度-数学的検討 181 |
4.4 歪み尺度-聴覚的検討 183 |
4.5 スペクトル歪み尺度 188 |
4.5.1 対数スペクトル距離 193 |
4.5.2 ケプストラム距離 198 |
4.5.3 重みつきケプストラム距離とリフタリング 203 |
4.5.4 尤度歪み 208 |
4.5.5 種々の尤度歪み 215 |
4.5.6 伸縮周波数スケールを用いたスペクトル歪み 222 |
4.5.7 その他のスペクトル表現と歪み尺度 230 |
4.5.8 歪み尺度の要約-計算量の検討 234 |
4.6 歪み尺度への動的スペクトル特徴量の導入 236 |
4.7 時間的整合と正規化 242 |
4.7.1 動的計画法-基本的考察 246 |
4.7.2 時間正規化における制約 250 |
4.7.3 動的時間伸縮(dynamic time warping;DTW)による解法 266 |
4.7.4 動的時間伸縮に関するその他の考察 275 |
4.7.5 複数の時間的整合パス 278 |
4.8 まとめ 287 |
索引 293 |
下 |
第5章 認識システム設計法と実現法に関する問題 1 |
5.1 序論 1 |
5.2 信号源符号化技術の認識への応用 3 |
5.2.1 ベクトル量子化と時間的整合のないパターン比較 4 |
5.2.2 VQ符号帳設計のためのセントロイド計算 7 |
5.2.3 メモリを用いるベクトル量子化器 15 |
5.2.4 区分的ベクトル量子化 18 |
5.2.5 認識プリプロセッサとしてのベクトル量子化器の利用 19 |
5.2.6 効率的なパターンマッチングのためのベクトル量子化 27 |
5.3 テンプレート学習法 29 |
5.3.1 簡易学習 29 |
5.3.2 頑健な学習 31 |
5.3.3 クラスタリング 32 |
5.4 性能分析と認識性能向上 41 |
5.4.1 歪み尺度の選択 42 |
5.4.2 クラスタリング法の選択とkNN決定規則 46 |
5.4.3 エネルギー情報の利用 48 |
5.4.4 信号分析パラメータの影響 52 |
5.4.5 孤立単語認識システムの性能 54 |
5.5 新しい話者へのテンプレート適応化 54 |
5.5.1 スペクトル変換 56 |
5.5.2 階層的スペクトルクラスタリング 59 |
5.6 音声認識における識別的方法 63 |
5.6.1 単語等価クラスの決定 66 |
5.6.2 識別重み関数 69 |
5.6.3 最小認識誤りのための識別学習 75 |
5.7 不利な環境での音声認識 79 |
5.7.1 音声認識における不利な条件 81 |
5.7.2 不利な条件への対処 85 |
5.8 まとめ 95 |
第6章 隠れマルコフモデルの理論と実現法 102 |
6.1 序論 102 |
6.2 離散時刻マルコフ過程 104 |
6.3 隠れマルコフモデルへの拡張 108 |
6.3.1 コイン投げモデル 109 |
6.3.2 つぼとボールモデル 112 |
6.3.3 HMMの要素 113 |
6.3.4 観測事象のHMM生成器 114 |
6.4 HMMの3つの基本問題 117 |
6.4.1 問題1の解-確率評価- 119 |
6.4.2 問題2の解-”最適”状態系列- 124 |
6.4.3 問題3の解-パラメ-タ-推定- 128 |
6.4.4 再推定手法に関する注意 134 |
6.5 HMMの種類 135 |
6.6 HMMにおける連続観測確率密度 138 |
6.7 自己回帰HMM 140 |
6.8 HMM構造の変形-ナル遷移と状態の結び 145 |
6.9 HMMへの明示的状態継続時間長確率密度の組み込み 147 |
6.10 最適化基準-ML,MMI,およびMDI 152 |
6.11 種々のHMMの比較 155 |
6.12 HMMの実現上の課題 156 |
6.12.1 スケ-リング 156 |
6.12.2 複数観測系列 160 |
6.12.3 HMMパラメータの初期推定値 162 |
6.12.4 不十分な学習データの影響 162 |
6.12.5 モデルの選択 164 |
6.13 モデル推定値の有効性の改善 164 |
6.13.1 削除補間法 164 |
6.13.2 ベイズ適応法 166 |
6.13.3 誤りの訂正学習 169 |
6.14 モデルのクラスタ化と分割 171 |
6.15 孤立単語認識のためのHMMシステム 172 |
6.15.1 モデルパラメータの選択 173 |
6.15.2 状態へのセグメンタルK-平均セグメンテ-ション 176 |
6.15.3 状態継続時間長のHMMへの組み込み 179 |
6.15.4 HMMによる孤立数字認識の性能 181 |
6.16 まとめ 182 |
第7章 連続単語モデルに基づく音声認識 188 |
7.1 序論 188 |
7.2 連続単語認識問題のための一般的な表記法 191 |
7.3 2段階的計画法(2段DP)アルゴリズム 194 |
7.3.1 2段DPアルゴリズムの計算量 200 |
7.4 レベルビルディング(LB)アルゴリズム 200 |
7.4.1 レベルビルディングアルゴリズムの数理 202 |
7.4.2 複数レベルでの検討 207 |
7.4.3 レベルビルディングアルゴリズムの計算量 210 |
7.4.4 レベルビルディングの実行法の検討 213 |
7.4.5 文法ネットワークの総合 218 |
7.4.6 数字列のLB計算の例 221 |
7.5 ワンパス(ワンステート)アルゴリズム 222 |
7.6 複数の候補単語列 225 |
7.7 連続単語認識アルゴリズムの要約 229 |
7.8 連続数字認識のための文法ネットワーク 232 |
7.9 セグメンタルK-平均学習法 234 |
7.10 連続数字認識の実行法 236 |
7.10.1 連続数字認識のためのHMMを基本とするシステム 237 |
7.10.2 連続数字列の性能評価 238 |
7.11 まとめ 240 |
第8章 大語彙続音声認識 245 |
8.1 序論 245 |
8.2 サブワード音声単位 247 |
8.3 HMMに基づくサブワード単位モデル 251 |
8.4 サブワード単位の学習 254 |
8.5 大語彙音声認識のための言語モデル 261 |
8.6 統計的言語モデル 262 |
8.7 言語モデルのパープレキシティ 263 |
8.8 サブワード単位に基づく全体的認識システム 265 |
8.8.1 単語挿入/単語脱落率の制御 270 |
8.8.2 タスク意味論 270 |
8.8.3 資源管理タスクにおけるシステム性能 270 |
8.9 環境依存サブワード単位 273 |
8.9.1 環境依存二つ組音素と三つ組音素の作成 275 |
8.9.2 CD単位作成への単語間学習の利用 277 |
8.9.3 CD PLUモデルの平滑化と補間 279 |
8.9.4 連続密度の平滑化と補間 280 |
8.9.5 CD単位を用いた実現上の課題 281 |
8.9.6 CD単位を用いた認識結果 285 |
8.9.7 位置依存単位 287 |
8.9.8 単位の分割とクラスタ化 289 |
8.9.9 付加的サブワード単位の作成のためのその他の要因 294 |
8.9.10 音響セグメント単位 295 |
8.10 語彙独立単位の作成 296 |
8.11 認識のための意味論的語処理 298 |
8.12 まとめ 299 |
第9章 自動音声認識のタスク向き応用 305 |
9.1 序論 305 |
9.2 音声認識装置の性能値 307 |
9.3 音声認識応用の特徴 309 |
9.3.1 認識の誤りへの対処法 310 |
9.4 音声認識応用の大分類 312 |
9.5 指令による制御への応用 313 |
9.5.1 音声レパートリダイヤラー 313 |
9.5.2 自動通話種別認識 314 |
9.5.3 音声指令による通話転送 316 |
9.5.4 電話帳のリスト検索 317 |
9.5.5 クレジットカード販売における確認 318 |
9.6 音声認識の展望 320 |
索引 323 |