第1章 音声のパラメータ表現 1 |
1.1 音声信号処理 1 |
1.2 音声生成のモデル 3 |
1.2.1 人間の音声生成と音源・フィルタモデル 3 |
1.2.2 平坦なスペクトルの音源による音声生成のモデル 4 |
1.2.3 音声生成のモデルのパラメータ 5 |
1.3 スペクトル包絡のモデル 6 |
1.3.1 モデルが満足すべき条件 6 |
1.3.2 スペクトル包絡のモデルのフィルタ 9 |
1.3.3 スペクトル包絡のモデルのパラメータの交換 11 |
1.4 音声の分析 12 |
1.4.1 音声の分析の目的 12 |
1.4.2 音声のスペクトル包絡の抽出 13 |
演習問題 15 |
第2章 音声の特徴ベクトル 17 |
2.1 音韻の特徴と特徴ベクトル 17 |
2.2 距離尺度の定義 18 |
2.3 基本的な特徴ベクトルに対する距離尺度 19 |
2.3.1 LPCケプストラムとその距離尺度 19 |
2.3.2 LPCメルケプストラムとその距離尺度 21 |
2.3.3 ケプストラムの距離尺度 23 |
2.3.4 メルケプストラムの距離尺度 24 |
2.4 動的パラメータ 25 |
2.4.1 静的特性と動的特性 25 |
2.4.2 時間変化パラメータの導出 26 |
2.4.3 荷重2乗誤差基準に基づく直線あてはめの係数 26 |
2.5 動的特性を考慮いた特徴ベクトル 28 |
2.5.1 短時間区間の音響パラメータによる特徴ベクトル 28 |
2.5.2 時間変化特性を考慮した特徴ベクトルと距離尺度 28 |
2.6 特徴ベクトルの分布の解析 29 |
2.6.1 特徴ベクトルの空間 29 |
2.6.2 特徴ベクトルの確率分布の推定 31 |
2.6.3 特徴ベクトルのクラスタ分析 33 |
2.6.4 特徴ベクトルのベクトル量子化 34 |
演習問題 38 |
第3章 音声の合成と符号化 41 |
3.1 音声の分析合成 41 |
3.1.1 音声の分析合成の方法 41 |
3.1.2 PARCOR法による音声の分析合成 43 |
3.1.3 LSP分析合成システム 46 |
3.2 音声の符号化 48 |
3.2.1 音声符号化の方法 48 |
3.2.2 時間領域における符号化 48 |
3.2.3 周波数領域における符号化 50 |
3.2.4 音声生成のモデルを利用する符号化 51 |
3.3 音声の規則合成 53 |
3.3.1 規則合成によるテキスト音声変換 53 |
3.3.2 規則合成システム 55 |
演習問題 57 |
第4章 音声の認識 58 |
4.1 自動音声認識 58 |
4.2 自動音声認識における認識の基本単位 59 |
4.3 音素の音響的変動 60 |
4.4 自動音声認識の方法 61 |
4.5 音素識別 64 |
4.5.1 音素識別の方法 64 |
4.5.2 パターンマッチング法による音素識別 65 |
4.5.3 確率的手法による音素識別 67 |
4.5.4 ニューラルネットワークによる音素識別 68 |
4.6 DPマッチングによる孤立単語音声の認識 72 |
4.7 HMMによる単語音声の認識 76 |
4.7.1 HMMの構成 76 |
4.7.2 出力符号系列の生成 77 |
4.7.3 HMMによる音声パターンの認識 78 |
4.7.4 出力符号系列生成確率の計算 79 |
4.7.5 モデルのパラメータ推定 80 |
4.8 連続音声認識 82 |
4.8.1 連続音声の自動認識 82 |
4.8.2 連続音声認識の方法 82 |
4.8.3 連続音声のセグメンテーション 84 |
4.8.4 単語スポッティング 86 |
4.8.5 連続音声の認識における言語の確率モデルの利用 87 |
4.8.6 連続音声のための自然言語処理 89 |
4.8.7 連続音声認識における文の探索 90 |
4.9 単語音声認識システムの不特定話者対応 93 |
4.9.1 不特定話者対応の方法 93 |
4.9.2 話者独立音声認識システム 93 |
4.9.3 話者適応音声認識システム 94 |
演習問題 94 |
第5章 不規則信号の解析 96 |
5.1 不規則信号の数学的表現と解析 96 |
5.2 確率過程の低次モーメント 97 |
5.2.1 確率過程のモーメント 97 |
5.2.2 相関関数および共分散関数 98 |
5.3 定常過程 98 |
5.4 共分散関数とパワースペクトル 100 |
5.4.1 ウィーナ・ヒンチンの関係 100 |
5.4.2 パワースペクトルの因子分解 100 |
5.5 二つの定常過程の間の共分散関数とクロススペクトル 101 |
5.5.1 相互相関関数と共分散関数 101 |
5.5.2 クロススペクトル 102 |
5.5.3 システムの入出力とクロススペクトル 102 |
5.6 線形予測理論 103 |
5.6.1 線形予測 103 |
5.6.2 新生過程 104 |
5.6.3 予測誤差 106 |
5.7 低次モーメントとパワースペクトルの推定 108 |
5.8 低次モーメントの推定 109 |
5.8.1 平均値の推定 109 |
5.8.2 共分散関数あるいは相関関数の推定 110 |
5.9 パワースペクトルの推定 111 |
5.9.1 サンプル共分散関数の変換によるスペクトル推定 111 |
5.9.2 変形ピリオドグラムによるスペクトル推定 111 |
5.9.3 LPC法によるスペクトル推定 113 |
5.9.4 最尤推定法 117 |
演習問題 118 |
第6章 初期のケプストラム法と準同刑法 120 |
6.1 ケプストラム法の歴史 120 |
6.2 ケプストラム 122 |
6.3 逆畳み込み 123 |
6.4 複素ケプストラム 125 |
6.5 インパルス応答の複素ケプストラム 125 |
6.5.1 複素ケプストラムによるシステムの特性と表現 125 |
6.5.2 希望の対数振幅特性をもつ最小位相システムと最大位相システム 126 |
6.5.3 希望の対数振幅特性をもつ直線位相システム 129 |
6.6 伝達関数の極と零点による複素ケプストラムの表現 131 |
6.7 最小位相システムのインパルス応答 132 |
6.8 準同形ボコーダ 134 |
6.8.1 音声生成のモデルとケプストラム 134 |
6.8.2 直線畳み込みによる準同形合成 134 |
6.8.3 全極型フルタによる準同形合成 135 |
演習問題 137 |
第7章 不偏ケプストラム法 138 |
7.1 不偏ケプストラム法の特徴 138 |
7.2. 対数振幅近似フィルタ 141 |
7.2.1 指数関数型の伝達関数をもつフィルタの特性 141 |
7.2.2 指数関数に対する修正パデー近似式 142 |
7.2.3 LMAフィルタの構成 144 |
7.3 改良ケプストラム分析 148 |
7.4 不偏ケプストラム分析 152 |
7.4.1 対数スペクトルのモデル 152 |
7.4.2 対数スペクトルの推定誤差 154 |
7.4.3 推定値の修正による対数スペクトルの不偏推定 155 |
7.4.4 対数スペクトルの不偏推定量の別の表現 157 |
7.4.5 時間領域処理による対数スペクトルの不偏推定 160 |
7.5 LMA分析合成システム 163 |
演習問題 164 |
第8章 メルケプストラム法 169 |
8.1 メルケプストラム法の特徴 169 |
8.2 メル対数スペクトルとメルケプストラム 170 |
8.2.1 メルスケールの近似表現 170 |
8.2.2 メル対数スペクトル 173 |
8.2.3 メルケプストラム 174 |
8.3 MLSAフィルタ 175 |
8.3.1 MLSAフィルタの伝達関数 175 |
8.3.2 基礎フィルタの伝達関数の式の変形 178 |
8.3.3 MLSAフィルタの係数感度 180 |
8.3.4 MLSAフィルタの設計例 182 |
8.4 不偏メルケプストラム分析 184 |
8.4.1 メル対数スペクトルの推定法 184 |
8.4.2 メル対数スペクトルの推定値に対する評価関数 186 |
8.4.3 メルケプストラム分析法で求めたスペクトル包絡 187 |
8.4.4 推定値の修正によるメル対数スペクトルの不偏推定 189 |
8.4.5 時間領域処理によるメル対数スペクトルの不偏推定 189 |
8.5 MLSAフィルタを用いるメルケプストラムボコーダ 191 |
演習問題 193 |
第9章 MLSA分析合成システムを利用する音声の規則合成 201 |
9.1 規則合成における日本語音声の単位とシステムの構成 201 |
9.2 規則合成システムに利用するメルケプストラムボコーダ 202 |
9.2.1 ボコーダに要求される条件 202 |
9.2.2 MLSAフィルタを用いるメルケプストラムボコーダ 202 |
9.2.3 スペクトル包絡の抽出と有声無声判別 204 |
9.3 CV音節のデータファイル 204 |
9.3.1 データファイルの作成法 204 |
9.3.2 CV音節のセグメンテーションと規格化 205 |
9.3.3 CV音節データファイルの内容 208 |
9.4 CV音節メルケプストラムの接続 208 |
9.4.1 CV音節間のパラメータの直線補間 208 |
9.4.2 補間の始端と終端の設定 209 |
9.4.3 パラメータの接続規則 210 |
9.5 韻律の生成 212 |
9.5.1 拍同期点のタイミング制御 212 |
9.5.2 基本周波数の制御 212 |
9.6 システムの性能 213 |
9.6.1 システムの入力データ 213 |
9.6.2 合成音声の品質 214 |
第10章 メルケプストラム分析に基づく連続音声認識システム 215 |
10.1 連続音声認識システムの構成 215 |
10.2 音素セグメンテーションシステム 216 |
10.2.1 システムの構成 216 |
10.2.2 セグメンテーションパラメータ 220 |
10.2.3 有声音と非有声音のクラス分け 223 |
10.2.4 有声音区間のセグメンテーション 224 |
10.2.5 音素群ラベリング 226 |
10.2.6 音素セグメンテーションシステムの性能 229 |
10.3 前処理としてセグメンテーションを行う音素ラベリングシステム 229 |
10.3.1 音素セグメントの音素ラベリング 229 |
10.3.2 音素リファレンスパターン 230 |
10.3.3 入力音声の各セグメントの特徴ベクトルの抽出 232 |
10.3.4 入力パターンと音素リファレンスパターンとの距離の計算 232 |
10.3.5 ラベリングコスト付き音素ラティスの生成 234 |
10.4 単語スポッティングシステム 236 |
10.4.1 記号列連続DPマッチングによる単語スポッティング 236 |
10.4.2 記号列DPマッチング 236 |
10.5 係り受け関係を利用する音声認識システム 238 |
10.5.1 文認識における係り受け関係の利用 238 |
10.5.2 文節候補の生成 240 |
10.5.3 文節候補リストの作成 241 |
10.5.4 文候補の生成 243 |
10.5.5 システムの性能 243 |
演習問題の解答例 245 |
参考文献 255 |
索引 267 |