第1章 序論 |
第2章 音声の基本的性質 |
2.1 音声と言語 |
2.2 聴覚と音声 |
2.3 音声生成のメカニズム |
2.4 音素の音響的性質 |
2.5 音声の統計的モヂル |
2.5.1 振幅レベル分布 |
2.5.2 長時間平均スペクトル |
2.5.3 基本周波数の変動 |
2.5.4 時間率 |
第3章 音声生成のディジタルモデル |
3.1 音声生成の音響理論 |
3.2 線形分離等価回路モデル |
3.3 声道内音波の伝搬モデル |
3.3.1 進行波型モデル |
3.3.2 共振型モデル |
3.4 声帯振動モデルと音声生成実体モデル |
3.5 調音モデル |
第4章 時間領域および周波数領域における音声処理 |
4.1 音声信号のディジタル化 |
4.1.1 標本化 |
4.1.2 量子化 |
4.1.3 A/D,D/A変換 |
4.2 音声の特徴抽出 |
4.3 短時間自己相関とスペクトル |
4.3.1 フーリエ変換対 |
4.3.2 窓関数 |
4.3.3 サウンドスペクトログラム |
4.4 ケプストラム |
4.4.1 ケプストラムとその応用 |
4.4.2 準同型分析とLPCケプトラム |
4.5 ディジタルフィルタバンクと零交叉数分析 |
4.5.1 ディジタルフィルタバンク |
4.5.2 零交叉数分析 |
4.6 合成による分析(A-b-S) |
4.7 音声信号の符号化 |
4.8 分析合成系の基本的構成 |
4.9 ピッチ抽出 |
第5章 線形予測分析 |
5.1 線形予測分析の原理 |
5.2 線形予測分析の解法 |
5.3 最尤スペクトル推定法 |
5.3.1 最尤スペクトル推定法の定式化 |
5.3.2 最尤スペクトル推定法の物理的意味 |
5.4 予測残差からの音源情報の抽出 |
5.5 線形予測分析による音声分析合成系 |
5.6 PARCOR分析 |
5.6.1 PARCOR分析の定式化 |
5.6.2 PARCOR係数と線形予測係数の関係 |
5.6.3 PARCOR分析の実例 |
5.7 PARCOR分析合成系 |
5.7.1 PARCOR合成フィルタ |
5.7.2 PARCOR分析合成系の最適化 |
5.7.3 スペクトル歪による最適化 |
5.8 PARCOR分析による声道断面積関数の推定 |
5.9 LSP分析 |
5.9.1 LSP分析の原理 |
5.9.2 LSP分析の解法 |
5.9.3 複合正弦波分析 |
5.10 LSP分析合成系 |
5.10.1 LSP合成フィルタ |
5.10.2 LSPパラメータの符号化 |
5.10.3 線形予測パラメータの相互関係 |
5.11 極零モデル |
第6章 音声波形の符号化 |
6.1 時間領域での符号化 |
6.1.1 PCM |
6.1.2 適応量子化 |
6.1.3 予測符号化 |
6.1.4 デルタ変調 |
6.1.5 適応差分PCM(ADPCM) |
6.1.6 適応予測符号化(APC) |
6.1.7 可変長符号 |
6.2 周波数領域での符号化 |
6.2.1 帯域分割符号化(SBC) |
6.2.2 適応変換符号化(ATC) |
6.2.3 適応ビット割当てAPC(APC-AB) |
6.3 分析合成系と波形符号化の組合せ |
6.3.1 残差または音声駆動による線形予測符号化 |
6.3.2 マルチパルス駆動線形予測符号化(MPC) |
6.3.3 位相等化処理と可変レート木符号による符号化 |
6.3.4 多重路探索符号化方式 |
6.3.5 時間領域調波構造伸縮(TDHS)アルゴリズム |
6.4 ベクトル量子化(VQ) |
6.4.1 ベクトル量子化の原理 |
6.4.2 木探索と多段処理 |
6.4.3 線形予測パラメータのベクトル量子化 |
6.5 符号化方式の評価 |
第7章 音声合成 |
7.1 音声合成の原理 |
7.2 録音編集方式による音声合成 |
7.3 パラメータ編集方式による音声合成 |
7.4 声道アナログおよびターミナルアナログ合成方式 |
7.4.1 声道アナログ方式 |
7.4.2 ターミナルアナログ方式 |
7.5 規則合成方式による音声合成 |
7.5.1 規則による音声合成の原理 |
7.5.2 韻律情報の制御 |
7.6 テキスト音声合成 |
7.6.1 日本語のテキスト合成 |
7.6.2 MITalk-79システム |
第8章 音声認識 |
8.1 音声認識の原理 |
8.1.1 音声認識の特徴と難しさ |
8.1.2 音声認識の分類 |
8.2 音声区間の検出 |
8.3 スペクトル距離尺度 |
8.3.1 音声認識で用いる距離尺度 |
8.3.2 ノンパラメトリック・スペクトル分析法に基づく距離 |
8.3.3 線形予測分析に基づく距離 |
8.3.4 線形予測分析によるピーク重みつき距離 |
8.4 単語音声認識系の構成 |
8.5 時間軸の正規化 |
8.5.1 DPマッチング |
8.5.2 DPマッチングの種々の定式化 |
8.5.3 staggered array DPマッチング |
8.6 音素を単位とする単語音声認識 |
8.6.1 基本的構成 |
8.6.2 SPLIT法とHMM法 |
8.7 単音節音声認識 |
8.8 連続単語音声認識 |
8.8.1 2段DP法とその改良 |
8.8.2 連続DP法 |
8.9 会話音声認識 |
8.9.1 3つの基本的構成モデル |
8.9.2 その他のシステム構成要因 |
8.10 会話音声認識の具体例 |
8.10.1 階層モデルによる会話音声認識系 |
8.10.2 ブラックボードモデルによる会話音声認識系 |
8.10.3 ネットワークモデルによる会話音声認識系 |
8.11 不特定話者単語音声認識 |
8.11.1 マルチテンプレート方式 |
8.11.2 識別関数方式 |
8.11.3 ハイブリッド構造マッチング方式 |
8.12 音声の個人差の正規化と適応化 |
8.12.1 個人差の正規化 |
8.12.2 個人差への適応化 |
第9章 話者認識 |
9.1 話者認識の原理 |
9.2 話者認識に用いる特徴 |
9.3 話者認識の分類. |
9.4 話者認識系の構成 |
9.5 認識誤り率と話者数の関係 |
9.6 特徴パラメータの長期間変動と有効性の評価 |
9.7 発声内容依存型の話者認識系 |
9.8 発声内容独立型の話者認識系 |
第10章 ディジタル音声処理の今後の課題 |
10.1 音声合成の課題 |
10.2 音声認識の課題 |
10.3 話者認識の課題 |
10.4 音声分析合成系と符号化の課題 |
10.5 音声処理共通の課題 |
参考文献 |
事項索引 |