まえがき ⅲ |
1章 マルチメディアの仕組み 1 |
1.1 マルチメディアの特徴 2 |
1.2 マルチメディアシステム 2 |
1.3 マルチメディアとネットワーク 3 |
COLUMN 必要は発明の母 4 |
2章 音声情報処理の基礎 5 |
2.1 音声生成の原理 6 |
2.1.1 音声の基本的性質 6 |
2.1.2 発声器官の構造 6 |
2.1.3 音声生成モデル 10 |
2.2 音声の物理的特徴 11 |
2.3 音声の分析法 14 |
2.3.1 音声分析の原理 14 |
2.3.2 相関関数とスペクトル 19 |
2.3.3 音源情報の抽出法 19 |
2.3.4 ケプストラム 20 |
2.3.5 線形予測分析法 21 |
2.3.6 最尤スペクトル推定法 23 |
2.3.7 変形相関関数 24 |
2.3.8 PARCOR分析 25 |
2.3.9 LSP分析 28 |
2.3.10 LPCケプストラム 30 |
2.3.11 線形予測パラメータの相互関係 31 |
2.3.12 合成による分析 31 |
2.4 音声情報処理の概要 33 |
参考文献 34 |
COLUMN マガーク効果 36 |
3章 音声・音響符号化 37 |
3.1 音声・音響符号化の原理 38 |
3.2 分析合成系 42 |
3.2.1 分析合成系とは 42 |
3.2.2 線形予測分析法による分析合成系 43 |
3.2.3 PARCOR分析合成系 44 |
3.2.4 LSP分析合成系 45 |
3.3 H寺間領域での符号化 45 |
3.3.1 非線形量子化 47 |
3.3.2 適応量子化 48 |
3.3.3 予測符号化 48 |
3.3.4 時間分割符号化 50 |
3.3.5 位相等化処理 50 |
3.3.6 可変長符号 50 |
3.4 周波数領域での符号化 51 |
3.4.1 帯域分割符号化 51 |
3.4.2 直交変換符号化 51 |
3.4.3 適応ビット割当てAPC(APC-AB) 52 |
3.4.4 ノイズシェーピング 53 |
3.5 ベクトル量子化 53 |
3.5.1 ベクトル量子化の原理 53 |
3.5.2 一般化ロイドアルゴリズム 54 |
3.5.3 木符号 54 |
3.6 分析合成系と波形符号化の組み合わせ(ハイブリッド符号化) 55 |
3.6.1 残差または音声駆動による線形予測符号化 55 |
3.6.2 重み付きベクトル量子化変換符号化(TC-WVQ)とTwin VQ 56 |
3.6.3 マルチパルス(MPC)と符号駆動線形予測符号化(CELP) 57 |
3.7 広帯域音声の符号化 60 |
3.8 MPEGの音響・音声符号化 61 |
3.9 符号化音声品質の評価 62 |
3.10 マルチメディアサービスヘの音声符号化技術の応用 53 |
参考文献 64 |
COLUMN 音声情報処理の研究動向を知るには 66 |
4章 音声合成 |
4.1 音声合成の原理 68 |
4.2 テキスト解析 69 |
4.3 音声波形の生成 70 |
4.4 録音編集方式とパラメータ編集方式 71 |
4.5 規則合成方式 72 |
4.5.1 規則による音声合成の原理 72 |
4.5.2 合成単位音声の生成 72 |
(1)ターミナルアナログ方式 73 |
(2)波形接続(波形編集)方式 74 |
(3)HMM合成法 74 |
4.5.3 韻律情報の制御 75 |
4.6 マルチメディアサービスヘの音声合成技術の応用 77 |
参考文献 79 |
COLUMN 世界で最初の音声合成器 80 |
5章 音声認識 81 |
5.1 音声認識の原理 82 |
5.1.1 音声認識の基本的構成 82 |
5.1.2 音声認識の分類と課題 83 |
(1)認識対象音声による分類 83 |
(2)対象話者による分類 84 |
5.2 音響処理 84 |
5.2.1 音声区間の検出 84 |
5.2.2 音響モデル(標準パターン)の基本単位 85 |
5.2.3 特徴抽出 86 |
5.2.4 帯域フィルタ群による方法 87 |
5.2.5 ケプストラムによる方法 87 |
5.2.6 動的ケプストラム 88 |
5.2.7 スペクトル距離尺度 89 |
5.2.8 LPC分析に基づく距離尺度 89 |
5.3 DPマッチング(DTW) 91 |
5.4 HMM法 94 |
5.4.1 HMM法の基本 94 |
5.4.2 認識アルゴリズム 95 |
5.4.3 パラメータ推定アルゴリズム 99 |
5.4.4 連結学習による音素HMMの作成 100 |
5.4.5 HMM法の種々のバリエーション 101 |
5.5 ニューラルネットワークによる方法 102 |
5.6 連続音声認 103 |
5.6.1 連続音声認識の基本的構成 103 |
5.6.2 2段DP法とその改良 104 |
(1)2段DP法 104 |
(2)レベル・ビルディング(LB)法 105 |
(3)ワンパスDP法またはワンステージDP法 105 |
5.6.3 仮説探索の方向とアルゴリズム 106 |
5.6.4 統計的言語モデル 107 |
5.6.5 連続音声認識系の評価法 109 |
5.7 連続音声認識の応用 111 |
5.7.1 音声文字変換と音声対話システム 111 |
5.7.2 音声文字変換の研究例 112 |
5.7.3 音声対話システムの研究例 114 |
5.7.4 話し言葉認識の難しさと言語モデルの構築 115 |
5.7.5 話題語抽出と音声要約 115 |
5.7.6 VoiceXML 117 |
5.8 ロバスト(頑健)な音声認識のために 120 |
5.8.1 音声の変動 120 |
5.8.2 変動への自動適応機能 122 |
5.8.3 主な適応化技術 123 |
5.8.4 HMM合成法 124 |
5.8.5 尤度最大化基準に基づく適応化 126 |
5.9 マルチメディアサービスへの音声認識技術の応用 127 |
参考文献 128 |
6章 話者認識 133 |
6.1 話者認識の原理 134 |
6.1.1 話者認識の基本的方法と分類 134 |
6,1.2 話者認識の性能評価 136 |
6.1.3 話者認識に用いる音声の物理特徴 138 |
6.1.4 特徴量と類似度の正規化 138 |
(1)特徴量の正規化 138 |
(2)距離あるいは尤度の正規化 139 |
(3)標準パターンあるいはモデルの更新 139 |
(4)話者照合の判定しきい値の事前設定法 140 |
6.2 テキスト依存型話者認識 140 |
6.3 テキスト独方型話者認識 141 |
6.3.1 長時間統計量による方法 141 |
6.3.2 ベクトル量子化歪みによる方法 142 |
6.3.3 HMMおよびGMMによる方法 143 |
6.4 テキスト指示型話者認識 144 |
6.5 マルチメディアサービスヘの話者認識技術の応用 145 |
参考文献 145 |
COLUMN 日本語と英語のどちらの音声が難しいか 148 |
7章 静止画像の符号化とJPEG 149 |
7.1 静止画像の性質 150 |
7.1.1 静止画像の画素構成 150 |
7.1.2 色の表現と三原色 150 |
7.1.3 色空間 151 |
7.2 静止画像圧縮の原理 152 |
7.2.1 情報圧縮の原理 152 |
7.2.2 離散コサイン変換 152 |
(1)変換符号化の有効性 153 |
(2)離散コサイン変換 155 |
7.2.3 ウェーブレット変換 156 |
7.2.4 エントロピー符号化 157 |
(1)ハフマン符号化 157 |
(2)算術符号化 158 |
7.2.5 予測符号化 161 |
7.3 JPEGの概要 162 |
7.4 基本方式 162 |
7.4.1 構成 102 |
7.4.2 DCT係数と量子化テーブル 163 |
7.4.3 DC係数(直流成分)の符号化 164 |
7.4.4 AC係数の符号化 165 |
7.4.5 色情報の符号化 167 |
(1)カラー画像の色情報 167 |
(2)色成分の解像度 167 |
7.4.6 基本方式のデータ形式 168 |
7.5 DPCM方式 168 |
7.6 ブログレッシブ符号化方式 169 |
(1)近似精度向上方式 169 |
(2)周波数選択方式 169 |
7.7 ハイアラーキカル符号化 170 |
7.8 JPEG2000 171 |
7.8.1 JPEG2000の概要 171 |
7.8.2 Motion JPEG2000 172 |
参考文献 174 |
8章 2値画像の圧縮方式 175 |
8.1 2値画像 176 |
8.2 ファクシミリの発展 176 |
8.3 ファクシミリの符号化 177 |
8.3.1 修正ハフマン符号化 : (MH符号化) 177 |
8.3.2 MR符号化 178 |
8.4 2値画像符号化の国際標準JBIG 180 |
8.5 線画像の符号化 181 |
参考文献 182 |
9章 マルチメディア情報符号化の国際標準MPEG 183 |
9.1 MPEGの概要 184 |
9.2 動画像符号化特有の技術 184 |
9.2.1 動画像の構成 184 |
9.2.2 MPEGの基本技術 185 |
(1)動き補償予測符号化 185 |
(2)ピクチャ構成 188 |
(3)MPEG符号器の基本構成 188 |
9.3 MPEG-1 189 |
9.3.1 入力画像形式 189 |
9.3.2 動き補償予測符号化方式 191 |
(1)動き予測の範囲 191 |
(2)動きベクトルの符号化 191 |
(3)動き補償の課題 192 |
9.3.3 DCT 192 |
(1)DCTの単位 192 |
(2)IフレームDC係数の量子化 193 |
(3)その他の係数の量子化 193 |
(4)DCTミスマッチ 193 |
9.3.4 DCT係数の符号化 194 |
(1)IフレームDC係数の符号化 194 |
(2)DC係数以外の係数の符号化 195 |
9.3.5 MPEG情報の伝送 196 |
(1)一定速度伝送 196 |
(2)可変速度伝送 197 |
(3)統計多重 197 |
(4)MPEG over IP 198 |
9.4 MPEG-2 198 |
9.4.1 MPEG-2の要求機能 198 |
9.4.2 入力画像形式 198 |
9.4.3 動き補償予測符号化方式 199 |
(1)フレーム構造に対するフレーム予測 199 |
(2)フィールド構造に対するフィールド予測 200 |
(3)フレーム構造に対するフィールド予測 200 |
9.4.4 DCT 201 |
9.4.5 DCT係数の符号化 202 |
9.4.6 スケーラビリテイ 202 |
9.4.7.MPEG信号のデータ構造 203 |
9.5 MPEG-4 203 |
9.5.1 MPEG-4の概要 203 |
9.5.2 MPEG-4のアプリケーション 205 |
9.5.3 システム要件 205 |
9.5.4 機能と構造 206 |
(1)メディアオブジェクトの定義 206 |
(2)メディアオブジェクトの合成 206 |
9.5.5 MPEG-4システム 207 |
9.5.6 MPEG-4のビジュアル符号化 208 |
(1)用意されているビジュアルオブジェクト符号化 208 |
(2)アニメーションの符号化 208 |
(3)誤り耐性 212 |
9.6 含後の動画像符号化 213 |
参考文献 214 |
10章 コンピュータグラフィックス技術 |
10.1 コンピュータグラフィックスとマルチメディア 216 |
10.2 画像モデルの作成 217 |
10.2.1 曲線の発生 217 |
10.2.2 ソリッドモデル 217 |
(1)ソリッドモデルの編集 217 |
(2)ソリッドモデルの表現 218 |
10.2.3 表面モデル 218 |
10.2.4 ワイヤーフレームモデル 219 |
10.3 画像の編集 220 |
10.3.1 幾何学的変換 220 |
10.3.2 透視変換 221 |
10.4 画像の表示 222 |
10.4.1 陰線・陰面消去 222 |
(1)Zバッファ法 222 |
(2)スキャンライン法 222 |
10.4.2 陰影処理 223 |
(1)陰影モデル 223 |
(2)スムーズシェーディング 224 |
(3)影の付与 224 |
10.4.3 レイトレーシング 225 |
10.5 テクスチャマッピング 225 |
10.6 コンピュータグラフィックスの動向 227 |
参考文献 228 |
11章 画像情報の認識 229 |
11.1 画像認識の概要 230 |
11.1.1 前処理 230 |
11.1.2 特徴抽出 221 |
(1)2値化 231 |
(2)エッジ抽出 232 |
(3)細線化 232 |
(4)領域分割 233 |
11.2 統計的パターン認識 233 |
11.3 構造的パターン認識 235 |
11.3.1 トリーによる識別 235 |
11.3.2 文法解析による識別 235 |
11.3.3 ネットワーク構造を利用した識別 236 |
11.4 不変量によるマッチング 237 |
11.5 文字認識の例 239 |
11.5.1 文字入力制限 239 |
11.5.2 輪郭構造解析による文字認識 240 |
11.5.3 線構造による文字認識 240 |
11.5.4 背景構造解析による文字認識 241 |
参考文献 242 |
12章 画像情報の検索技術と伝送技術 243 |
12.1 画像情報の検索システム 244 |
12.1.1 画像データベースと検索 244 |
12.1.2 点画像データベースと検索 245 |
(1)点画像情報の特徴 245 |
(2)ブロック法 245 |
(3)k-d木 246 |
12.1.3 静止画像データベースと検索 248 |
(1)静止画像情報の検索とデータ構造 248 |
(2)静止画像の内容検索 249 |
(3)色ヒストグラムによる検索 250 |
(4)テクスチャによる検索 251 |
(5)形状による検索 252 |
(6)静止画像検索の具体例 253 |
12.1.4 動画像データベースと検索 255 |
(1)動画像の特徴とデータ構造 255 |
(2)動画像の検索 255 |
12.1.5 画像検索とMPEG-7 257 |
12.2 マルチメディア期258 |
12.2.1 メディア同期の概要 258 |
12.2.2 メディアオブジェクト単位の同期 250 |
12.2.3 ネットワーク内におけるストリームメディア同期 262 |
12.2.1 ビットストリーム・スケーリング 264 |
12.2.5 ストリームメディア同期システム例 265 |
(1)システム構成 265 |
(2)符号化タイプの変更によるスケーリング 267 |
(3)符号化タイプ変更の優先度 267 |
(4)スケーリングアルゴリズム 268 |
参考文献 269 |
■ 英字略語一覧 270 |
■ 重要基礎用語 273 |
■ 索引 280 |
エピローグ 287 |