ボクにもわかる地上デジタル - 地デジ方式編 - 動画圧縮符号化

              (作成:2005年10月)      地デジTopへ戻る
動画圧縮符号化方式

  カメラで撮影した映像のデーターは1〜3Gbpsと非常に膨大です。このため、
  データーを圧縮符号化しなければ、周波数資源を有効に使用することが出来
  ません。動画圧縮符号化技術は、地上デジタルハイビジョン放送を、少ない
  周波数資源で実現するための役割をしています。

動画圧縮符号化の概略

  映像の符号化方式は、以下の2つの要素技術がベースになっています。

  (1) 静止画の特徴を抽出して符号化する「DCT(離散コサイン変換)」技術
  (2) フレーム間の動きの変化を抽出する「動き補償」技術

  つまり、静止画と、その静止画を動かす技術に分かれています。

DCT(Discrete Cosine Transform,離散的コサイン変換)

  DCTは時間軸の情報を周波数軸への変換器です。まずは、音声のように、
  時間軸のみの1次元データの場合について、説明します。
  下図のように、音声データ音声にDCTをかけることで、音声の特徴周波数
  成分だけを取り出すことが出来ます。

    振幅                  振幅
    |                   | |
    |〜〜〜〜〜〜〜〜    →DCT→  | | |
    |                   | | |
    └──────── 時間         └─┴─┴──── 周波数
       音声データ             DCT後の音声データ

         ↓送信に必要な成分          ↓送信に必要な成分

    振幅                  振幅
    |■■■■■■■■           | ■ ■
    |■■■■■■■■           | ■ ■
    |■■■■■■■■           | ■ ■
    └──────── 時間         └──────── 周波数
     音声データの領域           DCT後データ領域

  つまり、送信に必要な成分を取り出すことで、送信に必要なデータ領域を、
  大幅に削減することが出来るのです。

  一方、画像では、音声と同じDCTを2次元の平面に対して実行しています。
  また、2次元の平面で実行するDCTを「2次元DCT」と呼びます。この
  時、画面全体ではなく4×4ドットなどの小さなブロックで2次元DCTを
  かけることで、ブロック内の映像の特徴周波数成分が取り出せます。
  また、ブロックを小さくすることで、ブロック内の情報を、パターン化する
  ことが出来るようになります。下図は、DCT変換後の4×4ドットの映像
  の一例です。4つの類似したパターンを、代表パターンに置き換えます。

    ■■□□ ■■□□ ■■■□ ■□□□     ■■□□
    ■■■□ ■□□□ ■■□□ ■■□□  →  ■■□□
    ■■□□ ■■□□ ■■□□ ■■□□     ■■□□
    ■■□□ ■■□□ ■■□□ ■■□□     ■■□□

         類似したパターン          代表パターン

  下図は代表パターンの一例です。このような代表パターンを、予め用意して
  おきます。また、代表パターンの一つ一つにコード番号をつけておきます。
  このような代表パターンのリストを「コードブック」と呼びます。このコー
  ドブックがあれば、コード番号を送信するだけで、相手に、類似したパター
  ンを送ることが出来ます。

   ■□□□ ■■□□ ■■□□ ■■■□ ■■■□ ■■■□
   □□□□ ■■□□ ■■□□ ■■■□ ■□□□ ■■■□ ……
   □□□□ □□□□ ■■□□ □□□□ ■□□□ ■■■□
   □□□□ □□□□ □□□□ □□□□ □□□□ □□□□
   コード1 コード2 コード3 コード4 コード5 コード6 ……

           代表パターン(コードブック)の例

  このように、たとえ、画面全体では全く異なる映像であっても、小さく区切
  ることで、ブロックの中の映像に、類似性を作り出し、さらに、DCTで、
  特徴成分を取り出すことで、より類似性が現れ、代表パターンの種類が少な
  くなります。このよな符号化方法をベクトル量子化(Vector Quantization)と
  呼びます。

動き補償

  動き補償は、フレーム(動画の中の1枚の静止画)とフレームの間の特徴の
  変化の抽出を行う技術です。符号化する複数のフレームを、予め、バッファ
  (メモリ)に貯めておき、前後のフレームの違いとなる差分信号を作成します。

    ┏━━━━━━┓   ┏━━━━━━┓   ┏━━━━━━┓
  元 ┃ ■  ■ ┃   ┃ ■   ■┃   ┃ ■    ┃
  映 ┃■■■ ■ ┃──→┃■■■  ■┃──→┃■■■  ■┃
  像 ┃ ■  ■ ┃   ┃ ■  ■ ┃   ┃ ■  ■ ┃
    ┗━━━━━━┛   ┗━━━━━━┛   ┗━━━━━━┛
       F1  ↓ 差分 ↓  F2  ↓ 差分 ↓  F3
          ┏━━━━━━┓   ┏━━━━━━┓
        差 ┃ □  ■□┃   ┃ □   ■┃
        分 ┃□□□ ■□┃   ┃□□□  □┃
        映 ┃ □  □ ┃   ┃ □  □ ┃
        像 ┗━━━━━━┛   ┗━━━━━━┛
           ΔF21       ΔF32

  上図は3枚の元映像のフレームF1〜F3から差分映像ΔF21とΔF32
  を取り出した例です。このように、差分映像、つまり、動きのある部分のみ
  を抽出することができるようになります。
  そして、この差分映像から動いている部分についての「場所」と「移動量」
  を求めることが出来ます。これらの情報は、元映像に比べて極めて小さな情
  報量にすることができます。この例の場合は、3枚の元映像を送るよりも、
  静止画は3フレーム中1枚だけを符号化して、残りは、差分だけの特徴部分
  だけを符号化する方法で、情報量を少なくすることが可能です。

  動き補償でのフレーム間の差分映像のΔF21とΔF32には、似た部分が
  あることが分かります。この類似性は、この先も継続する可能性が高いと予
  測できます。このように将来に渡っての動きを予測し、その予測パラメータ
  を符号化する方法を線形予測符号化と呼びます。

          誤差を最小化する
         ┌───────┐
         │予測パラメータ├──────────────→
         └─┬─────┘          パラメータ
           ↓   ↑
         ┏━━━┓ │誤差 ┏━━━━━━━┓
    元信号┬→┃予測式┠●┴───┨ベクトル量子化┠────→
       │ ┗━━━┛↑    ┃(コードブック)┃コード番号
       └──────┘    ┗━━━━━━━┛

  線形予測符号化では、複数枚の差分映像を一つの数式に当てはめます。また
  数式では予測しきれない誤差の映像を求め、誤差信号の特徴のみをベクトル
  量子化することで、さらに情報量を減らすことが出来ます。

GOP(Group of Pictures)

  動き予測を行なうフレーム数の単位をGOPといいます。動き予測はGOP
  単位に区切り、動き予測をしない静止画の「Iピクチャー」、過去のIピク
  チャーから予測される「Pピクチャー」、前後のIピクチャーとPピクチャー
  から予測される「Bピクチャー」の3種類のフレームがあります。

    [I] [B] [B] [P] [B] [B] [P] [B] [B] [I] [B] [B] [P] [B] [B].....
    ─╂─┴─┴─┼─┴─┴─┼─┴─┴─╂─┴─┴─┼─┴─┴─
     ┃                 ┃
     ┃←………………GOP………………→┃

  デジタル放送の編集でGOP単位とあるのは、以上のように動き予測を行う
  ために、複数のフレームを一つのグループにしてしまっており、途中で切り
  離すことが容易ではないためです。

MPEG2

  ISO(国際標準化機構)で定められた、映像を符号化する動画圧縮符号化
  方式の一つです。
  地上デジタル放送やDVDで使用されており、最も普及している方式です。
  画質は標準画質(6Mbps程度)からハイビジョン画質(18Mbps程度)まで対応で
  きます。

ITU-T H.264 (MPEG-4 AVC, MPEG-4 Part10)

  ITU-T(国際電気通信連合−電気通信標準化部門)で定められた映像を符号化
  する方式の一つです。ISOも同一仕様のMPEG-4 AVCを標準化しており、以下
  の4つは全て同じ方式です。

         H.264の名称は4つある(全て同じものを指す)

   規格 名称      説明
   ITU-T H.264     ワンセグやBlu-ray Videoで使われる動画圧縮方式
   ISO  MPEG-4 AVC   ISOの呼名
   ISO  MPEG-4 Part 10 ISOの正式名称
   ISO  ISO 14496-10  ISO規格番号

  ただし、第3世代携帯電話機の標準動画フォーマットとして使用されている
  MPEG-4は、Part 2 SPと呼ばれるMPEG-4の古い規格で、MPEG-4 AVCとは全く異
  なる方式ですので、互換性がありません。ワンセグ携帯には両方が搭載され
  ています

            ワンセグ携帯が搭載するMPEG-4

   MPEG-4 Part 10 (BP)  ワンセグ放送用でデコーダ(復号器)のみ搭載
   MPEG-4 Part 2 (SP)  携帯映像用(テレビ電話、動画メール用)

  H.264は、地上デジタル放送の携帯電話向けワンセグ放送や次世代の映像記録
  メディアであるBlu-ray ROMや HD DVDで使用される動画圧縮符号化方式です。
  特に、以下のような、「高能率」で「多用途」である特徴があります。

    ・高能率:MPEG2と同じ画質を約半分の情報量に変換できる。
    ・多用途:携帯電話の小さな画面からハイビジョン画質まで幅広く対応

  また、H.264の圧縮符号化/復号化(映像に戻す)ための技術には、多数の方式が
  取り入れられています。同じビットレートであっても高度な技術を使った方が、
  画質が向上しますが、圧縮符号化時や復号化時にプロセッサに大きな負荷がか
  かります。そこで、プロセッサの性能に合わせてプロファイルが定義されてい
  て、様々な用途に対応できるようになっています。

   H.264 BP (ベースプロファイル) ワンセグ放送用
   H.264 XP (拡張プロファイル)  より高画質な3セグ放送(等)用
   H.264 MP (メインプロファイル) AV用
   H.264 HP (ハイプロファイル)  より高画質なAV用

        H.264復号化器
                        関連情報:
Blu-rayディスク
                             ワンセグ
                             SDHCとAVCHD

VC-1 (Windows Media Video 9, WMV9, Microsoft VC-9)

  H.264に類似したマイクロソフトの動画圧縮方式です。

TS/PSストリーム

  MPEG2は、地上デジタル放送やDVDに使用されていますが、それらの性質の違
  いで2種類のストリームがあります。地上デジタル放送では、誤りが生じや
  すく、前述のような誤り訂正符号を使用しており、また、電波の周波数帯域
  が5.6MHzと定めてあるため、伝送レートが一定である必要があります。
  したがって、パケットの長さは188バイト固定のTS(Transport Stream)が、
  使用されます。反対にDVDでは、可変長のPS(Programable Stream)が使用さ
  れます。

ビットレートと画質

  極端な例として、静止画の場合は、1度、1枚の映像を符号化すれば、以降
  の情報は不要となります。したがって、限りなくビットレートは0に近づき
  ます。反対に、画面の全ての画素がフレーム間や他の画素と独立して動いて
  いる場合は、フレーム毎に全ての映像を符号化する必要があります。
  この場合は、画素数×3原色×階調ビット数×1秒当たりコマ数のビットレー
  トが必要であり、冒頭のとおり約1.5Gbpsものビットレートになります。
  実際の映像は、静止画が永遠に続いたり、画面の全ての部分が前のフレーム
  と全く異なる映像になる状態が続くことはありえませんので、これらの間で、
  極力、低いビットレートで、かつ、違和感の無い映像となります。
  この「違和感の無い映像」とは、つまりは、視聴者にとっては「映像が持つ
  本来の情報量」「劣化したことが分からない映像」と言えます。
  このような高効率な符号化を「圧縮」と呼んでいますが、映像や音声の圧縮の
  場合は、その圧縮の比率(圧縮率)には、あまり、意味がありません。例えば、
  最終的に同じ品質で同じビットレートの映像でも、元の映像がハイビジョンで
  あった場合は圧縮率は高く、元の映像が標準画質であれば、圧縮率が低くなっ
  てしまうからです。
  このため、圧縮率よりも、「〜相当の画質が何ビット/秒」といった表現を用
  いた方が、圧縮性能を正しく表現していることになります。

画質の測定方法

  前節の「〜相当の画質」の「〜相当」には、「標準画質」「ハイビジョン画質」
  といった表現のほかにSN比やMOS値のような数値的な表現があります。

  SN比は、元信号をs(n)、受信して復号した信号をr(n)とした時の、元信号
  と誤差信号の比です。SN比が高いほど、元信号に近いことを表しています。

          SN比 = Σ s(n)/{s(n)-r(n)}

  但し、元信号にノイズが含まれていた場合はSN比も劣化しますし、単調な
  映像だとSN比は向上します。つまり、元映像によって異なってくるので、
  標準映像(基準映像)を規定して測定する必要があります。
  また、人の目の特性上、映像は輪郭を抽出して視覚を感じたり、動きのある
  映像は、より輪郭のみを網膜が追従している為、SN比だけでは測定できな
  い部分があります。

  MOS値は、主観評価と呼ばれており、実際に人間が映像を見て判定する方
  法です。予めMOS値を決めた基準映像を準備しておき、測定対象の映像と
  比較してMOS値を判定します。例えば、予めSN比10〜30dBの映像
  を5dBづつ変化させた基準映像を5本準備しておき、測定対象の映像と、
  これら5本の基準映像を1本づつ比較し、どの映像のものに一番近いかを、
  判断します。この比較を、大勢の人にテストしてもらって、SN比に対して
  何dBに相当するかを平均値によって求めます。


関連ページ

  方式編 -
ISDB-T概略       諸元 セグメント ガードインターバル
  方式編 - ワンセグ概略      1セグメント放送 地上デジタル音声
  方式編 - 符号化         符号化 誤り訂正符号 RS 畳込み符号
  方式編 - DVD-RAM,DVD-RW     DVD-RAM,DVD-RW,DVD-Rについて説明
  方式編 - Blu-rayディスク     Blu-ray (BD-RE,BD-R,BD-ROM)
地デジTopへ戻る