Форматы представления YUV данных телевизионного сигнала
YUV | YUV | YUV | YUV | YU | YV | YU | YV | YU | YV | YU | YV | ||
YUV | YUV | YUV | YUV | YU | YV | YU | YV | Y | Y | Y | Y | ||
YUV | YUV | YUV | YUV | YU | YV | YU | YV | YU | YV | YU | YV | ||
YUV | YUV | YUV | YUV | YU | YV | YU | YV | Y | Y | Y | Y |
Таким образом, принимая во внимание телевизионную кадровую частоту в 25 Гц, приходим к выводу, что одна секунда цифрового видео в представлении 4:2:2 требует 25x2x720x576=20736000 байт, т.е. поток данных составляет 21 MBps (MegaByte Per Second), но 4:2:0 представление уменьшает поток на 25% - до 16 MBps. Запись подобных потоков технически осуществима, но сложна, дорогостояща и неэффективна с точки зрения последующей обработки. Реальные возможности практики требуют значительного уменьшения потоков, т.е. вынуждают применять различные виды компрессии. Известно множество алгоритмов, осуществляющих компрессию без потери информации, но даже самые эффективные из них на типичных изображениях не обеспечивают сжатия более 2 раз.
Среди алгоритмов с потерей данных одним из наиболее известных является MJPEG (Motion-JPEG). Он пришел из цифровой фотографии, где под именем JPEG был разработан для эффективного сжатия отдельных кадров (JPEG – это аббревиатура от названия утвердившего его международного объединения Joint Photographic Experts Group). Приставка Motion всего лишь отражает его приложение для последовательности кадров, хотя при этом каждый из них обрабатывается совершенно независимо. В этом алгоритме кадр разбивается на блоки размером 16х16, каждый из которых с помощью обратного дискретного преобразования Фурье (ОДПФ) переводится в частотную область. В результате распределение сигналов яркости и цветности (используется представление 4:2:2) переходит в соответствующие частотные коэффициенты, которые затем подвергаются квантованию (округлению значений с задаваемым интервалом). Само по себе ОДПФ обратимо, т.е. не приводит к потере данных, но вот квантование коэффициентов вызывает огрубление изображения. Операция квантования выполняется с переменным интервалом – наиболее точно передается низкочастотная информация, поскольку соответствующие искажения изображения зрительно наиболее заметны. В то же время многие высокочастотные коэффициенты, ответственные за "тонкие" детали изображения, после нее принимают нулевые значения. Таким образом, JPEG-компрессия приводит к снижению эффективного разрешения и возможному появлению незначительных ложных деталей (в частности, на границе блоков), но обеспечивает значительное сжатие потока данных. Компромисс очевиден – чем больше сжатие, тем ниже качество. Установлено, что уровню Video соответствует MJPEG поток около 2 MBps, S-Video – 4 MBps, а DV – 3.1 MBps.
На первый взгляд, здесь кроется парадокс: S-Video сигнал с меньшим, чем у DV, разрешением, тем не менее, требует большего потока. Объяснение просто – на самом деле DV-кодировка несколько отлична от MJPEG. Так, DV принципиально использует 4:2:0 представление, что по сравнению с 4:2:2 экономит 25%. Ну а главное, алгоритм DV-преобразования, являясь развитием MJPEG, использует более гибкую схему компрессии, основанную на адаптивном подборе таблиц квантования. Коэффициент компрессии для различных блоков, в отличие от MJPEG, меняется по изображению: для малоинформативных блоков (например, на краях изображения) он увеличивается, а для блоков с большим количеством мелких деталей уменьшается относительно среднего по изображению уровня. В результате при том же качестве достигается сокращение объема данных примерно на 15%. В то же время отличительной чертой DV-сигнала является постоянный, заданный стандартом, поток видеоданных – 25 Mbps (Megabit Per Second), т.е. фиксированный коэффициент компрессии - около 5:1.
Дальнейшее снижение объема данных может быть достигнуто переходом к алгоритму MPEG компрессии (MPEG – Motion Pictures Experts Group). Он принципиально ориентирован на обработку последовательностей кадров и использует высокую избыточность информации в изображениях, разделенных малым временным интервалом. Действительно, между смежными изображениями обычно меняется только малая часть сцены – например, происходит плавное смещение небольшого объекта на фоне фиксированного заднего плана. В этом случае полную информацию о сцене нужно сохранять только выборочно - для опорных изображений. Для остальных достаточно передавать только разностную информацию: о положении объекта, направлении и величине смещения, о новых элементах фона (открывающихся за объектом по мере его движения). Причем эти разности можно формировать не только по сравнению с предыдущими изображениями, но и с последующими (поскольку именно в них по мере движения объекта открывается часть фона, ранее скрытая за объектом). Таким образом, в MPEG кодировке принципиально формируются три типа кадров: I (Intra), выполняющие роль опорных и сохраняющие полный объем информации о структуре изображения; P (Predictive), несущие информацию об изменениях в структуре изображения по сравнению с предыдущим кадром (типов I или P); B (Bi-directional), сохраняющие только самую существенную часть информацию об отличиях от предыдущего и последующего изображений (только I или P). Принципиальная схема последующей компрессии I-кадров, также как и разностных P- и B-кадров, аналогична MJPEG, но, как и у DV, с адаптивной подстройкой таблиц квантования. В частности, это позволяет охарактеризовать DV-сигнал как частный случай MPEG последовательности из I-кадров с заданным фиксированным потоком (коэффициентом компрессии).
Последовательности I-, P-, B-кадров объединяются в фиксированные по длине и структуре группы кадров - GOP (Group of Pictures). Каждая GOP обязательно начинается с I и с определенной периодичностью содержит P кадры. Ее структуру описывают как M/N, где M – общее число кадров в группе, а N – интервал между P-кадрами. Так, типичная для Video-CD и DVD IPB группа 15/3 имеет следующий вид: IBBPBBPBBPBBPBB. Здесь каждый B кадр восстанавливается по окружающим его P кадрам (в начале и конце группы - по I и Р), а в свою очередь каждый Р кадр – по предыдущему Р (или I) кадру. В то же время I кадры самодостаточны и могут быть восстановлены независимо от других, но являются опорными для всех P и тем более B кадров группы. Соответственно у I наименьшая степень компрессии, у В – наибольшая. Установлено, что по размеру типичный Р-кадр составляет 1/3 от I, а B – 1/8 часть. В результате MPEG последовательность IPPP (GOP 4/1) обеспечивает 2-кратное уменьшение требуемого потока данных (при том же качестве) по сравнению с последовательностью только из I кадров, а использование GOP 15/3 позволяет достичь 4-кратного сжатия. Резюмируя, приходим к следующей оценочной таблице.