Хотя алгоритм CELP, главным образом, ориентирован на низкие скорости, на нем базируется множество стандартов. Испытания показывают его приемлемость и для высоких скоростей.

Рекомендация G.723.1 определяет кодовое представление, которое может использоваться на очень низких скоростях для компрессии речевых или других аудиосигналов в средствах мультимедиа. В кодере, реализующем рекомендации G.723.1, принципиальным дополнением является низкоскоростная видеотелефония как часть общего семейства стандартов Н.324.

Кодер обеспечивает работу на двух скоростях: 5,3 и 6,3 Кбит/с. Более высокая скорость обеспечивает лучшее качество. Тем не менее, и более низкая скорость обеспечивает хорошее качество и предоставляет разработчикам систем связи дополнительные возможности. И кодер, и декодер должны обязательно поддерживать обе скорости. Существует возможность переключения скоростей. Возможно также изменение рабочей скорости с использованием прерывистой передачи и заполнение пауз шумом.

Кодер G.723.1 оптимизирован для сжатия речи с высоким качеством на установленной скорости при ограниченной полосе. Музыка и другие аудиосигналы также могут быть подвергнуты компрессии с использованием этого кодера, однако, не с таким же высоким качеством как речь.

Кодер G.723.1 преобразует речь или другие аудиосигналы в фреймы продолжительностью 30 мс. Кроме того, существует возможность просмотра фреймов на скорости 7,5 мс, что приводит к общей алгоритмической задержке 37,5 мс. Дополнительные задержки возникают из-за:

времени, затрачиваемого на обработку данных в кодере и декодере;

времени передачи по линии связи;

дополнительной буферной задержки протокола мультиплексирования.

Кодер G.723.1 предназначен для работы с цифровыми сигналами после предварительной фильтрации полосы аналогового телефонного канала (рекомендации G.712), дискретизации с частотой 8 кГц и преобразования в 16битную линейную ИКМ-последовательность для передачи на вход декодера. Выходной сигнал декодера превращается в аналоговый сигнал аналогичным путем. Другие характеристики входа/выхода такие же, как и определенные рекомендациями G.711 для 64-битной ИКМ. Перед кодированием данные должны быть преобразованы в 16-битную ИКМ-последовательность или в соответствующий формат после декодирования с 16-битной ИКМ.

Кодер, основанный на принципах кодирования методом "анализа через синтез" с линейным предсказанием, минимизирует взвешенный сигнал ошибки, работает с блоками (фреймами) по 240 выборок каждый, что на частоте дискретизации 8 кГц эквивалентно продолжительности 30 мс. Каждый фрейм проходит через фильтр верхних частот для удаления постоянной составляющей, а затем разделяется на четыре субфрейма по 60 выборок в каждом. [18]

Для каждого субфрейма используется фильтр десятого порядка кодера линейным предсказанием. Для последнего субфрейма коэффициенты LPC-фильтра квантуются с использованием прогнозирующего квантизатора вектора разбиения (PSVQ). Квантованные LPC-коэффициенты используются для создания кратковременного взвешивающего фильтра, который применяется для фильтрации всего фрейма и для получения взвешенной оценки речевого сигнала. На основе этой оценки для каждых двух субфреймов (120 выборок) вычисляется период основного тона TL0. Оценка тона представляется блоками по 120

выборок. Период основного тона лежит в диапазоне от 18 до 142 выборок.

С помощью заранее вычисленной оценки периода тона создается фильтр формы гармонического шума. Комбинация из фильтра синтеза LPC, фильтра взвешивания формант, фильтра формы гармонического шума используется для синтеза импульсной характеристики, необходимой для дальнейших вычислений.

Оценки периода основного тона TL0 и импульсного отклика используются при работе предсказателя тона пятого порядка. Период тона вычисляется как увеличение оценки периода основного тона. На декодер передаются тоновый период и разностные величины. На следующем этапе аппроксимируются непериодические составляющие возбуждения. Для высокой скорости используется многоимпульсное возбуждение с квантованием и алгоритмом максимального правдоподобия (MP-MLQ), а для низких скоростей - алгебраическое кодовое возбуждение. Блок-схема речевого кодера показана на рис. 6.12.

Рекомендации ITU-T G.729 содержат описание алгоритма кодирования речевых сигналов на скорости 8 Кбит/с с использованием алгебраического линейного предсказания с кодовым возбуждением с сопряженной структурой (CS-ACELP) [18].

Подобный кодер создан для работы с цифровыми сигналами, полученными после предварительной обработки аналогового входного сигнала фильтром низкой частоты, дискретизации с частотой 8 кГц и дальнейшего преобразования в линейную ИКМ для подачи на вход кодера. Исходный сигнал декодера конвертируется в аналоговый сигнал подобным образом. Другие характеристики входа/выхода определяются аналогично рекомендациями G.711 для ИКМ-последовательностей со скоростью 64 Кбит/с. После декодирования данные должны быть преобразованы с 16-битовой линейной ИКМ в необходимый формат.

Кодер CS-ACELP основан на модели с линейным предсказанием с кодовым возбуждением (CELP) и работает с фреймами речи по 10 мс, что соответствует 80 выборкам. Каждый фрейм речевого сигнала продолжительностью 10 мс анализируется для выделения параметров CELP-модели (коэффициенты фильтра линейного предсказания, индексы адаптивной и фиксированной кодовых книг и коэффициенты усиления). Эти параметры кодируются и передаются принимающей стороне. Распределение битов параметров кодера показано в табл. 6.1.

Таблица 6.1. Распределение битов для алгоритма CS-ACELP на скорости 8 Кбит/с

(фреймы по 10 мс)

Параметр Кодовое слово Субфрейм 1 Субфрейм 2 В целом на фрейм
Пары линейного спектра L0, L1, L2, L3
Задержка адаптивной кодовой книги Р1, .Р2 8 5 13
Проверка задержки тона Р0 1 1
Индекс фиксированной кодовой книги С1, С2 13 13 26
Запись фиксированной кодовой книги S1, S2 4 4 8
Усиление кодовой книги (этап 1 ) GA1, GA2 3 3 6
Усиление кодовой книги (этап 2) GB1, GB2 4 4 8
Всего 80

На стороне декодера эти параметры используются для восстановления параметров возбуждения и фильтра синтеза. Речь восстанавливается при фильтрации возбуждения фильтром кратковременного синтеза, основанным на фильтре линейного предсказания десятого порядка. Долговременный фильтр (или фильтр синтеза тона) выполняется с использованием адаптивной кодовой книги. После синтеза речи происходит дополнительное сглаживание в постфильтре.

Принцип кодирования иллюстрируется рис. 6.13.

Входной сигнал поступает на фильтр высоких частот и масштабируется в блоке предварительной обработки, после чего подвергается последующему анализу. Анализ с линейным предсказанием (LP-анализ) выполняется один раз для фрейма продолжительностью 10 мс с целью вычисления коэффициентов фильтра линейного предсказания, которые затем преобразуются в пары линейного спектра (Line Spectrum Pairs, LSP) и квантуются (18 бит) с использованием двухэтапного векторного квантования с предсказанием.

Сигнал возбуждения выбирается с использованием поисковой процедуры "анализ через синтез", при которой ошибка между исходной и восстанавливаемой речью минимизируется в соответствии с измерением взвешенных искажений. Это выполняется путем фильтрации сигнала погрешности фильтром взвешивания, коэффициенты которого взяты из неквантованного LP-фильтра.

Параметры возбуждения (параметры фиксированной и адаптивной кодовых книг) определены для субфрейма продолжительностью 5 мс (40 выборок). Коэффициенты квантованного и неквантованного фильтра с линейным предсказанием используются для второго субфрейма, в то время как в первому субфрейме используются интерполированные коэффициенты LP-фильтра.

Задержка основного тона оценивается один раз для фрейма длиной 10 мс на основе взвешенного речевого сигнала. Затем для каждого субфрейма повторяются следующие операции. Искомый сигнал х(п) вычисляется при фильтрации остаточного линейного предсказания во взвешивающем фильтре синтеза W(z)/A(z). При фильтрации погрешности начальные состояния этих фильтров обновляются. Это эквивалентно результату выделения нулевого входного отклика взвешивающего фильтра синтеза из взвешенного речевого сигнала.

Вычисляется импульсная характеристика v(h) взвешивающего фильтра синтеза, после чего выполняется анализ тона для нахождения задержки адаптивной кодовой книги путем анализа значения задержки вблизи основного тона с использованием искомого сигнала х(п) и импульсной характеристики v{h). Задержка тона кодируется восемью битами в первом субфрейме и пятью битами во втором субфрейме.

Искомый сигнал х(п) используется при поиске фиксированной кодовой книги для нахождения оптимального возбуждения. Семнадцатибитовая алгебраическая кодовая книга используется для возбуждения фиксированной кодовой книги. Коэффициенты усиления вкладов адаптивной и фиксированной кодовых книг - это векторы, квантованные семью битами.

Принцип построения декодера иллюстрируется блок-схемой, представленной на рис. 6.14. Индексы параметров кодовых книг выделяются из принятого потока бит и декодируются для получения следующих параметров кодера, соответствующих речевому фрейму длиной 10 мс [18]:

LP-коэффициенты (коэффициенты линейного предсказания);

две частичные задержки тона;

два вектора фиксированной кодовой книги;

два набора коэффициентов адаптивной и фиксированной кодовых книг.

Коэффициенты LSP интерполируются и превращаются в коэффициенты LP-

фильтра для каждого субфрейма. Для каждого субфрейма выполняются следующие шаги;

восстанавливается возбуждение путем добавления векторов адаптивной и фиксированной кодовых книг с соответствующими им коэффициентами усиления;

восстанавливается речь путем пропускания через фильтр LP-синтеза;

восстанавливаемый речевой сигнал пропускается через модуль обработки, содержащий адаптивный постфильтр, который состоит из долгосрочного и кратковременного постфильтров синтеза, фильтр высоких частот и операцию масштабирования.

Кодер кодирует речь и другие аудиосигналы по фреймам продолжительностью 10мс. В результате происходит задержка 5 мс, что приводит в результате к общей алгоритмической задержке 15 мс. Все дополнительные задержки при практическом исполнении такого кодера обусловлены следующими причинами:

временем обработки, необходимым для операции кодирования и декодирования;

временем передачи по линиям связи;

задержкой мультиплексирования, когда аудиоданные объединяются с другими данными.

Таким образом, рекомендация G.729 предусматривает фреймы возбуждения по 5 мс и формирует четыре импульса. Фрейм из 40 выборок разделяется на четыре части. Первые три имеют восемь возможных позиций для импульсов, четвертая - шестнадцать. Из каждой части выбирается по одному импульсу. В результате получается четырехимпульсный кодер ACELP возбуждения кодовой страницы (рис. 6.15).

Параметры различных кодеров перечислены в табл. 6.2.

Таблица 6.2. Параметры кодеров

Параметры кодера

Кодер

G.729 G.729A G.723.1
Скорость бит/с, Кбит/с 8 8 ,3

.6 ,

,3 .

5,

Размер фрейма, мс 10 10 30
Размер подфрейма, мс 5 5 7,5
Алгебраическая задержка, мс 15 15 37,5
Быстродействие, млн.оп./с 20 10 14...20
Объем ПЗУ, байт 5,2 К 4,4 К
Качество Хорошее Хорошее Хорошее

Для режима 5,3 Кбит/с рекомендация G723.1 предусматривает фреймы возбуждения продолжительностью 7,5 мс, а также использует четырехимпульсное ACELP-возбуждение кодовой страницы. Для скорости 6,3 Кбит/с используется технология многоимпульсного возбуждения с квантованием и алгоритмом максимального правдоподобия (MP-MLQ). В этом случае позиции фреймов группируются в подгруппы с четными и нечетными номерами. Для определенного номера импульса из четной последовательности (пятый или шестой в зависимости от того, является ли сам фрейм четным или нечетным) используется последовательный многоимпульсный поиск. Подобный поиск повторяется для подфреймов с нечетными номерами. Для возбуждения выбирается группа с минимальными общими искажениями.

На стороне декодера информация кодера с линейным предсказанием (LPC) и информация адаптивной и фиксированной кодовой книг демультиплексируется и используется для реконструкции выходного сигнала. Для этих целей используется адаптивный постфильтр. В случае кодера G.723.1 сигнал возбуждения перед прохождением через фильтр синтеза LPC пропускается через LT ("long-term"- долгосрочный) постфильтр и ST ("short-term" - кратковременный) постфильтр.

Алгоритм речеобразования celp | Защита информации в телекоммуникационных системах | Статистический анализ кодеров celp


Защита информации в телекоммуникационных системах



Новости за месяц

  • Август
    2019
  • Пн
  • Вт
  • Ср
  • Чт
  • Пт
  • Сб
  • Вс