Сжатие звука

Из проекта Викизнание

«Сжатие» имеет и другие значения...


Сжатие звука — совокупность технологий по уменьшению объема данных, необходимых для передачи и хранения звуковой информации. Базируясь на основных принципах сжатия информации, при сжатии звука используются особенности звуковой информации, особенности природы, механизмов проихождения звука (речь, музыкальные инструменты и т.д.) и звуковосприятия.

Оглавление

Представление звуковой информации в цифровом виде

Звук представляет собой аналоговый сигнал, непрерывный во времени и принимающий произвольные неограниченные величины. Сигналы, которыми оперирует цифровая техника, являются дискретными и принимают конечное число значений. Для того, чтобы иметь возможность передавать, хранить и обрабатывать звук посредством цифровой техники необходимо преобразование его цифровой вид - квантование. При квантовании с аналогового сигнала производятся выборки через определенные промежутки времени (временное квантование), а затем сопоставление каждой выборке конечной дискретного значения — цифрового кода (квантование величины). Такое представление имеет название импульсно–кодовая модуляция (ИКМ). Обратное преобразование производится в обратном порядке: цифровое представление → сопоставление коду действительной величины → интерполяция отсчетов → аналоговый сигнал. Возможны и иные методы преобразования, но они как правило ускоспециальны, например, детекторы частоты с одной стороны и генераторы с цифровым управлением с другой. Практически все методы сжатия используют в качестве исходного представления ИКМ.

Источники звука: природа и особенности

Источники могут иметь разнообразную природу происхождения. Если источник звука определен то его особенности могут использоваться для эффективного сжатия звука. Если источник неопределен, то как правило используются общие особенности звуковой информации.

Общие особенности звуковой информации

Как правило звук представляет собой совокупность звуковых тонов определенной частоты и окрашенного шума, иногда — коротких всплесков. Имея средства разделения тоновой и шумовой составляющих можно кодировать только отдельные тона и огибающую спектра шума.

Речь, голос

Упрощенно голосовой аппарат человека можно представить как совокупность двух генераторов: генератора шума и генератора периодического сигнала. в большинстве узкополосных голосовых кодеков (испольуемых, к примеру, в телефонии: GSM) используется именно такая модель. По цифровому каналу передается огибающая и частота периодического сигнала и спектр наложенного шума. В разработке находятся вокодеры, способные разбивать речь на осмысленные элементы — фонемы. Это может дать возможность передавать речь по очень узким каналам.

Музыка и другие звуки

Звуки можно условно поделить на несколько частично пересекающихся классов:

  1. тоновые (pitched):
    • гармонические (harmonic),
    • слабо гармонические (rough-garmonic);
    • негармонические (inharmonic);
  2. шумовые (noisy);
  3. перкуссивные (percussive).

Многие системы сжатия звука имеют механизмы адаптации к характеру звука посредством изменения параметров и алгоритмов кодирования. Основные механизмы:

  • Изменение размера и формы окна анализа. (в AAC окно может быть 2 размеров: 512 или 2048 выборок, и 2 различных форм).
  • Выбор кодовых книг для упаковки коэффициентов. В различном виде присутствует практически по всех кодеках. (AAC использует 11 различных кодовых книг для кодирования спектральных коэффициентов).
  • Выделение и раздельное кодирование шума. (Perceptual noise substitution в AAC).
  • Экстраполяция спектра и кодирование гармоник. (в AAC).
  • Адаптивное линейное предсказание и кодирование ошибки. (LPC, FLAC).

Слух: особенности восприятия, психоакустика

Структура уха, спектр воспринимаех звуков

Ухо представляет собой сложный акустический прибор, состоящий из нескольких компонентов. Внешнее и среднее ухо обеспечивает только передачу звука из окружающей среды. Преобразование акустических волн в сигналы нейронных цепей происходит во внутреннем ухе, а более конкретно — в улитке. Улитка содержит в себе мембрану, различные участки которой резонируют на различных частотах, возбуждая нервные окончания. Параметры мембраны определяют спектр воспринимаемых звуков, у здорового взрослого человека он составляет 20 Гц–20 кГц. На других частотах резонанс в мембране не возникает, и они человеком не воспринимаются. Таким образом человек преимущественно воспринимает и анализирует частотный спектр звука. Практически все универсальные методы сжатия с потерями используют кодирование частотного спектра звука. Для получения спектра используются: банки фильтров (MPEG Audio Layer I,II; DTS), дискретное косинусное преобразование (MP3, AAC...) и другие.

Чувствительность, динамический диапазон, разрешающая способность

Эффект маскирования

Стереофония

См. также: