
Что ж, раз предыдущая тема про видео нашла отклик, продолжу. В этот раз обсудим аудиокодеки.
Звуковые кодеки — это алгоритмы или устройства, которые кодируют и декодируют аудиосигнал для хранения, передачи или воспроизведения. Они преобразуют аналоговый звук в цифровой формат и обратно, а также могут сжимать данные для уменьшения размера файла или битрейта.
Ключевые параметры кодеков
- Частота дискретизации (44.1 кГц, 48 кГц и др.) — сколько раз в секунду измеряется звук.
- Разрядность (16, 24 бита) — точность измерения уровня сигнала.
- Битрейт — объём данных в секунду (например, 128-320 кбит/с у MP3).
- Задержка кодирования — важна в реальном времени (VoIP, Bluetooth).
- Частотный диапазон — узкополосный (до 3.4 кГц), широкополосный (до 7 кГц), полноспектральный (до 20 кГц).
Кодеки с потерями (lossy)
Lossy-аудиокодеки — это технологии сжатия звука, при которых часть аудиоданных удаляется для уменьшения размера файла. Такое сжатие называют необратимым, потому что восстановить утерянную информацию невозможно.
Цель таких кодеков — достичь компромисса между качеством звука и размером файла. Они активно используются в повседневной жизни благодаря своей эффективности и широкой совместимости.
WMA (Windows Media Audio)
Разработан Microsoft. Высокая степень сжатия, но уступает AAC и MP3 в качестве.
Применение: Windows-устройства.
MP3 (MPEG-1 Layer III)
Самый распространённый формат. Хорошее соотношение размера и качества. Поддерживается везде. MP3 работает за счет удаления аудиочастот, которые человеческое ухо воспринимает слабо или не воспринимает вовсе — это называется психоакустическим моделированием. Алгоритм использует преобразование Фурье для анализа звукового сигнала и отсечения «избыточной» информации. В результате файл сжимается в 10-11 по сравнению с оригиналом, при этом сохраняется приемлемое качество звука.
Хотя MP3 уступил место более эффективным кодекам (AAC, Opus), он остаётся самым узнаваемым форматом и поддерживается всеми устройствами. В продаже и сегодня можно встретить устройства с таким названием: Ozon, WB, хотя, конечно, непосредственного отношения к MP3 они не имеют, поддержка воспроизводимых форматов шире.
История разработки MP3
- 1986 год — Карлхайнц Бранденбург и его команда начинают работу над сжатием аудио в рамках проекта EUREKA EU147.
- 1988 год — созданы первые прототипы формата, основанного на психоакустике и маскировке звука.
- 1989 год — Институт Фраунгофера получает немецкий патент на технологию MP3.
- 1991 год, 6 декабря — почти полный стандарт MPEG-1 Audio Layer III опубликован в открытом доступе.
- 1992 год — MPEG официально выбирает усовершенствованный кодек ASPEC в качестве основы для Layer III.
- 1994 год — выпуск первого кодировщика L3enc.
- Июль 1995 года — принято решение использовать расширение .mp3, что считается днём рождения формата.
- Сентябрь 1995 года — выпуск первого программного плеера WinPlay3.
- 1996 год — MP3 патентуется в США, начинается коммерциализация.
- 1998 год — появление первых портативных плееров (MPMan, Rio).
- 23 апреля 2017 года — истекают последние патенты, формат становится полностью открытым.
Особенности:
- Использует перцепционное кодирование — удаляет звуковые частоты, неразличимые для человеческого уха.
- Сжимает аудио до 1/10-1/12 исходного размера (например, с 1411 кбит/с у CD до 128 кбит/с).
- Поддерживает постоянный (CBR) и переменный (VBR) битрейт.
- Файл состоит из фреймов, каждый содержит заголовок и сжатые данные.
- Метаданные хранятся в ID3-тегах (название, исполнитель, обложка).
AAC (Advanced Audio Coding)
AAC (Advanced Audio Coding) — это аудиокодек с потерями, разработанный в 1997 году как часть стандарта MPEG-2 (ISO/IEC 13818-7), позже улучшенный в MPEG-4. Создан совместно Fraunhofer IIS, Dolby, Sony, AT&T и другими. Целью было создание более эффективного аудиокодека, превосходящего MP3 по качеству, особенно на низких битрейтах. Стандартизирован MPEG (ISO/IEC 13818-7 и 14496-3) в 1997-1999 годах. Участники разработки: Fraunhofer IIS, AT&T, Dolby, Sony, Nokia.
История:
- 1994 год — начало разработки AAC совместно Fraunhofer IIS, AT&T, Dolby, Sony и Nokia.
- 1997 год — AAC официально стандартизирован как часть MPEG-2 (ISO/IEC 13818-7).
- 1999 год — улучшенная версия включена в MPEG-4 (ISO/IEC 14496-3) с поддержкой технологии PNS (Perceptual Noise Substitution).
- 2003 год — выпуск HE-AAC (aacPlus), оптимизированного для низких битрейтов (32-48 кбит/с).
- 2004 год — представлен HE-AAC v2 с параметрическим стерео, обеспечивающим качество на битрейтах ~16 кбит/с.
- Апрель 2012 года — анонсирован xHE-AAC, поддерживающий адаптивную передачу от 12 до 300 кбит/с.
Ключевые особенности:
- Частота дискретизации: 8-96 кГц, поддержка до 48 каналов (включая 5.1 и 7.1).
- Битрейт: от 8 до 320 кбит/с на канал
- Качество: превосходит MP3 при одинаковом битрейте, особенно на низких значениях. 128 кбит/с AAC ≈ 192 кбит/с MP3
- Технологии: использует MDCT (модифицированное дискретное косинусное преобразование), TNS, PNS, динамическое окно (256-2048 отсчёта).
- Профили: LC-AAC (наиболее распространён), HE-AAC (AAC+), xHE-AAC (до 12 кбит/с).
- Применение: Apple (iTunes, iOS), YouTube, Bluetooth, DAB+, потоковое вещание.
- Контейнеры: .m4a, .mp4, .aac, .adts.
Помню, как в конце нулевых я пережал музыку из распространённого тогда .mp3 — формата по умолчанию — в .aac, ещё ничего в этом не понимая. То было на телефоне и отличий на слух заметно не было, а размер уменьшился.
Для примера конвертировал большой аудиофайл через ffmpeg, изменив только расширение: в MP3 битрейт 256 кбит/с, а AAC 138 кбит/с. Обратите внимание на выходной размер.
ffmpeg -i 'file.mp3' 'file.aac'
Сравнение MP3 и AAC
AAC был разработан в рамках международного проекта под руководством MPEG (Moving Picture Experts Group). Таким образом, AAC появился как преемник MP3, предлагающий лучшее качество звука, поддержку многоканального аудио и более гибкие алгоритмы сжатия.
Качество и сжатие
- AAC обеспечивает лучшее качество звука при одинаковом битрейте, особенно на низких значениях (ниже 160 кбит/с).
- Причина — более совершенные алгоритмы, включая модель восприятия звука и динамическое переключение размера окон (MDCT), что снижает артефакты, такие как «кваканье».
- AAC использует меньшие семплы (120-128) против 192 у MP3, что позволяет точнее кодировать аналоговый сигнал.
Технические возможности
- Частотный диапазон: AAC поддерживает частоты от 8 до 96 кГц, MP3 — от 16 до 48 кГц.
- Количество каналов: AAC поддерживает до 48 каналов (включая 5.1 объёмный звук), MP3 — максимум 2 (стерео).
- AAC имеет разные профили сжатия (например, LC, HE-AAC), позволяя гибко управлять качеством и размером
Вывод
- AAC лучше по качеству и эффективности, особенно при экономии места.
- MP3 лучше по совместимости, но уступает в технических возможностях.

Vorbis
OggVorbis — это открытый аудиокодек с потерями, разработанный Xiph.Org Foundation как свободная альтернатива MP3, AAC и WMA и был официально представлен летом 2002 года. Используется в играх и вебе (например, WebM). Кодек Vorbis обычно упаковывается в контейнер Ogg, поэтому файлы имеют расширение .ogg или .oga.
Формат предназначен для хранения аудио среднего и высокого качества (от 8 кГц до 48 кГц, 16+ бит, многоканальный звук) при фиксированном или переменном битрейте — от 16 до 256 кбит/с на канал.
Термин «Ogg Vorbis» часто используется как единое название, но на самом деле он состоит из двух компонентов:
- Vorbis — сам аудиокодек (сжатие с потерями), а Ogg — контейнер, в котором он обычно хранится (отсюда название Ogg Vorbis).
- Появился в 2000 году, официальный выпуск — 2002 год.
- Поддерживает частоты от 8 до 192 кГц, до 255 каналов, переменный битрейт (VBR) и качество выше MP3 при том же размере.
- Использует UTF-8 для метаданных, что позволяет писать на разных языках.
- Применяется в играх (Unreal Tournament), WebM (с VP8/VP9), потоковом вещании (Icecast) и подкастах.
- Бесплатен и не запатентован, что делает его привлекательным для разработчиков.
Файлы имеют расширение .ogg и хорошо подходят для интернет-трансляций и хранения музыки без лицензионных ограничений. Хотя Vorbis чаще всего используется с контейнером Ogg (и такие файлы имеют расширение .ogg), он может применяться и в других контейнерах. Однако в большинстве случаев под «Ogg Vorbis» понимают именно аудиофайл в контейнере Ogg с кодированием Vorbis.
Я в своей практике пережатия видео со звуком в кодек Vorbis (libvorbis) сталкивался, что у людей отсутствовал звук. По этой причине звук я теперь жму в Opus (libopus), который ещё лучше сохраняет место накопителя и тоже открытый.
Преимущества Vorbis:
- Меньший размер по сравнению с MP3 при том же качестве.
- Открытый исходный код (лицензия BSD).
- Хорошо работает на низких битрейтах (например, 64-128 кбит/с).
Последняя версия — libvorbis 1.3.7 (2020 год). Активно используется, но постепенно дополняется более современным Opus.
Opus
Opus — это современный аудиокодек с открытым исходным кодом, разработанный IETF (Internet Engineering Task Force) и стандартизированный в RFC 6716. Используется для передачи речи и музыки в реальном времени. Разработка началась в 2010 году как совместный проект IETF, объединивший технологии SILK (от Skype) и CELT (от Xiph.Org). Официальный релиз стандарта RFC 6716 состоялся 11 сентября 2012 года.
Ключевые особенности:
- Низкая задержка: от 2,5 до 60 мс — идеален для VoIP, видеоконференций и стриминга.
- Гибкость: поддерживает битрейт от 6 до 510 кбит/с, частоту дискретизации от 8 до 48 кГц.
- Поддержка моно и стерео, а также до 255 каналов (мультисемпл).
- Динамическая настройка: можно менять битрейт, частоту и размер кадра «на лету» без разрыва потока.
- Высокое качество: превосходит MP3 и AAC при низких битрейтах, особенно в речи.
Преимущества Opus перед OggVorbis:
- Лучшее качество на низких битрейтах (до 96 кбит/с), особенно для речи и музыки.
- Гибкость: объединяет технологии SILK (для речи) и CELT (для музыки), автоматически адаптируясь к типу аудио.
- Меньший размер файла при одинаковом качестве.
- Не требует больших кодовых книг, эффективен даже для коротких аудиофрагментов.
- С 2013 года Xiph.Org рекомендует Opus вместо Vorbis для новых проектов.

Вот для примера тот же файл, но пережатый уже в Opus и .mkv
ffmpeg -i 'file.mp3' -c:a libopus 'file.opus'
Вывод:
Opus — современный стандарт для интернет-аудио, тогда как Vorbis остаётся актуальным в основном для совместимости с устаревшими системами. Opus превосходит Vorbis по качеству, латентности и универсальности, особенно при низких битрейтах и в реальном времени.

Кодеки без потерь (lossless)
Lossless-аудиокодеки — это форматы, которые сжимают звук без потери качества. При декодировании файл восстанавливается точно в исходный вид, как если бы сжатия не было. Они используются для хранения музыки в высоком качестве, архивации и прослушивания на Hi-Fi-оборудовании.

WAV и AIFF
Без сжатия. Качество CD, но огромные файлы.
Применение: студийная запись, монтаж.
WAV (Waveform Audio File Format) и AIFF (Audio Interchange File Format) — это форматы без сжатия, сохраняющие полное качество аудио (например, CD — 44.1 кГц, 16 бит).
WAV
- Разработан Microsoft и IBM.
- Основан на формате RIFF.
- Универсальный — поддерживается на всех платформах.
- Не поддерживает метаданные (ID3-теги) в чистом виде, хотя есть расширения (WAVEX)
AIFF
- Разработан Apple.
- Основан на формате IFF.
- Используется в экосистеме Apple (macOS, Logic Pro).
- Поддерживает метаданные (автор, название, обложка).
Сравнение
- Качество одинаковое — оба хранят PCM-аудио без потерь.
- Размер файлов большой: ~10 МБ на минуту (16 бит, 44.1 кГц).
- Использование: студийная запись, архивация, монтаж.
На практике — WAV для Windows, AIFF для macOS, но оба работают на любой системе.
FLAC
Открытый, поддерживает теги и метаданные. На 40-60% меньше, чем WAV.
Применение: архивация, аудиофилы.
FLAC — это аудиокодек без потерь, разработанный в 2001 году инженером Джошем Коулсоном из фонда Xiph.Org Foundation. Сжимает аудио без потерь на 50-70%, поддерживает до 32 бит/655 кГц, метаданные, контрольные суммы и открытый исходный код. Используется для архивирования CD, Hi-Fi стриминга и прослушивания на качественной аппаратуре.
История:
- 2000 год — разработка начата Джошем Коулсоном.
- 15 января 2001 — выпуск бета-версии FLAC 0.5.
- 20 июля 2001 — выход первой стабильной версии FLAC 1.0.
- 29 января 2003 — проект включён в Xiph.Org Foundation.
- 17 сентября 2007 — добавлена поддержка AIFF/RIFF метаданных (версия 1.2.1).
- 26 мая 2013 — выпуск FLAC 1.3.0, переход на Git-репозиторий Xiph.Org.
- 25 ноября 2014 — улучшена производительность кодирования/декодирования (SSE/AVX).
- Декабрь 2024 — формат стандартизирован IETF как RFC 9639.
- 11 февраля 2025 — выход версии FLAC 1.5.0.
Особенности:
- Без потерь: сохраняет 100% исходного аудиосигнала, в отличие от MP3 и AAC.
- Сжатие: уменьшает размер файла на 30-60% по сравнению с WAV, без ухудшения качества.
- Поддержка высокого качества: до 32 бит/655 кГц, включая форматы выше CD (24 бит/192 кГц).
- Открытый исходный код: бесплатен, не запатентован, поддерживается на всех платформах.
- Метаданные: поддержка тегов (включая ID3), обложек, разметки на треки.
- Потоковое воспроизведение: каждый кадр независим, что позволяет быстро декодировать и искать фрагменты.
- Устойчивость к ошибкам: повреждение одного кадра не ломает весь файл.
- Архивирование: идеален для резервного копирования аудиодисков (например, CD) в один файл.
FLAC — лучший выбор для аудиофилов и тех, кто ценит качество звука.
ALAC (Apple Lossless Audio Codec)
Аналог FLAC от Apple. Полная интеграция с экосистемой Apple.
Применение: iTunes, iPhone.
История:
- 28 апреля 2004 года — ALAC впервые представлен в QuickTime 6.5.1 и iTunes 4.5.
- 27 октября 2011 года — Apple открыла исходный код под лицензией Apache 2.0, сделав формат открытым и бесплатным.
- Использует контейнер MP4 с расширением .m4a (таким же, как AAC), что может вызывать путаницу.
- Поддерживает до 8 каналов, глубину до 32 бит и частоту до 384 кГц.
- Сжимает аудио на 40-60% без потерь, аналогично FLAC.
- Не использует DRM, но может работать с ним через контейнер.
- Широко поддерживается: все устройства Apple, VLC, Windows 10+, Spotify, Plex, Kodi.
- С 2021 года — основа Lossless-аудио в Apple Music (до 24 бит/192 кГц).
Особенности:
- Сжатие без потерь: сохраняет 100% оригинального звука, уменьшая размер файла на 40-60%.
- Формат и контейнер: использует MP4-контейнер с расширением .m4a, но не является AAC.
- Поддержка качества: до 24 бит/192 кГц (Hi-Res), 8 каналов.
- Совместимость: нативная поддержка на всех устройствах Apple, а также в VLC, Windows 10+, Spotify, Plex.
- Открытый исходный код: с 2011 года доступен под лицензией Apache 2.0.
- Без DRM: сам кодек не использует защиту, но контейнер позволяет её добавить.
- Эффективность декодирования: оптимизирован для устройств с низким энергопотреблением (например, iPod).
- Интеграция: основа Lossless-аудио в Apple Music.
Совместимость ALAC с другими платформами и ПО
- Apple: нативная поддержка на всех устройствах (iPhone, iPad, Mac, Apple TV).
- Windows: поддерживается с Windows 10 версии 1809 и выше (через Groove Music, Windows Media Player, VLC).
- Android: воспроизведение возможно через VLC, Poweramp, Foobar2000 и другие сторонние плееры.
- ПО с поддержкой: VLC Media Player, Foobar2000, Winamp, Spotify (только загрузка), Plex, Kodi.
- Контейнер: ALAC хранится в .m4a (MP4), что обеспечивает широкую совместимость с проигрывателями, поддерживающими этот контейнер.
Хотя ALAC изначально разрабатывался для экосистемы Apple, с открытием исходного кода и поддержкой VLC он стал хорошо совместим с Windows, Linux, Android и кроссплатформенными приложениями.

Подводя итоги
Если меня спросить, то сегодня для кодирования звука я выбираю Opus (libopus), так как он является современной заменой для некогда актуальных MP3 и AAC. Звук в фильмах и сегодня встречается именно в aac, но opus уменьшает размер файла при пережатии, что уже является хорошим основанием для выбора. Opus выбран потому, что он открытый, экономит место и лучше с технической точки зрения.
Что до flac: ничего против него не имею, предпочту скачать музыку именно с расширением .flac, хотя мой самый обычный ПК не обладает продвинутой звуковой картой и акустикой, то есть разницы в звучании я не замечу, скорее всего. Некогда хорошие уши HD280 Pro уже изрядно поистрепались (амбюшуры), поэтому не ожидаю от них получить чего-то выше среднего. Но однажды это может измениться: обзаведусь внешней звуковой, которая уже раскрасит звучание, обновлю наушники и/или колонки. Место на диске для flac'ов имеется, но не часто, к сожалению, встречается такая музыка в раздачах.
Комментарии
09:10
Да и в целом звук я бы строил с обратной стороны: уши - динамики - усилитель - цап - источник.
Если нет качественной акустики, то все эти кодеки +/- одно)
P.S.: + завёз