Влияние источника - форматы файлов и кодеков

Качество звука в наушниках зависит от всего тракта, включая качество исходного контента, подаваемого на ЦАП с усилителем для наушников.

PCM и DSD

Сегодня основным форматом звука является PCM (импульсно-кодовая модуляция). Этот формат в исходном виде хранится в файлах с расширением WAV, а ранее был доступен на дисках Audio CD и DVD Audio. 

Альтернативным вариантом является формат DSD  (Direct Stream Digital), который хранится в файлах с расширением DSF и DFF, и появился как Super AudioCD

Иногда возникает вопрос, чем отличается формат PCM от формата WAV. PCM – это формат звука, а WAV – это расширение файла. Файл в свою очередь состоит из двух блоков – данных о параметрах звукового потока PCM и блока со звуковым потоком. 

При передаче PCM по SPDIF/AES/I2S исходный файл WAV разбивается на короткие отрезки – фреймы, каждый из которых состоит из двух блоков – служебных данных и звуковых данных. Между разными форматами передачи звуковых данных через поток обычно меняется формат служебных данных и размер фреймов. Сами же звуковые данные формата PCM передаются без изменений. Т.е. PCM – это исходные данные, которые в файле или при передачи “разбавляются служебными данными”.

Формат PCM содержит последовательный набор координат звуковой волны, где частота дискретизации обозначает количество координат на 1 секунду, а разрядность – точность их расположения по высоте. Первые ЦАП использовали архитектуру R2R и в бинарном виде поток PCM является управляющим кодом для матрицы ЦАП. Т.е. первичным являлся не формат данных, а архитектура ЦАП, под которую этот формат был создан. 

Позже появились импульсные ЦАП с архитектурой дельта-сигма. В реализации однобитного варианта из одного ключа, управляющим кодом является содержимое потока DSD.

Т.е. существующие базовые форматы хранения звука существуют не сами по себе, а напрямую связаны с базовыми архитектурами ЦАП.

Современные ЦАП с архитектурой дельта-сигма являются мультибитными/многопоточными и исходные форматы PCM и DSD уже не применяются напрямую как управляющий код, а преобразовываются в “многопоточный DSD” под конкретную многопоточную архитектуру ЦАП. Из-за этого неизбежны бесконечные споры о том, какой формат данных “звучит лучше”, т.к. оба получают промежуточные преобразования в ЦАП.

Hi-Res

Самой распространенной частотой дискретизации для формата PCM является 44100 Гц с точностью расположения координат в 16 бит. Такой формат был у цифрового Audio CD. Частота и разрядность была компромиссом между минимальным объемом записываемых данных на диск и субъективным качеством звука. 

Музыка, записанная в более высокой частоте дискретизации и большей разрядности называется как Hi-Res. Обычно услышать разницу между обычным форматом и Hi-Res крайне сложно и возможно только на аппаратуре высшего класса. 

Тем не менее, пользователи часто слышат преимущество записей Hi-Res на порой обычной аппаратуре. Причиной является не сам формат, а подготовка музыкального материала. Под обычный формат звук компромиссно обрабатывается так, чтоб это достаточно хорошо звучало на любых АС, включая саундбары и телевизоры, а для пользователей качественных трактов выпускают материал уже с другой обработкой и сохраняют в Hi-Res формат. Такой Hi-Res будет лучше звучать на качественной аппаратуре, но хуже с радиоприемников, блютуз колонок и т.п. Если же просто уже готовый музыкальный материал конвертировать в Hi-Res и наоборот, то эффект будет едва заметным.

Lossless и Lossy

При хранении звука в файлах или при передаче звукового потока между устройствами обычно используют сжатие данных, которое позволяет снизить конечный вес файла или уменьшить битрейт при передаче данных. 

Существует два вида сжатия. 

Lossless – это архивирование без каких-либо потерь информации. Сжатый Lossless – это flac, ape, wv, ALAC и т.п.. Если исходный файл формата wav сконвертировать во flac, а потом обратно в wav, то получится точная копия исходных данных.

Lossy – это архивирование с психоакустическими потерями. Сегодня форматы lossy существуют только для формата PCM. Файлы – это популярные mp3 и ogg. Кодеки – это mqa, Opus, AAC, AptX и другие, используемые в файлах для видео с наличием звуковой дорожки или при передаче звука между устройствами.

Если файл wav закодировать в mp3 и потом этот mp3 раскодировать обратно в wav, то этот файл будет уже другой по своему содержанию.

Некоторые форматы, такие как m4a, могут внутри содержать данные как Lossless, так и Lossy. 

Непосредственно на микросхему ЦАП всегда подается PCM в раскодированном формате, эквивалентному WAV. Исключение – формат mqa для стриминга, где декодирование может поддерживать сама микросхема ЦАП .

При воспроизведении звука ПО отдает звуковой поток в декодированном виде PCM, аналогично разжатому wav. Т.е. если воспроизводить mp3 и передавать его по Bluetooth на внешний ЦАП через кодек Aptx, то:

Таким образом, если воспроизводить файл в формате mp3, то будет два преобразования из lossy формата в lossless и одно дополнительно в lossy.

Каждый кодек lossy по-своему “прореживает данные” и может быть сконфигурирован на разный режим кодирования. Это может быть быстрый и энергоэффективный, или наоборот, медленный и ресурсозатратный вариант для одного и того же битрейта. Из-за этого в некоторых случаях низкобитрейтные потоки могут звучать лучше, чем высокобитрейтные. 

Порой субъективно разница между lossy и lossless может и вовсе отсутствовать. Однако зависит это не от формата, а того, каким образом было сделано кодирование. В “старые добрые времена”, когда mp3 был основным форматом для хранения аудио, энтузиасты подбирали настройки кодирования под конкретные жанры и особенности исходной музыки. Сегодня же на уровне глобальных стриминговых сервисов такая тонкая работа не проводится и чаще всего кодирование происходит в энергоэффективных режимах.

Нелишне упомянуть, что декодеры lossy обладают разными настройками для декодирования и один и тот же условный mp3 может иметь разное звучание в разных плеерах, использующих разные декодеры для одного кодека. 

Таким образом, lossy формат не обязан плохо звучать, но он является своего рода лотереей качества. Если есть возможность слушать lossless – лучше переходить на него. 

Дополнительно большим заблуждением является утверждение, что если исходным звуком является lossy, то под него не надо использовать высококачественный тракт. В реальности, чем лучше будет тракт, тем оба эти формата будут лучше звучать.

Lossless и Lossy при беспроводном звуке

В большинстве случаев при беспроводной передаче звука по Bluetooth используются lossy кодеки, и это дает предположение, что исходные форматы lossless лишены смысла.

Если использовать файл в формате lossless и на этапе беспроводной передачи будет кодек lossy, то итоговое качество будет снижено. Но при этом, снижение качества происходит при каждом кодировании в lossy, а не один раз. Таким образом, lossless при дальнейшей передаче в lossy будет звучать лучше, чем воспроизведение файла lossy, который будет передаваться через аналогичный lossy кодек. 

Другими словами, повторная конвертация в lossy всегда будет менять звуковой поток в худшую сторону, как раньше это происходило при перезаписи в аналоге.

Автор: Роман Кузнецов. RAA (https://reference-audio-analyzer.pro/)