цифровые технологии и качественный звук

Звук и биты

ТЕОРИЯ

Доклад Discrimination of High-Resolution Audio without Music, подготовленный японскими учеными Юки Фукудой и Сюнсуке Исимитсу, был представлен на 147 конгрессе Международного общества аудиоинженеров AES в октябре 2019 года. На основании проведенных экспериментов показано, что слушатели могут явно различать звуки, закодированные и воспроизведенные с высоким разрешением. В отличие от других аналогичных исследований, в экспериментах японских ученых в качестве звуковых фрагментов вместо музыкальных фонограмм использовались тестовые сигналы. Ниже представлен сокращенный перевод с английского основных разделов доклада.

Аудио высокого разрешения: стандарты, спецификации и другие документы

ТЕОРИЯ

 

ГОСТ Р МЭК 958-93 "Интерфейс цифровой звуковой" (утв. постановлением Госстандарта России от 17.05.1993 N 141, дата введения 01.07.1994) http://gostrf.com/normadata/1/4294817/4294817987.pdf

Definition of Hi-Res Audio. Japan Audio Society (JAS). Announced on June 12th 2014, updated on Sep. 3, 2019 https://www.jas-audio.or.jp/english/hi-res-logo-en

Direct Stream Digital Interchange File Format DSDIFF. Version 1.5. Philips, 2004 https://dsd-guide.com/sites/default/files/white-papers/DSDIFF_1.5_Spec.pdf

DoP open Standard. 2012 https://dsd-guide.com/sites/default/files/white-papers/DoP_openStandard_1v1.pdf

DSD Disc Format Specification. Sony, 2006 https://ps3sacd.com/downloads/DSDDiscFormatSpecs.pdf

DSF File Format Specification. Sony, 2005 https://dsd-guide.com/sites/default/files/white-papers/DSFFileFormatSpec_E.pdf

FLAC Documentation https://xiph.org/flac/documentation.html

Melchior, Vicki R. High Resolution Audio: A History and Perspective. JAES Volume 67 Issue 5 pp. 246-257; May 2019 https://www.aes.org/tmpFiles/elib/20211123/20455.pdf

Recommendations for Hi-Resolution Music Production. Recording Academy Producers & Engineers Wing, 2018 https://www.grammy.com/sites/com/files/recommendations_for_hires_music_production_09_28_18.pdf

Super Audio CD: A Technical Overview. Sony/Philips, 2001 www.muszeroldal.hu/assistance/sacd.pdf

The Advantages of DXD for SACD. Reprinted from "Resolution" Jul./Aug. 2004 http://www.lindberg.no/norsk/artikler/004.pdf

Universal Serial Bus Device Class Definition for Audio Data Formats. USB Implementers Forum, 1998 https://www.usb.org/sites/default/files/frmts10.pdf

USB Audio Design Guide. XMOS, 2014 https://www.xmos.ai/download/USB-Audio-Software-Design-Guide(6.5.1rc9.a).pdf

Физический и психоакустический анализ цифрового звука с высоким разрешением

Ирина Алдошина


В статье известного российского ученого-акустика Ирины Аркадьевны Алдошиной представлен обзор докладов на конгрессах AES (Audio Engineering society, рус. Международное общество аудиоинженеров), а также другой литературы, посвящённых звуку с высоким разрешением. И.А. Алдошина — профессор, доктор технических наук, заслуженный деятель науки РФ, член Координационного Совета по акустике РАН, председатель Санкт-Петербургского отдела AES, автор более двухсот научных трудов.

Приведены отрывки из статьи. Полный текст – в журнале «Звукорежиссёр» № 4 за 2004 год.

«Суть вопроса заключается в следующем: «Зачем постоянно увеличивать частоту дискретизации в современных системах аудиокоммуникаций (тратя на это огромные средства), если пороги слуховой системы ограничены по частоте диапазоном 20 Гц…20 кГц?»

Попытки ответить на этот вопрос предпринимались многократно, однако однозначного ответа до сих пор нет.

В. Войчик является профессором Университета McGill в Канаде (крупнейшего мирового центра исследований в области психоакустики) и председателем технического комитета AES, поэтому в его распоряжении имеются практически все основные результаты работ, позволяющие в той или иной степени ответить на этот вопрос.

Анализ этих результатов, а также другие соображения, содержащиеся в литературе, и будут представлены в данной статье.

На протяжении почти столетней истории развития технологий звукозаписи главной их целью было нахождение методов сохранения и воспроизведения исполняемой музыки со всеми тончайшими акустическими деталями и максимальной точностью, необходимой для ее восприятия. Термин «натуральность» (который является главной целью создания аппаратуры Hi-Fi) символизирует множество присущих звукозаписи характеристик, которые обеспечивают полное ощущение погружения в музыку с учетом окружающей среды, то есть акустики зала. Такие записи должны обеспечивать восприятие детального взаимодействия между инструментами и исполнителями и реализм в ощущении времени и пространства, то есть чувство нахождения в том акустическом пространстве, где исполняется музыка. Современные цифровые записи с высоким разрешением (высокой частотой дискретизации и большой разрядностью квантования) и стремятся обеспечить слушателей возможностью восприятия большого динамического диапазона, точностью передачи быстрых изменений звука во времени и по другим показателям, то есть точностью передачи деталей пространственно-временно-спектральной структуры музыки.

Чтобы оценить сложность этой задачи, достаточно представить себе, какие процессы происходят в концертном зале или студии при исполнении оркестром какого-либо музыкального произведения, когда инструменты из различных мест сцены вступают во взаимодействие с акустическими свойствами помещения, находясь при этом во взаимодействии друг с другом. Способность слуховой системы услышать каждый инструмент на его реальном месте, оценить перспективу и влияние помещения с учетом быстрого изменения всех этих взаимодействий во времени зависит, прежде всего, от уникальных возможностей слухового аппарата. Однако при передаче всей пространственной картины ее восприятие зависит и от разрешающей способности записывающих, передающих и воспроизводящих систем. <…>

В многочисленных докладах на конгрессах AES и в дискуссиях на заседаниях технического комитета «Аудио с высокой разрешающей способностью» высказывались мнения, что дальнейший прогресс в улучшении «прозрачности» и создании «ощущения присутствия» в системах звукозаписи может быть достигнут за счет увеличения разрешающей способности цифровых систем, то есть увеличения частоты дискретизации, и, следовательно, расширения частотного диапазона передаваемого звука за пределы 20 кГц.

Анализ накопленных знаний по данной проблеме позволяет сказать, что этого недостаточно. Учитывая сложность звукового сигнала и свойства слуховой системы, можно утверждать, что только повышение разрешающей способности передающих систем во всех областях (временной, спектральной, пространственной и динамической) может помочь в решении данной проблемы. По крайней мере, уже сейчас кажется очевидным, что высокая разрешающая способность во временной области является наиболее важной для обеспечения прозрачности звучания.

 

Рис. 1. Преобразование аналогового сигнала в цифровой

 

Как известно, для превращения аналогового (непрерывного) сигнала в цифровой (дискретный) необходимо выполнить следующие операции: дискретизацию, квантование и кодирование (рисунок 1). Для их выполнения во всех цифровых устройствах (компьютерах, магнитофонах, проигрывателях и пр.) используется аналого-цифровой преобразователь АЦП (ADC), структурная схема которого показана на рисунке 2. В соответствии с теоремой Котельникова (Найквиста) или «теоремой семплирования», для преобразования аналогового сигнала с верхней частотой fв (Гц) в цифровой без потери информации необходимо, чтобы частота дискретизации, т. е. число отсчетов (семплов в секунду) было не меньше, чем 2 х fв (Гц). Используемое цифровое слово, число двоичных цифр в котором равно числу выбранных M (бит), представляет мгновенное значение входного сигнала, при этом сигнал квантуется на 2M уровней.

Таким образом, теорема семплирования требует, чтобы частота дискретизации была выбрана достаточно высокой fd > 2fв, при этом сигнал должен оставаться почти постоянным в момент семплирования. Обязательность использования низкочастотного фильтра, который стоит во всех АЦП, не оговаривается, но для предотвращения появления лишних частот в спектре во всех цифровых устройствах стоит антиэлайзинговый фильтр, обрезающий сигнал на частоте fd/2.

Рис. 2. Структура АЦП

 

При постоянно меняющейся временной структуре музыкального сигнала временная точность и высокая скорость семплирования, а также точность квантования являются обязательной основой для передачи субъективных признаков звука, в том числе его прозрачности.

В современных цифровых устройствах используются в настоящее время (и будут использоваться в ближайшем будущем) следующие значения основных параметров:

Для формата DSD-2 (лабораторные испытания) временной интервал между семплами составляет 0,17 мкс.

Одним из основных направлений исследований в современной психоакустике и является вопрос: «Достаточна ли такая скорость отсчетов или нет, и каков необходимый предел ее увеличения?»

Рис. 3. Запись короткого удара барабана конденсаторным микрофоном

 

Запись сигнала в любой системе начинается с микрофона (рисунок 3), представляющего собой полосовой фильтр, который уже сам обладает определенными фазовыми и переходными искажениями, приводящими к дисперсии и размыванию сигнала во временной области. Данные об этих искажениях редко приводятся в каталогах на микрофоны, однако большой комплекс исследований, выполненный за последние годы, позволил установить значительную разницу по этим параметрам между динамическими и конденсаторными микрофонами. Для конденсаторных микрофонов получены значения атаки в несколько микросекунд, в то же время спад переходных процессов достигает нескольких сотен микросекунд. Была доказана также важность фазовой линейности микрофонов не только внутри, но и за пределами звукового диапазона (в ультразвуковой области) для обеспечения минимального размывания переходных характеристик музыкального входного сигнала.

Затем аналоговый сигнал, подвергающийся преобразованию в цифровой, обрабатывается низкочастотным фильтром на входе АЦП (антиэлайзинговый фильтр). Этот фильтр также служит причиной дисперсии импульсных характеристик входного сигнала за счет неравномерности АЧХ и ФЧХ в полосе пропускания, крутизны кривых спада в переходной полосе и фазовой нелинейности (рисунок 4).

Рис. 4. Частотная характеристика ФНЧ

 

Такие искажения приводят к временной дисперсии входного сигнала и означают, что каждый мгновенный семпл на выходе будет содержать элементы информации от предыдущих семплов (количество которых зависит от характеристик фильтра). Так как музыкальный сигнал представляет быстро изменяющийся во времени поток с резкими, короткими импульсами, то такая дисперсия и размывание оказывают определенный эффект на слуховое восприятие, особенно для опытного и внимательного слушателя с хорошим музыкальным слухом.

Акустические музыкальные сигналы обладают сверхбыстрой нестационарной временной и динамической структурой, которая обуславливается различными причинами, в частности, быстрой атакой реальных музыкальных инструментов, наличием большого количества ультразвуковых составляющих в спектре многих инструментов, возникновением коротких реверберационных временных задержек в помещении и др. (рисунок 5).

Рис. 5. Временная структура музыкального сигнала (скрипка)

 

Например, при исполнении форте на трубе звук может достичь пиков 120…130 дБ за 10 мкс, на цимбалах за 7…10 мкс можно получить резкий подъем до 136 дБ. Отсюда следует, что временной интервал семплирования, используемый при записи CD, равный 22,7 мкс явно недостаточен. Чтобы отследить такие быстрые изменения в сигнале, интервал должен быть не больше 1 мкс.

Измерения, выполненные с помощью современной прецизионной аппаратуры (специальные измерительные микрофоны B&K 4135, АЦП с частотой 195 кГц и др.), позволили выявить в спектрах музыкальных инструментов большое количество ультразвуковых составляющих. Например, в спектре трубы (нота четвертой октавы 4466 Гц) отчетливо регистрировались составляющие до 40 кГц с уровнем до 60 дБ, в спектре скрипки до 100 кГц, цимбал до 60 кГц с уровнем до 90 дБ. Наличие таких высокочастотных составляющих влияет на временную структуру сигнала и может оказывать косвенное влияние на прослушивание.

Рис. 6. Реверберационный процесс в помещении

 

Запись реального реверберационного процесса без потери информации также представляет огромные трудности. Когда источник звука излучает сложный нестационарный музыкальный сигнал, каждый микрофон, установленный в различных точках помещения, «схватывает» сложный отраженный сигнал. Причем дополнительно прибывающие сигналы, измененные по амплитуде и фазе за счет отражений от различных поверхностей, приводят к экспоненциальному возрастанию общего уровня энергии, поступающей на микрофон. При выключении сигнала происходит спад общего уровня, который обычно характеризуется временем реверберации (временем, за который произошел спад уровня сигнала на 60 дБ). Если выполнить детальный анализ процесса спада при помощи импульсного сигнала (рисунок 6), то можно отметить, что первые отраженные сигналы приходят с большой амплитудой и большим разрешением по времени и могут быть хорошо конвертированы в цифровой сигнал. Однако поздние отражения создают огромные проблемы, так как в короткий отрезок времени происходят очень быстрые динамические изменения сигнала.

Для помещения объемом 1000 м³ число отражений через одну секунду после начала реверберационного процесса будет составлять 511,287 отр/с. Это значит, что отраженные лучи будут прибывать с интервалом меньше 2 мкс, вызывая соответствующие флуктуации в выходном сигнале микрофона. Естественно, при временном интервале отсчета семплов 22,7 мс, как для компакт-диска, эти флуктуации никак не смогут быть зарегистрированы.

Тщательные измерения показали также, что в этих отраженных сигналах происходят быстрые амплитудные и фазовые сдвиги и быстрые нерегулярные изменения частоты (частотный джиттер). Когда два или несколько микрофонов распределены в помещении, и при этом еще происходит многодорожечная запись, то эти сложные временные соотношения между сигналами с частотной модуляцией при бинауральном прослушивании создают сдвиги междуушной временной разницы. Как оказалось, слух к этим бинауральным сдвигам (называемым «бинауральный джиттер») очень чувствителен, даже если они составляют доли микросекунд! Кроме того, даже легкое движение исполнителей, воздуха, слушателей и пр. создают дополнительные изменения временных признаков в звуковом сигнале, которые могут восприниматься слуховой системой. <…>

Было показано, что слух особенно чувствителен к флуктуациям временных междуушных задержек в процессе спада сигнала (более чувствителен, чем во время атаки), что особенно важно для слуховой оценки реверберационных процессов в помещении. Минимальная тестируемая разница в двух ушах составляет 6 мкс.

Интересно, отметить, что раньше считалось, будто чувствительность слуха к временным сдвигам сигналов сохраняется, в основном, в диапазоне до 1500 Гц, однако последние результаты показали, что чувствительность к временным различиям сохраняется вплоть до высоких частот для амплитудно-модулированных сигналов, при этом слух извлекает дополнительную информацию из анализа флуктуаций огибающей во времени.

Анализ именно временной разности (а не интенсивностной) является определяющим при локализации сложных сигналов, частично маскирующих друг друга, что типично при восприятии музыкальных сигналов от множественных источников.

Исследования по оценке слышимости упомянутого выше «бинаурального джиттера» (случайных частотных модуляций) показал, что, хотя чистые тоны выше 1400…1600 Гц не могут быть латерализованы, с добавлением случайных частотных модуляций можно выполнить латерализацию сигналов даже при междуушной временной разнице всего в 1,5 мкс. Улучшение бинауральной латерализации к высоким частотам при добавлении джиттера позволяет предположить, что слух отслеживает не только бинауральные временные различия между огибающими сигналов, но и временную междуушную разницу в каждом временном цикле. Удивительно, но было установлено, что слуховая система замечает разницу между чистым импульсным сигналом и сигналом с девиацией всего в 0,2 мкс! Такая высокая бинауральная чувствительность к джиттеру объясняет, почему тонкие частотные флуктуации во время реверберационного процесса в помещении могут быть слышимы. Неизвестно, однако, при какой скорости и уровне флуктуации задержки отраженных сигналов перестают быть слышимыми.

Очевидно, что усредненная импульсная характеристика помещения (дискретизованная и кодированная в цифровой сигнал) не учитывает тонкую структуру и уникальность этих флуктуаций и «затемняет» ощущение присутствия в акустическом окружении. Для этого требуется высокое временное разрешение, частота и точность семплирования, чтобы сохранить каждый бит в описании неоднородностей импульсных характеристик. Неудивительно, что воспроизведение реверберационных процессов представляло значительные трудности для первых цифровых систем из-за потери пространственности (пространство сворачивается в точку) за счет недостатка цифрового разрешения для передачи тончайших временных нюансов в реверберационном процессе. Очевидно, что разрешения в 22,7 мкс (при 44,1 кГц), используемого в компакт-дисках, для этого также явно недостаточно. <…>

Слуховая система способна аккуратно обрабатывать информацию о звуках с задержками до 33 мс, следовательно, первые дискретные отражения воспринимаются и обрабатываются слуховой системой с большой точностью.

Джиттер и модуляционные искажения имеют место во всех звеньях звукозаписи (микрофонах, магнитофонах, громкоговорителях). Наличие джиттера приводит к перераспределению энергии в боковые полосы от основной частоты и может восприниматься на слух как появление некоторой шумовой окраски чистого тона.

Джиттер возникает в аналоговых магнитофонах из-за непостоянной скорости магнитной ленты (в диапазоне от 0,2 Гц до 200 Гц). Кроме того, за счет трения в лентопротяжном механизме возникают продольные колебания ленты (флаттер), что приводит к множественному появлению боковых полос в высокочастотной части спектра. Это обогащает звуковой сигнал некогерентным шумом и создает особое «аналоговое» качество звука (ценимое многими профессионалами). Появление этого флаттер-шума приводит к временным сдвигам сигнала (временным ошибкам), которые оказались равными 10,4 мкс. Отсюда следует, что при переносе на компакт-диск эти флуктуации будут потеряны, так как семплирование сигнала будет происходить только с интервалом 22,7 мкс. <…>

Слух обладает очень высокой разрешающей способностью по времени для периферической зоны слуха (как и для зрения). Периферической считается зона за пределами ±30° от срединной плоскости. Для фронтального прослушивания сдвиг источника звука от 0 до 15° приводит к появлению междуушной разницы по времени более 200 мс. Сдвиг на те же 15° в боковой зоне (от 90 до 75°) приводит к разнице только в 20 мс. Чувствительность к временным различиям в периферической зоне оказывается выше, чем во фронтальной, что принципиально важно для передачи ощущения окружения звуковой средой. Частота дискретизации, используемая в компакт-дисках с разрешением 22,7 мс, оказывается недостаточной, чтобы «схватить» эти тонкие временные сдвиги, что приводит к неточной локализации в периферической зоне и потере ощущения окружения (и, возможно, ощущения глубины).

За последние годы было проведено много исследований в области анализа слышимости ультразвуковых частот. Интересные результаты получены в Японии (проф. Ямомото) где было установлено, что подмешивание ультразвуковых компонент к сигналам звукового диапазона улучшает их слуховое восприятие, в то же время подача одних ультразвуковых компонент не создает слухового ощущения. Несколько авторов описывают эксперименты, подтверждающие способность к восприятию ультразвуковых частот за счет костной проводимости (утверждается даже, что люди с потерей слуха могут за счет этого воспринимать ультразвуковую речь, что кажется уж совсем невероятным).

Эффективность слуховой системы существенно увеличивается с опытом. Например, у опытных звукорежиссеров она существенно выше, чем у обычных слушателей. <…>

Таким образом, анализ показывает, что музыка, исполняемая в помещении, создает сложный звуковой сигнал, который соответствует чрезвычайно тонким и сложным способностям слуховой системы к его анализу. Процесс записи звука должен иметь разрешающую способность, соответствующую как сигналу, так и возможностям слуховой системы. Только когда с помощью новых технологий с высокой разрешающей способностью будет достигнута полная «прозрачность» звука, слушатель сможет ощутить полное погружение в реальную звуковую атмосферу. Технические возможности и эстетические принципы звукорежиссеров могут усилить это чувство погружения за счет расширения перспективы, приближения части звуковой панорамы, вызывающей наибольшее внимание, и других приемов. Чтобы достичь этого контроля над «эффектом присутствия», требуется высокая временная разрешающая способность всех систем записи и обработки звука, соответствующая уникальным возможностям бинауральной слуховой системы.

Прогресс в цифровой технике за последние 20 лет характеризуется повышением прозрачности звука и снижением воспринимаемых искажений.

Низкая разрешающая способность первых цифровых систем приводила к характерным искажениям, например, при записи фортепиано — ненатуральная атака и смазывание среднечастотных звуков, при записи ударных — чрезмерно подчеркнутые переходные, нарушение пропорций. При записи оркестра проявлялся недостаток ясности и четкости каждого компонента партитуры. При записи в реверберирующем помещении исчезали тонкие нюансы процесса реверберации и ощущения пространственности — звуки скорее располагались в плоскости, а не распределялись по глубине, происходило восприятие громкости звука без ощущения его объема…

Новые достижения в сверхбыстрой скорости семплирования (то есть увеличении частоты дискретизации) дали цифровому звуку возможности временного и частотного разрешения, близкого к возможностям слуховой системы, а переход на многобитное кодирование 48 бит и более позволил получить высокое динамическое разрешение. Технология «синтеза волнового поля» (Wave Field Synthesis), когда звук исходит от очень большого количества излучающих поверхностей, окружающих слушателя, создает возможности для высокого пространственного разрешения.

Должен быть достигнут, по-видимому, какой-то оптимальный баланс между этими категориями (временной, частотной, динамической, пространственной и др.), при котором увеличение разрешения в одной из них может позволить уменьшить его в другой. Однако временное разрешение кажется определяющим, поскольку сверхвысокая частота дискретизации повышает слуховую оценку и в других областях.

Улучшение прозрачности требует, чтобы звукозаписывающие и звуковоспроизводящие системы не создавали модуляционных искажений, которые могут маскировать сложные модуляционные процессы, присутствующие в музыке. Уникальные характеристики джиттера (частотных флуктуаций) в записываемом звуке также не должны затемняться общими модуляционными искажениями записывающих систем, чтобы не нанести ущерба отчетливо различающимся модуляциям индивидуальных звуков.

Таким образом, высокая разрешающая способность звукопередающих систем во временной, спектральной, пространственной и динамической областях совместно определяют качество воспринимаемой музыки и речи, при этом разрешение во временной области имеет доминирующее значение для слухового восприятия.

Все представленные выше результаты не дают, конечно, окончательного ответа на поставленный в начале статьи вопрос, но позволяют еще раз подчеркнуть: слуховая система представляет собой сложный преобразователь, обладающий нелинейными свойствами как на высоких, так и на низких уровнях сигнала, и поэтому однозначного соответствия результатов по слуховым порогам в частотной и временной области не существует (поскольку только в идеальных линейных системах может быть адекватный переход, например, с помощью преобразования Фурье, из одной области в другую).

Поэтому анализ чувствительности слуховой системы к тонким изменениям структуры сигнала должен выполняться для различных категорий: временной, частотной, динамической и т. д. Соответственно, усовершенствование способности цифровой аппаратуры к тонкой передаче характеристик только в одной области (например, в частотной) недостаточно — необходимо комплексное улучшение разрешающей способности технических систем по всем направлениям, что и пытается реализовать современная аудиотехника.»

Тенденции в развитии аудио высокого разрешения. AES, 2015

январь 2015


Доклад подготовлен Техническим комитетом «Аудио высокого разрешения» в начале 2015 года. Указанный орган является одним из 22 технических комитетов Международного общества аудиоинженеров (AES, Audio Engineering Society) и координирует его работу в сфере звукозаписи и звуковоспроизведения с высоким разрешением. Оригинал – на английском языке.

 

Последние годы были отмечены устойчивым ростом интереса к аудио высокого разрешения (АВР). АВР постепенно становится основным трендом  на рынках аудио для профессионалов и аудиофилов. Введение новых форматов и совершенствование технологий их обработки, наряду с ростом объемов доставки контента через интернет, а также значительное усилия со стороны индустрии, направленные на то, чтобы сделать АВР основным форматом, – всё это говорит об интересной и многообещающей перспективе на ближайшие несколько лет. Технический комитет «Аудио высокого разрешения» поддерживает проведение семинаров, обсуждений и издание инструктивных материалов, освещающих основные аспекты развития АВР, в интересах всего сообщества AES.

 

НОВЫЕ ФОРМАТЫ АВР

Наиболее заметным за последние два года стало возникновение и быстрое расширение использования DSD как независимого формата кодирования и распространения аудиоконтента. DSD — название, введённое компаниями Sony и Philips для обозначения однобитного формата, основанного на сигма-дельта-преобразовании, которое, вместе с соответствующей обработкой, используется для хранения и передачи данных, связанных с производством SACD. Наряду с оригинальным форматом DSD 64 Fs (64 x 44,1 кГц или 2,8224 МГц) в настоящее время используются форматы с увеличенной частотой дискретизации: 128 Fs и 256 Fs. Главным преимуществом использования более высоких частот является смещение области шума, который появляется вследствие преобразования динамического диапазона в сигма-дельта-конвертерах, далеко за пределы слышимого диапазона частот (> 60 кГц), а также снижение уровня шума квантования в аудиодиапазоне по сравнению с форматом 64 Fs. Считается, что DSD-сигнал звучит чище и прозрачнее при более высоких значениях частоты дискретизации.

Формат DSD связан также с форматом DXD, название которого используется для обозначения ИКМ-сигналов 352,8 кГц/24 дБ, сторонником которого является компания Merging Technologies, предложившая его в качестве промежуточного этапа для получения DSD. Поскольку при подготовке аудиозаписи цифровая обработка однобитного потока затруднительна, то, как правило, он предварительно преобразуется в ИКМ-сигнал с высокой частотой дискретизации. Некоторые инженеры звукозаписи используют DXD не просто в качестве промежуточного этапа, а как первичный формат звукозаписи для последующего выпуска в виде DSD, или как промежуточный формат межу записью и  выпуском в DSD-формате, или, возможно, в будущем, как ИКМ-формат 352,8 кГц для выпуска аудиозаписи.

Подобная тенденция использования более высоких частот дискретизации в форматах ИКМ и DSD поддерживается при производстве  потребительского и профессионального оборудования. Многие современные ЦАПы и АЦП могут обрабатывать оба формата – ИКМ и DSD. Новые преобразователи, программное обеспечение и даже портативных устройства всё чаще обеспечивают поддержку различных сигналов ИКМ от уровня компакт-диска (44,1 кГц/16 дБ) до 384 кГц/32 дБ и DSD 256 Fs, в то время как промышленность продолжает изучать как достоинства, так и степень интереса потребителей к этим форматам. Открытый стандарт для упаковки сигналов DSD в ИКМ-фреймы, известный как DoP*, был воспринят большинством производителей для облегчения передачи DSD через интерфейсы USB, а также AES и SPDIF.

 

УЛУЧШЕНИЯ В КОНВЕРТЕРАХ, ФИЛЬТРАХ И ОБРАБОТКЕ СИГНАЛОВ

В то время как  для получения высокого качества звука всегда стремились найти проблемные области, приводящие к его деградации, связанные с обработкой и фильтрацией музыкального цифрового сигнала, всё более высокое разрешение становится одновременно и результатом, и движущей силой этого поиска. В настоящее время производители высококачественных преобразователей прилагают усилия, направленные на устранение недостатков, свойственных микросхемам с повышением частоты дискретизации (upsampling) и многоразрядным сигма-дельта конвертерам, используемым практически повсеместно в ЦАПах для  обработки ИКМ-сигналов. Методы модернизации включают в себя замену микросхем на ПЛИС, осуществление повышения частоты дискретизации в компьютере, конструирование специальных фильтров, в том числе, фильтров с минимальной фазой, увеличение значения разрядности при обработке сигналов до  64 бит с плавающей запятой и выше, использование оригинальных схем сигма-дельта-модуляции и прореживания. Несколько производителей микросхем разработали более совершенные чипы с использованием указанных выше методов, улучшенными характеристиками по формированию шума, контролю джиттера, тактирования и развязки. Такие микросхемы все чаще появляются в новых АВР-совместимых аппаратах.

Теоретические и практические вопросы влияния фильтров на звук обсуждаются уже в течение длительного времени, и новая программа оценки, предложенная компанией Meridian Audio, направлена на исследование некоторых аспектов, связанных с различимостью этого влияния. В документе, представленном на 137-ом конгрессе AES компанией Meridian Audio (H.M. Jackson и др.), описаны результаты двойных слепых тестов оценки фильтров для даунсемплинга, обычно используемых при подготовке звукозаписи для компакт-дисков, в случае их применения для сигналов с более высоким разрешением (без прореживания), которые воспроизводились через высококачественную аудиосистему. Эти результаты оспаривают данные, ранее описанные Мэйером и Мораном (E.B. Meyer, D.R. Moran, J.A.E.S. 55: 775-779, 2007), и предоставляют подтверждение и возможное объяснение слышимых  различий в звучании компакт-диска и сигналов с высоким разрешением.

 

РАСПРОСТРАНЕНИЕ, ХРАНЕНИЕ И ВОСПРОИЗВЕДЕНИЕ

Распространение файлов АВР происходит в настоящее время главным образом через интернет. Существуют разнообразные веб-сайты для скачивания (от самых крупных до небольших, принадлежащих лейблам и исполнителям), которые предлагают новые записи и каталог ремастированных записей прошлых лет. В основном распространяются файлы ИКМ от 192 кГц/24 дБ до 44,1 кГц/16 дБ, но и форматы DSD 64 Fs и 128 Fs становятся всё более доступными. Хотя контент в форматах ИКМ 192 кГц и DSD 256 Fs еще не стал существенным фактором распространения на рынке, производители ЦАПов уже включают их поддержку в технические характеристики выпускаемых аппаратов, учитывая имеющиеся тенденции. FLAC, WAV и AIFF являются основными форматами для распространения сигналов ИКМ. Потоковая передача данных скорее всего сможет дополнить или даже заменить скачивание в будущем, как это происходит сейчас со сжатыми форматами музыки и видео. В настоящее время пропускная способность каналов связи ограничивает потоковую передачу музыки в форматах без потерь уровнем разрешения компакт-диска. Однако ожидается, что новый кодек под названием MQA, который недавно был предложен компанией Meridian Audio, сможет обеспечить кодирование сигналов более высокого разрешения без потерь, которое соответствует скорости передачи данных на уровне чуть ниже значения для компакт-диска. В случае успеха формат MQA может оказать сильное влияние на потоковую передачу аудио высокого разрешения.

Распространение скачивания музыкальных файлов связано с продолжающейся тенденцией по расширению применения компьютеров, файловых серверов и портативных цифровых устройств во всех сферах музыки, включая традиционный рынок двухканальной музыки для аудиофилов. Фильмы на дисках Blu-ray, содержащие фонограммы с высоким разрешением, также продолжают хорошо распространяться, несмотря на постоянное снижение продаж мультимедийного контента на физических носителях. Существует также ограниченный рынок дисков Blu-ray, предназначенных исключительно для высококачественного аудио.

 

НОВЫЕ РЫНКИ

Можно отметить две новые инициативы, направленные на внедрение аудио высокого разрешения в массовый рынок. Несколько факторов определяют эти усилия: во-первых, значительный успех крупных веб-сайтов, распространяющих на рынке файлы АВР для аудиофилов, и, во-вторых, увеличение запроса  на музыку с более высоким качеством звука, как результат неудовлетворённости уровнем звучания сжатых аудиоформатов.

Одна из инициатив – это проект Pono, который является результатом многолетних усилий певца Нила Янга и включает в себя создание портала для загрузки музыки с высоким разрешением и производство портативного цифрового проигрывателя оригинальной конструкции. Начало продаж Pono должно стартовать в конце 2014 года.

Второй пример – это совместная инициатива организаций Digital Entertainment Group (DEG), Consumer Electronics Association (CEA), Recording Academy и крупных звукозаписывающих компаний. Они разработали определение АВР и набор условных обозначений для указания происхождения источника будущего релиза. Участники этой инициативы организуют переговоры и демонстрации АВР на выставках, включая конгресс AES в 2014 году в Лос-Анджелесе. Отсутствие информации об источнике цифровой аудиозаписи был одним из основных моментов, часто вызывавших нарекания потребителей, поскольку многие диски DVD-A, SACD и загружаемые файлы, помеченные как аудио высокого разрешения, были получены простым повышением частоты дискретизации из  записи уровня компакт-диска. Таким образом, указание источника цифровой звукозаписи, хотя и не обязательное, является попыткой исправить это положение.

Следует отметить также ряд инициатив, направленных на повышение доступности многоканального аудио для  исследовательских и образовательном сообществ. К ним относятся такие проекты, как Open Multitrack Testbed, MedleyDB, Free Multitrack Download Library и Structural Segmentation Multitrack Dataset. Многие из них содержат отдельные записи, стемы и аудиомиксы, сделанные с качеством выше, чем у компакт-диска, и обычно включают в себя контент, доступный по лицензии типа Creative Commons, позволяющей в ограниченном виде его повторное использование или распространение.

Перевод Ю. Кузьмина

_________

* DoP (DSD over PCM) – метод передачи сигналов DSD с помощью ИКМ-фреймов (прим. переводчика)

Подкатегории

Вверх