Доклад Discrimination of High-Resolution Audio without Music, подготовленный японскими учеными Юки Фукудой и Сюнсуке Исимитсу, был представлен на 147 конгрессе Международного общества аудиоинженеров AES в октябре 2019 года. На основании проведенных экспериментов показано, что слушатели могут явно различать звуки, закодированные и воспроизведенные с высоким разрешением. В отличие от других аналогичных исследований, в экспериментах японских ученых в качестве звуковых фрагментов вместо музыкальных фонограмм использовались тестовые сигналы. Ниже представлен сокращенный перевод с английского основных разделов доклада. |
Исследование различения звука с высоким разрешением без использования музыкальных фрагментов
Юки Фукуда (Yuki Fukuda) и Сюнсуке Исимитсу (Shunsuke Ishimitsu)
Аспирантура по информатике, Университет Хиросимы, Япония
Аннотация
В настоящее время чрезвычайно популярными становятся аудиоформаты высокого разрешения (ВР, Hi-Res), которые имеют более высокую частоту дискретизации (Fд) и разрядность по сравнению с форматом компакт-диска. Был проведен ряд исследований, чтобы выяснить, можно ли различить эти форматы. Однако, большинство исследований были основаны на использовании музыкальных фрагментов в экспериментальных целях. В этом докладе сделана попытка выявить возникающие в связи с этим проблемы. Мы также ответили на вопрос, связанный с различением звука форматов ВР и компакт-диска при использовании для прослушивания не музыки, а шума.
1. Введение
В последние годы большое внимание уделяется аудиоданным, получившим название «аудиоформаты высокого разрешения», которые имеет более высокую частоту дискретизации и разрядность, чем формат компакт-диска [1-4]. Много исследований было проведено с целью обнаружения различий между звуком с ВР и не-ВР.
Нисигучи (Nishiguchi) и др. [2] провели испытание «дуо-трио» для 36 участников, чтобы проверить, могут ли они различать ВР и не-ВР. В исследовании сообщалось, что некоторые из участников смогли различать все сигналы, которые имели частоту выше 21 кГц или ниже. Однако некоторые из участников (включая четырх студентов музыкального колледжа, скрипача и звукорежиссера) не показали каких-либо значимых результатов для нескольких аудиоформатов ВР (таких как WAV, FLAC, DSD и др.).
Мизумачи (Mizumachi) и др. [3] сравнивали формат компакт-диска с музыкальной фонограммой формата ВР с помощью теста, в котором приняли участие 27 участников. Результаты показали, что участники могли различать эти форматы с точностью 57 %. Также было определено, что девять участников смогли различать эти форматы во всех случаях. Кроме этого, семь человек с музыкальным образованием, которые сами играли на музыкальных инструментах или ежедневно слушали музыку с ВР, смогли различить более высокую и низкую разрядность.
Сугуро (Suguro) и др. [4] во время испытаний предлагали для прослушивания два музыкальных фрагмента с различной разрядностью, но с одинаковой частотой дискретизации, причем эти фрагменты воспроизводились одновременно. Результаты показали, что локализация звуковой картины произошла на той стороне, где воспроизводился фрагмент с более высокой разрядностью.
Однако необходимо подчеркнуть, что во всех этих исследованиях во время проведения экспериментов использовались только музыкальные фрагменты. В связи с этим мы считаем, что сделанные выводы не могут считаться общими, потому что в исследованиях не был исключен эффект влияния уровня музыкального опыта участников (игра на музыкальных инструментах, прослушивание музыки и т. п.) [4, 8, 9].
В настоящей работе мы сосредоточились на том факте, что во всех предыдущих исследованиях для проведения экспериментов использовались исключительно музыкальные фрагменты. Мы рассматриваем возможность различения форматов ВР и не-ВР без воспроизведения каких-либо музыкальных фрагментов.
2. Определение аудио высокого разрешения
Ниже приведены определения аудио высокого разрешения (АВР), данные некоторыми организациями [5-7]. Далее мы уточним существующее определение АВР.
2.1 Японская ассоциация производителей электроники и информационных технологий (Japan Electronics and Information Technology Industries Association, JEITA)
JEITA определила «формат компакт-диска» как цифровые аудиоданные, которые имеют частоту дискретизации 44,1 кГц или 48 кГц и разрядность 16 бит [6].
Далее, JEITA определила ВР как аудиоданные, которые имеют или более высокую частоту дискретизации, или разрядность по сравнению с форматом компакт-диска. Примеры для понимания этого определения приведены в Таблице 1.
Таблица 1. Примеры аудиоформатов ВР, JEITA [6]
Fд (кГц) |
Разрядность (бит) |
ВР |
44,1 |
16 |
X |
44,1 |
24 |
Ο |
48 |
16 |
X |
96 |
16 |
Ο |
192 |
12 |
X |
2.2 Американская ассоциация звукозаписывающих компаний (Recording Industry Association of America, RIAA)
RIAA определила АВР как аудио без потерь, способное воспроизводить полный спектр звука аудиозаписей, которые были подготовлены из музыкальных источников качеством выше, чем у компакт-диска (48 кГц/20 бит или выше), и которые передают именно то, что изначально задумывали музыканты, продюсеры и звукоинженеры [7].
3. Постановка задачи
В этой главе мы перечисляем пять проблем, которые могут возникнуть при использовании музыкальных фрагментов для идентификации аудиоформатов ВР, и которые побудили нас к проведению настоящего исследования.
Проблема 1: Если исследователи ограничиваются использованием музыкальных фрагментов только определенных жанров, то существует вероятность того, что результаты окажутся иными при использовании музыки других жанров.
Проблема 2: Результаты могут зависеть от уровня музыкального опыта участников эксперимента. Другими словами, исследователю необходимо тщательно подходить к подбору фрагментов для прослушивания [4].
Проблема 3: В одном из отчетов о проведенном ранее исследовании говорилось, что при прослушивании музыки наблюдается значительное различие в реакциях тела и эмоциях тех участников, которые умеют играть на музыкальных инструментах, с одной стороны, и тех, кто этого не может, с другой [8]. Следовательно, можно считать, что наличие музыкального образования влияет на субъективную оценку при прослушивании музыки.
Проблема 4: Для издания определенных жанров музыки может использоваться альтернативный мастеринг для ВР и не-ВР. Следовательно, соответствующие музыкальные фрагменты могут отличаться друг от друга, несмотря на одно и то же название [9].
Проблема 5: По причине того, что большинство микрофонов имеют либо низкий уровень шума, либо широкую частотную характеристику, в фонограмме могут отсутствуют музыкальные сигналы, содержащие высокочастотные компоненты [10].
Принимая во внимание перечисленные выше проблемы, мы считаем, что для получения более общих результатов при сравнении ВР и не-ВР необходимо исключить использование музыкальных фрагментов.
4. Выбор и кодирование сигнала
При подготовке к проведению субъективных оценок мы выбрали сигналы и закодировали их в соответствии со спецификацией линейной импульсно-кодовой модуляции (ИКМ) [11].
4.1 Выбор сигналов
Для целей настоящего исследования вместо музыкальных фрагментов были выбраны импульсные сигналы (гауссов импульс) и белый шум (гауссовский белый шум). Выбор этих видов сигналов был сделан, исходя из следующих соображений:
сигналы имеют плоскую частотную характеристику;
поскольку эти сигналы не являются музыкальными, музыкальный опыт участников при проведении субъективной оценки не имеет значения;
при использовании импульсных сигналов нагрузки на участников очень малы из-за короткого времени прослушивания;
мы полагаем, что сигналы белого шума, в случае если величина их амплитуды изменяется со временем, являются оптимальными для оценки различения разрядности квантования;
при использовании сигналов белого шума можно также оценивать влияние их длительности.
В данном исследовании для проведения оценки были использованы три импульсных сигнала и три сигнала белого шума. Эти сигналы имели разные частоты дискретизации: 48, 96 и 192 кГц.
Сигналы белого шума были получены с помощью генератора псевдослучайных чисел Mersenne Twister. Эти сигналы кодировались в соответствии со спецификацией линейной ИКМ [10].
…
7. Заключение
В настоящем исследовании мы изучали возможность различения сигналов ВР и не-ВР без использования музыкальных фрагментов для субъективных оценок при двух испытаниях. При этом принимались во внимание пять проблем, упомянутых выше: жанровое различие музыки, музыкальный опыт участников, реакции тела и эмоции участников, качество звуковых фрагментов.
Мы выбрали и кодировали различные звуковые сигналы, кроме музыкальных, в соответствии со спецификацией линейной ИКМ.
Тест ABX проводится для трех импульсных сигналов и трех сигналов белого шума (с частотами дискретизации 48, 96 и 192 кГц).
Результаты теста ABX означают, что при использовании громкоговорителей или головных телефонов люди могут различать импульсные сигналы и сигналы белого шума ВР и не-ВР.
В дополнение к тесту ABX было также проведено тестирование по методологии MUSHRA (MUltiple Stimuli with Hidden Reference and Anchor) для каждого импульсного сигнала. В результате этого тестирования был обнаружен основной эффект, связанный с частотой дискретизации, который представлен в результатах. Более того, с помощью критерия Стила - Двасса (Steel-Dwass test) был выявлен значительный эффект различения сигналов с частотами дискретизации 48 кГц и 192 кГц.
Результаты двух описанных экспериментов означают, что люди могут без труда различить ВР и не-ВР без прослушивания музыкальных фрагментов.
В будущем, основываясь на результатах этих исследований, мы сможем получить более общее представление о различении звуков с высоким разрешением и без него.
Литература
[1] V. R. MELCHIOR, “High Resolution Audio: A History and Perspective”, J. Audio Eng. Soc., Vol. 67, No. 5, pp. 246-157, (2019, May).
[2] T. Nishiguchi, “A Study on Human Hearing of High Resolution Audio”, The University of Electro-Communications, Ph.D. thesis (2009, in Japanese).
[3] M. Mizumachi, R. Yamamoto, and K. Niyada, “Discussion on subjective characteristics of high resolution audio”, AES 142nd Convention, e-Brief No.315 (2017).
[4] A. Suguro and M. Miura, “Quality discrimination on high-resolution audio with difference of quantization accuracy by sound-image localization”, Proc. AES Conference on Spatial Reproduction, e-Brief No.74 (2018).
[5] Japan Audio Society, “Definition of Hi-Res Audio (Announced on June 12th 2014)”, Japan Audio Society (2018), [online] <https://www.jas-audio.or.jp/english/hi-res-logo-en>, referred on May 21, 2019.
[6] Japan Electronics and Information Technology Industries Association, “The announcement for calling “High-Resolution Audio””, JEITA (2014, in Japanese), [online] <https://home.jeita.or.jp/page_file/20140328095728_rhsiN0Pz8x.pdf>, referred on May 21, 2019.
[7] Record Industry Association of America, “High Resolution Audio Initiative Gets Major Boost with New “Hi-Res MUSIC” Logo and Branding Materials for Digital Retailers”, RIAA (2015), [online] <https://www.riaa.com/high-resolution-audio-initiative-gets-major-boost-with-new-hi-res-music-logo-and-branding-materials-for-digital-retailers/>, referred on May 21, 2019.
[8] S. Yasuda, “A Psychological Study of Strong Experiences in Listening to Music based on a Relationship among Strong Experiences, Physical Responses and Emotions from Listener’s musical background”, Proc. The 76th Annual Convention of the Japanese Psychological Association, 3PMA13 (2012, in Japanese).
[9] ONKYO, “e-onkyo music”, ONKYO (2018, in Japanese), [online] <https://www.e-onkyo.com/music/album/wnr190295511838/>, referred on May 22, 2019.
[10] T. Nishiguchi and K. Hamasaki, “Differences of Hearing Impressions among Several High Sampling Digital Recording Formats”, AES 118th Convention, Paper No. 6469 (2005).
[11] S. P. LIPSHITZ and J. VANDERJKOOY, “Pulse-Code Modulation – An Overview”, J. Audio Eng. Soc., Vol. 52, No. 3 (2004, March).
[12] S. Kanai, “Signal Processing Vol. 2”, Hokkaido University (2018, in Japanese), [online] <http://sdmwww.ssi.ist.hokudai.ac.jp/lecture/signal/presen2.pdf>, referred on May 22, 2019.
[13] W. Kaster, “Oversampling Interpolating DACs”, Analog Devices Tutorial, MT-017 (2015).
[14] W. A. Munson and M. B. Gardner, “Standardizing Auditory Tests”, The Journal of the Acoustical Society of America, Vol. 22, pp. 675 (1950).
[15] International Telecommunication Union, Recommendation ITU-R BS.1534-3 (10/2015): Method for the subjective assessment of intermediate quality level of audio systems (2015).
Полный текст доклада на английском языке – на сайте AES.