Звукозапись - немного истории

Если взглянуть на весь путь, пройденный человечеством в развитии науки и техники, то возможность хранения и передачи звука оно получило совсем недавно - сто с небольшим лет назад. И первым таким устройством является фонограф, созданный знаменитым американским изобретателем Томасом Эдисоном. Устройство представляло из себя вращающийся цилиндр, покрытый сверху оловянной фольгой. Звук улавливался специальной мембраной, к которой была присоединена стальная игла, которая, в свою очередь, за счет колебательных движений мембраны «записывала» их на цилиндр. Процесс «озвучивания» такой звукозаписи происходил в обратной последовательности. Конечно, качество записи оставляло желать лучшего, так как само устройство не позволяло этого добиться, да и цилиндр необходимо было вращать вручную с постоянной скоростью (один оборот в секунду), но начало технологии было положено.

Затем был Эмиль Берлинер, создавший в 1887 году устройство, использующее прапрародителей современных компакт-дисков - стеклянные пластинки, покрытые сажей, а само устройство называлось граммофоном. В очень скором времени стеклянные пластинки были заменены на цинковые диски, покрытые тонким слоем воска, а после записи диск подвергался кислотному травлению. Помимо этого, Берлинер приходит к идеи копирования звукозаписей с оригинала, так называемой матрицы. Это позволяло, как вы сами понимаете, создавать огромные тиражи одной записи, и вот уже в 1888 году ему удается из целлулоида создать первую пластинку-копию. К сожалению, первый «блин» получился не совсем удачным, так как пластинки из целлулоида быстро изнашивались и поэтому не могли долго храниться.

После множества экспериментов со стеклом, эбонитом и другими материалами, наконец в 1896 году, Берлинер находит наиболее подходящий состав для тиражных пластинок. Смесь шеллака, сажи и шпата оказалась наиболее подходящим составом для изготовления грампластинок и использовалась для этой цели почти до середины XX века. Эмиль Берлинер был не только талантливым изобретателем, но и предприимчивым бизнесменом. Благодаря его стараниям в конце XIX - начале XX веков открываются фабрики по производству грампластинок в США и в Европе, а к 1902 году им было реализовано уже свыше 4 тысяч грампластинок. Среди грамзаписей оказались и шедевры из России в исполнении Федора Шаляпина.

Со временем граммофон был вытеснен более практичным устройством под названием патефон (по фирме, начавшей из массовое производство, - «Патэ»), потому как он уже не содержал снаружи громоздкую трубу, а динамик был помещен во внутрь аппарата. Да и пластинки из шеллаковой смеси сменились на виниловые, ведь первые были достаточно толстыми и весьма хрупкими.

XX век привнес в технологию хранения и передачи звука свои коррективы, которые, как это ни странно, живы до сих пор. Это магнитная запись. Магнитная лента поначалу изготовлялась на бумажной основе, а затем, перейдя на полимерную, стала эталоном звукозаписи. Лента имеет различную намагниченность, созданную записывающей головкой, а с помощью считывающей головки записанный сигнал передается для озвучивания на акустическую систему (это в общих чертах). Устройство, производящее запись на нее и воспроизведение записи, называлось магнитофоном и впервые увидело свет еще в тридцатых годах прошлого столетия. Начало шестидесятых подарило миру компактно упакованную магнитную ленту в кассете, а восьмидесятые - компактное устройство, которое можно было брать повсюду с собой, - плеер.

Примерно в семидесятые годы начинают бурно развиваться компьютерные технологии, и звукозаписям ничего не остается, как переходить на «цифру». Хотя на пороге второго десятилетия XXI века еще остается немало меломанов, считающих аналоговую запись на магнитную ленту самым наилучшим способом сохранения аудиозаписей благодаря тому, что магнитная запись сохраняет практически все частоты, даже не слышимые человеческим ухом, но тем не менее оказывающее влияние на общее впечатление от звукозаписи. Но прогресс неминуемо похоронит аналоговую магнитную запись, как он сделал это с грамзаписью (хотя это может быть всего лишь только мое, сугубо личное мнение).

«Цифровая» музыка

Как вы уже наверняка знаете, любые данные в компьютере хранятся и обрабатываются лишь в дискретной форме, т.е. в виде последовательности нулей и единиц. Но звукозапись - это по своей сути аналоговая запись, и прежде чем она станет подвластна компьютерной обработке, ее необходимо преобразовать в дискретную форму. Такое преобразование происходит с помощью специального устройства -аналого-цифрового преобразователя (АЦП), обратное же преобразование, иначе говоря «озвучивание», дискретной аудиозаписи происходит при помощи цифро-аналогового преобразователя (ЦАП). В англоязычной литературе данные термины звучат иначе, так, например, цифровой звук - это Digital Audio, отсюда аналого-цифровой преобразователь именуется как DAC, а цифро-аналоговый преобразователь - ADC. Если же и та, и другая операции совмещены в одном устройстве, то оно называется CODEC - COder-DECoder. Само же представление аналогового сигнала в цифровой форме по-русски именуется ИКМ - импульсно-кодовой модуляцией, а по-английски это переводится как Pulse Code Modulation (PCM). Все эти термины вы еще не раз встретите, если будете ближе знакомиться с цифровым звуком.

За все время существования звукозаписи шло непрекращающееся сражение как за качество записи музыки, так и качество ее воспроизведения, и, пройдя длинный путь от первого фонографа до компьютеризированных цифровых средств записи и воспроизведения, музыкальные композиции заметно «похорошели». Однако рядовой слушатель вместе с цифровым качеством получил и «головную боль» от неисчислимого количества форматов аудиозаписей, по сравнению с существовавшим ранее разнообразием из магнитофонных кассет и грампластинок. Сейчас мы рассмотрим лишь незначительный спектр цифровых форматов аудиозаписей, и я упомяну лишь наиболее известные и популярные форматы.

Оцифровка звука производится измерением множество раз интенсивности звука (за секунду). Это понятие носит название частота дискретизации. Помимо ее существует еще один термин - битовая разрядность, который определяет допустимое число двоичных разрядов в частоте дискретизации (это обычно 8 или 16 бит, а в среде профессиональной звукозаписи - до 24 бит). Чем выше оба названных показателя, тем выше будет считаться качество звука. Не стоит упускать из вида и то, что оцифровка стереозаписей производится раздельно по левому и правому каналам.

Записанная в таком виде аудиозапись на компакт-диск получила маркировку CD-DA (Compact Disc Digital Audio) - компакт-диск цифровая звукозапись. Параметрами данного стандарта являются частота дискретизации в 44100 Гц, 16-битовая разрядность, стерео. Теперь вам не составит труда посчитать, сколько дискового пространства может потребовать звукозапись одной секунды в данном формате: 44100 Гц х 2 байта (разрядность) х 2 (стерео) = 176400 байт. Для минуты звучания потребуется уже 10 584 000 байтов (10 Мб), а для одной аудиозаписи длительностью в 5 минут - около 50 Мб. Напрашивается вывод, что данный формат мало пригоден (если не сказать, вообще не пригоден) для хранения цифровой музыки в компьютере. Зато качество звучания CD-DA стало эталоном цифровой музыки.

Для сохранения аудиозаписей с компакт-дисков в компьютере используются несколько иные форматы аудио, но о них ниже. Для преобразования CD-DA в иные форматы служат специальные программы (рипперы, аудиограбберы и т.д.). На обычном 700-мегабайтном компакт-диске может разместиться около 80 минут аудиозаписи (иногда и менее). Каждая запись представляет из себя дорожку. Между дорожками может содержаться пауза, но порой может и отсутствовать. Кроме звукозаписи дорожка может содержать и текстовую информацию о композиции: название, имена исполнителя, автора, композитора и аранжировщика композиции. Почти все существующие сейчас программы записи на компакт-диск позволяют любому пользователю такой компакт-диск CD-DA создать самостоятельно из записанных им мелодий или готовых аудиозаписей (практически их любого аудио-формата). В процессе записи мелодий на компакт-диск их можно подвергнуть «нормализации», что в переводе на доступный язык означает выравнивание уровня громкости. В пределах одного сеанса записи можно записать до 99 композиций. Мультисессионные диски CD-DA преимущественно желательно не создавать, так как не каждое устройство чтения компакт-дисков (магнитола, плеер и т.д.) могут работать с такими дисками (обычно хорошо считываются записи только из последней сессии).

Аудио в компьютере

Но что хорошо для наших ушей и для хранения на компакт-дисках, не всегда хорошо для компьютера. Почему для компьютера? Потому что именно он дает нам такой огромный простор для всевозможной деятельности с записями: создание аудиозаписей, их редактирование, аннотирование, создание списков воспроизведения, воспроизведение музыкальных записей в сопровождении цветовых спецэффектов, запись компакт-дисков во множестве различных форматов и копирование мелодий с аудиодисков в компьютер и многое-многое другое. На компьютерном носителе данных аудиозапись хранится в виде файла. Файловым форматом для хранения аудиозаписей в компьютере является формат *WAV. Он имеет те же самые параметры, что и CD-DA, - стерео, 16 бит, 44,1 кГц. Данный формат является очень удобным для работы со звуком, его редактирования, создания различных эффектов, обрезки, склеивания и прочих действий, но совсем неудобным для длительного хранения аудиозаписей из-за внушительных размеров файлов. Стандартные алгоритмы сжатия данных (ZIP, RAR и т.д.) не подходят для сжимания аудиофайлов из-за их особенной структуры, которая препятствует эффективной упаковке. Поэтому для сжимания звукозаписей используются методы необратимого сжатия с потерей информации. Но слушателю печалиться особенно не стоит, так как для этого применяется ряд технологий, например, психоакустический подход, который основан на фильтрации звука и удалением из него сигналов все равно недоступных для восприятия человеческим слухом. При сжатии используется и ряд других методов, но об этом ниже.

В связи с тем что первые опыты по сжатию музыкальных композиций были весьма далеки от совершенства, у многих из слушателей остается стереотип об «ужасном» качестве сжатых аудиозаписей. Со времени первых проб сжатия до настоящего момента прошло достаточно много времени, за которое программистами,специализирующимися в области звука, были созданы алгоритмы сжатия по звучанию, вряд ли уступающие качеству несжатого аудио (РСМ). И хотя есть такие места в работе со звуком (а также и отдельные почитатели высококачественной записи звука), где требуется только несжатое аудио, все же для большинства слушателей вполне подходит сжатый формат звукозаписей, который в десяток и более раз занимает меньше места для своего хранения.

МРЗ


В конце 80-х годов прошлого столетия международной организацией стандартов International Standards Organization (ISO) была организована группа специалистов в области движущихся изображений Moving Pictures Expert Group (MPEG) для разработки стандартов кодирования подвижных изображений и звука. Благодаря их работе и было создано несколько алгоритмов сжатия звукозаписей, наибольшую известность и популярность из которых получил MPEG-1 Layer 3 (МРЗ), позволяющий производить десятикратное сжатие аудио почти без потери качества. В отличие от созданных с ним заодно Layer 1 и Layer 2 отличается более высокой степенью компрессии и поэтому требует более значительных затрат системных ресурсов на сжатие. Изначально же разработкой этого формата занимались компании Fraunhofer IIS и Thomson, именно они и считаются создателями «мирового» аудиоформата. С развитием всемирной сети Интернет формат МРЗ оказался наиболее востребованным для передачи звукозаписей по сети, а с конца 90-х годов МРЗ становиться самым популярным форматом аудиозаписей.

Кроме упомянутого выше психоакустического метода, при котором из записи удаляются частоты, невоспринимаемые человеческим слухом, и делается упор на улучшении звуков, лучше всего воспринимаемых при кодировании звукозаписи, в МРЗ используется и ряд других методов, рассказ о которых может занять достаточно много места и вряд будет интересен читателю. Вот лишь некоторые из них: деление полосы звуковых частот на подпо-лосы, каждая из которых затем обрабатывается по отдельности; сжатие методом совмещенного стерео, при котором фоновые частоты кодируются в моносигнал; метод маскирования слабого сигнала одного диапазона частот более мощным сигналом другого (соседнего); использование места в одном из каналов, если в нем в какой-то момент образовалась «тишина» для повышения качества другого канала; сжатие при помощи алгоритма Хаффмана, основанного на однородности сигналов и т.д.

При кодировании задается и требуемый уровень компрессии, который обычно определяется величиной потока данных - bit rate. Наверняка многие из читателей уже знакомы с этой величиной, которая у нас именуется битрейтом и измеряется в Кбит/сек. Также битрейт иногда у нас называют шириной потока данных, степенью сжатия и т.д. Неудивительно поэтому, что чем выше этот самый битрейт, тем лучше качество аудиозаписи. Наиболее высокое качество соответствует битрейту в 256 и 320 Кбит/ сек (сжатие исходной записи в 4-6 раз). В этом случае запись по качеству мало чем отличается от несжатого формата, а места занимает значительно меньше. Сжатие в 10 раз (128 Кбит/сек), конечно, даст еще больше экономии объема, но вместе с тем и придаст некоторое ухудшение звучанию.

Тем не менее большинство музыки, распространяемой по Интернету, закодировано именно с битрейтом в 128-192 Кбит/сек - так файл получается значительно меньшего размера. Иногда какие-либо композиции меломанами, не располагающими хорошей акустической системой, преднамеренно кодируются с меньшим битрейтом, так как для прослушивания «качественной» музыки требуется и «качественная» аппаратура, а не компьютерные колонки - разницу в них все равно не почувствуешь. Но именно кодирование с низким битрейтом (128 Кбит/ сек и ниже) и обеспечило плохую репутацию формату МРЗ. Для своей домашней коллекции старайтесь кодировать записи в МРЗ с битрейтом в 320 Кбит/сек (или в крайнем случае не ниже 256 Кбит/сек), чтобы не портить свои уши. Тем более что в более низкий битрейт, если вдруг зачем-то вам понадобится (например, для сотового телефона), вы всегда сумеете перевести такую запись без особого труда.

Но не только в сети Интернет, но и на музыкальных компакт-дисках, МРЗ стал самым распространенным форматом. На данный момент для работы с записями в МРЗ-формате создано множество аппаратных устройств: абсолютное большинство плееров, домашних кинотеатров, стерео- и автомагнитол и т.д. умеют воспроизводить аудио в МРЗ. Программистами всего мира написано целое море софта для работы с этим форматом: это и звуковые редакторы, и программные проигрыватели, и программы кодирования в МРЗ, и программы декодирования, и многое другое.

Большинство существующих программ могут выполнять целый комплекс функций работы с аудиозаписями, но есть программы, специализирующиеся лишь на конкретных, строго определенных операциях. Большее внимание, наверное, стоит обратить на программы, занимающиеся преобразованием несжатого формата аудио (WAV или CD-DA) в сжатый формат, а в частности, в МРЗ. Такие программы носят название кодеры. Наиболее известными из программ кодирования аудиозаписей являются кодеры, основанные на свободно доступном исходном коде ISO, и кодеры двух гигантов аудиоиндустрии - Fraunhofer IIS и XingTech. Кодеры, разработанные на основе кода ISO-based, распространяются бесплатно, а кодеры от XingTech и Fraunhofer IIS являются коммерческими.

Какой из кодеров выбрать для преобразования своей аудиозаписи, зависит от того, что вы хотите получить в конечном итоге. Почти все кодировщики отличаются алгоритмами работы,используемыми методами кодирования да и располагают массой настроек. Одни из них более быстрые, другие более качественные для одного рода музыки, третьи - для другого рода музыки. Скорость и качество - это основные характеристики, определяющие, какой кодер выбрать для применения. Например, кодеры от XingTech дают весьма высокие скоростные показатели, имеют относительно невысокую цену и вместе с тем имеют весьма посредственное качество. Это и определило их широкую популярность. Для звукозаписей, распространяемых по Интернету, или просто для таких записей, которые имеют относительно непродолжительный период жизни, кодеры от XingTech будут, вероятно, лучшим выбором.

Другое дело, если вы являетесь почитателем только высокого качества музыки (притом, не обременены нехваткой финансов), то в этом случае можно воспользоваться и кодерами, разработанными Fraunhofer IIS. Однако за ними закрепилась репутация превосходной работы лишь для кодирования аудиозаписей при среднем и низком битрейте (128 Кбит/сек до 192 Кбит/сек). Для кодирования музыки с более высоким битрейтом всеми отдается предпочтение кодеру LAME, который хоть и основан на коде ISO-based, но уже имеет с ним мало общего. В кодере LAME (руководителем его разработки является Марк Тейлор) замечательно реализован и механизм кодирования с переменным битрейтом. Переменный битрейт - VBR - своим появлением обязан вообще-то XingTech, но его лучшая разработка получила свое воплощение лишь в кодере LAME. При использовании режима VBR кодер сам выбирает, с каким наименьшим битрейтом можно закодировать блок аудио с наилучшим качеством. В данном случае блоки, расположенные по «соседству», могут быть закодированы с различным битрейтом. Тем не менее режим VBR все же желательно использовать лишь для кодирования малоценных аудиозаписей.

Какой кодер выбрать - это зависит от поставленной конечной цели, хотя бывает полезно знать некоторые особенности кодеров. Так, например, основной характеристикой, определяющей качество работы кодера, является используемая в нем психоакустическая модель. Может быть именно благодаря модели GPSYCHO, используемой в кодере LAME, он и славится своим качеством. Хотя в некоторых кодерах может случиться и так, что, например, на одних битрейтах психоакустическая модель улучшает качество, тогда как на других может и ухудшить его. Тестирование кодеров обычно основывается на анализе формы АЧХ (амплитудно-частотной характеристики) оригинального сигнала, которая в идеале не должна отличаться от закодированного.

Также полезно знать, что при кодировании аудиозаписей в МРЗ мелкие и тихие детали обычно срезаются или кодируются с достаточно низким уровнем. Именно поэтому человек с отличным слухом может сразу отличить МРЗ от несжатой звукозаписи. Частоты свыше 16 кГц (которые, как считается, не воспринимаются человеческим слухом) тоже подлежат «обрезанию», и даже в LAME, славившемся своим качеством, эти частоты также удаляются.

Понятно, что наилучшего качества звучания можно добиться при достаточно хорошем исходнике. Как правило, для кодирования в МРЗ используется WAV PCM стерео, 44.1 кГц, 16 бит. Такие же характеристики имеет и формат CD-аудио, кодирование которого можно производить прямо с компакт-диска. Для этого используются специальные программы, называемые грабберами. Их также существует большое количество. Некоторые из них имеют свои кодеры, некоторые работают с кодерами, уже имеющимися в вашем компьютере, третьи - и с теми, и с другими. Известный многим граб-бер Audio Catalyst работает с кодером от XingTech, а в граббере CDex используется как свой собственный кодер, так и могучий LAME, предпочтение которому в общем-то и нужно отдавать при кодировании CDex-ом. В CDex LAME входит скомпилированным вариантом в виде библиотеки *dll.

Многое в качестве кодирования зависит и от выбранного режима кодирования. Существует четыре различных режима кодирования:

Dual Channel, при котором весь поток делится между каналами поровну, и каждый из них кодируется как моно-сигнал.

Stereo - здесь уже кодер делит поток не поровну, отдавая предпочтение тому или другому каналу. Например, в том случае, если в одном из каналов образовалась «тишина», то за счет этого будет повышено качество кодирования в другом канале.

В Joint Stereo (MS Stereo) весь сигнал раскладывается на «средний» между каналами и «разностный». Второй кодируется с меньшим качеством, нежели первый.

В Joint Stereo (MS/IS Stereo) используется расклад на средний между каналами и отношение мощностей сигналов в разных каналах.

Не в меньшей степени качество звучания аудиозаписи зависит и от использования декодера, которыми, как правило, оборудованы программы воспроизведения музыки - плееры. Рассказывать о плеерах я вам сейчас не стану, замечу лишь, что качество звука при воспроизведении будет лучше у того, который имеет кодеки, соответствующие тем, которыми закодированы файлы. Однако большинство декодеров стараются улучшить качество звучания. Это справедливо для музыки, закодированной с низким битрейтом. А вот если аудио закодировано с высоким битрейтом (256 Кбит/сек и 320 Кбит/ сек), то считается лучшим декодером тот, что сможет «честнее» передать качество. Достаточно широкое распространение в наше время получил аудиоплеер Winamp. Его возможности производить гибкую настройку, сопровождения звучания визуальными эффектами, работать с Интернетом, редактирования ЮЗ-тегов, работы с плейлистами и огромное множество других функций сделало его «постоянным жителем» во многих компьютерах. Хотя существует и масса других программ: APOLLO, AIMP, VLC Media Player и т.д., среди которых, конечно, и встроенный в Windows мультиформатный проигрыватель Windows Media.

По своей сути МРЗ является потоковым форматом. Данные в нем передаются отдельными независимыми блоками - фреймами. При кодировании аудио в МРЗ исходный сигнал разбивается на блоки (фреймы), каждый из которых кодируется по отдельности. Из этих блоков и состоит в конечном итоге файл МРЗ. Между блоками можно вставлять различную другую информацию, но пока реализовано лишь добавление в конце файла информационного блока ID3, который содержит информацию о названии композиции, ее исполнителе, жанре и другие данные об аудиозаписи. Декодирование осуществляется преобразованием кодированных блоков в формат WAV. Стандартом МРЗ не определен алгоритм декодирования аудиозаписей (как, впрочем, и кодирования), так что все в руках кодеров и декодеров. Требуется лишь соответствие воспроизведения файла порядку расположения фреймов и соответствие закодированного фрейма формату МРЗ.

Несомненно, что вряд ли какой другой формат по популярности может сравниться с МРЗ, особенно на высоких битрейтах. Однако существуют и другие альтернативные форматы сжатого аудио. Например, раз-работаный группой Xiphophorus формат под названием Ogg Vorbis. Несмотря на то что он во многом похож на МРЗ, все же качество кодирования в нем реализовано немного лучше. Реализованы поддержка многоканального звука, кодирование с переменным (VBR) или постоянным (до 512 Кбит/сек) битрейтом и многое другое. Распространяется бесплатно.

WMA(WindowsMediaAudio) -конкурент МРЗ от корпорации Microsoft. Поддерживает защиту от несанкционированного копирования.

LQT - представитель семейства MPEG-2 AAC/MPEG-4. Коммерческий формат. Изначально основан на VBR-кодировании.

ATRAC - формат, используемый в мини-дисковых системах.

Существуют и другие аудиоформаты, но в сравнении с МРЗ по популярности ни один из них все равно не сравняется.

Примечание: скачав из Интернета и установив себе в компьютер бесплатный пакет кодеков K-Lite Codek Pack, вы станете обладателем около полусотни разнообразных кодеков, причем не только аудио, но и видео. Таким образом, у вас не будет проблем с воспроизведением того или иного файла.