Невоспетый герой повседневности: как появился формат MP3
© Matthias Hauser/imageBROKER.com/www.globallookpress.com
История создания и развития формата MP3
Если вас спросят, кто автор самого полезного изобретения за последние полвека, и вы подумаете про формат MPEG Audio Layer II, более известный как MP3, смело называйте имя Карлхайнца Бранденбурга. Именно этот инженер возглавлял команду, разработавшую новый алгоритм сжатия музыкальных данных. В нее также входили сотрудники немецкого Общества Фраунхофера, американской корпорации AT&T Inc, японских Matsushita и Fujitsu, France Telecom, а также французской компании Thomas-Brandt. У каждой фирмы имелись свои наработки по алгоритмам сжатия записанного звука, и команду разделили на несколько подразделений. Каждое работало над своим алгоритмом, чтобы понять, какой из них лучше соответствует поставленной задаче. Сам формат разработали в 1987-м, но общественным достоянием он стал только через несколько лет.
Технологии записи аудио к этому времени уже достигли внушительных высот. Основным носителем для хранения и распространения музыки стали CD, также известные как «компакт-диски». Sony разрабатывали формат в надежде, что он сможет вместить самую долгую из существовавших тогда композиций — «Девятую симфонию» Бетховена. Ее длительность составляет 74 минуты. С тех пор «рекорд» немецкого композитора несколько раз побили, и мы об этом даже писали. Например, можно почитать об индийском ораторе, выпустившем поэтический трек длиной в 138 часов 41 минуту 20 секунд. Если же вы предпочитаете эмбиент, есть 13-часовая композиция от Майкла и Келли Бостуик.
© Композиции воспроизводятся в деморежиме, полные версии доступны при авторизации с помощью Сбер ID. Треки без рекламных вставок доступны при покупке подписки «СберПрайм»
Первым синглом, выпущенным в формате CD, стала песня Visitors шведского поп-квартета ABBA 1981 года. В течение нескольких лет компакт-диски приобретали популярность, постепенно выходя на передний план и заменяя собой кассеты и виниловые пластинки. Однако с цифровыми носителями, в частности с интернетом, формат дружил не очень-то.
Стандартным расширением для CD был wav — его разработали Microsoft и IBM. Его название получили сокращением слова wave, то есть «волна». Как правило, этот формат не был сжат — за счет этого планировалось достичь лучшего качества звучания.
Однако в прослушивании CD имелись несколько ограничений. Во-первых, диски были довольно хрупкими: их мог испортить даже неосторожный отпечаток пальца. Во-вторых, при переносе на другие носители готовые аудиофайлы весили примерно тонну.
Программисты собирались разработать алгоритм сжатия, способный уменьшить аудиофайлы настолько, чтобы люди могли беспрепятственно и дешево распространять их в цифровом формате. Они искали способы обойтись меньшими затратами ресурсов и выйти за пределы прослушивания музыки альбомами. И, разумеется, не подумали о том, что их изобретение станет настоящей находкой для пиратов (правда, об этом позже).
Итак, Бранденбург написал докторскую работу, используя уже изобретенные алгоритмы кодирования. В частности, форматы OCF («Оптимальное кодирование в частотном интервале») и PXFM («Перцептивное трансформирующее кодирование»). Для того чтобы протестировать изобретение, инженер решил сжать трек Tom’s Diner Сюзанны Веги. После этого певица получила прозвище «Мать MP3».
© Композиции воспроизводятся в деморежиме, полные версии доступны при авторизации с помощью Сбер ID. Треки без рекламных вставок доступны при покупке подписки «СберПрайм»
Новый формат получил уже знакомое нам всем название: за ним скрывается более подробный MPEG-1 Audio Layer 3. Под MPEG подразумевалось полное имя команды Бранденбурга Moving Picture Experts Group («Экспертная группа по движущимся изображениям»), так как инженеры работали не только над звуковыми, но и над видеоформатами. В частности, через несколько лет после MP3 появился MP4 — в него можно зашивать не только звуковую, но и видео и даже текстовую информацию.
С момента изобретения в 90-х у формата появилось несколько вариаций. Друг от друга их отличают минимальные и максимальные границы битрейтов, а также частоты дискретизации.
- MPEG-1 Layer 3 обладает битрейтом от 32 до 320 кбит/с. Частоты дискретизации при этом составляют 32000 Гц, 44100 Гц и 48000 Гц. Другие стандарты, входящие в группу MPEG-1, также включают в себя форматы сжатия Video CD. Он разрабатывался для приемлемого воспроизведения видео-файлов на потоке 1/5 Мб/с при минимальном разрешении 352х240. Правда, стандарт поддерживает только прогрессивную развертку, поэтому довольно быстро уступил место MPEG-2.
- MPEG-2 Layer 3 обладает битрейтом от 16 до 160 кбит/с. Частоты дискретизации при этом составляют 16000 Гц, 22050 Гц и 24000 Гц. Стандарт использовался для разработки и распространения дисков формата DVD (Digital Versatile Disk, Цифровой многоразовый диск) и цифрового телевидения DVB (Digital Video Broadcasting, Цифровое Видео Вещание). Этот стандарт перестал поддерживаться в 2019 году.
- MPEG-2.5 Layer 3 с минимальным битрейтом от 8 до 160 кбит/c и минимальных же частотах дискретизации 8000 Гц и 11025 Гц.
Принцип работы
Эволюция не наградила человеческое ухо способностью слышать очень высокие или, наоборот, слишком низкие частоты. Иногда, если за очень громким звуком следует очень тихий, слух сам его подавляет. Те, кто изучает психоакустику (то, как человек реагирует на звуки, исходя из своей психологии), окрестили такое явление «слуховой маскировкой». Именно к тому, чтобы избавить файл от этих неслышимых звуков и тем самым сжать его размер, и стремилась команда инженеров Бранденбурга. Так и появился MP3 — нечто среднее между отличным звучанием и небольшим размером. Самым главным достоинством нового формата было то, что легкое сжатие не сказывалось на качестве, но все-таки освобождало немало пространства.
MP3 позволяет сжать любой трек вплоть до 11 раз. Если пытаться добиться еще меньшего размера, качество станет невыносимым. Чтобы, не включая, узнать качество MP3-трека, нужно поинтересоваться его битрейтом. Этот термин отвечает на вопрос, сколько единиц информации этот файл передает в секунду. Чем он ниже, тем хуже звук. По сути, этими единицами информации могут быть те самые подавленные звуки — то есть чем больше их подавляется, тем ниже битрейт.
Наивысшее качество, доступное в формате MP3 при конвертации в программах, — 320 кбит/с, хотя при очень большом желании можно добиться и битрейта чуть повыше. Приемлемым для неискушенного слушателя считается 192 кбит/с. Если сжимается не музыка, а другие аудиофайлы — к примеру, с человеческой речью, битрейт может без особых потерь ужаться до 64 кбит/с.
Каждый MP3-файл обладает одинаковой структурой. Треки поделены на участки, которые носят название «фреймы». У каждого фрейма свои характеристики и параметры, указанные в коде. Определенного количества фреймов на один аудио-файл при этом нет. Слуховая маскировка работает по следующему принципу: алгоритм анализирует громкость и качество сигнала в одном фрейме и обрабатывает соседние участки исходя из полученных данных. К примеру, после звука на высокой громкости ухо теряет способность к восприятию, поэтому сигналы на более высоких частотах можно беспрепятственно подавить.
В треках, закодированных по разным стандартам, фреймы состоят между собой в разных отношениях. В первом и втором типах (MPEG-1 и MPEG-2) они взаимосвязаны: то есть, все фреймы можно воспроизвести по отдельности. После появления формата MPEG Audio Layer III, он же MP3, это стало невозможно.
Если есть необходимость подгонять размер файла под конкретное число, разные фреймы можно уменьшать с разной степенью сжатия. В таком случае битрейт называется не постоянным, а переменным. Допустим, трек начинается тремя фреймами с тишиной: алгоритм может сжать их до 192 кбит/с, так как на этих участках все равно нет звукообразующих сигналов. А моменты с обилием инструментала или переливами голоса, терять которые не хочется, можно наоборот оставить прежними. Такой MP3-файл не сильно отличается от своего WAV-исходника.
В программах для конвертации используются следующие обозначения:
- CBR — constant bitrate, «постоянный битрейт»;
- VBR — variable bitrate, «переменный битрейт»;
- ABR — average bitrate, «усредненный битрейт».
MP3-файлы с переменным и усредненным битрейтами, как правило, весят меньше, чем те, что обладают постоянным битрейтом.
Преимущества и недостатки формата
Вслед за форматом MP3 появились устройства, на которые можно было закачивать любые треки. Их преимуществом перед CD-плеерами были компактность и возможность выбора. Если пользователя не устраивало присутствие в альбоме песни-филлера, он мог ее просто не закачивать и слушать только то, что хочет сам. К тому же появилась возможность миксовать треки с разных дисков и даже от разных исполнителей. Большая вариативность была крайне убедительным аргументом в пользу формата MP3 и связанных с ним устройств и программ.
Память первых устройств позволяла загружать не больше чем 10 треков. Однако с появлением в 2001-м Apple iPlayer с его 5 Гб свободного места потребление музыки изменилось навсегда. Никто больше не боялся, что драгоценный диск с полной антологией альбомов Вячеслава Малежика сломается или испортится из-за неаккуратного обращения. MP3-файл можно было случайно удалить, зато его качество оставалось неизменно, сколько бы времени ни проходило.
Однако не все так безупречно, как хотелось бы. Одно из самых главных недостатков MP3, по всеобщему мнению, — это то, насколько формат облегчает распространение пиратских копий. Пиратить файлы формата WAV и делиться им в интернете непросто из-за большого веса файлов, но крошки MP3 быстро загружались в сеть и так же быстро из нее выгружались. Если бы не Бранденбург и его желание прогресса, такого сайта, как Napster, не существовало бы.
Небольшая историческая справка: Napster — это первый, по сути, пиратский портал для распространения музыки, созданный в 1999-м Шоном Фэннингом, в ту пору студентом Северо-Восточного университета в Бостоне. Им руководили исключительно благие намерения: открыть удобную площадку, на которой люди смогли бы быстро и безболезненно обмениваться аудиофайлами в формате MP3, не тратя деньги на альбомы плохого качества.
В изначальной форме Napster прожил всего пару лет: первыми, кто всерьез забил тревогу, стали Metallica. Сайт прикрыли, законы обновили, и все остались довольны — кроме людей, мечтавших о бюджетной музыке. Что до самой компании, то они подлатали все нарушения и превратились в обычный законопослушный онлайн-магазин, продающий цифровые копии треков. Никаких претензий к самому формату, к счастью, не последовало.
С исчезновением Napster нужда в удобных и дешевых треках не исчезла, проложив тем самым путь для главной технологии современности — стримингов. Именно они вытеснили MP3, ведь у каждого такого сервиса собственный формат и собственные стандарты воспроизведения. Впрочем, это уже совсем другая история.
Для конвертации любого аудиофайла в MP3 понадобится программа на компьютер или любое другое устройство. Сделать это вручную не получится: трюк с переименованием PNG в JPEG, как с файлами изображений, не пройдет из-за разницы в кодировании.
Такие программы тем не менее интуитивно понятны, сразу предлагают нужный битрейт и рассчитывают итоговый размер аудио. Выбирать битрейт стоит, исходя из того, где вы собираетесь слушать музыку. Полноценная стереосистема не простит сжатия файла до 128 кбит/с, но проводные наушники за 300 рублей из ларька сделают вид, будто все именно так и должно быть.
Помимо MP3, можно конвертировать файл и в другие форматы. Помнить следует только одно: если трек уже закодирован на битрейт 64 кбит/с, реанимировать его до 320 кбит/с при всем желании не удастся.
Пользователь также может выбрать, как будут закодированы каналы звука. Другими словами, он может решить, в каком наушнике что будет играть. Есть несколько вариантов разложения звука по каналам:
- Моно. Сигнал в обоих каналах смешивается и приводится к единому битрейту. Падает качество, но вместе с тем уменьшается и размер файла.
- Стерео. Кодируются оба канала, при этом никак не влияя друг на друга. Битрейт может меняться в зависимости от того, насколько сложные сигналы записаны в каждом из каналов.
- Двухканальное стерео. Сигналы в обоих каналах полностью отличаются и никак друг с другом не связаны. К примеру, файл может быть закодирован так, чтобы в двух каналах звучала речь на двух разных языках. Битрейт при этом делится пополам: скажем, если в характеристиках файла указан битрейт 320 кбит/с, значит, каждый из каналов транслируется с битрейтом 160 кбит/с.
- Объединенное стерео. Это своего рода несколько алгоритмов кодирования двух каналов со связанным материалом. Их главная цель — сжать размер файла таким образом, чтобы не слишком подавить частоты и, как следствие, не слишком испортить звучание.
© Композиции воспроизводятся в деморежиме, полные версии доступны при авторизации с помощью Сбер ID. Треки без рекламных вставок доступны при покупке подписки «СберПрайм»
MP3 сегодня
К счастью, с тех пор прогресс сильно шагнул вперед. Даже Институт интегральных схем общества Фраунгофера, где работал Бранденбург, объявил, что прекращает поддержку MP3-формата, чтобы сосредоточить внимание на более актуальных технологиях. Огромное распространение получили FLAC и другие расширения, что обещают звук высокого качества без потерь. Разницей между форматами в основном интересуются разве что отъявленные фанаты качественного аудио.
С появлением стриминговых сервисов размер и форматы файлов уже не считаются ключевым фактором, особенно если пользователь умеет вовремя чистить кеш. Сегодня, чтобы послушать музыку в высоком качестве, необязательно покупать дорогостоящую аппаратуру и комплексовать из-за несовершенств человеческого уха. Достаточно оформить подписку «СберПрайм», в которую уже входит HiFi-стриминг Звук.
HiFi — это высший эталон качества звучания из всех ныне существующих. Дабы не углубляться в технические подробности, просто скажем, что звучание этой музыки близко к студийному, — именно таким его и задумывали артисты. Ценить прекрасное просто! Заинтригованы? Замечательно, потому что у нас есть для вас очень выгодное предложение, от которого вы точно не сможете отказаться. Благодаря нему вы сможете убедиться в том, что HiFi — это именно то, чего заслуживают ваши уши. Помимо этого, вы получите:
Миллионы треков и тысячи подкастов и аудиокниг без рекламы
ЗвукМноготысячную библиотеку кино, мультфильмов и лекций в хорошем качестве и с профессиональной озвучкой
ОККОМолниеносную доставку продуктов, которую можно оплачивать бонусами «Спасибо»
Самокат30 дармовых Гб в облаке и скидкой на его дальнейшее расширение, если вам негде хранить mp3-коллекцию
СберДиск