MP3

.časopis +

8. jún 2007

Najprv nosili frajeri walkmany, potom nosili cooleri discmany, a teraz všetci nosia mp3 prehrávače. Hlavnou výhodou discmanov bol kvalitnejší zvuk, hlavnou výhodou mp3 prehrávačov je, verte či nie, nekvalitnejší zvuk.

Digitálne ukladanie multimediálnych dát spočíva v tom, že obrázok alebo zvuk prevedieme nejakým spôsobom na skupinu čísiel, a tú potom uložíme. Neskôr, keď si chceme uložené zvuky vypočuť alebo uložené obrázky prezrieť, musíme ich, samozrejme, znovu previesť zo skupiny čísiel do pôvodnej formy.
Takýto prístup prináša veľa nových možností – jednoduché a lacné spracovanie pomocou počítača, dostupnosť dát na viacerých miestach naraz, nezávislosť kvality od starnúceho nosiča, a tak ďalej. Nič však nie je zadarmo. Otázka znie, koľko pamäte zaberie vaša obľúbená pesnička alebo fotka z dovolenky, ak ju chcete uložiť digitálne.
.cd
Zvuk vzniká vibráciami prostredia, v ktorom sa šíri, a my ho vnímame pomocou uší. Veľkosť (amplitúda) týchto vibrácií zodpovedá hlasitosti zvuku, frekvencia zodpovedá výške tónu. Ľudské ucho je schopné vnímať len zvuky s určitou frekvenciou – približne od 20 do 20 000 hertzov (20 kHz). Ostatné zvuky sú pre nás nepočuteľné.
Zvukové vlnenie je teda charakterizované stálou zmenou určitej fyzikálnej veličiny. Aby sme nemuseli ukladať nekonečné množstvo hodnôt tejto veličiny, vykonáme pri digitalizovaní dát takzvanú časovú diskretizáciu – hodnoty veličiny budeme merať len v určitých časových intervaloch.
Ako často musíme merať? Teoréma o vzorkovaní pánov Nyquista a Shannona hovorí, že rekonštrukcia pôvodného signálu je možná bez strát vtedy, ak je frekvencia meraní aspoň dvojnásobne vyššia, ako je maximálna frekvencia prítomná v signále. Ak teda chceme obnoviť bez strát ľudským uchom počuteľné frekvencie do 20 kHz, musíme merať minimálne s frekvenciou 40 kHz (štyridsaťtisíckrát za sekundu). O takzvanej CD-kvalite hovoríme pri vzorkovaní s frekvenciou 44,1 kHz.
Ak si teda chceme uložiť digitálne svoju obľúbenú pesničku, musíme uložiť 44-tisíc hodnôt signálu za sekundu. Každý signál zaberá dva bajty a pre stereokvalitu musíme uložiť pravý aj ľavý kanál (ak nerátame joint-stereo, ktoré to robí trochu inteligentnejšie a ukladá len jeden kanál a rozdiely medzi kanálmi). Spolu máme teda 176 kilobajtov za jedinú sekundu.
Ak má vaša obľúbená pesnička približne 3 minúty, budete na ňu potrebovať asi 31 megabajtov, hodina hudby v CD-kvalite nás bude stáť približne 630 megabajtov. To je dosť, ak chcete svoju digitálnu hudbu nosiť stále so sebou. A tiež je to priveľa, ak chcete prenášať tieto dáta po sieti (aspoň pri bežnej rýchlosti siete v súčasnosti).
.mp3
Empétrojka (celým menom ISO MPEG Audio Layer 3) je malý zázrak, ktorý vznikol na pôde spoločnosti Fraunhofer-Gesellschaft v spolupráci s univerzitou v Erlangene. Pôvodne ho vyvíjali ako postup na kódovanie zvuku pre video-CD, pre svoje skvelé vlastnosti sa však osamostatnil a používa sa aj na samostatné kódovanie zvuku. Dokáže zmenšiť digitálne zvukové súbory v pomere 10:1 až 12:1, a to pri zachovaní CD kvality. Vaša obľúbená trojminútová pieseň teda už nemusí mať veľkosť 31 megabajtov, budú stačiť približne 3 megabajty. Na bežné CD sa teda vojde nie jeden, ale desať albumov s piesňami.
Pýtate sa, ako je možné zahodiť deväťdesiat percent údajov a pritom zachovať kvalitu? Pravda je taká, že kvalita sa zmení, ale rozdiel nerozpoznáte, pretože ho nebudete počuť. MP3 totiž využíva psychoakustický model a na jeho základe kóduje len to, čo človek môže počuť.

Ako už vieme, ľudské ucho zachytáva zvukové vnemy frekvencií 20 Hz – 20 kHz, takže všetky frekvencie pod 20 Hz a nad 20 kHz môžeme spokojne zahodiť. To však nie je všetko. Každý tón musí mať určitú hlasitosť – takzvaný prah počuteľnosti – aby sme ho mohli vnímať (hodnota tohto prahu počuteľnosti je pritom závislá od frekvencie daného tónu). Všetky zvuky, ktoré sú pod prahom počuteľnosti, môžeme zahodiť tiež. A to ešte stále nie je všetko.
Ak v tom istom čase dorazia k nášmu uchu dva tóny podobných frekvencií, druhý tón dokážeme vnímať len vtedy, ak je výrazne hlasnejší ako prvý. Volá sa to „maskovací efekt“. Mnohé tóny teda jednoducho nepočujeme. A napokon maskovanie prebieha aj v čase – keď počujeme jeden tón, ktorý odoznie, trvá určitý čas (5 – 20 milisekúnd), kým sa naše ucho „zregeneruje“ a budeme zase schopní počuť podobný tichý tón. Všetky tieto vlastnosti počuteľného zvuku sa v pomerne komplikovanom postupe využívajú na kódovanie zvukových dát.
Autori kódovania MP3 využili napokon ešte ďalšie techniky, ktoré nespôsobujú stratu údajov, ale minimalizujú množstvo pamäte potrebnej na uloženie dát (napríklad Huffmanovo kódovanie spomínané v minulom čísle .týždňa). Zhrnuté a podčiarknuté: MP3 obsahuje väčšinu známych techník na kódovanie zvuku, pričom to robí veľmi efektívne. Aj na drahých HiFi-sústavách je údajne rozdiel medzi čistým CD-zvukom a MP3-súborom takmer nepočuteľný. Hoci je zrejme dôležité aj to, kto počúva.
Ako sa dá vytušiť z tohto opisu, kódovanie MP3 je silne asymetrické – zakódovanie je omnoho náročnejšie ako odkódovanie (prehrávanie) MP3 súborov. Výkon bežných PC však od vydania štandardu natoľko pokročil, že na zakódovanie celého CD si už nemusíte ísť variť kávu.
.jpg
Príklad formátu MP3 ukazuje, že menej je niekedy viac. Netreba bazírovať na maximálnej kvalite, ktorú možno technicky dosiahnuť. Úplne stačí maximálna kvalita, ktorú môžeme svojimi schopnosťami vnímať. Podobný princíp sa využíva aj pri obrázkoch a videách.
Vezmime si, napríklad, fotografiu z dovolenky. Ak fotíte 4-megapixelovým digitálnym fotoaparátom, potom bude mať fotka veľkosť približne 11 megabajtov. To je tiež dosť, na jedno CD sa zmestí len okolo 60 fotiek. A veľa to je aj vtedy, keď chcete poslať vašim známym pár fotiek e-mailom.
Často je preto užitočné odstrániť informáciu, ktorá zaberá pamäť, ale nie je dôležitá pre výsledné vnímanie obrazu. Existuje niekoľko spôsobov, ako to dosiahnuť, jedným z najrozšírenejších je takzvaný JPEG. Princíp je podobný ako pri MP3 – využívajú sa vlastnosti ľudského vizuálneho systému.
Človek vníma veľmi dobre malé odchýlky na hladkých plochách (napríklad špendlík na bielom liste papiera), ale slabo vníma malé nepravidelnosti v rôznorodo štruktúrovaných plochách (napríklad ihlu v kope sena). Kódovanie teda nemusí byť až také presné vo vysokofrekvenčných oblastiach obrázka (vysoké frekvencie v obrázkoch zodpovedajú oblastiam veľkej farebnej zmeny). Ďalej vieme, že človek vidí rozdiely jasu lepšie ako rozdiely farby a sýtosti – teda priestorové kódovanie farebných súčastí nemusí byť také presné ako súčastí jasu.
Aký je výsledok? To závisí od obsahu fotky a zvolenej kvality kompresie. Pri fotkách z dovolenky sa dostanete na faktor 12:1 až 15:1 bez toho, že by ste si všimli akýkoľvek rozdiel oproti originálu. Na jedno CD napálite až 600-700 takýchto fotiek. Nezabudnite však, že JPG pri zapnutej kompresii pri každom uložení trochu zmenší kvalitu vášho obrázku. Je teda vhodné použiť ho až pri konečnom uložení obrázka, keď už s ním nebudete manipulovať.
Autor je študentom
univerzity v Erlangene
Štefan Baričák

Ak ste našli chybu, napíšte na web@tyzden.sk.

.časopis +

.diskusia | Zobraziť

.posledné

.neprehliadnite

Zdá sa, že máte zablokovanú reklamu

Ďakujeme, že pozeráte .pod lampou. Chceli by ste na ňu prispieť?

MP3