Na pvrý pahľod to pobôsí úlnpe šukúcojo, čvelok ťkažo urveí vtýnlasm oiačm, ale je to nzaaoj pdavra: sačtí ak nmecháe na mtiese pvré a peslondé pnímeso, ontasté mežôme pháradzeť, a txet znaoste ľkaho znomezutirľý.
Text, v ktorom poprehadzujeme v každom slove všetky písmená okrem prvého a posledného, je ešte stále zrozumiteľný. Tento pozoruhodný fakt svedčí o tom, že každé slovo obsahuje akúsi nadbytočnú informáciu, ktorá nie je potrebná na to, aby sme identifikovali, o aké slovo ide.
To je zaujímavé zistenie. Nikoho z nás asi neprekvapuje, že to, čo denne počujeme alebo čítame, je často len málo informácie zabalenej do mnohých slov. A že to isté sa dá povedať aj o slovách samotných – aj v slovách je informácia zabalená v podstatne väčšom množstve hlások či písmen, než je potrebné – to je trochu prekvapujúce.
.nadbytočnosť
Nadbytočnosť v počte slov a nadbytočnosť v počte písmen sú dve odlišné veci. Tá prvá sa týka používania jazyka, tá druhá jazyka samotného. Malý príklad: ak napíšeme Pľská ľdvdmkrtcká rpblka, väčšina ľudí v tom bez problémov spozná názov Poľska spred roku 1989. To však znamená, že všetky samohlásky okrem poslednej (a možno aj tá) sú v uvedených slovách vlastne nadbytočné. Táto nadbytočnosť sa týka jazyka ako takého.
Iná vec je, že názov pozostával z trojnásobne opakovanej informácie. Ľudová, demokratická (vláda ľudu) a republika (spoločná vec) majú v tomto kontexte rovnaký význam. Toto opakovanie informácie bolo nadbytočnosťou v použití jazyka. A ako to už pri zbytočnom opakovaní často býva, išlo navyše o celkom nepravdivú informáciu: Poľská ľudovodemokratická republika nebola ani ľudovodemokratická, ani republika a dokonca ani poľská tak úplne nebola.
Nadbytočnosť v používaní jazyka je vo väčšine prípadov pliaga, ktorej úlohou je maskovať lož alebo prázdnotu. A ako je to s nadbytočnosťou v jazyku samotnom? Aká je jej úloha?
Odpoveď má príchuť Kolumbovho vajíčka – nie je úplne jednoduché na ňu prísť, ale keď už ju niekto objaví, je takmer samozrejmá. Nadbytočnosť informácie v jazyku nám pomáha korigovať chyby pri počúvaní a čítaní. Umožňuje porozumenie hovorenému slovu aj v prípade, že rozprávajúci neartikuluje celkom zreteľne. Podobne je to v prípade, keď okrem slov naše ucho zachytáva aj veľa iných zvukov. Ak by bola informácia zakódovaná v jazyku s maximálnou úspornosťou, prepočutie ľubovoľnej hlásky by znamenalo stratu informácie bez možnosti jej rekonštrukcie. Nadbytočnosť umožňuje veľmi účinné korigovanie prepočutého. Nie každá nadbytočnosť je zbytočná.
.angličtina
Aká veľká nadbytočnosť je prítomná v prirodzených jazykoch? Prvý, kto si túto otázku položil a aj na ňu odpovedal, bol zakladateľ matematickej teórie informácie Claude Shannon. V roku 1950 urobil takýto experiment:
Človek dostal k dispozícii 100 znakov z určitého anglického textu a mal uhádnuť, aké písmeno nasledu
Aké písmeno by ste doplnili na koniec predchádzajúceho riadku? V Shannonovom experimente ľudia tipovali dovtedy, kým neuhádli správne písmeno (v našom prípade je to písmeno j, keďže nedokončené slovo je „nasleduje“). Shannon zaznamenával, koľko pokusov bolo v priemere treba na uhádnutie správneho písmena, a z výsledkov bol schopný určiť, aká je nadbytočnosť informácie v angličtine.
Shannon svoje výsledky formuloval pomocou takzvanej entropie, čo je však pre článok v .týždni príliš abstraktný pojem. Oveľa zrozumiteľnejší je príbuzný pojem stlačiteľnosti informácie. Ak je v texte nejaká informácia nadbytočná, dá sa vynechať a text sa o túto nadbytočnú informáciu skráti. Shannonove výsledky možno sformulovať takto: ak si anglický text predstavíme ako počítačový súbor, ktorý zozipujeme najlepším možným spôsobom, potom zozipovaný súbor bude zaberať 8 až 15 percent pôvodného objemu.
A aký je ten najlepší možný spôsob? To nevieme. Vieme však, že niektoré zipovače sa pri stláčaní anglického textu blížia Shannonovej teoretickej hranici. Napríklad takzvaná PPM kompresia (Prediction by Partial Matching) dosahuje stlačenie súborov s anglickým textom približne na 20 percent pôvodného objemu.
Inými slovami, až 80 percent angličtiny je vlastne zbytočnej.
.čínština
A ako sú na tom s nadbytočnosťou iné jazyky? Pred niekoľkými rokmi prišla skupina informatikov z Harvardu (Behr, Fossum, Mitzenmacher, Xiao) s celkom zaujímavými výsledkami. Rozhodli sa porovnať stlačiteľnosť rôznych jazykov, konkrétne angličtiny, francúzštiny, španielčiny, ruštiny, čínštiny, kórejčiny a arabčiny. Aby mohli výsledky porovnávať, potrebovali stláčať rovnaké texty vo všetkých týchto jazykoch. A aby bolo porovnanie čo najspoľahlivejšie, museli nájsť texty, ktoré boli čo najpresnejšie preložené do všetkých týchto jazykov. Rozhodli sa preto jednak pre Bibliu a jednak pre sériu dokumentov OSN.
Pri PPM kompresii Biblie sa celkom jednoznačne ukázalo, že nie všetky jazyky sú rovnako stlačiteľné. Francúzština, španielčina a arabčina boli na tom zhruba rovnako ako angličtina, ale kórejčina a ruština sa ukázali pri rovnakom postupe stlačiteľné len asi na 25 percent a čínština dokonca len na 40 percent.
Prečo sú niektoré jazyky stlačiteľné viac a iné menej? Pretože niektoré jazyky obsahujú menej nadbytočného ako iné. Špeciálne čínština je relatívne hutný jazyk, ale aj ruština a kórejčina obsahujú menej nadbytočného ako angličtina.
Celá Biblia v čínštine zaberá necelú polovicu Biblie v angličtine. Obidve pritom obsahujú presne rovnakú informáciu. To vyplýva jednak z toho, že preklady Biblie sú v porovnaní s inými prekladmi oveľa úzkostlivejšie kontrolované, a jednak z toho, že všetky preklady boli po zipovaní približne rovnako dlhé (len tak pre zaujímavosť, mali niečo pod 400 kilobajtov – to je objem čistej informácie obsiahnutej v Písme). Z rôznych jazykových mutácií Biblie vyplýva celkom jednoznačne, že niektoré jazyky sú v určitom zmysle oveľa úspornejšie ako iné.
Dokumenty OSN poskytli rovnaký obraz. Nadbytočnosť je v angličtine asi dvakrát vyššia než v čínštine a aj ostatné jazyky dopadli tiež približne rovnako ako predtým. Jediný rozdiel bol v tom, že vo všetkých jazykoch sa dokumenty OSN dali v porovnaní s Bibliou stlačiť oveľa účinnejšie, rozdiel bol asi dvojnásobný. To znamená, že okrem nadbytočnosti vlastnej jednotlivým jazykom obsahujú dokumenty OSN v nezanedbateľnej miere ešte aj inú nadbytočnosť – nadbytočnosť v použití jazyka. No ale koho by to prekvapilo?
.martin Mojžiš
Text, v ktorom poprehadzujeme v každom slove všetky písmená okrem prvého a posledného, je ešte stále zrozumiteľný. Tento pozoruhodný fakt svedčí o tom, že každé slovo obsahuje akúsi nadbytočnú informáciu, ktorá nie je potrebná na to, aby sme identifikovali, o aké slovo ide.
To je zaujímavé zistenie. Nikoho z nás asi neprekvapuje, že to, čo denne počujeme alebo čítame, je často len málo informácie zabalenej do mnohých slov. A že to isté sa dá povedať aj o slovách samotných – aj v slovách je informácia zabalená v podstatne väčšom množstve hlások či písmen, než je potrebné – to je trochu prekvapujúce.
.nadbytočnosť
Nadbytočnosť v počte slov a nadbytočnosť v počte písmen sú dve odlišné veci. Tá prvá sa týka používania jazyka, tá druhá jazyka samotného. Malý príklad: ak napíšeme Pľská ľdvdmkrtcká rpblka, väčšina ľudí v tom bez problémov spozná názov Poľska spred roku 1989. To však znamená, že všetky samohlásky okrem poslednej (a možno aj tá) sú v uvedených slovách vlastne nadbytočné. Táto nadbytočnosť sa týka jazyka ako takého.
Iná vec je, že názov pozostával z trojnásobne opakovanej informácie. Ľudová, demokratická (vláda ľudu) a republika (spoločná vec) majú v tomto kontexte rovnaký význam. Toto opakovanie informácie bolo nadbytočnosťou v použití jazyka. A ako to už pri zbytočnom opakovaní často býva, išlo navyše o celkom nepravdivú informáciu: Poľská ľudovodemokratická republika nebola ani ľudovodemokratická, ani republika a dokonca ani poľská tak úplne nebola.
Nadbytočnosť v používaní jazyka je vo väčšine prípadov pliaga, ktorej úlohou je maskovať lož alebo prázdnotu. A ako je to s nadbytočnosťou v jazyku samotnom? Aká je jej úloha?
Odpoveď má príchuť Kolumbovho vajíčka – nie je úplne jednoduché na ňu prísť, ale keď už ju niekto objaví, je takmer samozrejmá. Nadbytočnosť informácie v jazyku nám pomáha korigovať chyby pri počúvaní a čítaní. Umožňuje porozumenie hovorenému slovu aj v prípade, že rozprávajúci neartikuluje celkom zreteľne. Podobne je to v prípade, keď okrem slov naše ucho zachytáva aj veľa iných zvukov. Ak by bola informácia zakódovaná v jazyku s maximálnou úspornosťou, prepočutie ľubovoľnej hlásky by znamenalo stratu informácie bez možnosti jej rekonštrukcie. Nadbytočnosť umožňuje veľmi účinné korigovanie prepočutého. Nie každá nadbytočnosť je zbytočná.
.angličtina
Aká veľká nadbytočnosť je prítomná v prirodzených jazykoch? Prvý, kto si túto otázku položil a aj na ňu odpovedal, bol zakladateľ matematickej teórie informácie Claude Shannon. V roku 1950 urobil takýto experiment:
Človek dostal k dispozícii 100 znakov z určitého anglického textu a mal uhádnuť, aké písmeno nasledu
Aké písmeno by ste doplnili na koniec predchádzajúceho riadku? V Shannonovom experimente ľudia tipovali dovtedy, kým neuhádli správne písmeno (v našom prípade je to písmeno j, keďže nedokončené slovo je „nasleduje“). Shannon zaznamenával, koľko pokusov bolo v priemere treba na uhádnutie správneho písmena, a z výsledkov bol schopný určiť, aká je nadbytočnosť informácie v angličtine.
Shannon svoje výsledky formuloval pomocou takzvanej entropie, čo je však pre článok v .týždni príliš abstraktný pojem. Oveľa zrozumiteľnejší je príbuzný pojem stlačiteľnosti informácie. Ak je v texte nejaká informácia nadbytočná, dá sa vynechať a text sa o túto nadbytočnú informáciu skráti. Shannonove výsledky možno sformulovať takto: ak si anglický text predstavíme ako počítačový súbor, ktorý zozipujeme najlepším možným spôsobom, potom zozipovaný súbor bude zaberať 8 až 15 percent pôvodného objemu.
A aký je ten najlepší možný spôsob? To nevieme. Vieme však, že niektoré zipovače sa pri stláčaní anglického textu blížia Shannonovej teoretickej hranici. Napríklad takzvaná PPM kompresia (Prediction by Partial Matching) dosahuje stlačenie súborov s anglickým textom približne na 20 percent pôvodného objemu.
Inými slovami, až 80 percent angličtiny je vlastne zbytočnej.
.čínština
A ako sú na tom s nadbytočnosťou iné jazyky? Pred niekoľkými rokmi prišla skupina informatikov z Harvardu (Behr, Fossum, Mitzenmacher, Xiao) s celkom zaujímavými výsledkami. Rozhodli sa porovnať stlačiteľnosť rôznych jazykov, konkrétne angličtiny, francúzštiny, španielčiny, ruštiny, čínštiny, kórejčiny a arabčiny. Aby mohli výsledky porovnávať, potrebovali stláčať rovnaké texty vo všetkých týchto jazykoch. A aby bolo porovnanie čo najspoľahlivejšie, museli nájsť texty, ktoré boli čo najpresnejšie preložené do všetkých týchto jazykov. Rozhodli sa preto jednak pre Bibliu a jednak pre sériu dokumentov OSN.
Pri PPM kompresii Biblie sa celkom jednoznačne ukázalo, že nie všetky jazyky sú rovnako stlačiteľné. Francúzština, španielčina a arabčina boli na tom zhruba rovnako ako angličtina, ale kórejčina a ruština sa ukázali pri rovnakom postupe stlačiteľné len asi na 25 percent a čínština dokonca len na 40 percent.
Prečo sú niektoré jazyky stlačiteľné viac a iné menej? Pretože niektoré jazyky obsahujú menej nadbytočného ako iné. Špeciálne čínština je relatívne hutný jazyk, ale aj ruština a kórejčina obsahujú menej nadbytočného ako angličtina.
Celá Biblia v čínštine zaberá necelú polovicu Biblie v angličtine. Obidve pritom obsahujú presne rovnakú informáciu. To vyplýva jednak z toho, že preklady Biblie sú v porovnaní s inými prekladmi oveľa úzkostlivejšie kontrolované, a jednak z toho, že všetky preklady boli po zipovaní približne rovnako dlhé (len tak pre zaujímavosť, mali niečo pod 400 kilobajtov – to je objem čistej informácie obsiahnutej v Písme). Z rôznych jazykových mutácií Biblie vyplýva celkom jednoznačne, že niektoré jazyky sú v určitom zmysle oveľa úspornejšie ako iné.
Dokumenty OSN poskytli rovnaký obraz. Nadbytočnosť je v angličtine asi dvakrát vyššia než v čínštine a aj ostatné jazyky dopadli tiež približne rovnako ako predtým. Jediný rozdiel bol v tom, že vo všetkých jazykoch sa dokumenty OSN dali v porovnaní s Bibliou stlačiť oveľa účinnejšie, rozdiel bol asi dvojnásobný. To znamená, že okrem nadbytočnosti vlastnej jednotlivým jazykom obsahujú dokumenty OSN v nezanedbateľnej miere ešte aj inú nadbytočnosť – nadbytočnosť v použití jazyka. No ale koho by to prekvapilo?
.martin Mojžiš
Ak ste našli chybu, napíšte na web@tyzden.sk.