V máji roku 2000 – len pár mesiacov pred zverejnením prvej verzie sekvencie ľudského genómu – sa v laboratóriu Cold Spring Harbor konala konferencia, na ktorej sa zišli vedci pracujúci na zostavení a analýze tohto genómu. Jeden z nich, Ewan Birney, večer v bare navrhol stávkovú súťaž v hádaní počtu génov v ľudskom genóme.
Počas nasledujúcich troch rokov sa tipovacej súťaže zúčastnilo 165 vedcov, vyzbierali 1 200 dolárov a ich odhady sa pohybovali od 28-tisíc do 140-tisíc génov. Všetko to boli nadhodnotené odhady.
.čo a načo je gén
Genóm človeka si môžeme predstaviť ako vzácnu knihu, ktorú každá bunka odovzdáva svojím potomkom. Abeceda, ktorou je kniha napísaná, pozostáva zo štyroch písmen A, C, G, T. Písmená označujú štyri nukleotidy (adenín, cytozín, guanín a tymín), ktoré sú základnými stavebnými jednotkami DNA. Jednou z hlavných častí tejto knihy sú recepty na tvorbu proteínov (bielkovín) a práve tieto recepty budeme nazývať gény. Genóm obsahuje informáciu aj o tom, aké proteíny treba tvoriť za akých okolností.
Pri tvorbe proteínov sa najskôr vytvorí dočasná kópia celého génu vo forme RNA molekuly. To si môžeme predstaviť, ako keby sme si pred varením skopírovali recept, aby sme si v kuchyni náhodou nezašpinili vzácnu knihu. Táto RNA molekula sa môže rôznym spôsobom upravovať a nakoniec poslúži ako predloha na tvorbu proteínu, pričom každé tri za sebou idúce nukleotidy RNA (tri písmená knihy) kódujú jednu aminokyselinu, čo je zase základná stavebná jednotka proteínu.
Pôvodná kniha, čiže naša DNA, však nepozostáva len z génov. Niektoré jej časti sú gény čiže kódujú proteíny, iné jej časti nijaké proteíny nekódujú. Ktoré sú ktoré a ako ich dokážeme rozlíšiť?
.ako počítače hľadajú gény
Predstavme si, že máme k dispozícii knihu, ktorej niektoré kúsky sú napísané po anglicky a niektoré po francúzsky. Navyše, tie jazyky sa v knihe voľne striedajú, trebárs aj uprostred vety. Ak poznáme oba jazyky, potom dokážeme túto knihu s určitou námahou čítať. Ale čo ak sa máme z takej knihy spomínané dva jazyky naučiť?
Aj keď to na prvý pohľad vyzerá beznádejne, knihu by sme sa mohli naučiť čítať aj v takom prípade. V prvom rade by sme dokázali s pomerne dobrou presnosťou vytriediť, ktoré kúsky sú napísané ktorým jazykom. Na to totiž netreba vedieť po anglicky ani po francúzsky, stačí si všimnúť určité dvojice písmen: kým v angličtine sa veľmi často za sebou vyskytujú páry písmen ako he, th a in, vo francúzštine sú najčastejšie páry es, le a ou. Jednoduchá štatistická analýza, ktorá porovná frekvencie výskytov jednotlivých párov písmen v úseku textu v angličtine a vo francúzštine nám tak s pomerne veľkou presnosťou prezradí, v ktorom jazyku je ktorý úsek napísaný.
Hľadanie génov v DNA sa na tú úlohu veľmi silne podobá. Kúsky, ktoré kódujú proteíny, sú zapísané jedným jazykom, kým nekódujúce sekvencie iným. Úloha je však mierne komplikovaná dvoma problémami: kniha ľudského genómu má vyše tri miliardy písmen (čo je viac ako osemstotisíc strán) a kódujúce a nekódujúce DNA sekvencií majú k sebe veľmi blízko – nelíšia sa od seba ako angličtina od francúzštiny, ale skôr ako americká angličtina od britskej. Pomocou počítačov a štatistických modelov však vieme aj napriek týmto problémom údaje o DNA približne rozložiť na gény a medzigénové oblasti.
Treba však zdôrazniť, že v predchádzajúcom odseku bolo veľmi dôležité slovo „približne“. Metódy založené na štatistickom modelovaní totiž nevedia zaručiť, že výsledky, ktoré dostaneme, sú úplne správne.
Aby sa zistilo, nakoľko dobre vedia počítačové programy hľadať gény, bola v roku 2005 vypísaná súťaž EGASP (ENCODE Genome Annotation Assessment). Organizátori súťaže požiadali expertov, aby na základe dovtedy známych vedomostí z biologických experimentov označili gény v malej časti ľudského genómu. To je akoby sme v našom príklade s dvojjazyčnou knihou požiadali nejakého Angličana, aby nám na niekoľkých stranách vyznačil anglické časti. S takým „zlatým štandardom" sa potom dajú porovnávať predpovede najznámejších a najpoužívanejších programov.
Z tejto súťaže vyplynulo niekoľko zaujímavých poznatkov. V prvom rade aj najlepší program dokázal predpovedať iba okolo 70 % génov úplne správne. Najlepšie programy pritom používajú okrem sekvencie DNA aj množstvo ďalšej informácie pochádzajúcej z biologických experimentov. V našej analógii je to akoby nám niekto, kto vie viac alebo menej dobre oba spomínané jazyky, v knihe vopred zelenou farbou vyznačil značnú časť anglických a modrou farbou značnú časť francúzsky fráz. Programy, ktoré sa umiestnili v súťaži najlepšie, v podstate len dopĺňali pár bielych miest. Z programov, ktoré dostanú bielu nepočmáranú knihu, a teda fungujú iba na základe informácie obsiahnutej priamo v DNA, najlepší program predpovedal úplne správne iba 25 % génov.
.projekt ENCODE
Súťaž EGASP bola súčasťou medzinárodného projektu ENCODE iniciovaného v roku 2003. Cieľom tohto projektu bolo preskúmať, ako efektívnym spôsobom nájsť všetky gény a ďalšie funkčné prvky v ľudskom genóme. Vedci zapojení do projektu hneď od začiatku veľmi dobre vedeli, že najlepšie výsledky sa dajú dosiahnuť kombináciou biologických experimentov a výpočtov. Nebolo však jasné, ktorá kombinácia techník bude najefektívnejšia a dostatočne lacná na to, aby ju bolo možné aplikovať na celý ľudský genóm. Preto sa rozhodli, že vyskúšajú prakticky všetky známe techniky na jednom percente ľudského genómu a na základe výsledkov posúdia, ktoré analýzy by sa mali rozšíriť na celý genóm.
Výsledky projektu ENCODE vedcov prekvapili, lebo ukázali, že ľudské gény sú zložitejšie, ako sa pôvodne predpokladalo. Z jedného génu napríklad môže vzniknúť niekoľko rôznych proteínov, pretože pri úpravách RNA molekuly (predtým, ako sa jej obsah ďalej preloží do proteínovej abecedy) sa z nej môžu rôzne časti vystrihnúť. A také vystrihovanie môže prebiehať rôzne za rôznych podmienok, napríklad v rôznych orgánoch ľudského tela.
O tomto jave sa vedelo už dávno, ale ENCODE ukázal, že je oveľa rozšírenejší, ako sa predpokladalo: v priemere pripadá na jeden ľudský gén viac ako 5 rôznych foriem vystrihovania. Podobne sa ukazuje, že gény nie sú izolované ostrovčeky v genóme, ale že susedné gény sa dosť často pretínajú: koniec jedného receptu môže často slúžiť ako začiatok iného.
Najprekvapivejšie však bolo zistenie, že hoci až polovica genómu sa prepisuje do RNA a mohla by teda potenciálne tvoriť funkčné gény, iba polovica z takto prepisovaných častí vyzerá ako recept na proteín. Akú úlohu teda majú zvyšné recepty?
Môže ísť o nekódujúce gény, ktoré plnia rôzne funkcie v bunke vo forme RNA aj bez toho, aby boli preložené do proteínu. Alebo o RNA molekuly, ktoré nemajú priamu funkciu v bunke a vznikajú len ako vedľajší produkt rôznych iných mechanizmov. Alebo o bývalé gény, ktoré postupne stratili pod vplyvom mutácií svoju funkciu, ale ešte stále sa zo zotrvačnosti prepisujú do RNA.
V každom prípade sa ukazuje, že odpovedať na otázku, koľko génov má človek, nie je vôbec jednoduché. Kedy sa niekoľko prekrývajúcich sa úsekov, ktoré produkujú rôzne proteíny, bude nazývať jedným a kedy viacerými génmi? Čo s úsekmi, ktoré sa prepisujú do RNA, ale u ktorých nie je jasné, či sa ďalej prekladajú do proteínu?
Napriek týmto nejasnostiam sa súčasné odhady počtu génov pohybujú okolo dvadsaťtisíc génov. Také číslo by biológov pred desiatimi rokmi veľmi prekvapilo. Predpokladalo sa totiž, že počet génov rastie s rastúcou zložitosťou organizmu. Lenže aj jednoduchý červ Caenorhabditis elegans, ktorý má celkovo iba zhruba tisíc buniek, má v svojom genóme tiež približne dvadsaťtisíc génov. Rozdiel medzi človekom a červom však môže byť v počte alternatívnych foriem proteínu, ktoré sa z jedného génu môžu vytvoriť a hlavne v zložitejšej forme regulácie, ktorá určuje, kedy a koľko sa má ktorého proteínu tvoriť.
Číslo dvadsaťtisíc však treba brať s rezervou. Dodnes vlastne nevieme, koľko génov človek presne má a navyše vďaka výsledkom projektu ENCODE je dokonca ťažké zadefinovať, čo gén presne je. Problém hľadania a počítania ľudských génov tak asi bude biológov a informatikov zamestnávať ešte nejaký čas.
.autori sú bioinformatici
Ak ste našli chybu, napíšte na web@tyzden.sk.