Nová AI tvorí také realistické deepfake videá, že vývojári sa ju boja zverejniť

.martin Hodás + .spoločnosť +

22. apríl 2024

Predstavte si, že sledujete kontroverzný prejav politika, no nech sa snažíte akokoľvek, nedokážete rozpoznať, či ide o realitu, alebo podvrh. Od technológie, ktorá to umožní, sme už len krôčik.

Nová AI tvorí také realistické deepfake videá, že vývojári sa ju boja zverejniť

Microsoft Research Asia Zábery falošných prejavov ľudí vygenerovaných na základe jedinej fotky a nahrávky hlasu.

pekinskí výskumníci spoločnosti Microsoft tento týždeň zverejnili odbornú štúdiu súvisiacu s jej novým modelom VASA-1 – technológiou založenou na umelej inteligencii, ktorá dokáže generovať realistické videá s hovoriacimi tvárami ľudí.

Ide o takzvané deepfake videá, ktorých obraz i zvuk sú vytvorené počítačovo. Zobrazovaná osoba na takomto videu (v prípade snahy o imitáciu skutočného človeka) hovorí niečo, čo nikdy nepovedala. Prípadne táto osoba vôbec neexistuje.

Prečítajte si aj: Od volieb až po toxické vzťahy. Riziká umelej inteligencie siahajú až do spálne

Deepfake videá sú rizikovou záležitosťou najmä v prípadoch, keď ide o snahu manipulovať. Môžu byť zneužité na pokus o diskreditáciu verejne činnej osoby, napríklad politického kandidáta.

Samo osebe nejde o novú technológiu. Skúsenosti s ňou máme už aj na Slovensku, keď bola zneužitá pred parlamentnými voľbami v rámci snahy zdiskreditovať stranu Progresívne Slovensko. Microsoft však vyvinul novú generáciu umelej inteligencie, ktorá posúva uveriteľnosť počítačovo generovaných podvrhov na ešte vyššiu úroveň.

takmer odstránili najtypickejšie nedostatky

Čo presne sa teda Microsoftu podarilo dosiahnuť? Jeho výskumníci zverejnili galériu vzorových videí vygenerovaných pomocou modelu VASA-1. Vyplýva z nich, že spoločnosť odstránila celý rad nedostatkov doposiaľ typických pre deepfake videá. Inými slovami, inžinieri pomaly, ale isto mažú najviditeľnejšie poznávacie znaky toho, že video, na ktoré sa pozeráme, je falzifikát.

Konkrétne už výsledné videá nie sú „ploché“, ale hlava osoby na obraze pôsobí ako skutočný 3D objekt. Nehýbe sa len samotná tvár, ale celá hlava vrátane dlhých vlasov.

Z hlasu počuť realistickú emóciu, prirodzenú intonáciu a hodnoverný prejav. To dopĺňa bohatá mimika tváre, ktorá výsledku dodáva na uveriteľnosti. Navyše, pohyby úst sú takmer dokonale synchronizované s hovoreným slovom a výsledný obraz má dostatočne vysokú kvalitu po stránke rozlíšenia i snímkovacej frekvencie.

New VASA-1 model by Microsoft Research Asia. Impressive lip-sync and natural face expression.

There are still visible artifacts, however, to the point where many regular ppl with little awareness about the state of AI technology could no longer tell if it is fake... pic.twitter.com/Qxi8qdHNXd
— Martin Hodás (@Hody_MH11) April 18, 2024

Na videu sa stále nachádzajú takzvané artefakty – nedokonalosti, ktoré prezrádzajú alebo aspoň napovedajú, že ide o podvrh. Avšak tieto artefakty sú prítomné len v minimálnej miere oproti dnes dostupným nástrojom na generovanie deepfake videí. To znamená, že bežný človek bez znalosti schopností umelej inteligencie by sa takým videom nechal s relatívne vysokou pravdepodobnosťou ľahko oklamať.

Zároveň treba počítať s tým, že technológia sa bude ďalej zlepšovať a aj tieto posledné nedostatky sa podarí utlmiť, ak nie úplne odstrániť.

držte si klobúky

A čo potrebuje model VASA-1 na to, aby takéto realistické video vytvoril? To je na tom to strašidelné: takmer nič. Stačí mu jediná kvalitná fotografia danej osoby a jediný audio súbor s jej hlasovým prejavom.

Len na základe týchto dvoch vstupov dokáže umelá inteligencia Microsoftu vygenerovať video, na ktorom daná osoba hovorí to, čo jej napíšete, aby prečítala. Pozerá sa pritom smerom, ktorý jej dokážete určovať v reálnom čase a rozpráva s požadovanou emóciou.

Takáto technológia by sa dala veľmi ľahko zneužiť nielen na diskreditáciu politikov, ale aj bežných občanov. Práca s nástrojmi pre generovanie takýchto videí je totiž veľmi jednoduchá a nevyžaduje pokročilé technické znalosti.

Našťastie si tieto riziká uvedomuje aj Microsoft a spoločnosť sa preto rozhodla, že model VASA-1 nesprístupní širokej verejnosti. Robí tak po vzore konkurenčnej firmy OpenAI, ktorá len prednedávnom vytvorila rovnako výkonný generátor falošného hlasu. Z jediného 15-sekundového záznamu hlasového prejavu dokáže vytvoriť nové hodnoverné nahrávky.

Obe spoločnosti zdôrazňujú, že pre zverejnenie podobne výkonných nástrojov sú potrebné zákony či zodpovedajúca regulácia, ktoré by ich využitiu nastavili mantinely a súbežne zaviedli opatrenia proti zneužívaniu umelej inteligencie.

Prezentáciou ich technologického pokroku tak firmy akcelerujú diskusie na túto tému. Ak totiž podobne schopnú umelú inteligenciu dokázal vyvinúť Microsoft či OpenAI, je len otázkou času, kým ju vyvinie niekto (ak sa tak už nestalo), koho morálny kompas nebude ukazovať správnym smerom...

Ak ste našli chybu, napíšte na web@tyzden.sk.

.martin Hodás + .spoločnosť +

.diskusia | Zobraziť

.posledné

.neprehliadnite

Zdá sa, že máte zablokovanú reklamu

Ďakujeme, že pozeráte .pod lampou. Chceli by ste na ňu prispieť?

Nová AI tvorí také realistické deepfake videá, že vývojári sa ju boja zverejniť