Szuperhiteles videókat generál az AI – hamarosan végképp nem hihetünk majd a szemünknek
A Sora előre megmutathatja majd, milyen lesz építkezés eredménye vagy az étel, amit még el sem kezdtünk főzni, ugyanakkor hiába nyugtat az OpenAI, nem ok nélkül aggódnak a színészek, és azok, akik a manipulált videók áradatától tartanak.
Hiperrealisztikus kisfilmek kíséretében jelentette be februárban az OpenAI, hogy a szöveggeneráló ChatGPT és a képkészítő DALL·E után elkészült a Sora, a vállalat első videógeneráló mesterséges intelligenciája. Az első közzétett felvételeken azóta is ámul a világ, hiszen látványosak és hitelesek (vagyis annak tűnnek), pedig a rajtuk szereplő egyetlen személy, élőlény, tárgy, táj, utca sem létezik a valóságban.
Ilyen minőségű kisfilmek elkészítéséhez normál esetben külső helyszínekre, díszletekre, profi felszerelésekre és szakemberekre, statisztákra, illetve színészekre lett volna szükség, de úgy fest, hogy mostantól egyetlen AI, a Sora is elég lesz hozzá.
Nem véletlen, hogy az amerikai forgatókönyvírók és színészek tavalyi sztrájkövetelései között a második legfontosabb feltétel (a magasabb jutalék és a folyamatos foglalkoztatás után) éppen a mesterséges intelligencia alkalmazásának korlátozása volt.
Mi lenne a Sora célja?
Az OpenAI felhívja rá a figyelmet, hogy az első körben kiadott tesztvideók egyikén sem hajtottak végre semmilyen utólagos módosítást, vagyis azoknak minden egyes képkockáját a Sora generálta, szöveges utasítások alapján.
Mint írják, a mesterséges intelligenciát a fizikai világ megértésére és szimulálására tanítják, hogy végül olyan modelleket képezzenek, amelyek segítenek az embereknek a valós térben lévő problémák megoldásában.
Ez így nagyjából olyan lesz (csak még jobb minőségben), mintha az életünk összes hétköznapi aspektusában megjelennének az iparban ma is használt ún. digitális ikrek, amelyek egy adott gyártósor és gép működését szimulálva mutatják meg például azt, hogy adott beállításokkal milyen termékekre számíthatunk vagy várhatóan mikor válik szükségessé a karbantartás.
Ha a Sora célja valóban az, hogy előre megnézzük: milyen eredményre vezet, amit tenni szándékozunk, akkor egy nap láthatjuk, hogyan fog kinézni az étel, amit még el sem kezdtünk főzni, vagy milyen buktatói vannak a gyerek fakuckójának, amit adott anyagokból és szerszámokkal készülünk megépíteni.
De ezek teljesen banális példák ahhoz képest, hogy mekkora segítséget kaphatnak tőle különböző szakemberek, a víz-vezetékszerelőktől az építészmérnökökön át a sebészorvosokig. Hiszen milyen jó lenne előre megmutatni az ügyfélnek a házába csak ezután bekerülő csörendszert, vizualizálni a művezetőnek az építkezésen elvárt munkafázisokat, vagy műtét előtt szimulálni egy operáció végkimenetelét - egyetlen vágás nélkül? Onnan persze, ahol a Sora most tart, még hosszú az út az utóbb írt szcenáriókig, de a lehetőség kétségtelenül benne van.
Képességek és gyengeségek
A szövegből videót készítő AI modell jelenleg maximum egyperces videókat képes létrehozni, miközben megőrzi a vizuális minőséget és maximálisan követi a felhasználó utasításait.
Az OpenAI közölte: számos vizuális tartalmat készítő művész, tervező és filmkészítő máris hozzáférést kapott a Sorához. A tesztektől egyértelmű visszajelzéseket várnák arra vonatkozóan, hogy az AI működésében milyen javításokat kell eszközölni, esetleg hogyan szavatolhatnák a biztonságos széleskörű alkalmazását.
A Sora képes összetett jeleneteket generálni több szereplővel, meghatározott típusú mozgásokkal, valamint a téma és a háttér pontos részleteivel. A modell nemcsak azt érti meg, hogy a felhasználó mit kért a beírt szövegben, hanem azt is, hogy ezek a dolgok hogyan léteznek a fizikai világban.
Ezeken kívül mélyen érti a nyelvet is, amelyeken az utasításokat kapja, tehát képes pontosan értelmezni a felszólításokat és lenyűgöző karaktereket létrehozni, amelyek élénk érzelmeket fejeznek ki. A Sora egyetlen videón belül több felvételt is generál, és ezek mind pontosan megtartják a kívánt karaktereket, illetve vizuális stílust - állítja az OpenAI.
Egy képkocka sem valódi:
A jelenlegi modell még nem tökéletes. Bármennyire tűnnek első látásra valódinak a felvételek, akadnak folytonossági és abszurd hibák, a sétáló városi lány alatt finoman megcsúszó talajtól a hirtelen ötödik lábat növesztő macskán át az emberi tekintetek torzulásáig. Utóbbi hatást – amit a digitálisan épített arcok miatt fellépő nyugtalanító érzésnek, az ún. „uncanny valley” jelenségnek hívunk – a legtöbb mintavideón napszemüvegekkel tompítják.
Az AI nehezen tudja lekövetni egy összetett jelenet fizikáját is, hiszen nem érti az ok-okozati összefüggések konkrét eseteit. „Előfordulhat például, hogy egy személy beleharap egy sütibe, de utána a sütin nem biztos, hogy marad harapásnyom” - szemléltette a gyártó, hozzátéve: a modell összekeverheti még a felszólítás térbeli részleteit, mondjuk a bal és a jobb oldalt vagy nehézségekbe ütközhet az időben lezajló események pontos leírásával, mondjuk egy adott kameraív követésével.
Utasításra így pásztáz:
Soha többé, egyetlen videóról sem tudhatjuk biztosan, hogy valódi-e?
Az OpenAI azt ígéri, hogy a Sora csak fontos biztonsági intézkedések mellett válhat mindenki számára elérhetővé. A protokollokat a félretájékoztatás, a gyűlöletkeltő vagy elfogult tartalmak szakértőivel együtt dolgozzák ki és olyan eszközöket építenek hozzá, amelyek segítenek felismerni a félrevezető tartalmakat.
Gondolkodnak például egy mindenki számára elérhető szűrő alkalmazáson, ami egyértelműen megállapítja, ha egy videót részben vagy egészben a Sora generált. Ehhez nem kell teljesen új szoftvereket írni, hiszen a DALL·E 3-hoz kidolgozott biztonsági módszerek a Sorára is alkalmazhatók.
„Amint [a felhasználói] kérések egy OpenAI-termékbe kerülnek, a szövegosztályozónk ellenőrzi őket és elutasítja azokat, amelyek sértik az irányelveinket. Ilyen a szélsőséges erőszak, a szexuális tartalom, a gyűlöletkeltő kép, a hírességek arcáról készült másolat vagy a másokat illető szellemi tulajdon. Emellett robusztus képosztályozókat is kifejlesztettünk, amelyek segítségével minden egyes létrehozott képkockát felülvizsgálunk, mielőtt a felhasználónak megmutatnánk.”
A lehetetlen is lehetséges:
A vállalat azt ígéri, hogy a Sora bevezetése előtt a világ minden tájáról megkeres politikai döntéshozókat, oktatókat és művészeket, hogy megértsék az újabb AI-termékkel kapcsolatos aggodalmaikat és meghatározzák az új technológia pozitív felhasználási lehetőségeit. A kiterjedt kutatás és tesztelés ellenére sem lehet azonban megjósolni, hogy az emberek milyen módon fogják használni a technológiát, ahogy azt sem, hogy milyen módon fognak visszaélni vele.
Ezért hiszünk abban, hogy a valós használatból való tanulás kritikus eleme az egyre biztonságosabb mesterséges intelligencia-rendszerek létrehozásának és idővel történő kiadásának – fogalmaz a közlemény.
A Sora egy diffúziós AI modell, ami egy statikus zajnak tűnő videóból kiindulva generál új mozgóképes tartalmat, hogy aztán fokozatosan átalakítsa, a zaj eltávolításával, sok lépésen keresztül. Képes továbbá teljes videókat generálni, vagy generált videókat meghosszabbítani, sőt, meglévő állóképeket mozgásba lendíteni úgy, hogy az apró részletekre is figyelve animálja a fotót.
„A Sora olyan modellek alapjául szolgál, amelyek képesek megérteni és szimulálni a való világot; ez a véleményünk szerint fontos mérföldkő lesz az AGI (általános mesterséges intelligencia) megvalósításában” – fűzi hozzá az OpenAI.
Új aggodalom: „egzisztenciális katasztrófa” közelít
Nem tudni, hogy a Sora, vagy más AI fejlesztésével összefüggésben, esetleg ezektől elhatárolódva, de néhány héttel az OpenAI bemutatója után jelent meg Dr. Roman V. Yampolskiy mesterséges intelligencia-szakértő összefoglaló könyve (AI Unexplainable, Unpredictable, Uncontrollable címmel), ami az AI szabályozhatóságát és társadalmi következményeit vizsgálja.
A Louisville-i Egyetem professzora arra jutott, hogy jelenleg semmilyen tudományosan bizonyított garancia nem létezik a mesterséges intelligencia ellenőrizhető keretek között tartására. Nincs nyoma olyan módszernek vagy mechanizmusnak, ami teljes biztonságot szavatolna – fejtegeti közleményében, hozzátéve: az ilyen fejlett rendszerek használata – pláne közkinccsé tétele – mindig rizikós, hiszen önállóan cselekvő mesterséges intelligenciáról beszélünk.
Yampolskiy hangsúlyozta: pillanatnyilag fogalma sincs, hogy a témával foglalkozó szakemberek mire alapozzák azokat a kijelentéseiket, amelyek szerint az AI szabályozható. A mesterséges intelligencia alapvető tulajdonsága ugyanis éppen az, hogy képes tanulni, alkalmazkodni és saját döntések végeláthatatlan sorozatát meghozni. Ebből képtelenség megjósolni a viselkedését, vagy megmondani, hogy miért dönt úgy, ahogy.
Miközben az AI autonómiája fokozódik, az emberi ellenőrzés lehetősége csökken. És ennek nagyon súlyos egzisztenciális következményei lehetnek az emberiségre nézve.