Sora 2: megjöttek a videók, amiket a képtelenség megkülönböztetni a valóságtól
A Sora 2 videógeneráló modell szeptember végén jelent meg, azzal az ígérettel, hogy a korábbi változathoz képest jelentősen javult a fizikai pontosság, a realizmus és az irányíthatóság. Mivel az OpenAI már a Sora tavaly decemberben kiadott első változatát is – a ChatGPT sikerével párhuzamba állítva – a videókészítés „GPT‑1 pillanatának” nevezte, nagy várakozások előzték meg a „GPT‑3.5 pillanatként” beharangozott Sora 2-t.
Az első verzió fejlesztői változatáról a demók alapján azt írtuk, olyan minőségű filmekhez, amelyeket szöveges utasításra generál, normál esetben külső helyszínekre, díszletekre, profi felszerelésekre és szakemberekre, statisztákra, illetve színészekre lenne szükség, de „úgy fest, hogy mostantól egyetlen AI, a Sora is elég lesz hozzá”.
Nyújthat ennél is többet egy videógeneráló modell? A Sora 2–nek a jelek szerint sikerült, mert a világ egyik ámulatból a másikba esik a vele készült mozgóképek láttán. Az OpenAI azt állítja, hogy az új modell kiküszöböli a korábbi videógenerálók jellemző hibáit, például az amorf tárgyakat és karaktereket, a torzult valóságot vagy a „túlzott optimizmust”. Utóbbihoz példát is kapcsol: ha egy generált videóban szereplő kosárlabdázó „elvéti” a dobást, az eddigi verziók inkább kicsavarták a realitást, és a labda még lehetetlen szögből is a gyűrűbe „teleportált”. Ehhez képest a Sora 2 a fizika törvényeivel teljesen megegyező módon bánik a tárgyak mozgásával: a labda a palánkba csapódik és pont úgy pattan vissza, ahogy az a valóságban is történne.
A tökéletlenség lehalkításával és a képminőség feltekerésével az OpenAI kisebb csodát alkotott: még egyszerű szöveges utasításokból is olyan videókat hoz létre, amelyeket a legtöbb néző képtelen megkülönböztetni a valóságtól. Az pedig, hogy mekkora a szakadék a versenytársak videógeneráló modelljei, valamint a Sora 2 között, remekül illusztrálja ez az összehasonlítás, amelyben a Google fejlesztette Veo 3–mal vetik össze a képességeit.
A gyorsan bővülő AI‑videópiacon persze vannak más vetélytársak is, például a Meta „Vibes” alkalmazása és a Meta Movie Gen modell, valamint az Elon Musk-féle xAI Grok Imagine-je. A Forbes hangsúlyozza, hogy utóbbi rendszerek 6–10 másodperces felvételeket készítenek, míg a Sora 2 akár egyperces videókat generálhat, illetve hangot is ad a tartalmakhoz, ami komoly fegyvertény a jelenlegi mezőnyben. És eddig minden jel arra mutat, hogy a Sora 2 a legerősebb videógeneráló AI.
Az OpenAI a modell széles körű – de egyelőre Észak-Amerikára korlátozott – bevezetése óta arra biztatja a felhasználókat, hogy a Sora 2 segítségével találjanak ki minél több új világot és történetet. A lehetőségeknek – látszólag – csak a képzelet szab határt, hiszen a modell képes az emberi hanghoz igazított dialógusok és hangeffektek generálására is, sőt, ha kell, a felhasználó hang‑ és videómintája alapján avatárt készít, így a saját filmünk főszereplőjévé válhatunk.
Mi változott? – A Sora 2 új képességei
Bár hozzáférés hiányában nekünk, magyaroknak egyelőre nincs összehasonlítási alapunk, az új modellről megjelent videókon valóban az látszik, hogy komoly szintlépés történt. Amíg a Sora demóiban a generált karakterek szemeit jótékonyan elrejtette valami (többnyire egy napszemüveg), a Sora 2 már nem tart az „uncanny valley” jelenségtől. Ez ugye az a nyugtalanító érzés, ami egy videojátékhoz vagy filmhez digitális eszközökkel létrehozott arc láttán tör ránk: hiába realisztikus a karakter, a tekintete természetellenes marad.
Olyannyira nincs, hogy az alábbi videóban látható és hallható Sam Altman sem Sam Altman, hanem egy Sora 2-vel létrehozott avatár, ami az OpenAI vezérigazgatójaként mutatja be a generatív AI képességeit. És ha erre nem figyelmeztetnek előre, aligha mondanánk meg, hogy nem a valódi személyt látjuk.
Az OpenAI szerint a Sora 2 legnagyobb újítása a fizikai törvények pontosabb szimulációja és a látvány élethű megjelenítése. A modell hosszabb és összetettebb cselekményeket, illetve akár többszereplős akciókat is képes kezelni, miközben megőrzi a mozgás törvényeinek koherenciáját.
A vállalat kiemelte, hogy a videók több jelenetből álló utasításokat követhetnek, és a rendszer megőrzi a generált világ állapotát: figyelembe veszi például azt, hogy a tárgyak az előző képsorban pontosan hol voltak. Ezzel már lehetséges akár több perces klipek és kisfilmek, ezáltal komplexebb narratívák létrehozása, de az OpenAI most még a rövid, gyorsan terjedő tartalmak felé tereli a felhasználókat, mert a játékos menőség meghozza a befektetők kedvét a további tervek finanszírozásához.
Lőttek a filmeseknek, vagy a Sora 2 csak egy új „ecset”, amivel alkothatnak?
Az OpenAI azzal hirdette a Sora, majd a Sora 2 rendszert, hogy a filmipar, az animációs stúdiók és a művészek eszköze lehet. A BBC Science Focus egyetért ezzel: azt írják, a rendszer megkönnyítheti animált klipek készítését, és ezzel időt, pénzt spórol. Az első verzió tartalmai ugyanakkor hemzsegtek a hibáktól. Ahogy arra a Washington Post is felhívta a figyelmet: a rendszer egy 1930‑as évekbeli jelenetben a cigaretta rossz végét gyújtotta meg vagy épp egyszerre több telefonkagylót adott a generált karakter kezébe, ráadásul hangot sem tudott létrehozni.
Az IndieWire elemzője ennek ellenére sem gondolja, hogy az új verzió a filmiparnak készült. A fejlesztők szerinte „nem törődnek Hollywooddal”, hiszen a platform elsősorban virális tartalmak gyártására ösztönzi az embereket, így a közösségi média új mémgyártó eszközévé válhat. És addig, ameddig ez csak igazoltatás elől meglépő Super Mario-s viccek szintjén realizálódik, nincs is nagy baj.
Sora 2 Remix → Mario's Escape.
The remix feature is underrated.
PROCESS:
1. Generate an intial video
2. Post it.
3. Select Remix.
4. Describe next scene / repeat.
Initial Prompt:
Realistic body cam footage of a police officer pulling over Super Mario in his mario cart. It was… pic.twitter.com/Sn3VwuiGSM
— Rory Flynn (@Ror_Fly) October 3, 2025
A gondok akkor kezdődnek, ha a könnyed hecceken túllépve valódi emberekről vagy valós eseményeket szimuláló helyzetekről készülnek valóságszagú kamuvideók, ami megnehezíti a független filmesek etikus AI‑felhasználását. Onnantól a Nintendo sem mókás rajongói videóként fogja kezelni a fentihez hasonló alkotásokat – ami még ingyen reklámot is csap a Mario Kart játékoknak –, mert attól tart majd, hogy a trend visszaéléseket szül, és óriási energiákat kell fordítani a szellemi tulajdona megvédésére.
A véleménycikk arra is figyelmeztet, hogy a Sora‑videók virális mémjei új frontot nyitnak a szerzői jogi háborúban, hiszen az AI‑userek óhatatlanul egyre kevesebbet törődnek majd a szellemi tulajdonnal, ezáltal tovább mélyítik az árkot az alkotók és az AI‑fejlesztők között. Az Indiewire ezzel kapcsolatban szakmai állásfoglalásokat sürget: úgy véli, ha a jogtulajdonosok és szakszervezetek nem alakítanak ki standardokat, elveszíthetik a harcot.
Osztja ezt az aggodalmat a WGBH-nak nyilatkozó digitális képzőművész, Kyt Janae is, aki szerint nem kell egy év, és szinte képtelenek leszünk megkülönböztetni az ember alkotta tartalmakat az AI-val generált képektől. Thomas Smith, a képek digitalizálásával, menedzselésével, kiadásával és monetizálásával foglalkozó Gado Images vezérigazgatója hozzátette:
Ezek a megállapítások azt jelzik, hogy a videógeneráló AI több területen okozhat károkat, a szórakoztatóipartól a politikán át a személyiségi jogokig.
Máris támadják az új AI-modellt
A Sora 2 indítását rögtön kritikák és aggályok kísérték. A The Guardian például arról számolt be, hogy a generált videók posztolására létrehozott TikTok-szerű app feedje hamar megtelt erőszakos és rasszista jelenetekkel, köztük bombázást és tömeggyilkosságot szimuláló tartalmakkal. Joan Donovan kutató ezzel kapcsolatban arra figyelmeztetett, hogy az ilyen eszközök elmossák a valóság és a hazugság között húzódó határt, ezáltal alkalmassá válhatnak gyűlöletkeltésre és zaklatásra.
Sam Altman ehhez képest a saját blogján a „kreativitás ChatGPT‑pillanataként” jellemezte a Sora 2 indulását, de óvatosan elismerte azt is, hogy például a bullying elkerülése érdekében nagyobb figyelmet kell fordítani a moderálásra.
A Rolling Stone közben példákkal illusztrálva mutatta be, hogy a realisztikus videógeneráló segítségével a felhasználók – csupán heccből – náci egyenruhába bújtattak hírességeket, történelmi eseményeket hamisítottak vagy éppen levédett karaktereket (Pikachu, Ronald McDonald, SpongeBob) használtak fel, ami szerzői jogi veszélyeket sejtet.
A Vox cikke egyenesebben fogalmaz: felhívja a figyelmet arra, hogy a Sora 2 alapértelmezése szerint a jogtulajdonosok azok, akiknek kérvényezniük kellene a karaktereik eltávolítását, ami olyan, mintha a fejlesztők kifejezetten a szerzői jogok megsértése felé terelnék a felhasználókat.
Nem véletlen, hogy a kritikákkal szembesülő Sam Altman később frissítette a posztját, jelezve, hogy a jövőben a jogtulajdonosok „opt‑in” alapon adhatnak hozzá karaktereket az AI-modellhez, lehetővé téve, hogy a generált videók után részesedést kapjanak a bevételekből.
Őrületes energiaigény és a Sora 2 más pénzügyi hatásai
A modell bejelentését követően az elemzők felvetették, hogy a videók generálása rendkívüli mennyiségű számítási kapacitást és energiát igényel. Egyes kutatók szerint egy rövid, nagy felbontású videó generálása több mint 700‑szor több energiát fogyaszt, mint egy állókép létrehozása. Ennek következtében a jövő adatközpontjai már minden kétséget kizáróan nagyvárosokkal vetekedő energiazabáló – és karbonkibocsátó – szörnyetegek lesznek.
A Time elemzése rámutat: az AI‑videók ugyan drágák, de a cégek – köztük az OpenAI és a Meta – abban reménykednek, hogy a rövid videók gyártásával több előfizetéses felhasználó és befektető érkezik. Ez további bevételi forráshoz juttatja őket, ami még nagyobb modellek, egy napon pedig az általános mesterséges intelligencia megjelenéséhez vezethet.
Az AI-cégeknek tényleg nagyon kell a pénz, mert a generatív videómodellek fejlesztése hatalmas összegeket emészt fel. Ez az elemzők szerint idővel arra készteti majd a vállalatokat, hogy a befektetőktől és felhasználóktól beszedett pénzen túl a hirdetési piacon is terjeszkedjenek, illetve további előfizetési csomagokat találjanak ki, valamint árat emeljenek.
Ami pedig a belátható jövőben érkező fejlesztéseket illeti, az OpenAI egyik korábbi közleménye felvetette azt is, hogy létrehoznak egy „világszimulátort”, amely pontosan modellezi a fizikai világ törvényeit, ezzel új tudományos problémákat lesz képes megoldani.
Új AI-evolúciós lépcsőfokok jönnek
A Sora 2 ezeknek a vízióknak a nagy reménysége, amitől azt várják, hogy további fejlesztéseket és több platformon elérhető verziókat eredményez. A megjelenése új korszakot nyit a generatív AI-k világában, hiszen bátran kijelenthetjük, hogy ennyire valószerű mozgásokat és hangeffekteket, illetve ilyen időtartamú történeteket még egyik videógeneráló AI sem tudott létrehozni.
Bár a fizika törvényeit még nem követi le tökéletesen és vastagon lehetőséget ad a visszaélésekre – a deepfake-től az erőszakos tartalmakon át a szerzői jogok megsértéséig –, a komoly etikai és jogi kérdések kezelése után érdemes lehet kihasználni a benne rejlő lehetőségeket.
Mivel a gazdasági potenciál óriási, számolni kell a bővülésével és az energiafogyasztás növekedésével, valamint azzal, hogy a szellemi tulajdon megóvása érdekében ki kell harcolni a generált tartalmak után járó részesedést. Ezek az együttműködések – ha egyáltalán megköttetnek és aztán hosszú távon működőképesnek bizonyulnak – a kreatív tartalomgyártás ragyogó gyöngyszemévé varázsolhatják a Sora 2-t, illetve a jövőben érkező hasonló modelleket.