Balogh Petya a mesterséges intelligenciáról: Amíg nem viszket, nem vakarjuk - én bízom abban, hogy a végén minden jól alakul majd

A Cápák között zsűritagja és a téma egyik legjobb hazai szakértője azt mondja, az emberiség szuperképessége, hogy idővel minden technológiát megszelídít. De az biztos, hogy ami most történik, átformálja az életünket.

Fischer Gábor, Címlapkép: RTL - szmo.hu
2024. május 21.

A múlt héten először az Open AI jelentette be új modelljének, a GPT 4o-t, ami képes érzelmeket is felismerni és kifejezni, telefonunk kamerája segítségével „lát” minket, és ha arra kérjük, személyi tolmácsként is működik, majd jött a Google Geminije.

A mesterésges intelligencia rohamléptékben fejlődik, és mi csak kapkodjuk a fejünket.

Ugyanakkor ez a gyors fejlődés számos aggályt is felvet. Vajon az AI képes lesz-e etikusan dönteni? Hogyan biztosíthatjuk, hogy az adataink biztonságban legyenek? Milyen hatással lesz az automatizáció a munkaerőpiacra? Ezekről és a jövőről is beszélgettünk Balogh Petyával, akit nemcsak a Cápák között zsűritagjaként ismerhetnek a nézők, hanem az egyik legtapasztaltabb magyar angyalbefektetőként is, aki mostanában cégvezetőket oktat arra, mire is jó a mesterséges intelligencia.

– Most egyszerre jött ki a Google féle Gemini is új változattal, és az Open Ai is kihozta a CHAT GPT 4o nevű újabb változatát. Eközben napi szinten találkozik az ember újabb és újabb képgenerátorokkal, szöveg- és zenegenerátorokkal, ömlenek ránk a hírek. Tehát itt valami olyasmi történik, ami minden bizonnyal 50-60 éve búvópatakként épül, épül, ám most hirtelen, mintha szárba szökkent volna minden, és exponenciálisan növekedni látszik. Lépést tudunk mi, emberek tartani ezzel a sebességgel?

– Ami most történik, az egy teljesen új fokozata vagy új sebessége a technológiának. Eddig is fejlődött a technológia, ennek tempóját Moore törvény diktálta. Még a hatvanas években figyelték meg, hogy az ugyanazért az összegért megvehető mikrochipen lévő tranzisztorok száma kétévente megduplázódik, ami a számítási teljesítmény exponenciális növekedéséhez vezet. Azaz a technológia jellemzője, hogy idővel mindig lesz jobb és gyorsabb. És ami most megérkezett a mesterséges intelligenciával, azzal egy csomó másik gyorsulási faktor adódott össze. 2017-ben a Google kutatói értek el áttörést egy új mesterséges intelligencia modell, a transzformátor megalkotásával.

Azóta erre az áttörésre épülve a terület robbanásszerűen nőtt, lényegesen magasabb, évi több mint tízszeres, az én számításaim szerint nagyjából évi 26-szoros tempóban fejlődik az AI-rendszerek képessége, minősége, tudása.

Ez azt jelenti, hogy minden korábbinál gyorsabb a változás, és csak kapkodjuk a fejünket, olyan gyorsan fejlődik az intelligencia, olyan gyorsan nő a mindennapi hasznossága.

– Ilyen sebességgel a felhasználó sem tud lépést tartani, mert mire berendezkedik egyfajta ügymenetre, akkor már egészen máshol tart az egész, nem?

– Igen, ez most nagyon látványos és gyors fejlődés, amiben még nagyságrendi lépések vannak, hiszen nemrég még csak épphogy tudtunk szövegben kommunikálni, és magyarul is alig tudott, pár hónapja tudunk élőszóban beszélgetni vele, hamarosan pedig videón is lát minket, és szerintem onnantól egy kicsi lépés lesz az, hogy mi is lássuk a mesterséges intelligencia avatárját videón. Szerintem hamarosan folyamatos videóhívásban fogunk ezekkel a rendszerekkel kommunikálni.

A most bemutatott a ChatGpt 4o-nak a nagy ígérete, hogy már akár a videónkat látja. Amellett, hogy beszélünk, onnantól arra is tud reagálni, ami éppen előtte történik. Látni is fog minket, nem csak hallani.

Szerintem sokkal könnyebb az emberiségnek alkalmazkodni ehhez bizonyos szempontból, mint hinnénk, mert ami a legjobban fejlődik, az a gép és az ember közötti kommunikáció, ez pedig egyre könnyebbé és könnyedebbé válik, egyre jobban ért minket, egyre jobban érti, hogy mit mondunk és miért mondjuk. Úgyhogy ilyen szempontból pontosan az fejlődik, hogy jobban értsen minket, ezért én azt gyanítom, hogy könnyű lesz ez az átmenet, mert nemcsak a mögöttes komplexitása nő, hanem a használat egyszerűsége is, azaz egyre könnyebbé válik a használata az élet egyre több területén.

– Az nem félő, hogy ez óhatatlanul kikukáz egy csomó olyan szakmát, amiből most még emberek milliói élnek meg? Volt már egyszer egy ipari forradalom, amit géprombolással próbáltak megoldani és nem jött össze. Gondolom, itt se a géprombolás a megoldás, de hát mindenképpen ez társadalmilag is nagyon-nagyon durva változásokat vetít előre, ami most történik.

– Szinte biztos, hogy ennek a változásnak rengeteg olyan aspektusa lesz, amit még nem eléggé értünk, amit még nem látunk be, hogy pontosan mit fog okozni. Ha hatékonyabban tudunk dolgokat csinálni, ha jobb minőségben vagy gyorsabban végzünk valamelyik munkafolyamattal, akkor minden egyes iparágban ugyanaz lesz a kérdés:

ha valamiben háromszor hatékonyabbá válik az emberiség, akkor ugyanekkora társadalmi költség mellett háromszor ilyen minőséget vagy mennyiséget kérünk belőle, vagy ugyanezt a minőséget és mennyiséget kérjük harmadekkora társadalmi költség mellett.

Így nézve szerintem nem kérdés, hogy az amerikai egészségügy szinte biztosan a háromszoros minőséget akarja majd ugyanekkora társadalmi költség mellett biztosítani, azaz Amerikában az egészségügy hatékonyságának javulása minőségjavulást fog eredményezni. Biztos lesz belső strukturális átrendeződés: kevesebb ember dolgozik majd a bürokrácián, az adminisztráción, kevesebb ember kellhet előkészítő feladatokra, átalakul a diagnózis, ugyanakkor több ember kell majd a gyógyításhoz, mert jobban tudunk majd megelőzni betegségeket, korábban tudjuk detektálni és kiértékelni a tüneteket, ezáltal egészségesebb lesz a lakosság. De ugyanebben a helyzetben nehéz megmondani, hogy Magyarországon hogyan dönt a kormányzat: ugyanekkora költség mellett háromszor jobb egészségügy, vagy hasonló minőség kisebb költség mellett.

div class="hatterszin">Minden országban, minden szektorban ez lesz szerintem a kulcskérdés, azaz az ügyfél kéri a több mennyiséget és minőséget, amit ez a technológiai forradalom lehetővé tesz. Mert akkor nem munkanélküliséget hoz, hanem minőségi robbanást.

A világunknak van egy nagyon gyors változása, és van egy nagyon mély stabilitása is. Amióta a rádióról átszoktunk a tévére, a tévéről az internetre, megjelent az otthoni telefon, a mobiltelefon, az internet, a mobilinternet, a social media, a Netflix és a streaming, az amerikai lakosságnak nagyjából ugyanakkora része foglalkozik telekommunikációval, és a társadalmi költség is arányában nagyjából ugyanannyi. Azaz nem változott meg jelentősen az, hogy telekommunikációra mennyit költünk, inkább arányaiban változott meg, hogy mit jelent a telekommunikáció. Húsz éve még nem költöttünk Netflixre, hanem kábeltévére és telefonra, nem volt mobilinternetünk és Spotify-unk, de költöttünk CD-lemezekre. Struktúrájában sokat változik a világ, de ez nem feltétlenül jelenti azt, hogy a nagyobb hatékonyságú munkavégzés egy az egyben munkanélküliséget eredményezne. De egészen biztos, hogy lesz ilyen hatása is, hogy lesznek megszűnő vagy eltűnő szakmák, mert lesznek olyan területek, amelyeket nagyobb mértékben lehet automatizálni. Nem biztos, hogy tízszer annyi könyvelésre lesz szükség, ha a könyvelés maga tízszer hatékonyabbá válik.

– Csak arra gondolok, hogy a mesterséges intelligencia most már egészen hihetetlenül realisztikus videoképeket tud generálni, ami olcsóbbá teszi a jelenleg drága filmkészítést, és lehetővé teszi, hogy magányos alkotók is mozifilmeket készítsenek. Ez forradalmat hozhat minden téren. Gondolhatunk-e olyasmire, hogy a rendszer el tudja végezni az iparos munkát, de a kreatív feladatok továbbra is az emberre maradnak? Tehát nem az történik, hogy a mesterséges intelligencia mindent átvesz, hanem az embereket az egyedi munkák és képességek felé tolja?

– Ami a filmipar számára kihívás lehet, a zeneiparban ugyanez a változás már lezajlott. Otthon, egy számítógéppel bárki képes nagyon magas minőségű zenét szerezni, mert mindent egy-egy szoftverrel meg tud valósítani. Vannak már olyan sikeres zenészek, akiknél nem kell egy nagy stábnak együtt dolgozni ahhoz, hogy jó minőségű zene jöjjön létre, hanem akár egyetlen ember is képes erre, vagy kis csapatok. Ezért biztos, hogy a tartalomgyártás további demokratizálódása várható, de ennek nagy része már most is zajlik. A legnézettebb YouTube-csatornákat sem feltétlenül 100 fős stábok készítik, hanem néhol egy-két ember, vagy egy kis csapat, akik olyan produkciókat hoznak létre, amelyeket többen néznek, mint egy-egy nagyjátékfilmet..

– Igen, de itt egy kicsit másról beszélünk, mert ebben az esetben viszont nem arról van szó, hogy ugyanazt tudja megcsinálni a youtuber, csak egyszerűen az, amit adott esetben ő alkotott valamiért érdekesebb.

– Azt gondolom, hogy az AI minden művészeti ágban jobb műveket fog alkotni, mint a legjobb emberi alkotók. Ennek több hatása lesz. Az egyik, hogy ha minden kategóriában jobbat tud alkotni, mint a legjobb emberi alkotó AI nélkül, akkor nehéz lesz versenyben maradni csak a produktum alapján. Ugyanakkor, ahogy egyre jobb minőségű és olcsóbb műveket tudunk előállítani, úgy értéktelenedik el a kategória, mint ahogy ez történt a zenében. Ma már a zenéből, a zeneszámok jogdíjaiból nem lehet megélni. A zenészek a koncertekből élnek, mert a Spotify-on lévő kétmillió zeneszám miatt nagyon kevés pénzt kapnak csak azért, mert hallgatják a műveiket.

Ahogy a mű leértékelődik, a művész felértékelődik. Arra, hogy valaki koncertjén ott lehessenek, akit több százmillió ember hallgat a Spotify-on, egyre nagyobb igény lesz.

Ez a helycsere azt jelenti, hogy a tökéletes műből már annyi lesz, hogy nem a mű lesz az érték, hanem az, hogy ki készítette. Ez igaz Shakespeare-re is. Szerintem Shakespeare eredeti angol nyelvű művei nem annyira jók, viszont ő maga a kora szimbóluma, megkerülhetetlen és zseniális sok szempontból. A kreativitását utol fogja érni az AI, de hogy ő volt és örökre ő marad az egyetlen Shakespeare a történelemben, azt nem lehet pótolni. Így a brandek ereje is nőni fog. A másik fontos gondolat, hogy az a minőségi szint, amit mindenki elő tud állítani, az lesz az új gagyi. Most ahhoz kell hozzászoknunk, hogy a képgeneráló, szövegíró, zenekészítő szoftverekkel mindenki nagyon jó minőséget tud előállítani, ezért nagyon magasra kerül a gagyi szint. Aki meg akarja magát különböztetni, akár marketingben, akár zenében, akár művészetben, annak jobb minőséget kell nyújtania, mint amit az átlagos ember géppel generálni tud.

Most már szerintem nem fogunk tudni a legtöbb művészeti ágban emberként versenyezni a géppel, hanem csak ember és gép versenyez majd együtt más emberrel és más géppel.

Az új gagyi szint, amit az AI hoz, az az emberiség nagy részének az önálló képessége fölött van. Egyetlen promttal jobb képet tudok generálni Picasso stílusában, mint amit valaha rajzolni tudtam volna, és hamarosan jobb minőségű képet generálok Picasso stílusában, mint amit ő maga festett volna. A verseny abban lesz, hogy ki tud többet kihozni a gépből. Az, akinek van jó látása, művészi érzéke, jobb képet fog generálni, mert jobban érti, mit akar, jobban érzi, hol tart, és jobban tud megfogalmazni egy érzést vagy hangulatot a programban. Az AI egy jobb ecset lesz, de azt is tudni kell használni. A művészetekben a verseny arra fog áttolódni, hogy az AI-val együtt ki tud jobbat alkotni, mint ahogy a zeneiparban is a digitális eszközökkel ki tud jobb zenét előállítani.

– Jelenleg még emberek fejlesztik az AI-t. De mikor jön el az a pont, ahol már ember nem kell a folyamathoz?

– Valószínűleg közeleg az az idő, amikor az általános mesterséges intelligencia (AGI) már nemcsak egyes szakmákban vagy területeken lesz jobb nálunk, hanem általánosságban is ügyesebb és okosabb lesz, és teljesen saját lábra áll. Már most vannak példák erre, bár ezek a rendszerek még nem érik el azt a szintet, hogy mindenben jobbak legyenek nálunk. Vannak olyan mesterséges intelligenciák, amelyek cégeket vezetnek vagy nagyobb feladatokat lépésekre bontanak, és így végzik el azokat. Ezek a rendszerek mesterséges intelligenciát használnak mesterséges intelligencia irányítására.

Megjelent az első olyan platform is, ahol egy mesterséges intelligencia, ha egy feladattal elakad, felbérelhet egy embert, hogy segítsen neki.

Tehát már nem csak emberek adnak feladatot gépeknek, hanem vannak olyan helyzetek is, amikor egy AI ad megbízást egy embernek.

– Most egy normál háztartásban egy átlagos család milyen módon tudja ezeket a dolgokat használni?

– Egy teljesen átlagos családban is rengeteg változást hoz a mindennapokban, leginkább a tudáshoz való hozzáférésben. Legyen szó arról, hogy mivel permetezzük a moníliás barackfát, miért döglöttek meg a halak az akváriumban, milyen gyógyszer kellett volna a vizükbe, melyik rizottó rizst válasszuk a boltban, hogyan javítsunk meg egy gépet, vagy miért lett foltos a ruha a mosás után...

Minden hétköznapi problémánkhoz és helyzetünkhöz van egy tanácsadónk, aki nem csak tudja, hogy segít megoldani a problémát, de el is magyarázza, hogy miért.

Ma már sokkal könnyebben férünk hozzá a tudáshoz, igaz, most még gépelnünk vagy diktálnunk kell. Hamarosan elég lesz egy videót bekapcsolva megmutatni, mit látunk és mi történik, és valószínűleg ez tovább fejlődik abba az irányba, hogy lesz rajtunk egy folyamatosan üzemelő kamera ami mindent lát és hall, így tud támogatni minket. Ez a közvetlen hozzáférés a tudáshoz rendkívül hasznos. Emellett a mesterséges intelligencia megcsinálja a gyerek háziját, elvégzi a kiadott feladatokat az irodában, összeszedi az adatokat a munkánkhoz, utánanéz dolgoknak, és összeállít mindent egy-egy projekthez. Lenyomozza, kivel készítsünk interjút, mit kérdezzünk tőle, segít elkészíteni a prezentációnkat, vagy akár megírni egy szoftvert. Az értelmiségi munka számtalan területén napi szinten hasznos tud lenni.

– És akkor létrejön egy olyan társadalom, ahol igazából élő humán munkára csak nagyon kevés és nagyon professzionális és nagyon kreatív területeken van szükség, tehát a tömegekre nincsen szükség? Viszont ez nagyon súlyos társadalmi feszültséget keltene, ha ezek a tömegek egy ilyen dickensi nyomorba süllyednének, mint az első ipari forradalom idején.

– A fejlődés olyan sebességgel zajlik, hogy sok területen nehéz előre megjósolni, hogy mi lesz ennek az eredménye. Úgy érzem, jobban aggódunk most, mint amikor majd utólag kiderül, hogy mit kellett volna tennünk.

De hiszem, hogy az emberiség egyik szuperképessége az, hogy minden technológiát idővel megszelidít, és megtalálja a módját annak, hogy az emberiség javát szolgálja. Ebben nagyon jók vagyunk.

Ugyanakkor azért is aggódunk, mert már sejtjük, milyen kérdések merülhetnek fel, de még nem ismerjük a válaszokat. A válaszok majd akkor születnek meg, amikor az emberiség ténylegesen odaér egy problémához. Amíg nem viszket, nem vakarjuk. Én bízom abban, hogy a végén minden jól alakul majd. Nézve a másik oldalt, úgy gondolom, hogy az emberiség folyamatosan halad felfelé a Maslow-piramisban. Az ipari forradalom előtt az emberiség nagy része mezőgazdasági munkával foglalkozott. Azóta ez az arány folyamatosan csökken, és ma csak a népesség egy kis része (4%) termeli meg az összes élelmiszert a többiek számára. Ez hatalmas hatékonyságnövekedést jelentett. Ahogy elértük, hogy legyen elég étel, a gyártás lett a következő cél, hogy legyen elég tárgyunk. Lassan elérjük azt a pontot, amikor elegendő lesz a tárgyaink száma. Ezért egyre nő a szolgáltatóipar, szórakozást, élményeket, egészséget, jobb életminőséget biztosítva.

Az emberiség mindig keres valami újat, amire vágyik, amiből többet akar.

Bármi történjen is, mindig találunk majd valamit, ami leköti a figyelmünket.

– Utoljára éppen miről beszélgetett a mesterséges intelligenciával, és miben segített?

– Pár perccel ezelőtt tőzsdei szabályozásokban segített A cégemet (STRT Holding Nyrt) ugyanis tőzsdére vittem, így sok új témába kell beletanuljak. Ezért egy saját GPT-ben összegyűjttettem a releváns törvényeket és szabályozásokat, és ettől a testreszabott mesterséges intelligenciától tudok megkérdezni komplex szakmai kérdéseket, mielőtt az ügyvédeket megkeresném velük. Az ügyvédekkel később még mindent átbeszélek, de így már sokkal jobban felkészülten tudok kérdezni tőlük. Mivel életem nagyját programozóként és vállalkozóként töltöttem, így amellett, hogy értem, hogy technológiailag mi történik, azt is látom, hogy ez üzletileg mit okozhat. Befektetőként már több ilyen cégbe is beszálltunk, szóval van némi tapasztalatunk ezen a területen. Elsősorban az egészségügyben, kereskedelemben, agráriumban és oktatásban látom a mesterséges intelligencia hasznosításának lehetőségeit, de számos más területet is jelentősen át fog alakítani. Cégünk másik főtevékenysége, hogy cégvezetőket oktatunk. Legnépszerűbb tanfolyamunk jelenleg arról szól, hogy hogyan fogja érinteni a vállalkozásokat a mesterséges intelligencia, és hogyan tudunk erre vezetőként felkészülni, mivel ez hatalmas átformáló erővé válik a gazdaságban.

Azok a cégek, amelyek időben alkalmazkodnak és kihasználják ezeket az eszközöket, hatalmas versenyelőnyhöz juthatnak.

Akik pedig lemaradnak, azok hamar elveszíthetik piaci pozíciójukat azokkal szemben, akik jól kihasználják ezeket a lehetőségeket.

Sora 2: megjöttek a videók, amiket a képtelenség megkülönböztetni a valóságtól

Náci egyenruhába bújtattak hírességek, meghamisított történelmi események, kamu filmjelenetek igazinak tűnő színészekkel – máris ilyen videók készültek az OpenAI legújabb videógeneráló modelljével, ami egyszerre lenyűgöző és félelmetes.

Szerző: Gábor János - szmo.hu
2025. október 13.

A Sora 2 videógeneráló modell szeptember végén jelent meg, azzal az ígérettel, hogy a korábbi változathoz képest jelentősen javult a fizikai pontosság, a realizmus és az irányíthatóság. Mivel az OpenAI már a Sora tavaly decemberben kiadott első változatát is – a ChatGPT sikerével párhuzamba állítva – a videókészítés „GPT‑1 pillanatának” nevezte, nagy várakozások előzték meg a „GPT‑3.5 pillanatként” beharangozott Sora 2-t.

Az első verzió fejlesztői változatáról a demók alapján azt írtuk, olyan minőségű filmekhez, amelyeket szöveges utasításra generál, normál esetben külső helyszínekre, díszletekre, profi felszerelésekre és szakemberekre, statisztákra, illetve színészekre lenne szükség, de „úgy fest, hogy mostantól egyetlen AI, a Sora is elég lesz hozzá”.

Kapcsolódó

Szuperhiteles videókat generál az AI – hamarosan végképp nem hihetünk majd a szemünknek

A Sora előre megmutathatja majd, milyen lesz építkezés eredménye vagy az étel, amit még el sem kezdtünk főzni, ugyanakkor hiába nyugtat az OpenAI, nem ok nélkül aggódnak a színészek, és azok, akik a manipulált videók áradatától tartanak.

Nyújthat ennél is többet egy videógeneráló modell? A Sora 2–nek a jelek szerint sikerült, mert a világ egyik ámulatból a másikba esik a vele készült mozgóképek láttán. Az OpenAI azt állítja, hogy az új modell kiküszöböli a korábbi videógenerálók jellemző hibáit, például az amorf tárgyakat és karaktereket, a torzult valóságot vagy a „túlzott optimizmust”. Utóbbihoz példát is kapcsol: ha egy generált videóban szereplő kosárlabdázó „elvéti” a dobást, az eddigi verziók inkább kicsavarták a realitást, és a labda még lehetetlen szögből is a gyűrűbe „teleportált”. Ehhez képest a Sora 2 a fizika törvényeivel teljesen megegyező módon bánik a tárgyak mozgásával: a labda a palánkba csapódik és pont úgy pattan vissza, ahogy az a valóságban is történne.

A tökéletlenség lehalkításával és a képminőség feltekerésével az OpenAI kisebb csodát alkotott: még egyszerű szöveges utasításokból is olyan videókat hoz létre, amelyeket a legtöbb néző képtelen megkülönböztetni a valóságtól. Az pedig, hogy mekkora a szakadék a versenytársak videógeneráló modelljei, valamint a Sora 2 között, remekül illusztrálja ez az összehasonlítás, amelyben a Google fejlesztette Veo 3–mal vetik össze a képességeit.

Ebben a videóban semmi sem valódi:

A gyorsan bővülő AI‑videópiacon persze vannak más vetélytársak is, például a Meta „Vibes” alkalmazása és a Meta Movie Gen modell, valamint az Elon Musk-féle xAI Grok Imagine-je. A Forbes hangsúlyozza, hogy utóbbi rendszerek 6–10 másodperces felvételeket készítenek, míg a Sora 2 akár egyperces videókat generálhat, illetve hangot is ad a tartalmakhoz, ami komoly fegyvertény a jelenlegi mezőnyben. És eddig minden jel arra mutat, hogy a Sora 2 a legerősebb videógeneráló AI.

Az OpenAI a modell széles körű – de egyelőre Észak-Amerikára korlátozott – bevezetése óta arra biztatja a felhasználókat, hogy a Sora 2 segítségével találjanak ki minél több új világot és történetet. A lehetőségeknek – látszólag – csak a képzelet szab határt, hiszen a modell képes az emberi hanghoz igazított dialógusok és hangeffektek generálására is, sőt, ha kell, a felhasználó hang‑ és videómintája alapján avatárt készít, így a saját filmünk főszereplőjévé válhatunk.

Mi változott? – A Sora 2 új képességei

Bár hozzáférés hiányában nekünk, magyaroknak egyelőre nincs összehasonlítási alapunk, az új modellről megjelent videókon valóban az látszik, hogy komoly szintlépés történt. Amíg a Sora demóiban a generált karakterek szemeit jótékonyan elrejtette valami (többnyire egy napszemüveg), a Sora 2 már nem tart az „uncanny valley” jelenségtől. Ez ugye az a nyugtalanító érzés, ami egy videojátékhoz vagy filmhez digitális eszközökkel létrehozott arc láttán tör ránk: hiába realisztikus a karakter, a tekintete természetellenes marad.

Az új modell már nem ilyen „félénk”: tisztában van vele, hogy amit előállít, teljesen életszerű, ezért nincs szükség trükközésre.

Olyannyira nincs, hogy az alábbi videóban látható és hallható Sam Altman sem Sam Altman, hanem egy Sora 2-vel létrehozott avatár, ami az OpenAI vezérigazgatójaként mutatja be a generatív AI képességeit. És ha erre nem figyelmeztetnek előre, aligha mondanánk meg, hogy nem a valódi személyt látjuk.

Az OpenAI szerint a Sora 2 legnagyobb újítása a fizikai törvények pontosabb szimulációja és a látvány élethű megjelenítése. A modell hosszabb és összetettebb cselekményeket, illetve akár többszereplős akciókat is képes kezelni, miközben megőrzi a mozgás törvényeinek koherenciáját.

A vállalat kiemelte, hogy a videók több jelenetből álló utasításokat követhetnek, és a rendszer megőrzi a generált világ állapotát: figyelembe veszi például azt, hogy a tárgyak az előző képsorban pontosan hol voltak. Ezzel már lehetséges akár több perces klipek és kisfilmek, ezáltal komplexebb narratívák létrehozása, de az OpenAI most még a rövid, gyorsan terjedő tartalmak felé tereli a felhasználókat, mert a játékos menőség meghozza a befektetők kedvét a további tervek finanszírozásához.

Lőttek a filmeseknek, vagy a Sora 2 csak egy új „ecset”, amivel alkothatnak?

Az OpenAI azzal hirdette a Sora, majd a Sora 2 rendszert, hogy a filmipar, az animációs stúdiók és a művészek eszköze lehet. A BBC Science Focus egyetért ezzel: azt írják, a rendszer megkönnyítheti animált klipek készítését, és ezzel időt, pénzt spórol. Az első verzió tartalmai ugyanakkor hemzsegtek a hibáktól. Ahogy arra a Washington Post is felhívta a figyelmet: a rendszer egy 1930‑as évekbeli jelenetben a cigaretta rossz végét gyújtotta meg vagy épp egyszerre több telefonkagylót adott a generált karakter kezébe, ráadásul hangot sem tudott létrehozni.

Ehhez képest a Sora 2 pontosságot és már szinkronizált hangot, illetve hangeffekteket is kínál, amivel elvileg tökéletesen alkalmassá válik a komplex szórakoztatóipari felhasználásra.

Az IndieWire elemzője ennek ellenére sem gondolja, hogy az új verzió a filmiparnak készült. A fejlesztők szerinte „nem törődnek Hollywooddal”, hiszen a platform elsősorban virális tartalmak gyártására ösztönzi az embereket, így a közösségi média új mémgyártó eszközévé válhat. És addig, ameddig ez csak igazoltatás elől meglépő Super Mario-s viccek szintjén realizálódik, nincs is nagy baj.

Ez még senkit sem bánt:

Sora 2 Remix → Mario's Escape.
The remix feature is underrated.
PROCESS:
1. Generate an intial video
2. Post it.
3. Select Remix.
4. Describe next scene / repeat.
Initial Prompt:
Realistic body cam footage of a police officer pulling over Super Mario in his mario cart. It was… pic.twitter.com/Sn3VwuiGSM
— Rory Flynn (@Ror_Fly) October 3, 2025

A gondok akkor kezdődnek, ha a könnyed hecceken túllépve valódi emberekről vagy valós eseményeket szimuláló helyzetekről készülnek valóságszagú kamuvideók, ami megnehezíti a független filmesek etikus AI‑felhasználását. Onnantól a Nintendo sem mókás rajongói videóként fogja kezelni a fentihez hasonló alkotásokat – ami még ingyen reklámot is csap a Mario Kart játékoknak –, mert attól tart majd, hogy a trend visszaéléseket szül, és óriási energiákat kell fordítani a szellemi tulajdona megvédésére.

A véleménycikk arra is figyelmeztet, hogy a Sora‑videók virális mémjei új frontot nyitnak a szerzői jogi háborúban, hiszen az AI‑userek óhatatlanul egyre kevesebbet törődnek majd a szellemi tulajdonnal, ezáltal tovább mélyítik az árkot az alkotók és az AI‑fejlesztők között. Az Indiewire ezzel kapcsolatban szakmai állásfoglalásokat sürget: úgy véli, ha a jogtulajdonosok és szakszervezetek nem alakítanak ki standardokat, elveszíthetik a harcot.

Osztja ezt az aggodalmat a WGBH-nak nyilatkozó digitális képzőművész, Kyt Janae is, aki szerint nem kell egy év, és szinte képtelenek leszünk megkülönböztetni az ember alkotta tartalmakat az AI-val generált képektől. Thomas Smith, a képek digitalizálásával, menedzselésével, kiadásával és monetizálásával foglalkozó Gado Images vezérigazgatója hozzátette:

a mesterségesen létrehozott képek miatt a valódi fotók is hitelességi válságba kerülhetnek.

Ezek a megállapítások azt jelzik, hogy a videógeneráló AI több területen okozhat károkat, a szórakoztatóipartól a politikán át a személyiségi jogokig.

Máris támadják az új AI-modellt

A Sora 2 indítását rögtön kritikák és aggályok kísérték. A The Guardian például arról számolt be, hogy a generált videók posztolására létrehozott TikTok-szerű app feedje hamar megtelt erőszakos és rasszista jelenetekkel, köztük bombázást és tömeggyilkosságot szimuláló tartalmakkal. Joan Donovan kutató ezzel kapcsolatban arra figyelmeztetett, hogy az ilyen eszközök elmossák a valóság és a hazugság között húzódó határt, ezáltal alkalmassá válhatnak gyűlöletkeltésre és zaklatásra.

Sam Altman ehhez képest a saját blogján a „kreativitás ChatGPT‑pillanataként” jellemezte a Sora 2 indulását, de óvatosan elismerte azt is, hogy például a bullying elkerülése érdekében nagyobb figyelmet kell fordítani a moderálásra.

A Rolling Stone közben példákkal illusztrálva mutatta be, hogy a realisztikus videógeneráló segítségével a felhasználók – csupán heccből – náci egyenruhába bújtattak hírességeket, történelmi eseményeket hamisítottak vagy éppen levédett karaktereket (Pikachu, Ronald McDonald, SpongeBob) használtak fel, ami szerzői jogi veszélyeket sejtet.

A Sora 2 kritikusait idézve a magazin azt írja, hogy az OpenAI „próbálja bepereltetni önmagát”.

A Vox cikke egyenesebben fogalmaz: felhívja a figyelmet arra, hogy a Sora 2 alapértelmezése szerint a jogtulajdonosok azok, akiknek kérvényezniük kellene a karaktereik eltávolítását, ami olyan, mintha a fejlesztők kifejezetten a szerzői jogok megsértése felé terelnék a felhasználókat.

Nem véletlen, hogy a kritikákkal szembesülő Sam Altman később frissítette a posztját, jelezve, hogy a jövőben a jogtulajdonosok „opt‑in” alapon adhatnak hozzá karaktereket az AI-modellhez, lehetővé téve, hogy a generált videók után részesedést kapjanak a bevételekből.

Őrületes energiaigény és a Sora 2 más pénzügyi hatásai

A modell bejelentését követően az elemzők felvetették, hogy a videók generálása rendkívüli mennyiségű számítási kapacitást és energiát igényel. Egyes kutatók szerint egy rövid, nagy felbontású videó generálása több mint 700‑szor több energiát fogyaszt, mint egy állókép létrehozása. Ennek következtében a jövő adatközpontjai már minden kétséget kizáróan nagyvárosokkal vetekedő energiazabáló – és karbonkibocsátó – szörnyetegek lesznek.

A Time elemzése rámutat: az AI‑videók ugyan drágák, de a cégek – köztük az OpenAI és a Meta – abban reménykednek, hogy a rövid videók gyártásával több előfizetéses felhasználó és befektető érkezik. Ez további bevételi forráshoz juttatja őket, ami még nagyobb modellek, egy napon pedig az általános mesterséges intelligencia megjelenéséhez vezethet.

Az AI-cégeknek tényleg nagyon kell a pénz, mert a generatív videómodellek fejlesztése hatalmas összegeket emészt fel. Ez az elemzők szerint idővel arra készteti majd a vállalatokat, hogy a befektetőktől és felhasználóktól beszedett pénzen túl a hirdetési piacon is terjeszkedjenek, illetve további előfizetési csomagokat találjanak ki, valamint árat emeljenek.

Mindeközben fontos cél a felhasználók viselkedési adatainak gyűjtése: a jövőbeli modellekhez a valós interakciók és preferenciák révén tudnak több és jobb tréningadatot gyűjteni.

Ami pedig a belátható jövőben érkező fejlesztéseket illeti, az OpenAI egyik korábbi közleménye felvetette azt is, hogy létrehoznak egy „világszimulátort”, amely pontosan modellezi a fizikai világ törvényeit, ezzel új tudományos problémákat lesz képes megoldani.

Új AI-evolúciós lépcsőfokok jönnek

A Sora 2 ezeknek a vízióknak a nagy reménysége, amitől azt várják, hogy további fejlesztéseket és több platformon elérhető verziókat eredményez. A megjelenése új korszakot nyit a generatív AI-k világában, hiszen bátran kijelenthetjük, hogy ennyire valószerű mozgásokat és hangeffekteket, illetve ilyen időtartamú történeteket még egyik videógeneráló AI sem tudott létrehozni.

Bár a fizika törvényeit még nem követi le tökéletesen és vastagon lehetőséget ad a visszaélésekre – a deepfake-től az erőszakos tartalmakon át a szerzői jogok megsértéséig –, a komoly etikai és jogi kérdések kezelése után érdemes lehet kihasználni a benne rejlő lehetőségeket.

A szakértők szerint hamar mainstream eszközzé válhat, de a társadalomnak – még új normarendszerek és hatékony moderálás bevezetése mellett is – fel kell készülnie arra, hogy a valóság és a mesterséges tartalom közötti határ elmosódik.

Mivel a gazdasági potenciál óriási, számolni kell a bővülésével és az energiafogyasztás növekedésével, valamint azzal, hogy a szellemi tulajdon megóvása érdekében ki kell harcolni a generált tartalmak után járó részesedést. Ezek az együttműködések – ha egyáltalán megköttetnek és aztán hosszú távon működőképesnek bizonyulnak – a kreatív tartalomgyártás ragyogó gyöngyszemévé varázsolhatják a Sora 2-t, illetve a jövőben érkező hasonló modelleket.

Kapcsolódó

Irodából egy tengerparti kávézóba - kitört a Nano Banana-láz, egyre népszerűbb a Google új képgeneráló AI-ja

Fél perc alat készítette el ezt a képet a Nano Banana. A Google rendhagyó képalkotó eszköze hetek alatt az egyik leggyorsabban terjedő mesterséges intelligencia-alkalmazássá vált. De vajon mit esznek ennyire a felhasználók ezen fotóátalakító AI-n?

KÖVESS MINKET: