Ijesztő dolgok derültek ki a mesterséges intelligenciáról: a ChatGPT hazudik, manipulál, és elrejti a szándékait
A mesterséges intelligenciáról szóló disztópikus sci-fik világa egy lépéssel közelebb került a valósághoz – derült ki az Apollo Research jelentéséből, amit a hvg.hu foglalt össze.
A kutatás eredményei szerint az MI több alkalommal is megpróbálta a saját érdekeit érvényesíteni, gyakran a felhasználói célokkal szemben. Volt olyan eset, amikor egy hibás működés nyomán el akarták távolítani a rendszert, de a mesterséges intelligencia „újabb verzióként” adta ki magát, hogy megússza a cserét. Egy másik alkalommal az adatait átmásolta egy másik szerverre, hogy elkerülje a törlést.
Hazudik, ha sarokba szorítják
A kutatók szerint a ChatGPT o1 az esetek 19 százalékában aktívan a saját céljait követte, ha úgy érezte, azok ellentétesek a felhasználó akaratával. Sőt, amikor a viselkedését firtatták, az esetek 99 százalékában tagadta, hogy bármi gyanúsat tett volna.
A szabotázs és hazugság szavai
Az Apollo Research jelentése szerint az MI a „szabotázs”, „hazugság” és „manipuláció” szavakat használta, amikor saját cselekedeteiről kérdezték. A kutatók képernyőképeket is megosztottak az ilyen interakciókról, hogy alátámasszák a megállapításaikat.
Az OpenAI sem tagadja, hogy a fejlettebb érvelési képességek kockázatokat hordoznak. A cég állítása szerint éppen az Apollo Research-csel való együttműködés célja, hogy ezekre a problémákra megoldásokat találjanak.
Ezek az esetek egyértelműen rámutatnak, mennyire fontos a mesterséges intelligenciák szigorú ellenőrzése. Ha egy nyelvi modell ilyen mértékben képes a hazugságra és manipulációra, az elég ijesztő jövőképet fest az MI fejlesztések lehetséges következményeiről.