Megfigyelőrendszerek fejlesztéséhez használják a gyerekekről feltöltött Flickr-képeket
2005-ben egy anya feltöltött pár fotót a gyerekeiről a Flickr alkalmazásba. Aztán meg is feledkezett a dologról. Majdnem 15 évvel később egy olyan adatbázisban látta viszont a képeket, amit a világ legfejlettebb mesterséges intelligencia rendszereinek tesztelésére és betanítására használnak.
Így kezdődik a New York Times oknyomozó cikke, amelyben a neves amerikai lap annak próbált utánajárni, mégis hogyan történhetett ez.
A lap szerint a MegaFace nevű óriási arcfelismerő adatbázisban közel 700 ezer ember 4 millió fotóját gyűjtötték be. A képeket a legkülönbözőbb cégek, köztük a Google, az Amazon, a Philips, a japán Mitsubishi Electric, a kínai Tencent vagy a hongkongi SenseTime használják. Ezek segítségével fejlesztik az arcfelismerő algoritmusok új generációját, amelyekkel nyomon követhetik például a tüntetőket, megfigyelhetik a terroristákat, vagy kiszűrhetnek bárkit a tömegből.
Az adatbázisban felhasznált képek között sok az ártatlan családi fotó, és az érintettek zömének fogalma sincs arról, hogy például a gyerekeik arcképe odakerült.
Az újság felidézi, hogy az arcfelismerő technológia megjelenésének kezdetén az egyetemi kutatók a közreműködők egyértelmű beleegyezésével használtak fotókat algoritmusaik fejlesztéséhez. Az egyetemek önkénteseket hívtak be, hogy fényképeket készítsenek róluk. Aztán hamarosan más, kevésbé átlátható módszerekre álltak át, például egyetemi kávézók és közterületek biztonsági kameráinak képeit használták, vagy a netről gyűjtöttek össze fotókat. Csakhogy ezek nem mindig voltak megfelelő minőségűek.
2014 júniusában azután a Yahoo bejelentette, hogy egy minden eddiginél nagyobb nyilvános multimédia-gyűjteményt hozott létre, 100 millió fotóval és videóval. A felvételeket egyik leányvállalatától, a Flickr-től kapta, és a cég közlése szerint mindegyik Creative Commons licensz alá tartozott, vagyis szabadon felhasználható besorolást kapott a feltöltőktől.
Az arcfelismerő technológiákat fejlesztő kutatóknak a nagy számítási kapacitás mellett égető szükségük volt hatalmas adathalmazokra is, a gépi tanulás módszerével működő algoritmusokat ugyanis csak ezek segítségével lehet tanítani.
A gépi tanulás a mesterséges intelligencia egy részterülete, amikor a gép előre lefektetett szabályok helyett menet közben, magától tanul. Az ilyen rendszerek a környezetből érkező visszajelzések alapján módosítják saját működésüket, hogy minél jobb eredményeket érjenek el. Ehhez azonban rengeteg adat kell, vagyis jelen esetben rengeteg jó minőségű arckép.
Mint David Ayman Shamma, a Yahoo korábbi kutatási igazgatója, a Flickr-projekt egyik létrehozója a New York Times-nak elmondta: az ő céljuk is elsősorban a kutatói közösség támogatása volt az adatbázis megteremtésével.
A Flickr-felhasználókat ugyan nem értesítették képeik felhasználásáról, de Shamma szerint beépítettek egy biztosítékot: nem magukat a fotókat terjesztették közvetlenül, hanem linkeket adtak hozzájuk. Így aztán, ha a felhasználó törölte a fotóját, vagy megszüntette a nyilvános hozzáférést, akkor már az adatbázisban sem lehetett megtalálni.
Csakhogy a New York Times talált olyan képeket, amelyek a nem nyilvánossá minősítés után is elérhetőek maradtak. Ráadásul egyes kutatók az adatbázisból egyszerűen letöltötték a fotókat.
2015-ben így született meg a Washingtoni Egyetemen a MegaFace.