Annotátoroknak hívják azokat az embereket, akik munkája elengedhetetlen volt az elmúlt másfél évtizedben a generatív mesterséges intelligencia fejlesztéséhez. A legjobban közelítő fordítás talán a „jegyzetelő” lehet, miután ezek az emberek címkézték meg azokat a jegyzeteket, amelyekből összeálltak a mesterséges intelligencia (MI) tudásának alapját jelentő lexikon szócikkei a Verge magazin annotátorokról szóló cikke alapján.
Mit csinálnak a jegyzetelők?
A generatív mesterséges intelligencia a memóriájában lévő óriási információtömegben jelentkező minták alapján ad válaszokat a neki feltett kérdésekre. Ehhez azonban be kell vinni és meg kell címkézni az információkat. Így lehet azokat rendezett módon hozzárendeli a milliónyi témakört felölelő szócikkekhez, amelyekben kereshet az MI.
Ezt a munkát végezték az elmúlt másfél évtizedben és végzik ma is a jegyzetelők. Dolgozhatnak a világ bármely pontján, ha beszélik az angol nyelvet és elvégezték azokat a gyorstalpaló tanfolyamokat, amelyeket a foglalkoztatásukra létrejött cégek előírnak nekik. Ezek a vállalatok a generatív MI-t fejlesztők leányvállalatai.
Egyikük például a Remotasks, amely a Scale AI tulajdonában van. Ez egy a kaliforniai Szilícium-völgyben bejegyzett adatszolgáltató, amelynek olyan ügyfelei vannak, mint a ChatGPT-t fejlesztő OpenAI vagy az Egyesült Államok hadserege. Ugyanakkor sem a Remotasks, sem a Scale AI nem tesz említést a másik vállalatról.
A titkolózás sötét hátteret szül
A generatív mesterséges intelligencia egyik legfőbb ígéretének azt tartják, hogy a segítségével ki lehet váltani azokat a monoton, unalmas, lehangoló szellemi munkákat, amelyek frusztrálják az embereket. Ugyanakkor a ChatGPT-hez hasonló színvonalú MI fejlesztése mögött olyan emberek tömegének munkája áll, akik az elemző algoritmusoknak kezelhető, rendezett formában felhalmozzák az általuk használt információkat.
A mesterséges intelligenciának csak azok a vállalatai maradhatnak versenyképesek a piacon, amelyek rendelkeznek egy ilyen rendezett adattömeggel. Ez arra ösztönzi a cégeket, hogy titkolják, milyen adatbázisaik vannak. Ennek eredményeként nagyon keveset tudhatunk arról milyen információk formálják a generatív MI termékeinek működését.
Nem beszélve arról, milyen keveset tudunk azoknak az embereknek a munkájáról, akik feltöltik a generatív mesterséges intelligencia adatbázisait. David Graeber antropológus „bullshit jobs” névvel illeti az olyan típusú munkát, amit az annotátorok végeznek. Ezzel arra utal, hogy ezeknek a munkáknak nincs önmagában értelmük, céljuk. Hasonlóak azokhoz a karosszéria-hegesztési munkákhoz, amelyeket az autógyártásban régen automatizáltak.
Az annotálás az MI fejlesztésének alapvető eszköze. A mesterséges intelligencia hátterében meghúzódó emberi bérrabszolgamunka célja nem más, mint hogy minél több felcímkézett adatott halmozzunk fel a lehető legolcsóbban. Az órabér valamivel egy dollár felett alakul.
Az annotátorok egymástól függetlenül végzik a munkájukat, csak azt látják az adatokból, ami rájuk tartozik és még ezekkel kapcsolatban is szigorú titoktartási kötelezettségeket íratnak el velük.
A szakemberek abban bíznak, hogy ezt a munkát át lehet majd adni a gépeknek. Csakhogy az annotálás sosem ér véget. A mesterséges tanulásra képes rendszerek ugyanis hajlamosak hibázni, amikor olyasmi kerül eléjük, ami nem szerepel kellő súllyal abban az adatbázisban, amelyre a tudásuk épül.
Tipikus példája volt ennek, amikor az Uber egyik önvezető autója elütött egy nőt, mert külön-külön volt felkészítve arra, hogyan kerülje el a gyalogosokat és a kerékpárosokat. Így nem tudta, mit kezdjen egy a biciklijét toló emberrel.
Az egyedi esetek kezelése kifoghat az MI-n
A szakmabeliek „brittle-nek”, törékenységnek nevezik az ilyen eseteket. Ha figyelembe vesszük, hogy mekkora szerep várhat az AI-ra az egészségügyben, ahol működésének az emberélet védelme a tétje, akkor nem nehéz belátni, hogy az annotátorok munkájára továbbra is szükség van. Az egyes emberekkel kapcsolatos egyedi diagnózisok ugyanis mindig a brittle fogalomkörébe tartoznak.
Egy teljes beszállítói lánc épült ki a generatív mesterséges intelligencia fejlesztése mögé – mondja Sonam Jindal ágazati elemző. Az iparágban dolgozók általában úgy vélik, hogy az annotátorok munkája nem fontos része a fejlesztéseknek és nem sokáig lesz már rá szükség. Az izgalmas dolgok az öntanulás terén történnek.
A szakértők szerint azonban az MI infrastruktúrájához hozzátartozik ez a munka. Végül is a generatív mesterséges intelligencia alapja az emberi tudás és gondolkodás. Ezt gereblyézik össze és rendezik a gép számára kezelhető formába a jegyzetelők. Erre a munkára még nagyon sokáig szükség lesz.
______
Forrás: Verge