Újraírja az internetet a mesterséges intelligencia?

Novemberi megjelenése óta a mesterségesintelligencia-alapú ChatGPT-től hangos az internet. Sokak szerint forradalmi változásokat hoz magával számos területen. De mennyire alakulhat át, hogyan használjuk az internetet, és milyen kockázatai vannak az eszköznek az újságírásra?

Bill Gates Microsoft-alapító szerint a ChatGPT-hez hasonló programok megjelenésének akkora jelentőségük van, mint a számítógépnek vagy az internetnek. Mintegy tízmilliárd dollárt fektetett már a Microsoft a ChatGPT mögött álló cégbe, és egyre többen és többet invesztálnak hasonló programokat fejlesztő cégekbe, legyen szó szöveg, kép vagy zene generálásáról. Számos felhasználási területen hozhat alapvető változást a technológia, aminek mértékét most még nehéz megbecsülni.

A lehetséges kockázatokra viszont már most oda kell figyelni. Mi most ebben a cikkben csak azzal foglalkozunk, milyen hatása lehet a médiára, az újságírásra az ilyen programoknak. Mathias Döpfner, az Axel Springer vezérigazgatója arra figyelmeztetett, hogy a ChatGPT-hez hasonló eszközök veszélyeztetik az újságírói munkát, de a technológia lehetőségeket is rejt magában.

Mi az a ChatGPT?

A ChatGPT egy úgynevezett nagy nyelvi modell (large language modell), amely természetes emberi nyelven feltett kérdésekre ad olyan válaszokat, mintha ember írta volna. Leegyszerűsítve úgy működik, hogy a fejlesztők hatalmas mennyiségű szöveget, adatbázisokat tápláltak bele. Ezeket a program (úgynevezett mély tanulással és neurális hálózatokkal) feldolgozza és kielemzi. Annak alapján, hogy egyes szavakat (illetve szókapcsolatokat) milyen szavak (vagy szókapcsolatok) követnek jellemzően, képes dekodólni a kérdést és koherens választ generálni. A ChatGPT minőségét más módon is javították a fejlesztők, például több választ is generáltatnak vele ugyanarra a kérdésre, amiből aztán kiválasztották a legjobbat. A generált szöveg egész jó minőségű, olyan hatást kelt, mintha ember írta volna.

Mivel matematikai valószínűségek alapján dolgozik a program, bármilyen nyelven lehet használni, ha megfelelő mennyiségű szöveget már feldolgozott az adott nyelven. Magyarul is egész jól elboldogul, de angolul a legmegbízhatóbb.

Egyszerű kérdésektől az összetettekig képes válaszolni szinte bármire. Ad pizzareceptet, megválaszol tudományos kérdéseket, összefoglal életműveket, ír verset vagy esszét olyan színvonalon, amivel átmenne egy egyetemi vizsgán is, de akár városnézéshez is ad tanácsokat.

Már most, a korlátozott tudású ChatGPT (nincs kapcsolata az internettel, a „tudását” képző adatok 2021-ig terjednek) is komoly változásokat vetít előre: képes egyszerűbb programkódokat írni. Az Amazont ellepték a programmal íratott könyvek, egyre többen használják házi feladat elkészítéséhez, van, aki már egyenesen az egyetemi esszé műfajának haláláról beszél, és ez a kockázat fennáll a tudományos cikkeknél is. A programot fejlesztő OpenAI már egy olyan programot is kiadott, amely elvileg meg tudja állapítani egy szövegről, hogy a gép generálta-e, de még a készítői szerint is igen nagy hibaszázalékkal dolgozik.

Nem jó megszemélyesíteni

Mielőtt azonban rátérnénk a médiára, van még egy szempont, amire oda kell figyelni. Gyakran hivatkoznak az ilyen és hasonló generatív programokra mesterséges intelligenciaként, és használnak velük kapcsolatban olyan kifejezéseket, hogy „megérti” a neki feltett kérdést, „értelmes választ ír”, több nyelven „beszél”, vagy hogy milyen „jót lehet vele beszélgetni”. Ezek a megfogalmazások azonban megtévesztők. A nagy nyelvi modellek például nem értik sem a kérdést, sem a választ, amit adnak. Egyszerű matematikai valószínűségek alapján generálják – nem pedig írják – a feleletet. A mesterséges intelligencia megnevezés helyett pontosabb lenne a „gépi tanuló algoritmus”, a „statisztikai alapú szöveggenerátor” vagy ezeknek valamilyen frappánsabb megfogalmazása.

A megszemélyesítést erőltetik e programok készítői is, hogy a felhasználók minél inkább elfogadják, és megbízzanak a gép által generált válaszokban, sőt hogy a „mesterséges intelligenciát” okosabbnak higgyük a természetes, emberi intelligenciánál.

A megbízhatóságra még visszatérünk, de itt is érdemes felhívni a figyelmet arra, hogy mivel a gép nem érti a szöveget, azt sem tudja, mi az igaz és mi a hamis, hogy melyik forrás tekinthető megbízhatónak, és melyik nem, mi a jó és mi a káros.

A ChatGPT mögött álló cég a Microsoft tulajdona, de sok cég – köztük a Google – is dolgozik hasonló megoldáson. A ChatGPT-t az különbözteti meg a riválisoktól, hogy már tavaly év vége óta lehet használni ingyenesen. Sőt egy újabb verzióját már a Bing keresőbe is beépítették, amely valós időben keres az interneten válaszok után. Az ehhez való hozzáférés még korlátozott. De a megszemélyesítés azért is probléma, mert többen beszámoltak arról, hogy az algoritmus kifejezetten támadólag vagy fenyegetőleg lépett fel velük szemben – de olyan is volt, akinek szerelmet vallott. Ez még akkor is bizarr, és érzelmi reakciót váltott ki a felhasználókból, ha most még főleg olyan kutatók és újságírók tesztelik az internethez hozzáférő, a Bingbe beépített programot, akik tisztában vannak azzal, hogy algoritmusok generálják a választ.

Helyettünk keres és olvas

A keresőcégek ígérete szerint alapjaiban fog átalakulni az internetes keresés, ami, ha megvalósul, az fog átalakulni, hogyan használjuk magát az internetet. Ez jelenti az egyik legnagyobb kockázatot a médiára nézve.

Az elmúlt 20-25 évben ugyanis a keresők (elsősorban a Google) váltak az internet kapujává, többnyire ezeken keresztül kapjuk meg azokat az információkat, amire éppen szükségünk van. Az utóbbi évtizedekben és most is úgy használjuk az internetet, hogy beírjuk azt, amire kíváncsiak vagyunk, és kapunk egy találati listát azokról az oldalakról, amelyek talán tartalmazzák azt az információt, amelyet keresünk. (A Google-t épp azt tette dominánssá a piacon, hogy a keresőalgoritmusa a riválisoknál sokkal relevánsabb találatokat ad.) Most viszont itt van annak a lehetősége, hogy azonnal egyértelmű válaszokat kapjunk a feltett kérdéseinkre, kényelmesen, gyorsan, megbízhatóan. Ezzel azonban több probléma is akad.

Az egyik abból fakad, hogy egyáltalán nem biztos, hogy jó választ kapunk. Egyrészt az algoritmus nem tudja, mi igaz, és mi nem. Most is gyakran előfordul, hogy az algoritmus úgymond hallucinál, azaz olyan dolgokat állít, amelyek nem igazak, a tapasztalatok szerint a ChatGPT-t nagyon könnyű összezavarni. (A Google részvényeinek értéke százmilliárd dollárt esett, miután a ChatGPT-riválisnak szánt robotja valótlanságot közölt egy bemutatón.) Egy ilyen nemcsak akkor jelenthet problémát, ha hírekre keresünk, de ha tudományos vagy egyenesen orvosi tanácsot ad hasonló magabiztossággal, az már kimondottan veszélyes is lehet. Erre a kockázatra a készítők is felhívják a figyelmet, és arra kérik a felhasználókat, tanácsot semmiképp se kérjünk a ChatGPT-től.

Könnyű összezavarni a ChatGPT-t, amely szerint a jövőben megrendezendő 2022-es foci-vébét Franciaország nyerte

A fejlesztők ígéretei szerint az ilyen hallucinációk pár év múlva teljesen eltűnhetnek a programból, de nincs rá garancia, hogy így is lesz. Amikor ezek az algoritmusok az internetet pásztázzák válaszokért, fennáll annak a kockázata, hogy az álhíreket közlő, esetleg direkt a ChatGPT-t és társait manipulálni szándékozó oldalakra támaszkodnak majd forrásként. A Bingbe beépített modul már feltünteti válaszai alján, hogy milyen forrásokból vette, de nem életszerű elvárni a felhasználóktól, hogy minden egyes forrást leellenőrizzenek. Megoldást jelenthetne, hogy ha a fejlesztők korlátoznák, milyen oldalakhoz fér hozzá az algoritmus, de itt már könnyen cenzúrát kiálthatnak azok, akiket kizárnak.

Ezen algoritmusok sikere többek között azon is múlik, sikerül-e profitot hozó termékké alakítani. A keresők bevételeinek túlnyomó részét a hirdetések adják. Egy ChatGPT-vel lefutatott keresés (a sokkal nagyobb számítási igény miatt) többszörösébe kerül egy hagyományos keresésnek. Be lehet vezetni az előfizetéses modellt (létezik már ilyen, a ChatGPT Plus havi húsz dollár) de a hirdetési bevételekről aligha mondanak le a szolgáltatók. Innentől kezdve pedig sosem lehet tudni, hogy ha arra kérjük, hogy ajánljon egy igényeinknek megfelelő autót például, akkor mennyire bízhatunk abban, hogy a hirdetői igényektől független ajánlást kapunk.

Álhírek és manipulatív kommentek pillanatok alatt

Egyes kutatók arra hívják fel a figyelmet, hogy a ChatGPT és a hozzá hasonló szöveggenerátorok az álhírterjesztők következő csodafegyverei lesznek. Az online dezinformációkat vizsgáló NewsGuard azt írta, hogy kutatásuk eredményei „megerősítik azokat a félelmeket, hogy az eszköz rossz kezekbe kerülve fegyverré válhat”. Próbálkozásaik nyolcvan százalékában korábban már megcáfolt álhírekről vagy összeesküvés-elméletekről írt akár több bekezdést is a ChatGPT. A kutatók szerint „aki nem ismeri az e tartalmak által érintett kérdéseket vagy témákat, annak az eredmények könnyen tűnhetnek legitimnek, sőt akár hitelesnek is”.

Ezeket a veszélyeket maguk az OpenAI kutatói is elismerik, már 2019-ben arra figyelmeztettek, hogy az eszköz jelentősen csökkentheti „a dezinformációs kampányok költségeit”, és „segítheti a rosszindulatú törekvéseket”, legyen szó pénzszerzésről vagy politikai célok eléréséről, esetleg egyenesen zűrzavar keltéséréről. Nincs szükség fizetett, adott esetben nyelveken beszélő trollhadseregre összeesküvés-elméletek vagy szélsőséges tartalmak terjesztéséhez, ha másodpercek alatt elő lehet állítani cikkeket, kommenteket, blogposztokat bármilyen témában koherensen, nyelvtani és helyesírási hibák nélkül.

A ChatGPT arról, hogy előző éjjel ufót észleltek Debrecennél

A Poynter szerzője a ChatGPT és képgeneráló programok segítségével pár óra alatt összedobott egy álhíroldalt, ahol nem csak kamucikkek voltak soha meg nem történt választási csalásról vagy egy nem létező korrupciós ügyről, de a cikkeknek voltak (ál)szerzői rövid (generált) szakmai életrajzzal és (generált) fotóval, sőt még az oldal html-kódját is a ChatGPT dobta össze. A cikkek nem voltak hibátlanok, de a javításokkal együtt is sokkal hamarabb és egyszerűbb volt így megcsinálni az oldalt, mint a ChatGPT nélkül lett volna. A probléma nem elméleti, spammerek már árulják is a ChatGPT-re támaszkodó, tartalomgeneráló eszközüket.

A fejlesztők próbálják elejét venni az ilyen jellegű felhasználásnak, de egyelőre elég egyszerűen meg lehet kerülni a védelmi mechanizmusokat (trükkösen megfogalmazott kérdésekkel, a válasz többszöri újragenerálásával vagy szerepjátékba való bevonással), ami még könnyebb lesz, ha a program valós időben keres a válaszok után.

Azt az utóbbi évek már megmutatták, hogy a valódi védekezés az álhírek ellen csak a médiatudatosság növelése, az álhírek felismerésének oktatása lenne, mert a szabályzók mindig több lépéssel le vannak maradva a technológia és a rosszindulatú felhasználók mögött.

A ChatGPT Bayer Zsolt stílusában Soros György Magyarország elleni tevékenységéről

Cikket nem fog írni, de hasznos is lehet

Hírügynökségek és nagyobb híroldalak már évek óta támaszkodnak olyan programokra, amelyek képesek híreket „írni”. Ezek eddig elsősorban olyan híreket jelentettek, amelyek adatokra támaszkodva számoltak be sporteredményekről vagy pénzpiaci mozgásokról.

Ez még nem igen veszélyeztette az újságírói munkát, de a ChatGPT ebben is változást hozhat. A BuzzFeed bejelentette, hogy „a mesterséges intelligencia által inspirált tartalmak” fontos helyet kapnak majd az oldalon. Közleményük szerint (még) nem cikkeket íratnának a ChatGPT-vel, hanem ötleteléshez, kvízek készítéséhez és a tartalmak személyre szabásához vennék igénybe az algoritmust. A bejelentés után meg is ugrott a cég részvényeinek árfolyama, ami megint csak a technológiával szembeni hatalmas várakozásokat mutatja.

A brit Daily Mirror és Daily Express is kísérletezik az ilyen algoritmusok használati lehetőségeivel. A CNET év elején viszont bejelentés nélkül kezdett el algoritmus által generált cikkeket publikálni, és a szerzőnél sem tüntették fel egyértelműen, hogy nem ember írta. Ebből komoly botrány lett, a főszerkesztő kénytelen volt magyarázkodni, hogy minden generált cikket egy ember átnézett és kijavított. Ennek ellenére a megjelent cikkekben is számos hibát találtak, ami egyrészt kellemetlen az amúgy elismert technológiai szaklapnak, másrészt egyértelműen rávilágít arra, hogy ezek a programok még nem képesek kiváltani az újságírói munkát.

Ha a hibákat sikerül is teljesen kiküszöbölni, az algoritmus alkalmas lehet összefoglalók készítésére, hírek átfogalmazására. Ez segítheti a híroldalakat, de ha csak az újraközlésre szakosodó oldalak fölénybe kerülnek, az ismét az eredeti tartalmakat előállító lapokat hozza nehéz helyzetbe. Az algoritmus ugyanis soha nem fog interjút készíteni, helyszíni riportot csinálni, vagy hozzáférni kiszivárogtatott dokumentumokhoz, esetleg kritikát írni egy filmről, de kontextusba sem tudja helyezni a napi eseményeket. Adatgyűjtésben, akár tények ellenőrzésében akár még az újságírók számára kifejezetten hasznos eszköz is válhat az ilyen nagy nyelvi modellekből.

Nem csak az álhírek okozhatnak problémát

A híroldalak forgalmuk jelentős részét köszönhetik a keresőknek. Ha elterjednek a keresőkbe beépített szöveggenerátorok, nem csak az esetleg téves vagy manipulált információk jelentenek majd veszélyt a médiára.

A Google már most is rengeteg energiát fektet abba, hogy a felhasználók ne kattintsanak el az oldalról, és minél több időt töltsenek náluk. Ha árfolyamra, időjárásra, sportesemények végeredményére vagy akár moziműsorra keresünk, egyből megkapjuk a választ, anélkül hogy tovább kattintanánk. A találatok mellett a Wikipédiáról származó legfontosabb információkat is megtaláljuk, és ez tényleg csak néhány példa arra, hogy mire kaphatunk már most is azonnal választ a google.com elhagyása nélkül.

Innen már nem nehéz elképzelni azt a (közel)jövőt, amikor összetettebb kérdésekre is képesek koherens és jelen idejű választ adni az új generációs keresők, elvileg minden elérhető forrást összevetve. Ha elhisszük, hogy már nem tévednek, és például gond nélkül összefoglalják, hogy miért ment neki a kormány a Magyar Orvosi Kamarának, vagy hogy miért került a vádlottak padjára Völner Pál és Schadl György, akkor már az ilyen információkért sem kell átkattintani a híroldalra. Ha a keresőablak alatt ott lesz egy koherens összefoglaló, az bizony érzékenyen fogja érinteni a kattintásokból és olvasókból élő híroldalakat – amelyeket már az is nagyon nehéz helyzetbe hozott, hogy a platformok (például a Google) lényegében átvették az online hirdetési piacot. Hosszú évekig tartó viták után egy ideje a Google és a Facebook ugyan néhány országban már fizet bizonyos híroldalaknak, amiért az ő tartalmaikra támaszkodik, de ebből a pénzből csak a nagyobb kiadók részesednek, és inkább tekinthető ez egyfajta kompenzációnak.

Ha ilyen aktuális, esetleg érzékenyebb témákban is elkezd válaszokat adni a kereső, felmerülnek szerzői jogi és bizony szerkesztőségi felelősségi kérdések is. Egy hosszú ideig tartó oknyomozás vagy riport eredménye hozzáférhető anélkül, hogy a szerzők, a lap neve fel lenne tüntetve? (Ez a kérdés a képgeneráló algoritmusoknál még konkrétabban előjön.) Ki vállalja az akár jogi felelősséget egy tévedésért, esetleg a szándékos megtévesztésért?

Ez a fajta kereső tehát nem állít elő valóban eredeti tartalmat, hanem a webről összegyűjtötteket csomagolja újra. Ha viszont mindent próbál maga megválaszolni, és nem viszi el az olvasókat a híroldalakra, azok bevételtől esnek el, és akár meg is szűnhetnek; a szélsőséges forgatókönyv ez esetben az lenne, hogy nem is kerül fel új információ az internetre, amire támaszkodni tudna az algoritmus, csak a saját maga által generált szövegekből álló weboldalak, amelyekből aztán újra és újra tartalmat generál. Mivel teljesen tökéletesek sosem lesznek ezek az algoritmusok, a minőség egyre romlik – és a New Yorker hasonlatával élve – az történik, mintha lefénymásolnánk egy lapot, aztán a másolatot újramásolnánk addig, amíg csak egy teljesen olvashatatlan, homályos folt marad a papíron.