Digitália

2024.03.12. 06:00

Elmagyarázzuk, hogyan működik a mesterséges intelligencia

Csak nagy általánosságban, vázlatosan. Olyanok, mint az emberek, de nem úgy gondolkodnak, mint mi.

MW

Forrás: Shutterstock

Fotó: Ociacia

A számos mesterséges intelligencia fejlesztés közül a legnagyobb érdeklődést a 2022 novemberben megjelent mesterséges intelligencia csevegőrobot, a ChatGPT keltette. Azóta itt van nekünk például a Claude, amelyik egy IQ-teszt szerint elérte az átlagos emberi intelligenciát, a Microsoft Copilotja, s a Google Geminije.

Ha velük társalgunk, olyan, mintha egy másik személlyel beszélnénk. Ezt az érzésünket jócskán erősítheti, hogy megfigyelések szerint némelyik robot gyakran jobban teljesít, ha szépen kérjük, a „lelkére beszélünk”, S talán még inkább emberi, hogy rendszeresen blöffölnek, füllentenek.

A chatbotok valójában nem értik meg úgy a szavak jelentését, ahogy mi. Mikor velük társalgunk, az úgynevezett nagy nyelvi modellekkel (large language models, LLM) lépünk kapcsolatba. Ezt a mögöttes technológiát arra tanították be, hogy felismerje a szavak használati szokásait. Hogy melyek azok a kifejezések, amelyek gyakran együtt jelennek meg: így képes mintegy előre jelezni a szavakat, mondatokat, bekezdéseket.

Ennyire élvonalbeli technológia vitathatatlanul még soha nem volt ilyen hatalmas közönségnek  hozzáférhető. A fejlesztő vállalatok pedig alig várják, hogy minél több embert csábítsanak ökoszisztémáikba, és billió dollárokat pörgetnek a fejlesztésekbe.

Mi az az LLM, a nagy nyelvi modell?

Érdemes úgy gondolnunk rá, mint a szavak jósára.

„Az tesz valamit nyelvi modellé, hogy képes előre jelezni a jövőbeli szavakat az előző szavak alapján” – magyarázza Mark Riedl, a Georgia Tech School of Interactive Computing professzora a CNET-nek.

A nagy nyelvi modellek méretét „paraméterekben” mérik.

Mi az a paraméter?

Az LLM-ek neurális hálózatokat használnak. Ezek olyan gépi tanulási modellek, amelyek a bemeneti adatokból matematikai számításokat hajtanak végre a kimenet előállításához. Számításaikban a változók számát hívjuk paraméternek. Egy nagy nyelvi modell 1 milliárd vagy több paraméterrel rendelkezhet.

Hogyan tanulnak a nagy nyelvi modellek?

Az LLM-ek egy mélytanulásnak nevezett folyamatban tanulnak.

„Nagyon hasonló, mint amikor egy gyereket tanítunk – rengeteg példát mutatunk fel neki” – fogalmaz Jason Alan Snyder, a Momentum Worldwide technológiai igazgatója.

Más szavakkal, az LLM-nek tartalomkönyvtárakat (képzési adatokat) táplálnak be, például könyveket, cikkeket, kódokat és közösségi média bejegyzéseket, hogy segítsen megérteni, hogyan használják a szavakat a különböző kontextusokban. Példa kedvéért meg lehet tanítani mondjuk Rejtő Jenő műveire, hogy kedvenc szerzőnk gondolatmenetével és stílusával alkosson új szövegeket.

E folyamat során a modell sokkal több információt emészt fel, mint amennyit egy ember egész élete során valaha is elolvashatna – ez körülbelül a billió token nagyságrendje.

A tokenek segítenek a mesterséges intelligencia modelleknek a szövegek lebontásában és feldolgozásában. A mesterséges intelligencia modellre úgy gondolhatunk, mint egy olvasóra, akinek segítségre van szüksége. A modell egy mondatot kisebb egységekre vagy jelzőkre bont – amelyek angolul négy karakternek felelnek meg, vagy körülbelül egy szó háromnegyedének –, ezáltal megérthetik az egyes részleteket, majd az általános jelentést.

Így az LLM már elemezni tudja, hogy a szavak miként kapcsolódnak egymáshoz, és megtudja, milyen szavak jelennek meg gyakran együtt.

„Olyan ez, mintha egy óriási szókapcsolati térképet építenénk” – mondja Snyder. „Mikor kezdi elsajátítani a részleteket, megjósolja, hogy mi lesz a következő szó… Utána összehasonlítja a jóslatát a bevitt adatokban szereplő tényleges szóval, és a megfelelőség alapján módosítja-finomítja a belső térképét."

Ez a jóslás és kiigazítás milliárdszor megtörténik, az LLM folyamatosan finomítja a nyelv megértését, egyre jobb lesz a minták azonosításában és a jövőbeli szavak előrejelzésében. Fogalmakat és tényeket is tanulhat az adatokból, alkalmas lesz kérdések megválaszolásához, kreatív szövegformátumok generálásához és nyelvi fordításhoz. De nem érti úgy a szavak jelentését, mint mi – csak statisztikai összefüggéseket lát.

Az LLM-ek azt is megtanulják, hogyan javítsák válaszaikat az emberi visszajelzésekből származó megerősítő tanulás révén.

Mit csinál a nagy nyelvi modell?

Kap egy sor bemeneti szót, mire az LLM meg tudja jósolni a következő szót.

Vegyük például azt a fordulatot, hogy „vitorlázni mentem a mélykék...”

A legtöbb ember valószínűleg a „tenger” szóra tippel, mert a vitorlázás, a mély és a kék mind olyan szavak, amelyeket a tengerrel társítunk. Más szóval, minden szó kontextust állít fel arra vonatkozóan, hogy mi következik.

Az LLM-ek nagyon jók abban, hogy kitalálják a szavak közötti kapcsolatot, és természetesnek hangzó szöveget állítsanak elő.

De van néhány gyenge pontjuk

Először is, nem tudnak mindig igazat mondani. Néha olyan dolgokat találnak ki, amelyek igaznak hangzanak, mint például amikor a ChatGPT hat hamis bírósági ügyre hivatkozott egy jogi érvelésben, vagy mikor Bard tévedésből a James Webb Űrteleszkópnak tulajdonította, hogy a Naprendszerünkön kívüli bolygóról készített első képeket. Ezeket angolul hallucinációknak nevezi a szakmai zsargon.

„Rendkívül megbízhatatlanok abban az értelemben, hogy sokat beszélnek és kitalálnak dolgokat.” mondja Maarten Sap, a Carnegie Mellon-i Nyelvtechnológiai Intézet tanára.

Olyan lekérdezésekkel nagyon kínlódnak, amelyek alapvetően különböznek mindentől, amivel korábban találkoztak. Ennek az az oka, hogy minták megtalálására és az azokra való reagálásra szoktak összpontosítani.

Bár kiválóan jósolnak szavakat, gyengék előrejelzésben, mert az magában foglalja a tervezést és a döntéshozatalt is.

„Hogy úgy tervezzünk, ahogyan az emberek csinálják... a különböző eshetőségekre és alternatívákra gondolva, és döntéseket hozva, ez ma még nagyon kemény akadálynak tűnik a jelenlegi nagy nyelvi modellek számára” – mondja Riedl.

És küzdenek az aktualitásokkal, mert az edzési adataik általában csak egy bizonyos időpontig mennek el, és semmi, ami azután történik, nem tartozik a tudásbázisukba. S mivel nem tudnak különbséget tenni a ténylegesen igaz és a valószínű között, magabiztosan adnak helytelen információkat aktuális kérdésekről is.

Hogyan fognak fejlődni a nagy nyelvi modellek?

Már itt vannak olyan generatív AI-cégek, mint az OpenAI és az Adobe debütáló multimodális modelljei, amelyek nemcsak szövegre, hanem képek, videók és hangok, zenék előállítására is képzettek.

Valószínűleg javulni fog az LLM-ek azon képessége is, hogy ne csak nyelveket fordítsanak le angolról, hanem más nyelveken is megértsenek és társalogjanak.

Azt is látható, hogy a visszakeresési képességeik túlmutatnak azon, amire a modelleket betanították. Ez magában foglalhatja a keresőmotorok, például a Google felhasználását, hogy a modellek internetes kereséseket végezhessenek, majd ezeket az eredményeket betáplálhassák az LLM-be.

Hírlevél feliratkozás
Ne maradjon le a baon.hu legfontosabb híreiről! Adja meg a nevét és az e-mail-címét, és mi naponta elküldjük Önnek a legfontosabb híreinket!