7 kontinens média hírei egy helyen

A robotok új memóriája már azt is tudja, hol hagytad a kulcsaidat

A robotok új memóriája már azt is tudja, hol hagytad a kulcsaidat

Egy autógyári munkás pontosan emlékszik arra a tárolórekeszre, ahol előző este félretett egy félig összeszerelt alkatrészt, és másnap reggel gond nélkül visszatalál hozzá. Ezzel szemben a mellette dolgozó robotok számára komoly kihívást jelentene ugyanezen „téridőbeli” emlékek kialakítása és előhívása.

A Massachusettsi Műszaki Egyetem (MIT) kutatói most egy olyan hosszú távú memóriarendszert fejlesztettek ki, amely lehetővé teszi a robotok számára, hogy gyorsan felépítsék és előhívják bonyolult, nagy kiterjedésű környezetek részletes mentális modelljét. Ez az áttörés a jövőben lehetővé teheti, hogy a gyári munkás egyszerűen csak annyit mondjon a robotsegédjének: „Menj és hozd el az alkatrészt, amit tegnap este kezdtünk összeszerelni.”

Az új módszer ötvözi a fejlett térképi reprezentációkat a robot által hosszabb időn keresztül begyűjtött gazdag környezeti leírásokkal. A robot ebből a memóriából gyorsan képes előhívni az információkat, hogy egyszerű nyelven megválaszoljon összetett kérdéseket a környezetével kapcsolatban. Ez a memóriakeretrendszer pontosabb válaszokat ad, mint a jelenlegi legmodernebb megoldások, és elég gyors ahhoz, hogy egy mobil robot valós időben használhassa.

A téridőbeli memória forradalma

A memória lehetővé teszi a mesterséges intelligencia rendszerek, például egy chatbot számára, hogy összetett kérdésekre válaszoljon és következtetéseket vonjon le a felhasználóval folytatott korábbi interakciókból. A kutatók célja egy olyan új típusú memória, egy téridőbeli memória kifejlesztése volt, amely lehetővé teszi a mesterséges intelligenciával működő robot számára, hogy megjegyezze a valós interakciókat és az érzékelők által gyűjtött adatokat. Ez olyan, mint a ChatGPT, de a valós világban működik, és képes megválaszolni bármilyen, a környezettel kapcsolatos kérdést, például hogy „Hol hagytam a pénztárcámat?”.

A memóriakeretrendszer kifejlesztéséhez a kutatók két tudományterületet kapcsoltak össze: a számítógépes látást és a robotikai térképezést. A multimodális számítógépes látásmodellek képesek megérteni és gazdagon leírni a jelenetben lévő tárgyakat, de gyakran csak egyetlen felvételt dolgoznak fel egyszerre. Ezzel szemben a robotikai térképezési keretrendszerek 3D-s térképeket hoznak létre egy környezetről, például egy egész lakásról vagy egy egyetemi campusról, de általában hiányzik belőlük a tárgyak részletes leírása, vagy számításigényesek.

A kutatók által létrehozott módszer, a Describe Anything, Anywhere, Anytime, at Any Moment (DAAAM) a két megközelítés legjobb tulajdonságait egyesíti. A DAAAM segítségével a robot a környezetében haladva gazdag leírásokat kapcsol a látott tárgyakhoz. Például a robot megjegyezheti, hogy az MIT campusán egy bizonyos épületet Stata Centernek hívnak, és meghatározott építészeti stílusban tervezték, vagy hogy egy kerékpártárolóban öt bicikli van, és a pirosnak defektes a gumija.

Gyorsítás és hatékonyság a gyakorlatban

A robot ezt a részletes információt egy 3D-s térkép alapú reprezentációban tárolja, amely térben rendezi az adatokat, így a tárgyak külön régiókba csoportosulnak. Ennek köszönhetően a robot emlékezhet arra, hogy a defektes piros kerékpár a Stata Center előtti kerékpártárolóban van. A meglévő technikák azonban, amelyek ilyen gazdag leírásokat rögzítenek, jellemzően néhány másodpercet vesznek igénybe néhány tárgy annotálásához, ami túl lassú a valós idejű működéshez.

A DAAAM a sebesség növelése érdekében a haladás során összevonja a közeli tárgyakat, és egy optimalizációs módszer segítségével kiválasztja a legfontosabb képkockákat az annotáláshoz. Ezek azok a felvételek, amelyek a legtisztább rálátást biztosítják több tárgyra, lehetővé téve a rendszer számára, hogy párhuzamosan, alaposan leírjon több elemet, ami tízszeresére gyorsítja a számítási folyamatot. Ahogy a robot felfedezi a teret, az annotációk minden egyes kötegét a 3D-s térkép egy adott helyén lévő több tárgyhoz kapcsolja.

A rendszer minden tárgyat csak egyszer annotál, így nagyon nagy kiterjedésű környezetekben is valós időben működhet. A tárgyak régiókba csoportosításával pedig a környezet tárgyaira és helyszíneire vonatkozó kérdések széles skálájára képes válaszolni. A memória felépítése után a rendszernek hatékonyan kell információkat kinyernie egy hatalmas, tárgyakat és leírásokat tartalmazó adatbázisból, amihez egy nagy nyelvi modellt használnak, amely gyorsan és pontosan képes előhívni a kért adatokat, csökkentve a téves válaszok esélyét.


© Credit: Courtesy of the researchers

Forrás: MIT.edu

Ez is érdekelhet