A madarak csicsergése és a bálnák különös, víz alatti hangjai első pillantásra teljesen eltérő világokat idéznek, mégis létezik egy mesterségesintelligencia-modell, amely mindkettőt meglepő pontossággal képes felismerni. A Google DeepMind által fejlesztett Perch 2.0 eredetileg szárazföldi állatok, főként madarak hangjain tanult, ám a kutatók váratlan felfedezést tettek: a modell kiválóan használható a tengeri emlősök hangjainak elemzésére is. Ez a felismerés új távlatokat nyit a bioakusztikai kutatásokban, hiszen a madárhangokra épülő tudás átültethető a bálnák kommunikációjának megértésébe.
A Perch 2.0 több millió madárhangfelvételből tanult, és olyan részletességgel képes elemezni a hangképeket, amely ritka még a modern mesterséges intelligenciák körében is. A kutatók arra voltak kíváncsiak, vajon ez a tudás átemelhető-e a víz alatti világ akusztikai mintáira. Meglepetésükre a modell kiemelkedően teljesített, ami azt sugallja, hogy a különböző élőlények hangképzésében több közös vonás rejlik, mint azt eddig gondoltuk.
A Google kutatócsapata közel egy évtizede dolgozik bálnaakusztikai projekteken, és számos modellt fejlesztettek már a különféle fajok hangjainak felismerésére. A Perch 2.0 azonban lehetőséget adott arra, hogy mindezt gyorsabban és hatékonyabban végezzék el, hiszen egyetlen, általános célú bioakusztikai modellre építhetnek, amelyet könnyedén tovább lehet finomítani a bálnákra jellemző hangminták alapján.
Hogyan támogatja az átviteli tanulás a bioakusztikai kutatásokat
A Perch 2.0 sikerének egyik kulcsa az úgynevezett átviteli tanulás, amely lehetővé teszi, hogy egy modellt különböző, de egymással rokon feladatokra alkalmazzanak. A madárhangokból szerzett akusztikai tudás így hasznosítható a bálnahangok elemzésénél is, ami jelentősen csökkenti a fejlesztési időt és az erőforrásigényt. A kutatók szerint ez különösen fontos olyan területeken, ahol állandóan új hangminták kerülnek elő.
A modell működése során a hangfelvételeket spektrogramokra alakítják, vagyis olyan képi ábrázolásra, amely megmutatja a frekvenciák és hangerők időbeli változását. Ezeket a képeket a Perch 2.0 úgynevezett beágyazási térbe rendezi, felismerve azokat a finom részleteket, amelyek megkülönböztetik például egy delfin füttyét egy bálna énekétől. Már néhány ilyen beágyazási pont alapján is kiválóan működő osztályozó modell készíthető.
A kutatók összehasonlították a Perch 2.0 teljesítményét más madár- és bálnaakusztikára épülő modellekkel, és az eredmények azt mutatták, hogy a Perch 2.0 minden esetben az élmezőnyben végzett. Ez azt bizonyítja, hogy az általános célú bioakusztikai alapmodellek nemcsak rugalmasabbak, de sokszor jobbak is, mint a szűkebb területre specializált rendszerek.
Miért képes egy madárhangokon tanult modell felismerni a bálnák vokalizációit
A kutatók három lehetséges magyarázatot fogalmaztak meg arra, hogy a madárhangokra betanított modell miért teljesít ilyen jól a tengeri emlősök hangjainak felismerésében. Az egyik az evolúciós párhuzamok elmélete, amely szerint bizonyos hangképzési mechanizmusok hasonló módon fejlődtek ki a madarakban és a tengeri emlősökben. Ez azt eredményezi, hogy a hangmintáik struktúrája részben rokonítható.
A második magyarázat a nagy modellek skálatörvények szerinti előnye. Minél több és változatosabb adatot kap egy modell, annál jobban tud általánosítani, még olyan területeken is, amelyek eredetileg nem tartoztak a tanítási körébe. A Perch 2.0 kifejezetten nagy és sokszínű adathalmazon tanult, ami lehetővé teszi, hogy idegen hangminták esetében is pontos felismerést nyújtson.
A harmadik tényező pedig az, hogy a madárhangok rendkívül finom akusztikai részleteket tartalmaznak, amelyeket egy ilyen modellnek meg kell tanulnia elkülöníteni. Ha a rendszer képes ezeket az apró különbségeket felismerni, akkor ugyanezt a tudást át tudja ültetni a víz alatti akusztikai jelenségek elemzésébe is. Ez különösen igaz azokra a bálna- és delfinfajokra, amelyek hangjai ugyanabban a frekvenciatartományban mozognak, mint számos madárhang.
Forrás: Spectrum.ieee.org ↗̱

© Nicole Millman



