Beszédfelismerés Labor

Beszédfelismerés és "deep learning"

Általános mély (gépi) tanulási módszereket lehet nálunk eljasátítani elsősorban - bár messze nem kizárólag - egy komplex és időszerű mérnöki feladat megoldását, azaz zajos akusztikai jelből szövegtartalom kinyerését célozva.

 

 

Háttértörténet - avagy mi köze a mélytanulásnak a beszédfelismeréshez...

Ahogy megjelentek a számítógépek (60-as évek...), majd' mindenki azt gondolta, hogy hamarosan beszéddel lehet velük kommunikálni. Aztán kiderült, hogy amit a beszédről, mint akusztikai jelről és annak előállításához vagy észleléséhez - plána megértéséhez! - szükséges agyi folyamatokról tudunk, az édeskevés (vagy éppen túl sok?) ahhoz, hogy bárki "le tudja programozni". Sok évtizednyi kutatás során egy dolog kristályosodott ki: ami érdemben előbbre vitte a gépi beszédfelismerést, az mindig valamilyen statisztikai alapú, gépi tanulási (Machine Learning) technika volt, úgymint rejtett Markov-modellek, n-gram nyelvmodellek, döntési fák és persze sok-sok adat. Vagyis, amióta működik a beszéd-szöveg átalakítás (bármilyen szinten is), azóta mindig gépi tanulás hajtotta, és valamelyest fordítva is: a gépi tanulási problémák egyik legfontosabbja és legnehezebbje a beszédfelismerés volt és maradt is. (Talán mert az absztrakció foka az adat és jelentése között evolúciós okokból is igen magas.) 

Dacára a rengeteg kutatásnak, kb. 2010-ig nem sikerült igazi áttörést elérni, a gépi beszédfelismerés hatásfoka lényegében megrekedt és utcahosszal maradt le az emberitől, már-már úgy tűnt, hogy a távoli jövőbe tolódik a régi cél... Aztán jött a "deep learning". Technikailag "mindössze" annyi történt, hogy sikerült bizonyos nemlineáris mélyebb (mesterséges neuronhálós) struktúrák paramétereit hangolhatóvá tenni (Geoffrey Hinton), azonban a hatás elképesztő, máig tartó. 2011-től egy kezdeti nagy ugrás után évente kb. többet javultak a mély tanulás révén a beszédlfeismerő rendszerek, mint korábban egy évtized alatt és ennek ma sincs még vége... Mindehhez persze jól jött a tömeges párhuzamos számításokat támogató GPU (Graphic Processor Unit) elérhetővé válása, és a még több elérhető adat is, ill. a nyílt forráskód "divatossá" válása.

Gondolhatnánk, hogy ez a gyors fejlődés nem tarthat sokáig, ill. már nincs igazán mit kutatni/fejleszteni. Ez nagyon nem így van: 2021 májusában jelentkezett a FB a deep learning egyik legnagyobb eredményével: felügyelet nélküli módon tanítottak be először angol, majd mongol és afrilai nyelvű beszédfelismerőt, úgy hogy a leirat szemre nagy pontosságú volt. Ez hosszabb távon azt eredményezheti, hogy a hanganyagok lassú, nehézkes és drága kézi, tömeges lejegyzése szükségtelenné válhat. Vagyis, "csak" számítástechnikai erőforrásokra, hangfelvételekre és független szövegekre lesz szükség. Így sokkal gyorsabbá válik a nagy pontosságű leiratok különféle nyelvekre és alkalmazásokra való kifejlesztése és így a természetes beszédkapcsolat ember és gép között sokkal elterjedtebbé, hatékonyabbá válhat. Ennek a folyamatnak lehetsz Te is aktív részese!

Bővebben, a műhely vezetőjének rövid előadása a témában:  https://www.youtube.com/watch?v=zOJTrnP5M04

 

Mit lehet nálunk csinálni?

A témalaborban alapvetően a mély neuronháló alapú end-to-end beszédfelismeréssel ismerkedünk meg. Ezen belül, az NVIDIA NeMo keretrendszerrel kezdünk, mely magas szinten nagyon hatékonyan valósít meg (természetesen Python és GPU alapon) konvolúcióra alapuló beszédfelismerési modelleket. Tetszőleges nyelvre be lehet tanítani a rendszert, amire találunk adatot (pl. a Mozilla Common Voice -ban). Igazán izgalmas és látványos feladat, a GPU erőforrásokat (bizonyos határokon belül) biztosítjuk. A későbbiekben lehet ismerkedni a még újabb deep learning modell-architektúrákkal, lehet ismerkedni a neurális nyelvmodellekkel, összetettebb feladatokkal (pl. beszélgető robot Rasa vagy DeepPavlov keretrendszerben), továbbá a FB wav2vec és erre épülő GAN(Generative Adversarial Network) alapú "unsupervised" beszédfelismerőjével.

A témák folytathatóak a szűkebb szakmai műhelyen belül és azon kívül is az "önlab" keretein belül és azon túl is. A "Deep Learning a gyakorlatban Python és LUA alapon" elvégzése (a félév során is) előnyt jelent, de nem követelmény. Az angol nyelv ismerete nemigen nélkülözhető. Ha kedvet kaptál, vagy csak érdeklődni szeretnél témalabortól függetlenül, keresd a műhely vezetőjét email-ben.

 

Vezető konzulens: 
Miért ezt a műhelyt válaszd?: 
korszerű, izgalmas feladat, széles körben hasznosítható tudás, jó elhelyezkedési lehetőségek, megbecsülünk minden érdeklődő hallgatót