Közel két évtizede foglalkozunk a gépi beszédfelismerés kutatásával, fejlesztésével és oktatásával. A gyakorlati alkalmazhatóság kezdettől kiemelt célunk volt, a parancsszavak felismerésétől mára a természetes nyelvű beszéd a valós idejű (illetve akár nagyságrendekkel gyorsabb!) szöveges leiratozásáig jutottunk. Büszkék vagyunk rá, hogy eredményeink nemcsak közvetve (pl. Európai Bizottság Fordítástámogatási Osztály), hanem közvetlenül is hasznosulnak, ma már szinte mindenki által elérhetően (pl. MTVA élő műsorok feliratozása).
A gépi beszédfelismerés szépsége és nehézsége egyben, hogy számos témakör mélyreható ismerete szükséges a világszínvonalú műveléséhez, úgymint gépi tanulás (machine learning), véges állapotú gépek, statisztika, fizikai akusztika, fonetika, természetes és programozási nyelvek, script-nyelvek, illetve a GPU számítás alkalmazása. Fontos kiemelni, hogy noha a gépi beszédfelismerési technológia alapja mindig a statisztikai adatok által vezérelt gépi tanulás volt, a 2010-es évek elejétől a "deep learning" berobbanásával a fejlődés ugrásszerűvé vált és azóta sem állt meg. Mondhatjuk, ma már a mélytanulás és a beszédfelismerés "kéz a kézben járnak", s hogy nagy mennyiségű adat révén a gépi beszédfelismerés hatékonysága esetenként összevethető az emberivel. Mindez azonban messze nem jelenti azt, hogy nem maradtak volna fontos és érdekes megoldandó feladatok, problémák, sőt az új eszközök újabb lehetőségeket tárnak fel. Számos izgalmas lehetőség áll tehát rendelkezésre az érdeklődő hallgatók, kutatójelöltek számára, hogy bekapcsolódjanak a téma művelésébe.
Mára a beszédfelismerési, mélytanulási eszközök és nyelvi erőforrások soha nem látott számban és minőségben állnak rendelkezésre, azonban ezek a megfelelő szakértelem nélkül mit sem érnek. Széles körű ipari tapasztatokkal valamint nemzetközi kapcsolatrendszerrel rendelkezve segítjük a hozzánk érkező hallgatók pályára állítását, illetve az érdeklődő cégek, kutatócsoportok specializált beszédfelismerési igényeinek kiszolgálását.
Demó - kézi és gépi leirat valós időben:
https://www.youtube.com/watch?time_continue=1&v=p_oKK4xzZg8
Témalabor kiírások: https://www.tmit.bme.hu/node/2406
Laborcsoportok
Csoport | Csoportvezető |
---|---|
Beszédfelismerés labor (LSR) | Dr. Mihajlik Péter |