Beszédfelismerés Labor

Beszédfelismerés és "deep learning"

Általános mély (gépi) tanulási módszereket lehet nálunk eljasátítani elsősorban - bár messze nem kizárólag - egy komplex és időszerű mérnöki feladat megoldását, azaz zajos akusztikai jelből szövegtartalom kinyerését célozva.

 

 

Háttértörténet - avagy mi köze a mélytanulásnak a beszédfelismeréshez...

Ahogy megjelentek a számítógépek (60-as évek...), majd' mindenki azt gondolta, hogy hamarosan beszéddel lehet velük kommunikálni. Aztán kiderült, hogy amit a beszédről, mint akusztikai jelről és annak előállításához vagy észleléséhez - plána megértéséhez! - szükséges agyi folyamatokról tudunk, az édeskevés (vagy éppen túl sok?) ahhoz, hogy bárki "le tudja programozni". Sok évtizednyi kutatás során egy dolog kristályosodott ki: ami érdemben előbbre vitte a gépi beszédfelismerést, az mindig valamilyen statisztikai alapú, gépi tanulási (Machine Learning) technika volt, úgymint rejtett Markov-modellek, n-gram nyelvmodellek, döntési fák és persze sok-sok adat. Vagyis, amióta működik a beszéd-szöveg átalakítás (bármilyen szinten is), azóta mindig gépi tanulás hajtotta, és valamelyest fordítva is: a gépi tanulási problémák egyik legfontosabbja és legnehezebbje a beszédfelismerés volt és maradt is. (Talán mert az absztrakció foka az adat és jelentése között evolúciós okokból is igen magas.) 

Dacára a rengeteg kutatásnak, kb. 2010-ig nem sikerült igazi áttörést elérni, a gépi beszédfelismerés hatásfoka lényegében megrekedt és utcahosszal maradt le az emberitől, már-már úgy tűnt, hogy a távoli jövőbe tolódik a régi cél... Aztán jött a "deep learning". Technikailag "mindössze" annyi történt, hogy sikerült bizonyos nemlineáris mélyebb (mesterséges neuronhálós) struktúrák paramétereit hangolhatóvá tenni (Geoffrey Hinton), azonban a hatás elképesztő, máig tartó. 2011-től egy kezdeti nagy ugrás után évente kb. többet javultak a mély tanulás révén a beszédlfeismerő rendszerek, mint korábban egy évtized alatt és ennek ma sincs még vége... Mindehhez persze jól jött a tömeges párhuzamos számításokat támogató GPU (Graphic Processor Unit) elérhetővé válása, és a még több elérhető adat is, ill. a nyílt forráskód "divatossá" válása.

Fontos hangsúlyozni, hogy a lényegi beszédfelismerési technikák megmaradtak, el (szinte) semmit nem kellett dobni, csupán a már amúgy is gépi tanulás alapú rendszert volt szükséges kiterjeszteni a mély tanulás irányába. Ennek a folyamatnak az eredménye, hogy ma már a "voice search", intelligens(nek látszó;) asszisztensek, diktáló rendszerek szinte mindenki számára elérhetőek és gyorsítják, egyszerűsítik a szövegbevitelt és az ember-gép (sőt, ember-ember) kommunikációt.

Bővebben, a műhely vezetőjének rövid előadása a témában:  https://www.youtube.com/watch?v=zOJTrnP5M04

 

Mit lehet nálunk tanulni?

A témalaborban (és tovább is) alapvetően két csapásirányon lehet haladni:

  • a gépi (mély) tanulási technikák, eszközök, problémák és szemlélet megismerése,
  • a gépi beszédfelismerésre koncentrálva egyszerűbb, majd öszetettebb feladatok megoldása, a klasszikus (mély tanulást is magába foglaló) módszerek megismerése, alkalmazása

A két út tetszőleges arányban kombinálható is. A témalabor során a két út valamelyikén elindulva heti rendszeres találkozókon elméleti, gyakorlati képzés és problémamegoldás történik. Minden alkalomra készülni is kell és a félév során egy megbeszélt feladatot meg kell oldani.

A témalabor keretein belül az alábbi főbb ismeretek szerezhetők meg:

  • Python és/vagy Perl alapok
  • Keras (Tensorflow backend) alapok CPU-n/GPU-n
  • Mesterséges neuronhálók (előrecsatolt, konvolúciós, rekurrens) alapjai
  • Gépi beszédfeldolgozás alapjai
  • Mintaillesztés (Pattern Matching) alapjai
  • Audio jelek reprezentálása, feldolgozása
  • Egyszerű képi felismerések
  • Akusztikus modellezés alapjai
  • Nyelvmodellezés alapjai
  • Linux shell (bash), tmux(teleterminál) alapok
  • Kaldi (state-of-the-art beszédfelismerő keretrendszer és motor) alapjai

A témák folytathatóak a szűkebb szakmai műhelyen belül és azon kívül is az "önlab" keretein belül és azon túl is. A "Deep Learning a gyakorlatban Python és LUA alapon" elvégzése (a félév során is) előnyt jelent, de nem követelmény. Az angol nyelv ismerete nemigen nélkülözhető.

 

Vezető konzulens: 
Miért ezt a műhelyt válaszd?: 
korszerű, izgalmas feladat, széles körben hasznosítható tudás, jó elhelyezkedési lehetőségek, megbecsülünk minden érdeklődő hallgatót
Feladatok a műhelyben: 
  • mintázatfelismerési feladatok - hangban, képben egyaránt
  • beszéddetekció zajban, zenében
  • alapszintű beszédfelismerő fejlesztése az alábbi nyelvek valamelyikén
    • angol
    • német
    • bolgár
    • skandináv (svéd, norvég, dán)
    • egyéb, pl. nagy nyugati nyelvek: spanyol, francia, stb
  • orvosi diktáláshoz szótárfejlesztés
  • hangarchívum kereshetővé tétele szöveggel, kivonatolás
  • mély neuronháló beszédfelismerő eszközök, módszerek kipróbálása

Valamint egyéb, a vezető konzulenssel egyeztetett, személyre szabott témában.