Smartlab - Beszédtechnológia és Intelligens Interakciók szakmai műhely (témalabor) | Távközlési és Mesterséges Intelligencia Tanszék

Azért válaszd műhelyünket, mert több tématerületet is érintő (interdiszciplináris) feladatokkal foglalkozunk, így nem csak egy-egy speciális területen tudod tudásodat és tapasztalatodat növelni, hanem szélesebb területeken is. Kurrens témákkal foglalkozunk és ipari tapasztalattal is rendelkezünk, számos megoldást szállítottunk a versenyszférába is. Tudományos érdeklődésű hallgatóinkat bevonjuk a kutatási munkáinkba is, számos TDK, OTDK eredmény született az elmúlt években is, illetve hazai és külföldi konferencián mérethetik meg magukat a jobb hallgatók. Kiemelt hangsúlyt fektetünk a szorgalmas hallgatók személyes konzultációjára, tudásgondozására. Feladatok a műhelyben: Mély neurális hálózat alapú gépi tanulás (Deep neural network based machine learning). A műhelybemutatókat az LSA - Beszédakusztikai laboratórium és LSR - Beszédfelismerés laborral közösen tarjuk.

Mély neurális hálózat alapú gépi tanulás (Deep neural network based machine learning). A számos tudományterületen kinyerhető nagy adatmennyiségnek köszönhetően a statisztikai alapú adatvezérelt rendszerek az elmúlt évtizedben jelentős teret hódítottak. Alkalmazási területtől (pl. kép-, szöveg-, beszédfeldolgozás) függően különböző matematikai modelleket használnak. Az elmúlt évek egyik legígéretesebb és jelenleg legnagyobb népszerűségnek örvendő technológiája a mély tanulás (deep learning) alapú modellalkotás, ezen belül is a mély neurális hálózatok. A mély neuronhálók a rejtett rétegeinek köszönhetően a hagyományos eljárásoknál magasabb szintű absztrakciók kinyerésére képesek, és így sok fajta bonyolult folyamat modellezése is a korábbiaknál nagyobb pontossággal lehetséges. A problémák jelentős része esetén az általános célokra használt GPU (Graphic Processing Unit) alapú számítások nagy hatékonysággal képesek megoldani. A hallgató feladata a félév során a gépi tanulás és a mély neurálos hálózatok alapjainak és a rendelkezésre álló eszközöknek a megismerése, majd ezek felhasználásával egy probléma megoldása. A választott probléma lehet a felhasználó szokások elemzésével kapcsolatos (viselkedés előrejelzése, felhasználó felismerés, képi információk feldolgozása), lehet numerikus adatok alapján történő előrejelzéssel kapcsolatos (hőmérsékleti adatok, fogyasztási adatok előrejelzése historikus adatok alapján), illetve kapcsolódhat a beszédtechnológiai felhasználáshoz beszélő felismerés és klasszifikáció formájában.
(opcionális) Smart Home (Apple Siri, Amazon Echo, Cortana szerű megoldás). Okosotthon vezérlésének egyik természetes módja a beszédkommunikáció. Ez a téma lehetőséget biztosít arra, hogy egy egyszerű beszédkommunikációs alkalmazás elkészítése közben a hallgató megismerje a műhelyünkben használt beszédszintetizátorokat és azok alkalmazását. A kommunikáció másik irányát pedig egy beszélőfüggetlen beszédfelismerő segítségével tudja megvalósítani. A hallgató feladata a félév során az, hogy megismerje a beszédszintetizátor és beszédfelismerő működését, és ezek felhasználásával készítsen egy egyszerű alkalmazást, amely egy okosotthon alap irányítási funkcióit képes megvalósítani. Ilyen például, hogy szóban lekérdezze az aktuális hőmérsékletet vagy felkapcsolja a világítást a helyiségben.
(opcionális) Személyre szabott beszédszintetizátor (personalized Text-To-Speech). Napjainkban már természetes, hogy egy számítógép vagy egy telefon képes szövegből beszédet előállítani (Apple Siri, MS Cortana, Google Now) különböző szöveg-beszéd (Text-To-Speech, TTS) technológiák használatával. Az ún. HMM alapú beszédszintetizátorral lehetőség van arra, hogy viszonylag kevés hanganyaggal az adott beszélőre emlékeztető hangkaraktert hozzunk létre. Ahhoz, hogy sok hangkaraktert lehessen használni egy-egy ilyen programban, számos beszélőtől kell hangmintát gyűjteni. Ily módon a beszédsérültek, illetve különböző betegségben szenvedő felhasználók számára több hangkarakter lesz elérhető. A hallgató feladata, hogy megvizsgálja a rendelkezésre álló módszereket, majd létrehozzon egy beszédrögzítő alkalmazást, pl. Androidon vagy iOS-sen. A végső cél egy olyan multiplatform hangadatbázis-gyűjtő, és feldolgozó rendszer, melynek segítségével számítógépen és akár okostelefonon keresztül is megvalósulhat az adatgyűjtés.

Csoportunk "régi motoros", jelen vagyunk a Budapesti Műszaki és Gazdaságtudományi Egyetem Távközlési és Médiainformatikai Tanszékén a kezdetektől fogva. Fő kompetenciáink a magyar nyelvű beszédszintézis (női és férfi hangon), ember-gép, ember-robot interfészek, kisegítő interfészek vak-, látás- és beszédsérült felhasználóknak, okos eszközökön alapuló alkalmazások, továbbá az általános statisztikai és modern gépi tanuló algoritmusok.

Beszédszintézis - Laboratóriumunk hazánkban egyedülálló magyar nyelvű gépi szövegfelolvasó (Text-to-Speech, TTS) technológiák kutatásában, fejlesztésében. Mit is jelent ez? Tetszőleges gépelt szöveget természetes hangzású emberi beszéddé alakítunk! Női és férfi hangon egyaránt! Megoldásaink a beágyazott rendszerektől kezdve, okostelefonokon át, a nagyteljesítményű szerverekig elérhetőek Linux, Windows és Android rendszereken.

Intelligens interakciók - A technológia egyre inkább mindennapi életünk részese, ezért kiemelten fontosnak tartjuk az ember-gép és ember-robot kapcsolat kutatását. Többek között foglalkozunk humanoid robot vezérléssel, multimodális interfészek kialakításával, okostelefonos és okosTVs alkalmazások felhasználói élményének növelésével, továbbá vak-, látássérült és beszédsérült felhasználóknak speciális felületek kialakításával.

Modern gépi tanulás - Mind a beszédszintézis, mind az intelligens interakciók és a kapcsolódó határterületek kutatása és fejlesztése a statisztikai módszerek, valamint a modern gépi tanulás magas szintű ismereteit igénylik. Elsődleges tématerületeink a rejtett Markov-model (Hidden Markov Model, HMM) és a mély neurális hálózatok (Deep Neural Networks, DNN) alap- és alkalmazott kutatása.

Rólunk további információkat találsz honlapunkok: http://smartlab.tmit.bme.hu