Beszédparaméterek elemzése és predikciója mély neurális hálózatokkal

2015. november 19.

Szerző:

Kis Kornél

Konzulens (TMIT):

Dr. Gyires-Tóth Bálint

Dr. Németh Géza

Év:

2015

Szekció:

Jelfeldolgozás

Helyezés:

3. helyezés

A gépi beszédkeltés kutatásában az elmúlt évtizedben egyre nagyobb jelentőséggel bír a beszéd paramétereinek statisztika alapú modellezése. Az első jelentős eredményeket rejtett Markov modellen (Hidden Markov Model, HMM) alapuló rendszerekkel érték el. Ezen rendszereknek azonban a magas számításigény mellett más gyengeségeik is vannak: például a döntési fák nehezen modellezik a komplex környezetfüggőségeket. Jelen TDK dolgozat a rejtett Markov modellt kiváltva egy alternatív megközelítést valósít meg a beszéd gépi modellezésére a napjainkban nagy népszerűségnek örvendő mély neurális hálózatok (Deep Neural Network, DNN) segítségével.

Munkám során a szöveg fonetikus átirata és a beszédparaméterek közötti kapcsolatot DNN modellezi. Ehhez első lépésként a Budapesti Műszaki és Gazdaságtudományi Egyetem Távközlési és Médiainformatikai Tanszék Beszédtechnológia és Intelligens Interakciók Laboratóriumának korábbi rendszereiből és hang adatbázisaiból kiindulva a DNN tanításához szükséges tanító adatbázist létrehozó eljárás kidolgozására volt szükség. Ezek után a tanító adatbázist a nemzetközi irodalomra támaszkodva többféle neurális hálózat architektúrán tanítottam, különböző hiperparaméterekkel. A végső architektúra és hiperparaméter kombináció meghatározásához számos elméleti kérdésre is választ kellett adnom, az adatbázison több – néha a gépi beszédkeltés tématerületén kívül eső – módosítást is végre kellett hajtanom. Dolgozatomban az elméleti háttér áttekintése mellett bemutatom a gyakorlati megvalósítás során használt eszközöket is. Munkámban elsődlegesen a beszéd alapfrekvencia (f0) DNN-ekkel történő modellezését vizsgálom és valósítom meg kísérleti mintarendszerben, továbbá a spektrális paraméterek modellezésének a lehetőségét is elemzem. Eredményeimet összevetem korábbi gépi beszédkeltő rendszerekkel és kiértékelem a mély neurális hálózattal készített modellek pontosságát.

Jelen dolgozat rávilágít, hogy a DNN-el történő beszédparaméter modellezés –optimálishoz közeli hiperparaméterek használata esetén - érdemleges előrelépést nyújtat az eddigi megoldásokhoz képest.

Partnereink