Course coordinator:
Tárgy honlapja:
Objective:
A tárgy célkitűzése a multimédia tartalmak automatikus felhasználásához szükséges módszerek oktatása, amelyek segítségével az intelligens rendszerek kezelni, szűrni, felismerni, elemezni, rendezni tudják a multimédia állományokat. A hallgatók részletesen megismerkedhetnek a multimédia tartalmak hatékonyan indexeléséhez, kereséséhez, osztályozásához, csoportosításához szükséges technikai apparátussal, hang- kép- és videofeldolgozási algoritmusokkal, platformokkal és gyakorlati alkalmazásokkal, melyek rámutatnak a közvetlen ipari alkalmazhatóság jelentőségére (pl. beszédfelismerés, képi objektum felismerés). A félév végére a hallgatók elsajátítják azokat a módszereket, melyek alkalmasak arra, hogy a napjaink média-intenzív világában általánossá vált heterogén, zajos és hiányos multimédia tartalmakat is kezeljenek, elemezzenek és biztosítsák gyors kereshetőségüket.
A tantárgy részletes tematikája
A tantárgy a tartalomelemzés alapfogalmaitól indulva bemutatja a multimédia tartalmak feldolgozásánál használt módszereket és azok alkalmazásait.
- Bevezetés: Tartalomelemzés alapfogalmainak ismertetése. Multimédia tartalom elemzési problémák, alkalmazások.
- Multimédia előfeldolgozás: index (reprezentáció) építés: generikus multimédia indexelő eljárás. R-fa és k-d-fa használata a gyorsításhoz.
- Kép és videó szegmentáló módszerek.
- Keresés, multimédia query típusok: hasonlósági küszöbön belüli összes multimédia tartalom keresése, leghasonlóbb keresése, összes pár keresése. Kép keresése mintakép, felhasználói rajz, vagy kép jellemzőinek specifikálása (szín, textura, alak) alapján. Kontextus-függő képkeresés.
- Beszédfeldolgozás: Hangfeldolgozás, akusztikai lényegkiemelés módszerei: ablakozás, burkolóspektrum számítás, zajok és lineáris torzítások hatásának mérséklése, a beszélők fiziológiai eltéréseinek kompenzálási módszerei. Audio jelek előfeldolgozásának módszerei. Szignálkeresési, zene felismerési technikák.
- Statisztikai alapú beszédfelismerés: akusztikai modellek. Koartikuláció-modellezés, fonetikus döntési fák. Rejtett Markov modellek és Gaussian Mixture Model használata a dekódoláshoz, optimalizálási technikák.
- Beszélőfelismerés, beszélő nemének kategorizálása. Nyelvi, lexikai modellek, nyelvfüggőség/-függetlenség. Konfidencia. Félig felügyelt és felügyelet nélküli modelltanítási technikák.
- Képfeldolgozás: érzékelők, kép előállítók (színhűség), színterek, képtömörítések hatásvizsgálata. Szín kvantálás, zajszűrés, éldetektálás, morfológia topológiák.
- Képek jellemző pontjainak kinyerése. Panorámakép összeállítás kisebb képekből, arcdetektálás.
- Videó elemzés: videotömörítés felhasználása. Objektumok követése jellemző pontok alapján, MPEG1 makroblokk elmozdulás becslés.
- Zene, kép és video osztályozás: Diszkriminatív vs. generatív modellek, idősor osztályozás.
- Kép (objektum) felismerés, képi szózsák modell. Döntési fák osztályozók típusai és alkalmazásuk az objektumfelismerésben.
- Multimédia tartalmak automatikus rendezése: Jellemző kép kiválasztás fényképalbumokból. Klaszterezés: kép- videó- és hangállományok automatikus csoportosítása.
- Multimodális tartalomelemzés, kiértékelési módszerek: Kiértékelési karakterisztikák. Benchmarkok.
Gyakorlatok:
- Multimédia index építés
- Döntési fák használata
- Képfeldolgozási gyakorlat
- Multimédia osztályozási gyakorlat
- Audio jelek előfeldolgozása
- Statisztikai alapú beszédfelismerési gyakorlat