Multimédia tartalmak intelligens feldolgozása

Alapadatok
Neptun kód: 
vitmmb01
Gazda tanszék: 
TMIT
Szak: 
BME-VIK Mérnök informatikus szak
Szint: 
MSc - Mesterképzés
Típus: 
Szakirány-/specializációtárgy
Érvényesség: 
tervezett
Tárgyfelelős: 
Célkitűzés: 
A tárgy célkitűzése a multimédia tartalmak automatikus felhasználásához szükséges módszerek oktatása, amelyek segítségével az intelligens rendszerek kezelni, szűrni, felismerni, elemezni, rendezni tudják a multimédia állományokat. A hallgatók részletesen megismerkedhetnek a multimédia tartalmak hatékonyan indexeléséhez, kereséséhez, osztályozásához, csoportosításához szükséges technikai apparátussal, hang- kép- és videofeldolgozási algoritmusokkal, platformokkal és gyakorlati alkalmazásokkal, melyek rámutatnak a közvetlen ipari alkalmazhatóság jelentőségére (pl. beszédfelismerés, képi objektum felismerés). A félév végére a hallgatók elsajátítják azokat a módszereket, melyek alkalmasak arra, hogy a napjaink média-intenzív világában általánossá vált heterogén, zajos és hiányos multimédia tartalmakat is kezeljenek, elemezzenek és biztosítsák gyors kereshetőségüket.

A tantárgy részletes tematikája

A tantárgy a tartalomelemzés alapfogalmaitól indulva bemutatja a multimédia tartalmak feldolgozásánál használt módszereket és azok alkalmazásait.

  • Bevezetés: Tartalomelemzés alapfogalmainak ismertetése. Multimédia tartalom elemzési problémák, alkalmazások.
  • Multimédia előfeldolgozás: index (reprezentáció) építés: generikus multimédia indexelő eljárás. R-fa és k-d-fa használata a gyorsításhoz.
  • Kép és videó szegmentáló módszerek.
  • Keresés, multimédia query típusok: hasonlósági küszöbön belüli összes multimédia tartalom keresése, leghasonlóbb keresése, összes pár keresése. Kép keresése mintakép, felhasználói rajz, vagy kép jellemzőinek specifikálása (szín, textura, alak) alapján. Kontextus-függő képkeresés.
  • Beszédfeldolgozás: Hangfeldolgozás, akusztikai lényegkiemelés módszerei: ablakozás, burkolóspektrum számítás, zajok és lineáris torzítások hatásának mérséklése, a beszélők fiziológiai eltéréseinek kompenzálási módszerei. Audio jelek előfeldolgozásának módszerei. Szignálkeresési, zene felismerési technikák.
  • Statisztikai alapú beszédfelismerés: akusztikai modellek. Koartikuláció-modellezés, fonetikus döntési fák. Rejtett Markov modellek és Gaussian Mixture Model használata a dekódoláshoz, optimalizálási technikák.
  • Beszélőfelismerés, beszélő nemének kategorizálása. Nyelvi, lexikai modellek, nyelvfüggőség/-függetlenség. Konfidencia. Félig felügyelt és felügyelet nélküli modelltanítási technikák.
  • Képfeldolgozás: érzékelők, kép előállítók (színhűség), színterek, képtömörítések hatásvizsgálata. Szín kvantálás, zajszűrés, éldetektálás, morfológia topológiák.
  • Képek jellemző pontjainak kinyerése. Panorámakép összeállítás kisebb képekből, arcdetektálás.
  • Videó elemzés: videotömörítés felhasználása. Objektumok követése jellemző pontok alapján, MPEG1 makroblokk elmozdulás becslés.
  • Zene, kép és video osztályozás: Diszkriminatív vs. generatív modellek, idősor osztályozás.
  • Kép (objektum) felismerés, képi szózsák modell. Döntési fák osztályozók típusai és alkalmazásuk az objektumfelismerésben.
  • Multimédia tartalmak automatikus rendezése: Jellemző kép kiválasztás fényképalbumokból. Klaszterezés: kép- videó- és hangállományok automatikus csoportosítása.
  • Multimodális tartalomelemzés, kiértékelési módszerek: Kiértékelési karakterisztikák. Benchmarkok.

Gyakorlatok:

  • Multimédia index építés
  • Döntési fák használata
  • Képfeldolgozási gyakorlat
  • Multimédia osztályozási gyakorlat
  • Audio jelek előfeldolgozása
  • Statisztikai alapú beszédfelismerési gyakorlat