Szöveg- és webbányászat

Alapadatok
Neptun kód: 
vitmma06
Gazda tanszék: 
TMIT
Szak: 
BME-VIK Mérnök informatikus szak
Szint: 
MSc - Mesterképzés
Típus: 
Szakirány-/specializációtárgy
Érvényesség: 
tervezett
Tárgyfelelős: 
Célkitűzés: 
Az elektronikus szöveges és webtartalmak mennyiségének rohamos emelkedésével kiemelt fontosságúvá vált a tartalmak hatékony feldolgozása, amihez nélkülözhetetlen a megfelelő indexelő, annotáló és elemző módszerek használata. A hallgatók elméleti és gyakorlati oktatás keretei között tanulhatják meg az információ visszakeresést, web keresést, információ kinyerést szöveges állományokból, természetes nyelvű feldolgozást, információs hálókban és közösségi hálókban való tudás feltárást. A hallgatók elsajátítják azokat a szöveg- és webbányászati módszereket, melyek segítségével megvalósíthatók a szöveg korpuszokban a keresési és különböző elemzési feladatok, mint az automatikus annotáció, kivonatolás; illetve megoldható a webes felhasználók követése, szokásainak monitorozása és számukra megfelelő ajánlattétel előállítása.

A tantárgy részletes tematikája

A tantárgy a szöveg- és webbányászat alapfogalmaitól indulva bemutatja a használt módszereket és azok alkalmazásait.

  • Bevezetés: Alapfogalmak, szöveg- és webbányászati problémák, alkalmazások.
  • Szövegindexelés: Szózsák modell. Szöveg automatikus előfeldolgozása mondatokra és szavakra bontással, szótövezéssel és index struktúra felépítésével.
  • Kifejezés keresés: szópár, valamint pozíció indexelés, permuterm index, írásmódjavítás, nyelvfelismerés.
  • Természetes nyelvű feldolgozás: NLP (Natural Language Processing) eszközök. Sekély elemzés. Mély elemzés: szintaktikai fa, függőségi fa.
  • Névelem felismerés, reláció kinyerés, vélemény analízis (sentiment analysis) információs hálókban és közösségi hálókban.
  • Szövegbányászat: Egycímkés, többcímkés osztályozás. Lineáris osztályozók. Naiv Bayes osztályozó, Szupport vektor gép alkalmazása szövegre. Automatikus annotáció.
  • Automatikus szöveg kivonatolás (legjellemzőbb mondatok kiválasztása), összegzés készítés.
  • Információ visszakeresés: Információ visszakereső rendszerek által használt modellek (Boole modell, vektor modell, klasszikus és Bayes hálón alapuló valószínűségi modellek), és a rendszerek jóságának mérése (fedés, pontosság, diverzitás).
  • Rangsorolás: szöveges tartalom alapú rangsoroló algoritmusok, link struktúra alapú rangsorolás: PageRank, HITS.
  • Webbányászat: web usage mining, felhasználók követési lehetőségei, Google Analytics.
  • Adatelemzési esettanulmányok: elektronikus kereskedelmi oldal elemzése. Kiterjesztett feladatok, esettanulmányok: hírportálok, jegyvásárlás.
  • Ajánlórendszerek: célja, felépítése, típusai. Tartalom alapú és kollaboratív ajánló rendszerek: alap és szomszédosság alapú módszerek.
  • Mátrixfaktorizáció alapjai, alapvető algoritmusai. Webes felhasználók számára megfelelő ajánlattétel előállítása.
  • Fejlettebb ajánlóalgoritmusok: kontextus modellezés, kontextus-vezérelt megoldások; általános faktorizációs keretrendszerek; a csoportajánlás problémája. Gyakorlati kérdések: online learning, ajánlórendszerek kiértékelése.

Gyakorlatok:

  • Szótövezés RapidMiner-rel (tokenizálás reguláris kifejezésekkel + szótövezés)
  • Szövegbányászat Weka-val. Mikro, makroátlagoló kiértékelés
  • Sentiment analysis techniques (vélemény bányászat)
  • Metakeresés: forrás választás, dokumentum-választás, összeillesztő (merging) algoritmus, rank pozíció, dokumentum visszakeresési pontérték alapján
  • Webbányászati gyakorlat
  • Ajánlórendszerek tanítása