Tárgyfelelős:
Tárgy honlapja:
Célkitűzés:
Az elektronikus szöveges és webtartalmak mennyiségének rohamos emelkedésével kiemelt fontosságúvá vált a tartalmak hatékony feldolgozása, amihez nélkülözhetetlen a megfelelő indexelő, annotáló és elemző módszerek használata. A hallgatók elméleti és gyakorlati oktatás keretei között tanulhatják meg az információ visszakeresést, web keresést, információ kinyerést szöveges állományokból, természetes nyelvű feldolgozást, információs hálókban és közösségi hálókban való tudás feltárást. A hallgatók elsajátítják azokat a szöveg- és webbányászati módszereket, melyek segítségével megvalósíthatók a szöveg korpuszokban a keresési és különböző elemzési feladatok, mint az automatikus annotáció, kivonatolás; illetve megoldható a webes felhasználók követése, szokásainak monitorozása és számukra megfelelő ajánlattétel előállítása.
A tantárgy részletes tematikája
A tantárgy a szöveg- és webbányászat alapfogalmaitól indulva bemutatja a használt módszereket és azok alkalmazásait.
- Bevezetés: Alapfogalmak, szöveg- és webbányászati problémák, alkalmazások.
- Szövegindexelés: Szózsák modell. Szöveg automatikus előfeldolgozása mondatokra és szavakra bontással, szótövezéssel és index struktúra felépítésével.
- Kifejezés keresés: szópár, valamint pozíció indexelés, permuterm index, írásmódjavítás, nyelvfelismerés.
- Természetes nyelvű feldolgozás: NLP (Natural Language Processing) eszközök. Sekély elemzés. Mély elemzés: szintaktikai fa, függőségi fa.
- Névelem felismerés, reláció kinyerés, vélemény analízis (sentiment analysis) információs hálókban és közösségi hálókban.
- Szövegbányászat: Egycímkés, többcímkés osztályozás. Lineáris osztályozók. Naiv Bayes osztályozó, Szupport vektor gép alkalmazása szövegre. Automatikus annotáció.
- Automatikus szöveg kivonatolás (legjellemzőbb mondatok kiválasztása), összegzés készítés.
- Információ visszakeresés: Információ visszakereső rendszerek által használt modellek (Boole modell, vektor modell, klasszikus és Bayes hálón alapuló valószínűségi modellek), és a rendszerek jóságának mérése (fedés, pontosság, diverzitás).
- Rangsorolás: szöveges tartalom alapú rangsoroló algoritmusok, link struktúra alapú rangsorolás: PageRank, HITS.
- Webbányászat: web usage mining, felhasználók követési lehetőségei, Google Analytics.
- Adatelemzési esettanulmányok: elektronikus kereskedelmi oldal elemzése. Kiterjesztett feladatok, esettanulmányok: hírportálok, jegyvásárlás.
- Ajánlórendszerek: célja, felépítése, típusai. Tartalom alapú és kollaboratív ajánló rendszerek: alap és szomszédosság alapú módszerek.
- Mátrixfaktorizáció alapjai, alapvető algoritmusai. Webes felhasználók számára megfelelő ajánlattétel előállítása.
- Fejlettebb ajánlóalgoritmusok: kontextus modellezés, kontextus-vezérelt megoldások; általános faktorizációs keretrendszerek; a csoportajánlás problémája. Gyakorlati kérdések: online learning, ajánlórendszerek kiértékelése.
Gyakorlatok:
- Szótövezés RapidMiner-rel (tokenizálás reguláris kifejezésekkel + szótövezés)
- Szövegbányászat Weka-val. Mikro, makroátlagoló kiértékelés
- Sentiment analysis techniques (vélemény bányászat)
- Metakeresés: forrás választás, dokumentum-választás, összeillesztő (merging) algoritmus, rank pozíció, dokumentum visszakeresési pontérték alapján
- Webbányászati gyakorlat
- Ajánlórendszerek tanítása