Tárgyfelelős:
Célkitűzés:
Rendszereinkből kinyerhető adatok mennyiségének növekedésével, a tárolási költségek csökkenésével egyre nagyobb az igény az adatokból kinyerhető összefüggések, tudás kiaknázására. A tárgy elsődleges célja, hogy a hallgatók készség szinten legyenek képesek adatbányászati feladatok megfogalmazására és valós adathalmazok felett ilyen problémák megoldására. Ehhez a tárgy nemcsak az adatbányászat, a gépi tanulás, az adatelemzés elvi hátterét mutatja be, hanem vizuális programozási metodikát használó adatbányászati szoftvereket, platformokat is ismertet, külön figyelmet szentel a ’big data’ elemzési feladatokra megoldást jelentő Hadoop platform bemutatására. Az elméleti hátteret alkalmazási területekhez köthetően, valós adathalmazokon végzett elemzési feladaton keresztül mutatja be. Az alkalmazási területek felölelik az üzleti élethez köthető legfontosabb adatelemzési, adatbányászati problémaköröket, mint az elvándorlás előrejelzés, marketing kampánytámogatás, kockázatbecslés.
A tantárgy részletes tematikája
- Adatbányászat fogalma alapszinten, CRISP-DM (Cross Industry Standard Process for Data Mining) metodika. Osztályozási feladat távközlési hívásadatok churn (lemorzsolódás, elvándorlás) rendszerében.
- Hitelbírálati rendszer bemutatása, logisztikus regresszió mint scoring technika, mintavételezés. Ügyfélérték fogalma, lineáris regresszió
- Bankkártya adatok, keresztértékesítés iránya, a sikeres adatbányászat 6 feltétele.
- Felügyelt és nem felügyelt feladatok szétválasztása, ügyfélszegmentálás, klaszterező eljárások, k-közép és k-medoid algoritmus
- Kapmányoptimalizáció, biztosítási adatokon történő adatelemzés. Kombinált adatbányászati eljárások, együttes osztályozók
- Hálózatelemzés alapjai, hálózat alapú előrejelzés, fertőzési modellek felhasználása
- Adattranszformációs és adatmanipulációs alapfogalmak és vizuális adatelemzés: adattípusok, adatelemzési problémák áttekintése, visszamérési módszerek.
- Adatelőkészítési módszerek: adattisztítási módszerek, adatintegrációs és transzformációs technikák, adatredukciós módszerek, diszkretizációs technikák.
- Osztályozási problémák megoldása: alapszintű Bayes-i technikák, döntési fák, példányalapú mószerek. Metatanuló módszerek.
- Klaszterezés és outlier keresés: hasonlósági és távolsági mértékek, particionáló módszerek, hierarchikus klaszterezők, sűrűség alapú klaszterezők, outlier keresési technikák.
- Regressziós módszerek és idősoros adatok feldolgozása: lineáris és nem-lineáris módszerek, regressziós fák.
- A nagy adat (Big Data) jelensége és fogalma, szerepe. Az Apache Hadoop platform bemutatása.
- Elosztott adattárolás és elemzések MapReduce alapokon. MapReduce programozási minták.
- Lekérdezési módszerek és programnyelvek nagy adatok esetén (Hive, Pig). Big Data esettanulmányok.
Gyakorlati órák tématerületei:
- Hitelbírálati feladat adatbányászati megoldása
- Keresztértékesítés
- Távközlési cég ügyfeleinek elvándorlás (churn) előrejelzése
- Kampányoptimalizáció biztosítási környezetben
- Vásárlói kártya adatok adatbányászati feldolgozása
- Big Data megoldásokhoz kapcsolódó Hadoop alapú technológiák