Alkalmazott adatelemzés

Alapadatok
Neptun kód: 
vitmav14
Gazda tanszék: 
TMIT
Szak: 
BME-VIK Villamosmérnöki szak
BME-VIK Mérnök informatikus szak
BME-VIK Gazdaságinformatikus szak
Típus: 
Szabadon választható (SZVT)
Érvényesség: 
aktív
Tárgyfelelős: 
Célkitűzés: 
A tárgy célja, hogy gyakorlati oldalról mutassa be a hallgatóknak az adatelemzés során leggyakrabban használt nyelveket és eszközöket. Az előadások, laboratóriumi foglalkozások, valamint a házi feladatok során bemutatott és megoldott valós esettanulmányokon keresztül olyan alkalmazott tudáshoz jutnak, amellyel a jövőben képesek lesznek bármilyen adatelemzési feladat megoldására.

A tantárgy részletes tematikája

  1. Előadás: Bevezetés. A leginkább elterjedt adatelemzési nyelvek és megoldások bemutatása. Shell script, mint adatelemzési eszköz. Labor: előadáshoz kapcsolódó ismeretek egy példafeladaton keresztül történő begyakorlása.
  2. Előadás: Awk és sed, reguláris kifejezések. Labor: előadáshoz kapcsolódó ismeretek egy példafeladaton keresztül történő begyakorlása.
  3. Előadás: Az R nyelv alapjainak bemutatása: használt programozási paradigma, változók, értékadás és egyszerű típusok, fontosabb operátorok, vektorok, szekvenciák. R vezérlési szerkezetek és függvények. Adatbevitel, adat transzformációk és adatok csoportosítása, valószínűségi operátorok, alapstatisztikák. Labor: előadáshoz kapcsolódó ismeretek egy példafeladaton keresztül történő begyakorlása.
  4. Előadás: R-ben használt további adatstruktúrák és használatukhoz szükséges operátorok: listák, faktorok, mátrixok, data frame. Speciális adattípusok és használatukhoz szükséges operátorok: sztringek és dátumok. R modellezési eljárások (osztályozás, regresszió), optimalizálás, feature extraction és selection módszerek.  Labor: alapvető operátorok, struktúrák és vezérlési szerkezetek begyakorlása egy valós telekommunikációs adatsoron.
  5. Előadás: A SAS nyelv alapjainak bemutatása: programozási paradigma, data lépés, alapvető adattárolási struktúrák és vezérlési szerkezetek, táblaegyesítési módszerek (set join). Labor: előadáshoz kapcsolódó ismeretek egy példafeladaton keresztül történő begyakorlása.
  6. Előadás: SAS eljárások és statisztikai megjelenítések. Adattisztítási módszerek. Labor: előadáshoz kapcsolódó ismeretek egy példafeladaton keresztül történő begyakorlása.
  7. Előadás: SAS makró nyelv, makró változók, makró programok, program író makrók. Labor: előadáshoz kapcsolódó ismeretek egy példafeladaton keresztül történő begyakorlása.
  8. Előadás: SAS nyelv használata regressziós és klaszterezési problémák esetében. Labor: alapvető operátorok, struktúrák és vezérlési szerkezetek begyakorlása egy valós banki adathalmazon.
  9. Előadás: A Python nyelv alapjainak bemutatása: programozási paradigma, adattárolási struktúrák (pandas) és a feldolgozásukhoz szükséges operátorok. Labor: előadáshoz kapcsolódó ismeretek egy példafeladaton keresztül történő begyakorlása.
  10. Előadás: Python vezérlési szerkezetek és függvények. Labor: előadáshoz kapcsolódó ismeretek egy példafeladaton keresztül történő begyakorlása.
  11. Előadás: Idősorok elemzése Pythonnal: tartományok és kezelésük, időzónák kezelése, mintavételezés és frekvenciakonverzió, modellezési és megjelenítési kérdések. Labor: alapvető operátorok, struktúrák és vezérlési szerkezetek begyakorlása egy valós tőzsdei adatsoron.
  12. Előadás: Eddigi nyelvek összehasonlítása, az egyes nyelvek előnyeinek és hátrányainak összefoglalása. Labor: valós adatelemzési problémák megoldása csoportmunkában a megismert eszközök segítségével.
  13. Előadás: Kitekintés, nagy adathalmazok kezelésére szánt technológiák (MapReduce, Pig, Hive), speciális adatszerkezetek kezelésére létrehozott technológiák (GraphLab), egyéb adatfeldolgozási paradigmák áttekintése.  Labor: valós adatelemzési problémák megoldása csoportmunkában a megismert eszközök segítségével.
  14. Előadás: Esettanulmányok: valós üzleti problémák megoldásának bemutatása az előadás során ismertetett eszközökkel. Labor: példa vizsgafeladatok megoldása közösen.