Tárgyfelelős:
Célkitűzés:
A tárgy célja, hogy gyakorlati oldalról mutassa be a hallgatóknak az adatelemzés során leggyakrabban használt nyelveket és eszközöket. Az előadások, laboratóriumi foglalkozások, valamint a házi feladatok során bemutatott és megoldott valós esettanulmányokon keresztül olyan alkalmazott tudáshoz jutnak, amellyel a jövőben képesek lesznek bármilyen adatelemzési feladat megoldására.
A tantárgy részletes tematikája
- Előadás: Bevezetés. A leginkább elterjedt adatelemzési nyelvek és megoldások bemutatása. Shell script, mint adatelemzési eszköz. Labor: előadáshoz kapcsolódó ismeretek egy példafeladaton keresztül történő begyakorlása.
- Előadás: Awk és sed, reguláris kifejezések. Labor: előadáshoz kapcsolódó ismeretek egy példafeladaton keresztül történő begyakorlása.
- Előadás: Az R nyelv alapjainak bemutatása: használt programozási paradigma, változók, értékadás és egyszerű típusok, fontosabb operátorok, vektorok, szekvenciák. R vezérlési szerkezetek és függvények. Adatbevitel, adat transzformációk és adatok csoportosítása, valószínűségi operátorok, alapstatisztikák. Labor: előadáshoz kapcsolódó ismeretek egy példafeladaton keresztül történő begyakorlása.
- Előadás: R-ben használt további adatstruktúrák és használatukhoz szükséges operátorok: listák, faktorok, mátrixok, data frame. Speciális adattípusok és használatukhoz szükséges operátorok: sztringek és dátumok. R modellezési eljárások (osztályozás, regresszió), optimalizálás, feature extraction és selection módszerek. Labor: alapvető operátorok, struktúrák és vezérlési szerkezetek begyakorlása egy valós telekommunikációs adatsoron.
- Előadás: A SAS nyelv alapjainak bemutatása: programozási paradigma, data lépés, alapvető adattárolási struktúrák és vezérlési szerkezetek, táblaegyesítési módszerek (set join). Labor: előadáshoz kapcsolódó ismeretek egy példafeladaton keresztül történő begyakorlása.
- Előadás: SAS eljárások és statisztikai megjelenítések. Adattisztítási módszerek. Labor: előadáshoz kapcsolódó ismeretek egy példafeladaton keresztül történő begyakorlása.
- Előadás: SAS makró nyelv, makró változók, makró programok, program író makrók. Labor: előadáshoz kapcsolódó ismeretek egy példafeladaton keresztül történő begyakorlása.
- Előadás: SAS nyelv használata regressziós és klaszterezési problémák esetében. Labor: alapvető operátorok, struktúrák és vezérlési szerkezetek begyakorlása egy valós banki adathalmazon.
- Előadás: A Python nyelv alapjainak bemutatása: programozási paradigma, adattárolási struktúrák (pandas) és a feldolgozásukhoz szükséges operátorok. Labor: előadáshoz kapcsolódó ismeretek egy példafeladaton keresztül történő begyakorlása.
- Előadás: Python vezérlési szerkezetek és függvények. Labor: előadáshoz kapcsolódó ismeretek egy példafeladaton keresztül történő begyakorlása.
- Előadás: Idősorok elemzése Pythonnal: tartományok és kezelésük, időzónák kezelése, mintavételezés és frekvenciakonverzió, modellezési és megjelenítési kérdések. Labor: alapvető operátorok, struktúrák és vezérlési szerkezetek begyakorlása egy valós tőzsdei adatsoron.
- Előadás: Eddigi nyelvek összehasonlítása, az egyes nyelvek előnyeinek és hátrányainak összefoglalása. Labor: valós adatelemzési problémák megoldása csoportmunkában a megismert eszközök segítségével.
- Előadás: Kitekintés, nagy adathalmazok kezelésére szánt technológiák (MapReduce, Pig, Hive), speciális adatszerkezetek kezelésére létrehozott technológiák (GraphLab), egyéb adatfeldolgozási paradigmák áttekintése. Labor: valós adatelemzési problémák megoldása csoportmunkában a megismert eszközök segítségével.
- Előadás: Esettanulmányok: valós üzleti problémák megoldásának bemutatása az előadás során ismertetett eszközökkel. Labor: példa vizsgafeladatok megoldása közösen.