Big Data szakmai műhely - 2018 ősz

A Műhelyhez kötődő szakmai közösség a Dmlab a hazai adatelemzési szakmai közösség egyik meghatározó csapata. Csapatunk többen a TMIT keretei között végez kutatási-oktatási és projektfeladatokat. Fókuszunkban jelenleg a különböző nyomkövetési adatok (pl. GPS adatok) elemzése, a különböző csalásfelderítési feladatok megoldása, illetve a hagyományos és megújuló energetikához kapcsolódó rövid távú big data előrejelzések építése áll. Ezen a területen nemcsak kutatunk, hanem hús-vér projekteket futtatunk, mely kapcsán a Műhelyt választó hallgatók számára az informatika egy teljes területére tudunk betekintést adni. Egyedül álló módon a csapatunkból több startup cég is kinőtt az évek során, eddigi legnagyobb sikerünk, hogy a big data analitikai megoldást gyártó startup cégünket két éve az amerikai RapidMiner felvásárolta.

A big data jelenség kapcsán az elmúlt években felértékelődött az adatelemzéssel, data science területével foglalkozó szakemberek értéke. A témában járatos fiatal mérnökök egy-egy valós adathalmaz elemzésével új és érdekes összefüggésekre találhatnak rá, az ezeket kihasználó megoldások készítése során belekóstolhattok az alkotás örömébe, ráláthattok hogyan lesz hatékonyabb munkátok hatására egy-egy vállalat, cég.

Vezető konzulens: 
Miért ezt a műhelyt válaszd?: 
Kóstolj bele a data science világába
Feladatok a műhelyben: 

A big data elemzési területtel való találkozás legérdekesebb módja, ha a jelentkező hallgatói csapat egy úgynevezett adatbányászati versenyen indul el. Ezeket legtöbb esetben a kaggle.com oldalon szervezzük (vagy csak a hallgatóknak, de van lehetőség nyilvános nemzetközi megmérettetésbe is bekapcsolódni), ahol egy mintaadathalmaz segítéségével kell gépi tanulási eljárásokra támaszkodva előrejelzést adni olyan adatokra, melyekről nem ismertek bizonyos tényezők. A verseny oldalán a félév során végig követhető, hogyan álltok, a hallgatók önálló munkájának kombinációjával könnyen lehet az eredeti megoldásokat felülmúló új tippeket adni, miközben megismeritek az adatbányászat alapfogásait, és első kézből tapasztalhatjátok meg mennyire kiszámítható az emberi természet vagy a körülöttünk létező világ. A munkát akár programozási nyelvekkel (Python, R) vagy grafikus felhasználói felülettel is rendelkező vizuális programozási környezettel (RapidMiner, Knime, SAS, IBM SPSS Modeler) is meg lehet oldani - az eszközök gyors megismerésében mindenkinek segítünk, korábbi programozási vagy adatelemzési tapasztalat nem szükséges a Műhelyfeladat megoldásához. Igény esetén a big data technológiai stack egyes részeivel (Hadoop, Spark, H2O, stb) is megismerkedhet a hallgató a félév során.

Bemutató alkalom: 2018.08.17. hétfő 14.15-17.00 - FONTOS: szükséges, hogy egy LAPTOP-ot is hozz magaddal az alkalomra

A bevezető alkalmon a data science egyik alapfeladatával fogunk dolgozni Excel alapokon - ezért az a kérésünk, hogy hozz magaddal egy laptopot, ha részt akarsz venni az alkalmon. Lakásárak becslésével fogunk foglalkozni, megnézzük milyen módon lehet megállapítani, hogy egy ingatlan alul-vagy felülértékelt, hogyan segíthet ebben a gépi tanulás, mi módon kell értelmezni egy gépi tanulási eljárás által megtanult összefüggéseket, milyen az a mérnöki munka, ami lehetővé teszi hogy a tanuló algoritmusok valós feladatokat oldjanak meg. Az órán való részvételhez elképzettség nem szükséges, bízunk benne, hogy be tudtok kapcsolódni abba a játékban is, ami a helyszínen születő megoldásokat hasonlítja össze az alapján, ki tudta a legpontosabb becslést addni az ingatlanok áraira. A szükséges adathalmazt és adatbányászati ismereteket a 3 órás alkalom alatt elsajátítjuk.