kapcsolat:   Sidló Csaba István, sidlo@sztaki.mta.hu, +36 1 279 6281   |   Dr. Viharos Zsolt János, viharos.zsolt@sztaki.mta.hu, +36 1 279 6195

Alkalmazások

A következő alkalmazási területeken készítünk működő "big data" analitikai rendszereket:
Mobilitás adatok
Az okos város, az 'Internet of things', a kiber-fizikai rendszerek és sok más új technológia, alkalmazás előretörésével, elterjedésével egyre fontosabbá válik nagy tömegű mobilitás, tehát mozgó objektumok helyváltoztatását leíró adat kezelése, elemzése, jóslása.
Szélerőmű szenzor adatok
A gyakori mintavételezésű szélturbina szenzor adatok teljes körű eltárolásának és kezelésének biztosításával és ezek valós idejű elemzésével hatékony hibadetektálás, hiba-előrejelzés és egy részletes műszaki beszámolórendszer valósítható meg, amelyek a szélturbinák és szélerőmű farmok magas szintű rendelkezésre állását és hatékony működtetését biztosítják.
Blog
Webes blog postok és hozzászólások nagy tömegű és kis késleltetésű feldolgozásával gyorsan reagálhatunk a trendek folyamatban lévő változásaira.
IT-log
A vállalati IT-infrastruktúra naplóüzeneteinek tömeges feldolgozásával és elemzésével elháríthatunk biztonsági kockázatokat, valamint üzleti folyamatokat optimalizálhatunk.


Telekom mobilitás adatok

A mobilszolgáltatók adathalmazai, amennyiben sikerül megfelelő részletességgel összegyűjteni, sok lehetőséget rejtenek magukban a felhasználók mozgásának elemzésére, predikciójára. Ezek az előrejelzések megfelelő alapot nyúthatnak forgalmi előrejelzekhez, útvonal optimalizációhoz, intelligens szállítmányozáshoz vagy forgalom- és várostervezéshez.

Csoprtunk kidolgozott egy telekom mobilitás-adat feldolgozó keretrendszert, aminek segítségével elérhetővé válik a valós idejű előrejelzés nagy adathalmazon, kis késleltetés mellett. A rendszer jól skálázódik, osztott, többgépes környezetben könnyen teljesíti a nagyobb városok eseményszámának feldolgozásához szükséges sebességi és késleltetési kritériumokat.


Az elvégzett kísérletek szerint már egy elavultnak mondható kisebb számítógép-klaszter is elégséges nagyvárosok adatmennyiségének feldolgozásához szükséges sebesség eléréséhez.

A keretrendszerről és az alkalmazott predikciós módszerekről részletek a IEEE Big Data 2013 konferencián előadott cikkünkben találhatók.


Szélerőmű szenzor adatok elemzése

Szélenergetikai rendszerek különösen nagy adatmennyiségeket állítanak elő. Napjaink szélfarm operátorai vagy nem is gyűjtik ezeket az adatokat egy közös, könnyen elérhető adatbázisba, vagy az értékes adatok nagy része törlésre kerül a tradicionális (SQL) adatbázisok skálázhatóságának határai miatt. A feltörekvő „Big Data” megoldások és algoritmusok lehetővé teszik az összes adat gyűjtését, tárolását és előhívását, sőt, így nincs szükség az adatok törlésére sem. Ez nagy előny szélfarmok üzemeltetői számára, mert ez által részletes adatok állnak rendelkezésre, amelyek később számos szempont szerint felhasználhatóak, pl. hibadetektálási és hiba-előrejelzési modellek felépítéséhez, valamint, szélturbinák működési és műszaki adatainak ad-hoc elemzésére is.


Az üzleti intelligencia szoftvereszközök felhasználásával kifinomult és hatékony beszámolási rendszer valósítható meg, ahol a háttérrendszer tipikusan egy adattárház. Az alábbi ábra kombinált „Big Data” és tradicionális SQL adatbázisok architektúra alternatívákat szemléltet.

Az architektúra változatok tesztelésére egy tipikus adattárház aggregációs lépés került kiválasztásra, a feladat egy magas aggregáltságú szélfarm adatkocka töltése számos, eltérő adatforrásból, ezt szemlélteti az alábbi ábra:


A következő ábra az aggregált adatkocka adattöltéséhez szükséges, mért számítási időket mutatja be. Megvizsgálásra került, hogyan viselkednek a görbék az adatmennyiség növekedése (egyre több szélfarm adatainak gyűjtése) esetén, hiszen ez jól méri az eszközök skálázhatóságát.


Az SQL alapú megoldás kb. 40 szélerőmű farmig lineáris viselkedést mutat (kb. 3.2 milliárd adatrekordig), de nagyobb adatmennyiségek kezelésére már nem volt képes. Mindkét vizsgált NoSQL megoldás (különböző hardverkapacitással) az adatmennyiségek növekedésével (a szélerőmű farmok számának növelésével) lineáris kapcsolatot mutatott, és – természetesen – a nagyobb számítási klaszterrel rendelkező kapacitás számítási ideje lényegesen kisebbnek bizonyult.

Szakértők és menedzserek a szélturbinák SCADA adatait különböző, specifikus beszámolókon keresztül elemezhetik, amelyek adatkockákon és adatpiacokon alapulnak. Egy ilyen mintariportot mutat be az alábbi ábra:


A mérések alapján következtetésként megállapítható, hogy a Hadoop és Hive „Big Data” szoftvereszközökkel felépített megoldás költséghatékony alternatívát jelent a tradicionális adattárházakkal és adattöltési megoldásokkal (ETL) szemben pl. szélerőmű farmok SCADA adatainak kezelése esetén.


Webes blog trendek

A blogszféra egy fontos tulajdonsága, hogy a világban történt eseményekre azonnal reagál, véleményt formál. Ha azt figyeljük, hogy adott időpontban milyen témákról született sok bejegyzés, azonosíthatjuk ezen eseményeket, és nagyon gyorsan reagálhatunk rájuk, legyen szó akár egy újság címlapjának elrendezéséről, marketingről, brand-figyelésről vagy közvéleménykutatásról.

Témák időbeli változását segít értelmezni a csoportunk által fejlesztett analitikai megoldás, ami megoldja nagy tömegű adat hatékony lekérését, osztott feldolgozását, tárolását, indexelését és prezentálását egy grafikus felületen.

Demo célú prototípus alkalmazásunk elérhető itt: blog analyzer .


IT-log adatok

Az IT infrastruktúra különböző naplóállományai (audit-, alkalmazás-, rendszer- és eszköz-logok, tágan értelmezve tetszőleges informatikai eszköz vagy szoftver által gyártott naplóbejegyzések) értékes információkat tartalmaznak adott szervezet működéséről, hatékonyságáról, valamint a külső és belső támadások előzményeiről, kockázatairól.


Az értékes információ kinyeréséhez, kis késleltetésű riasztásokhoz nagy mennyiségben és gyorsan kell értelmeznünk, feldolgoznunk a naplóbejegyzéseket.


Csoportunk log-elemző megoldása hatékonyan tisztítja, dolgozza fel és prezentálja az IT infrastruktúra eseményeket, elsősorban IT biztonsági területre koncentrálva. IT-log analitikai eszközeink skálázódását elosztott számítási környezetre való áttéréssel javítjuk tovább, egy "okos campus" projekt keretein belül.

A nyers napló-bejegyzések tisztításához és logikai eseményekké való alakításához használt eszközünk nyílt forráskódú és ingyenes, érdemes kipróbálni:

Longneck