Tipikus időbeli internetezői profilok nagyméretű webes naplóállományok alapján

Schrádi Tamás <>
BME AAIT

A cikk a webes naplóállományokból történő időbeli internezői profilok kialakításának műszaki problémáit ismerteti, két lehetséges feldolgozási módszert vizsgál futási idő, memóriahasználat és a feldolgozás során hasznosítható egyéb tulajdonságok (pl. hibatűrés) szempontjából, valamint a kialakított profilokból meghatározza a tipikusnak mondható felhasználói csoportokat.

A mindennapi munkamenet során a web szerverek a felhasználói kérésékről alapvető adatokat rögzítenek, azonban ezeket a lehető legalacsonyabb absztrakciós szinten, ezért a későbbi elemzés során mindig a megfelelő alakúra kell alakítanunk az adathalmazt, mielőtt az elemzés megkezdhetnénk.

A webes naplóállományok nagy mérete a feldolgozó algoritmusok futási idő szerinti optimalizálását még hangsúlyosabbá teszi, míg a megnövekedett futási idő megköveteli a feldolgozó algoritmus hibatűrő tulajdonságát. A továbbiakban nagy mennyiségűnek számítanak az adatok, amik egy időben nem férnek el az elsődleges memóriában.

A cikk egy referencia, csak belső memóriát használó feldolgozó algoritmust mutat be a futási idejének elméleti vizsgálatával és valós adatokon mért tesztjeivel, hogy bemutassa ennek alkalmatlanságát nagy adathalmazok feldolgozására. Annak érdekében, hogy a feldolgozást egy átlagos memória mennyiséggel rendelkező számítógépen is végre lehessen hajtani, a cikk javításaként két másodlagos memóriát is használó algoritmust is ajánl. A módszerek ismertetésén és futási idejének elméleti vizsgálatán túl, az algoritmusok futási idő szerinti optimalizálását is tárgyalja, figyelembe véve a memória korlátossága okozta megkötéseket. A szakaszos feldolgozás egy hibatűrő feldolgozó módszer, ami a háttértárolóra menti a feldolgozott naplóbejegyzéseket összefésülve a meglévő eredményekkel. A k‑utas összefésülésen alapuló technika első feldolgozási lépésként minden állományt külön feldolgoz, majd a keletkező részekre k‑utas összefésülés segítségével határozza meg az időbeli profilokat. Az időbeli profilok nagy száma miatt embereknek még nem használhatóak jól a kapott profilok. Az egyedi profilokon már alkalmazható egy adatbányászati feldolgozás, aminek segítségével meghatározhatóak a tipikus felhasználói csoportok. A kialakított felhasználói profilok alapján klaszterezés segítségével határozhatjuk meg a tipikus felhasználói csoportokat. Az így kialakult profilok hasznosíthatóak szolgáltatói oldalon.