Kivonatoló program kontra emberi kivonatolás

Lengyelné Molnár Tünde Dr. <>
Eszterházy Károly Főiskola

Kutatómunkám eredményeként készítettem egy magyar nyelvű offline kivonatoló programot. Program alapját, egységeit a szöveg szavai képezik, és ezek közül kerülnek meghatározásra a szignifikáns szavak. A szótő meghatározásáról a Morphologic cég Helyeslem szoftvere gondoskodik. Ezután következik a szavak gyakoriságának meghatározása, valamint a szópárok, szóhármasok és szónégyesek megszámlálása. Az automatikus referátumkészítő szoftver célja egy tartalmi kivonat előállítása, ezért a program outputját a mondatok képezik. Ennek alapját egy súlyozás szolgáltatja, ahol a mondatban szereplő szignifikáns szavak kerülnek pontozásra. A szignifikáns szavak meghatározási módját a felhasználó állítja be, alapja lehet:

Készítettem egy felmérést is, mely a program hatékonyságának vizsgálatát szolgálja. A felmérésben gyakorló könyvtárosok, referátumkészítő szakemberek és informatikus könyvtáros hallgatók által elkészített kivonatokat hasonlítok össze egymással és az általam készített program output állományával.

A felmérés célja az volt, hogy megvizsgáljam, mennyire hatékony az általam készített kivonatoló program. Mielőtt hozzákezdtem a felméréshez, sejtettem, hogy rengeteg technikai-nyelvészeti problémával kell szembenéznem a program megírása során, de a legnagyobb kételyt az okozta, hogy vajon jó lesz-e a program outputja. Ehhez persze tudni kellene, hogy mi tekinthető ?jó? kivonatnak. A felmérés eredményétől azt reméltem, hogy a kitöltők sok hasonló kivonatot fognak előállítani, és ez esetben lesz egy viszonyítási alapom.

Előadásomban szeretném összevetni a program által előállított mondatokat a felmérésben résztvevő személyek által előállított kivonatok mondataival és választ keresni arra, hogy létezik-e globális kivonat, valamint, hogy van-e különbség az automatizálás alapjául választott két módszer adta output között, Luhn módszere és a szótár alapján történő kivonatolás eredménye között.