Elektronikus kónyvtár - számítógépes szövegelemzés

Elektronikus könyvtár - számítógépes szövegelemzés

Bakonyi Géza, bakonyi@bibl.u-szeged.hu

Egyetemi Könyvtár, Szeged

Lassan már közhely: az Interneten több olyan könyvtár is elérhetõ, amelynek virtuális környezetében jelentõs elektronikus könyvtár található. Ezeket a gyûjteményeket (túlzás nélkül) milliók ismerik és használják. Azt azonban kevesebben tudják, hogy ezekben az intézményekben az elektronikus szövegek gyûjtése, feldolgozása mögött jelentõs szakmai, tudományos programok is találhatók, amelyek a szövegek digitalizálásával, a digitalizált szövegek számítógép-segítette elemzésével, szövegértelmezéssel foglalkoznak. Ahogyan a Magyar Elektronikus Könyvtár (a MEK - ahogy sokan pertu ismerik) egyre nagyobb jelentõségre tesz szert, ezeknek a programoknak a megismerése illetve e programokhoz való csatlakozás, hasonló programok indításának a lehetõsége ugyancsak fontossá válhat. Különösen fontos lehet tudományos-szakmai programok kidolgozása akkor, amikor az elektronikus könyvtárak létrehozását egyre több jogi (lásd copyright) illetve támogatási-pénzügyi vita veszi körül. Ebben az elõadásban, a magam szerény eszközeivel, éppen egy ilyen program körvonalazásával szeretném segíteni a HUNGARNET Kokas Károly vezette könyvtári részlege által létrehozott és a MKE újonnan megalakult szakosztálya által támogatott Magyar Elektronikus Könyvtár programját. A programmal kapcsolatos elképzeléseimet és ezek eredményeit folyamatosan közzéteszem (~tettem) a saját ottlapomon alapított Magán Elektronikus Könyvtáramban.

Mindenek elõtt utalni szeretnék néhány jelentõsebb külföldi projektre és azok eredményeire. Elsõ helyen említeném meg az Oxford Text Arch`vumhoz csatlakozó szövegelmezési prgramot (CTI), amelyhez az angol költészet és irodalom jelentõs szövegeinek feldolgozása kapcsolódik. A program egyrészt az elektronikus szövegfeldolgozással foglalkozik, másrészt az elektronikus szövegek által segített oktatás új eszközeinek a kutatását állította a középpontba. Az új eszköz nem egyszerûen a klasszikus és modern szövegek hypertext feldolgozását jelenti, hanem általában a számítógépnek a humán tudományok oktatásában betöltött illetve betölthetõ szerepének a kutatását, kidolgozását. Az oxfordi program nem csak az oktatást segítõ szoftverek kidolgozásában jár élen, hanem a virtuális osztályterem (Electronic Classroom) elvének kidolgozásában is.

Ugyancsak jelentõs kutatások folynak az USA különbözõ egyetemein. Példaként az egyik legrégebit, a dartmouthi egyetemen folyó Dante programot hoznám fel: az Isteni Színjáték és a kommentárok teljes szövegû feldolgozása, visszakeresési lehetõség a BRS/Search adatbázisban és a megfelelõ kulcsszavak kontextusban való letöltése, akár e-mailben való elküldése a fontosabb kulcsszavak ennél a programnál. Hasonlóan érdekes (ismét az Egyesült Királyság egyetemén, Edinburghban futtatott) Machiavelli Fejedelmének számítógép támogatta elemzésével foglalkozó digitális szövegelemzõ program, ahol a hallgatók maguk dolgozhatják ki a számítógép segítségével Macchiavelli új politikai terminológiájának elveit, mondhatnak véleményt e sajátos nyelvi-politikai szövegalkotásról. Sajátos lehetõségeket tárnak fel e területen az Olaszországban elindított programok is: az olasz irodalom kezdeteivel, a Duecento költészetével foglalkozó Web oldalak pl. lehetõséget adnak a rímpárok keresésére is; Dante Commedia-ja és a modernolasz irodalom jelentõs szövegeinek digitális feldolgozása ugyancsak tanulságos. A szövegek digitális feldolgozásának általános célja kettõs: egyrészt a szöveg objektumként való feldolgozásáról van szó (az úgynevezett szó- és szókapcsolat-mintázatok kutatása, amely lényegében egyik elvi alapja a szótárak kiadásának és a teljes szövegû adatbázisok visszakeresési nyelve megújításának); másrészt a szövegnek mint a kommunikáció tárgyiasult formájának a kutatása. Ez utóbbi messzire vezet: az interaktív szövegfeldolgozásoktól egészen az "értelmes algoritmus" alapján való szövegfeldolgozás (a fordításoktól az abstract)-készítésig.

Ezeknek a programoknak a hátterében olyan szövegfeldolgozási szabványok és az ezekhez kapcsolódó elképzelések állnak, amelyek ma már általánosságban is meghatározzák a digitális szövegfeldolgozást - gondoljunk csak a legnyilvánvalóbbra, a WWW HTML technológiájára. A hypertext feldolgozások természetesen nem csak a web oldalak készítésére szûkülnek le: a modern szövegelmezések alapjává és váltak, gondoljuk csak Genette, Connor és mások kutatásaira Æaz új oralitás kultúrájától" egészen Rolan Barthes Æolvasásra" illetve "írásra" szánt szövegek megkülönböztetéséig tartó elméleti tevékenységére (amely lényegében a posztmodern filozófia egyik alapjává lett).

Ezeknek az elméleti kutatásoknak azonban gyakorlati következménye is lehet. A szöveg, amely megszabadul a nyomtatott könyv fizikai létének rabságából olyan új jellemzõket mutathat fel, amelynek alapján a hagyományos copyright jogi megfontolásai feltétlenül felülvizsgálandók, s nem feltétlenül a hagyományos kiadók nagyobb hasznára. A hypertext szövegfeldolgozások a szövegnek egy különben is meglévõ sajátosságát, az intertextualitást rendkívüli mértékben felerõsítik. Az intertextualitást azonban nem szabad túlértékelni: könnyen a szöveg "túl"-értelmezéséhez vezethet. Azonban a szövegek jól körülhatárolt halmazának (mint egy adott kultúrkör vagy kulturális idõszak szövegeinek összessége) vizsgálatában, az oktatásban való megjelenítésében a hypertext szövegfeldolgozásnak nagyon nagy jelentõsége lehet. Ilyen program a már említett oxfordi program mellett a Perseus, amely a görög kultúra szövegeinek és szövegkörnyezetének a feldolgozásával foglalkozik, vagy az Intermedia, amelynek középpontjában az angol szövegek tanulmányozása áll.

Az intertextualitás elvét kapcsolja össze az elektronikus szótárkészítésben egyre nagyobb szerepet betöltõ SGML technikával az az Interneten is elérhetõ szótárprogram, amelynek a segítségével a fontosabb nyelvek szótárainak a használatát a hálózaton keresztül összekapcsolhatjuk tetszõleges szöveg beolvasásával és fordításával.

A szövegek hypertext feldolgozása azonban még eléggé messze van attól a tényleges folyamattól, amellyel az olvasók szövegértelmezési tevékenysége leírható. Éppen ezért rendkívül érdekesek azok az eredmények, amelyeket a szöveg konkordanciák felállításával kapcsolatban, a szövegek indexelésével (KWIC és vizuális indexek), statisztikai-nyelvi jellemzõivel foglalkozó kutatások során a különbözõ kutatóhelyeken elértek.

Ezek egyike a már említett Macchiavelli A fejedelem c. mûvével kapcsolatos program, amelynek során egy sajátos oktatói és kutatási célokat szolgáló szoftvert fejlesztettek ki, a TACT szövegfeldolgozó és -elemzõ programot. A TACT középpontjában egy KWIC (keyword-in-text) index áll, amelynek segítségével egy adott kulcsszó kontextuális kapcsolatai a legkülönfélébb szinteken jeleníthetõk meg (http://info.ox.ac.uk/ctitext/publish/comtxt/ct11/armstron.html). Természetesen más hasonló programokat is készítettek. Ilyen pl. az MTAS (Micro Text-Analysis System), a Pat (SGML dokumentumok feldolgozására alkalmas), az OCP (Oxford Concordance Program), a WordCruncher (különbözõ indexeket készít konvertált ASCII-szövegekbõl). Igen jelentõs, az elõzõ kutatások eredeményeit is felhasználó kisérlet a Multiconcord. A Multiconcord egy Windows felületre kidolgozott (az elv természetesen más felületen is alkalmahazható), többnyelvû szövegek összehasonlítására is képes szoftver, amelynek használatával a fordítások nyelvészeti, szemiotikai elemzése is lehetséges. A szoftver a szövegfeldolgozás egyik központi problémáját, a szöveg szegmentálásának a kérdését az SGML felhasználásval oldja meg: egyes paragrafusokat, mondatokat jelöli ki és ezek különbözõ nyelven való megjelenését igyekszik összehasonlítani. (Egyben ez a program gyengéje is: amennyiben a paragrafusok, mondatok szegmentálása nem egyezik, a konkordancia megállapítása problémássá válik.)

E kísérletek mellett gyakran találkozhatunk statisztikai jellegû szövegelemzést végzõ programokkal. ezeket sem szabad lebecsülnünk, hiszen értékes adalékokat szolgáltatnak a szövegelemzések hátteréhez. Különösen érdekesek a statisztikai alapú szövegelemzések közül azok, amelyek a megjelenítés vizualitásának megújítását tûzték ki célul (lényegében hasonló megoldással kisérletezik Darányi Sándor is).

Úgy tûnik, csak az összetett megoldások vezethetnek sikerre: önmagában egyik módszer sem jelent kielégítõ megoldást. Szegeden, az Egyetemi Könyvtárban több úton is elindultunk, s bár meglehetõsen messze vagyunk attól, hogy sikerekrõl vagy végeredményrõl számolhassunk be, talán nem minden tanulság nékül való, ha ezekrõl a kísérletekrõl röviden számot adunk.

Az egyik ilyen kísérlet a MEK szépirodalmi anyagának a tükrözéséhez kapcsolódik. A MEK teljes anyaga ugyan visszakereshetõ a KLTE által készített Voyager adatbázisban és a MARC megfelelõ mezõjének a felhasználásával a kiválasztott szövegek azonnal le is tölthetõk, mi mégis tovább kísérleteztünk ezzel az anyaggal. Erre azt az okot találtuk, hogy a MARC felhasználása mintha azt sugallná, hogy a szövegek a katalóguson belül érhetõk el, mi pedig nem szeretnénk a katalógusnak ennyire központi szerepet szánni. Úgy gondoljuk, hogy a szövegek, a szövegekhez kapcsolódó egyéb információk halmaza (életrajzi adatok, fényképek, szkennelt címlapok és egyéb oldalak, stb.) elég nagy jelentõséggel bírnak ahhoz, hogy ne csak a katalóguson belül jelenjenek meg, hanem azzal egyenértékû pozícióban. Zawiasa Róbert egy már nem fejlesztett WWW browser forráskódjának felhasználásval (Chimera) elkészített egy olyan visszakeresõ felületet, amelynek segítségével a keresések nem csak a katalógusban történnek, hanem az egyes tételekhez kapcsolt egyéb képi, szöveges információkat is megjeleníthetõk. Így egyben lehetségessé válik, hogy az egyes írók arcképe mellett életrajzi adatokat, lexikon-cikkeket és teljes szövegeket is megjelenítsünk. Ez azért több, mint a USMARC szabvány által kínált megoldás, mert így azok a szövegek is felhasználhatók, amelyek nem kötõdnek egy nyomtatott példányhoz. Például a Házsongárdra való keresésnél a rendszer utalást ad Áprily versére, vagy Sarkadinak egy-egy novellája, másoknak különbözõ kötetekben megjelent versei egyenként is megjeleníthetõk. Kétségtelen, hogy ebben a megoldásban nagyon sok az esetleg vitatható, szubjektív elem, de mi valójában úgy gondoljuk, egy visszakeresés nem egyszerûen puszta könyvtári munkafolyamat, hanem - egy Benedetto Croce parafrázíst használva - az emberiséget mozgató kíváncsiság dióhéjban, s mint ilyen eleve szubjektum-orientált.

Egy másik szövegfeldolgozási program a Régi Könyvek Osztályán és a Könyvtártudományi Tanszéken közösen folyó kutatáshoz kapcsolódik, s egyre markánsabban egészíti ki a régi könyvek virtuális katalógusát. A program a régi magyar könyvtárak inventáriumait dolgozza fel, ezek szövegeit összekapcsolva három BRS adatbázissal (a könyvtár tulajdonosának életrajzi, az inventáriumban szereplõ eredeti címbejegyzések feloldását tartalmazó bibliográfiai és a tulajdonosra, az egyes könyvtárakra vonatkozó mûvek adatbázisai). A KözelKAT kidolgozásában is résztvevõ és a Somogyi Könyvtárral közös programjainkban is jeleskedõ Burgermeister Zsolt segítségével kidolgozott (természetesen WWW felületen keresztül is elérhetõ) szoftveregyüttes az egyes adatbázisok adatait köti össze a szöveges adatokkal egy oda és vissza is megvalósítható visszakeresési stratégiával. (A program szakmai kidolgozását Monok István és Keveházi Katalin végzi.)

A továbbiakban tervbe vettük a könyvtár másik két jelentõs különgyûjteményi anyagának hasonló, digitális feldolgozását is: egyrészt a könyvtárban található két világháború közötti (ügyészségi kötelesbõl származó) napilapjai cikkszolgáltatásának a megalapozását (a könyvtár ma is sok kérést kap e történeti szempontból rendkívül értékes anyaggal kapcsolatban); másrészt az orientalisztikai gyûjtemény digitális feldolgozását, az anyag egy része CD-ROM kiadásának elõkészítését.

Befejezésül néhány gondolat a számítógépes szövegfeldolgozással, szövegelemzéssel kapcsolatban.

Szinte biztos, hogy az eddig csak nyomtatott vagy általánosságban mondjuk azt, hogy papíralapú kiadás formájában hozzáférhetõ szövegek igényes digitális feldolgozása olyan teljesítmény, amely messze meghaladja a szövegkiadással, adatszolgáltatással kapcsolatos jogi huzavona kereteit. A HTML, SGML vagy PDF és más formátumok alkalmazása olyan lehetõségeket nyit meg a szövegkiadásban, amely messze túlmutat a hagyományos szövegkiadáson. Ahogyan egyes irodalmi szövegek kritikai kiadásával, a szótárak ûjrafeldolgozásával kapcsolatban sem merülhetnek fel copyright problémák, úgy a szövegek minõségi digitális kiadásával kapcsolatban sem - ez éppúgy önálló szellemi tevékenység, mint amaz. Ez az új szituáció természetesen nem a jogalkotás szellemét kérdõjelezi meg, hanem a szabályozás elavultságát világítja meg. Persze, elõbb-utóbb a szolgáltatóknak is szembe kell nézniük azzal a problémával, hogy a szövegek digitális kiadása nem egyszerûen a szövegek virtuóz beszkennélést jelenti, hanem ennél többet.
A szövegek értelmezését illetõen a digitális szövegek megjelenése olyan lehetõséget jelent, amely új utakat nyithat a különbözõ szöveghalmazok különbözõ színtû értelmezésében is. Az ezekhez kapcsolódó módszerek lehetõvé tehetik, hogy például az újságok teljes szövegû (CD-ROM illetve Interneten is elérhetõvé tett) kiadásaiban hatékonyabban és gyorsabban kereshessünk vissza, jelentõsen megkönnyítve ezzel a hagyományos kutatómunkát és a döntésekhez szükséges háttéranyagok összeállítását. Reményeink szerint idõvel lehetségessé válik az irodalmi szövegek számítógép-támogatta értelmezése is. Jelenleg éppen egy olyan módszert próbálunk kidolgozni Zawiasa Róberttel, amely lehetõvé teszi irodalmi szövegek (pillanatnyilag olasz irodalmi mûvek szövegeivel kísérletezünk) többszintû értelmezését. Ez a kísérlet arra alapul, hogy a szövegértelmezési folyamat több értelmezési modell és a szöveg interaktív kapcsolatára vezethetõ vissza. A problémát persze az jelenti, hogy az emberi értelmezés az egyes modellek fokozatait átugorhatja, s ez az asszociációs módszer a gépi értelmezés számára nehezen megfogalmazható (legalábbis ma annak látszik). Ugyanakkor a számítógépes elemzés sokkal gyorsabban hajthatja végre az egyes modellek megkövetelte folyamatokat, így például a szöveg lexikális értelmezését, alapszintû grammatikai és szintaktikai modellekkel való összehasonlítását, tovabbá bizonyos logikai szövegmodellekkel való összevetését (ilyen logikai modell lehet a közmondások párhuzamos retorikai szerkezete, a népmesék igei idõszerkezete, stb.). Ezek az elméleti kutatások természetesen csak a kezdeteknél tartanak, de reméljük valamelyik következõ konferencián már konkrét eredményekrõl is beszámolhatunk.