Tartalomszolgáltatás - egy folyóirat digitális feldolgozása.


Bakonyi Géza <bakonyi@bibl.u-szeged.hu>

Szegedi Egyetem Egyetemi Könyvtár

Az elmúlt években - a számítástechnika, az automatizálás és a számítógépes hálózatok illetve a legutóbbi időkben az Interneten található információ források eredményeinek a, különben eredendően hagyománytisztelő, könyvtárakba való betörésével - egyre több szó esik a hagyományos könyvtári intézményi struktúrák átértékeléséről. A teljes szövegű adatbázisok, a digitális szövegarchívumok és az elektronikus folyóiratok szolgáltatásai egyre természetesebbek - s azt látszanak sugallni, hogy a hagyományos könyvtári bibliográfiai feltárási eszközök elavulnak, újakkal cserélődnek ki.

A valóságban persze csak arról van szó, hogy a hagyományos funkciók megmaradnak illetve legfeljebb átértékelődnek - a hagyományos eszközök viszont újakkal, sokkal hatékonyabbakkal lecserélődnek. Az elektronikus folyóiratok illetve a digitalizált periodikák könyvtári szolgáltatásként való megjelenése a hagyományos eszközök újraértékelésére kényszerítette a szakembereket. A periodikák kezelése különben is speciális feladatot jelentett a könyvtárakban. A periodikák viselkedését inkább jellemzi a kivétel, semmint a periodicitás - érdemes megnézni egy, az ú.n. MARC holdings szabvány alapján működő integrált könyvtári szoftver folyóirat érkeztetési moduljának bonyolult konfigurálási megoldásait, hogy egy pillanat alatt felfigyeljünk erre. A periodikák, szakfolyóiratok ugyanakkor rendkívül sok hasznos információt tartalmaznak - így a különleges bánásmód, az aránytalanul nagynak látszó befektetett munka mégis feltétlenül indokolt. Nem véletlen, hogy a könyvtárakban mindig is a szakmunka felső szintjét képviselte a folyóiratokban található információkat feldolgozó bibliográfiák, repertóriumok és cikkadatbázisok összeállítása, szerkesztése.

Mai szakkifejezéseket használva, azt mondhatjuk, hogy a folyóirat olyan szövegtest (corpus), amely nagymennyiségű információt tartalmaz – s amely információt azonban vagy csak nagyfokú mechanikus elemeket tartalmazó ülőmunkával, cédulázással, vagy speciális információ feltáró eszközökkel lehet hozzáférhetővé tenni.

Az előbbinek modernizált változata a SWETS, az UNCOVER tízezer feletti periodikát feltáró cikkadatbázisa (s részben ide tartoznak a különféle szállítók, illetve szoftver cégek által terjesztett, elektronikus folyóiratok hozzáférését segítő "subject gateway" megoldások), az Országgyűlési Könyvtár PRESSDOK adatbázisa, a COMPLEX Jogtár és más hasonló szolgáltatások.

A nyomtatott bibliográfiák, repertóriumok digitalizálása is kezd elterjedni - az általunk kidolgozott módszer azonban nem ezekkel kíván foglalkozni. Minket elsősorban az érdekelt, hogy egy digitális formában létező folyóirat esetében hogyan lehet a strukturált szövegfeldolgozás eszközeit oly módon hasznosítani, hogy az adott folyóirat szövegéből mintegy "automatikusan" előállítható legyen egy virtuális repertórium - lehetőleg a nyomtatott változatnál nagyobb lehetőségekkel.


Választásunk a Széphalom c. folyóiratra esett - egyrészt azért, mert ez a két világháború között az egyik legjelentősebb, országos terjesztésű szegedi folyóirat volt, másrészt ennek volt olyan nyomtatott repertóriuma, amely alkalmas volt az összehasonlításra. Természetesen csak az első három, teljes évfolyam digitalizálást tudtuk vállalni - a Nemzeti Kulturális Alapnál elnyert pályázat segítségével. Az így digitalizálásra kerülő illetve a Recognita 4. verziója segítségével felismertetett szöveg mennyisége is meghaladta az ezer oldalt. Aki végzett már hasonló feladatott, az pontosan tudja, hogy - akármilyen jó minőségű is a nyomtatás és az archivált példány - a közel hetven éves oldalak digitalizálása sokszor több kézi munkát igényel, mint digitalizálásit. A három kötetet két, felsőfokú végzettséggel, nagy tapasztalattal rendelkező szakember digitalizálta - közel négy hónap alatt (beleértve a korrektúrázást is). Ez az eredmény világosan mutatja már, hogy ilyen jellegű munkát csak akkor érdemes elkezdeni, ha feltétlenül meg vagyunk győződve annak hasznosságáról és fontosságáról.

A digitalizálás során elsőrendű fontossággal bírt a szöveghűséghez való ragaszkodás. Ez nem csak azt jelentette, hogy óvatosan kellett bánni a szóvariánsokkal, hanem elsősorban azt, hogy törekedni kellett az eredeti szövegben alkalmazott nyomdai megoldások megőrzésére: az alkalmazott fontok típusának, nagyságának megőrzésére. Ezek ugyanis mind olyan szemantikai információt hordoznak, amelyeket a strukturált szövegfeldolgozásnál ki lehet majd használni. Így fontos volt figyelni a rovatok eltérő struktúrát tükröző nyomdai megjelenítésére, a szépirodalmi szövegeknél és a nagyobb tanulmányoknál alkalmazott szerkezeti sajátosságokra (szerző, cím, paragrafusok és sorok, megjelenés helye és ideje nyomdai megjelenítése). Külön problémát jelentett a kisebb közlések és a beküldött könyvek illetve a szerkesztőségi közlések nyomdai arculatának digitális tükröztetése, hiszen itt általában kisebb nagyságú illetve speciális fontokkal dolgoztak, amelyeket a Recognita nehezen kezelt. Külön figyelni kellett a ritkán szedett, dőlt, aláhúzott és vastagon szedett betűkkel megjelenített szövegekre, mivel ezek további szemantikai információkat hordoztak: neveket, fogalmakat, idézeteket lehetett meghatározni a segítségükkel.

A digitalizálási és az előkészítő munkát követte az elsődleges feldolgozás szakasza. Ekkor a nyers, digitális szövegekkel dolgoztunk: a digitalizálás során formai eszközökkel megjelenített szöveget Office 1997 Word segítségével egységesítettük. Az azonosnak tekintett szemantikai elemekhez azonos stíluselemeket rendeltünk. Az azonosításhoz előzetesen meghatároztuk az elemek listáját. Ez a következő fontosabb elemeket tartalmazta:

Rovat

Szerző

Cím

Mottó

Paragrafus

Vers címe

Vers szakasza

Vers szakaszainak sora

Megjelenített kiadási hely

Megjelenített kiadási idő

Szövegben alkalmazott név

Szövegben alkalmazott idézet

Rovaton belüli szerző

Rovaton belüli cím

Rovaton belüli kiadási adatok

Rovaton belüli egyéb megjegyzés

Lábjegyzet jelzése

Kép jelzése

Hangsúlyozni szeretném, hogy mindezek az elemek a szöveg megfelelő digitalizálása alapján mechanikusan megállapítható elemek voltak.

Természetesen külön problémát jelentett - s ez az iménti felsorolásból is kiderülhetett - a lábjegyzetek és a képek kezelése. A két elemet együtt említjük - ugyanis mindkettőt képként dolgoztuk fel. Ez természetesen vitatható megoldás, mi azonban emellett döntöttünk. A megoldást azért választottuk, mert mind a képek, mind a lábjegyzetek esetében olyan nyomdai megoldásokkal találkoztunk, amelyeknél a digitalizálás alapján történő szemantikai megfeleltetés kérdésesnek tűnt. Így az információt képként jelenítjük meg - az információt pedig (szoftveres megoldást alkalmazva - itt is megköszönve Krén Emilnek az általuk alkalmazott technika átvételének a lehetőségét) a képhez csatoltuk oly módon, hogy ez a megjelenítés során hasznosíthatóvá váljon.


Az előkészítés szakasza ezzel tulajdonképpen lezárult - bár a későbbiek során szükségessé vált még az eredeti szöveggel való összehasonlítás, kisebb korrekciók megtétele. A következő lépés az előkészített szöveg strukturált, azaz szoftverek segítségével hasznosítható változatának az elkészítése volt. Ehhez kétféle megoldást választottunk. Egyrészt úgy fogtuk fel a szöveget, mint egy (többnyelvű) terminológiai adatbázist - körülbelül egy két- vagy többnyelvű szótár szerkezetének megfeleltetve. Így sikerült előállítanunk egy olyan adatbázist, amely a szöveg alapvető szemantikai szerkezetét kihasználva egy olyan felhasználói felületet képes nyújtani, amely tökéletesen megfelel a hagyományos, nyomtatott repertórium nyújtotta lehetőségeknek. Ehhez egy olyan szegedi cég eszközeit használtuk, amely a két- és többnyelvű szótárak CD-ROM és azok hálózati szolgáltatása terén meglehetős hagyományokkal rendelkezik.

Az általunk választott másik út már messzebbre mutat, s persze rengeteg problémát is felvet. Ebben az esetben a digitalizált szöveget XML leíró nyelvi eszközökkel alakítjuk át olyan strukturált szöveggé, amely a szövegben található egyéb szemantikai elemeket hasznosítja. Ezek az elemek mechanikus úton már nem azonosíthatók, viszont a digitális verzió elkészítését éppen ezek támasztják elő. Ehhez már szakemberekkel való konzultáció is szükséges volt: Ilia Mihály professzor úrral konzultálva kísérletet teszünk arra, hogy a szövegben feltüntessük azokat az elemeket is, amelyek már irodalomtörténeti illetve irodalomelméleti fogalmakhoz, problémákhoz kapcsolódnak. Ily módon egy olyan strukturált szöveghez juthatunk el, amely már a szemantikai, interaktív szövegfeldolgozást is lehetővé teheti. Így érhetünk el az eredeti célkitűzéshez: nem egyszerűen egy szöveg lexikailag releváns egységeinek hierarchizált feldolgozását kapjuk, hanem egy "textuális corpus" értelmes azaz szemantikai feldolgozását.