TELJES SZÖVEGÛ ADATBÁZISOK ÉPÍTÉSE AZ ARCANUM DATABASESNÉL

Biszak Sándor, ardb@odin.net

Arcanum Databases Kft

Abstract

The ARCANUM Databases publishes typical CD-ROMs. We publish the Holy Bible in 8 version, the original hebrew and greek version 3 different Hungarian translations, and the english King James, latin Vulgata and german Luther version. We publish the Magyar Hirlap CD, one of the most important hungarian newspaper and Parliament Speeches (Minutes). The newest project is to publish poems of the greatest Hungarian poets (Petõfi, Ady, etc). It contains 17 poets since XV. century to XX. century. We use FolioViews program, which combine the fulltext and the bibliographics properties. We speak about the problems of the data inputing.

Kivonat

Az ARCANUM Databases Kft kiadásában számos teljes szövegû adatbázis jelent meg. Legelsõként a Biblia jelent meg, melynek legutóbbi 5.0 változata 8 fordításban (3 magyar, héber, görög eredeti, angol, német latin) tartalmazza a teljes szöveget. A Magyar Hírlap CD 2 és fél év cikkeit tartalmazza, az Országgyûlési Napló 4 év plenáris üléseinek jegyzõkönyveit. A legjelentõsebb vállalkozásunk a VesrTár CD, amely 17 klasszikus költõnk (pl. Petõfi,.Arany, Ady, József Attila, stb) összes verseit tartalmazza, teljes szövegû, kereshetõ formában. A kiadásokhoz a FolioViews programot használjuk, amely szerencsésen egyesíti a bibliográfiai és teljes szövegû adatbázisok kedvezõ tulajdonságait. Az elõadás a teljes szövegû adatbázisok adatbeviteli kérdéseit is elemzi.

Egyre szélesebb körben terjednek hazánkban is bibliográfiai adatbázisok mellett a teljes szövegû adatbázisok. Míg a múltban egy-egy mûrõl csak egy rövid bibliográfiai leírás, esetleg rövid ismertetés jelenhetett meg számítógépen, ma mar egyre tipikus, hogy egy-egy mû teljes egészében gépre kerülhet. Ennek megjelenése tipikusan a CD-ROM és az Internet. A robbanásszerû fejlõdés azért jöhetett létre, mert egyre inkább elektronikus formában jönnek létre a dokumentumok, és az utólagos rögzítés helyett egyre inkább a keletkezés helyén, általában a nyomdában megfogható a szöveg.

Az adatbázisok

Az ARCANUM Databasesnél 4 nagyobb projekt keretében folyik teljes szövegû adatbáziskiadás. Idõben legelõször a Biblia adatbázis készült el 1992-ben. Az akkor még DOS alatt CD-n és floppyn is megjelent kiadvány a Károli féle fordítást tartalmazta. A jelenleg frissen elkészült 5.0 változat már 8 teljes bibliát tartalmaz, a jelenleg használt 3 magyar fordítás mellet héber, görög eredeti szövegeket, latin, német és angol verziókat tartalmaz.

Legnagyobb vállalkozásunk a Magyar Hírlap CD, amely 1994. szeptemberétõl 1996. december 31-ig tartalmazza az újságban megjelent összes cikket. Az adat forrása a QuarkXPressben tördelt anyag, a teljes szövegállomány mérete mintegy 200 MByte. 1997 januárjától a cikkek mellett a képeket és a táblázatokat is feldolgozzuk.

Érdekes adatbázis az Országgyûlési Napló 1990-94, amely a teljes parlamenti ciklus plenáris üléseinek hivatalos jegyzõkönyvét tartalmazza. Az anyagot a Parlament titkárságától Word formátumban kaptuk meg, viszonylag struktúrálatlan formában, ebbõl kellett egy struktúrált, hierarchikus szerkezetû adatbázist elõállítani. A teljes szövegû adatbázisok között is viszonylag speciális jellegû eme jegyzõkönyv. Szinte semmihez sem hasonlító szerkezete van, teljesen folytonos, szerkezet nélküli szöveg. Bár a felszólalások bizonyos mértékig strukturálják a szöveget, nagyon nehéz szerkezetbe foglalni az egészet. Az adatbázis mérete mintegy 100 MByte.

Legújabb adatbázisunk a VersTár CD, amely 17 klasszikus költõnk összes versét tartalmazza. A válogatás alapja a középiskolai tananyag volt, így Balassi, Bessenyei, Kazinczy, Batsányi, Csokonai, Berzsenyi, Kölcsey, Vörösmarty, Arany, Petõfi, Vajda, Ady, Juhász Gyula, Babits, Kosztolányi, Tóth Árpád és József Attila verseinek feldolgozása történt meg. A versek mellett az elbeszélõ költemények, epikai mûvek is rögzítésre kerültek, így a Toldi, a János vitéz is megtalálható. A vállalkozás a Magyar Elektronikus Könyvtár közremûködésével jött létre, és célként tûztük ki, hogy az anyag idõvel a itt is elérhetõ legyen. A CD segítségével kutatható a klasszikus magyar költészet nagy része, idézetek, motívumok könnyen gyorsan visszakereshetõ. Az adatbázis mérete meglepõen kicsi, mintegy 15 MByte.

A szoftver

A kidáshoz szükséges szoftvert igen körültekintõen igyekeztünk megválasztani. Magunk is szoftverfejlesztõk vagyunk, a saját fejlesztésû ARCTIS rendszer segítségével jelenik meg számos könyvtári, bibliogrfáfiai CD (MNB, NPA, PRESSDOK, HUNPATÉKA, stb), sõt az elsõ DOS alatti biblia CD ezen szoftver teljes szövegre specializált változatával jelent meg. Igen nehéz volt dönteni, a saját fejlesztés és a szoftvervásárlás között, végül a FolioViews szoftver megvásárlása mellett döntöttünk. Ez mintegy 10000 USD fejében beszerezhetõ, és jogdíj fizetése mellett CD kiadásra használható.

A FolioViews legfontosabb tulajdonságai a teljes szövegû keresés, logikai operátorok, szomszédossági keresés, csonkolás jobbról, balról, maszkolás. Fontos tulajdonsága az intelligens tartalomjegyzék kezelés, a hierarchikus megjelenítés, sõt hierarchikus keresés. A Windows alatt szokásos módon alkalmas a szövegek formattált megjelenítésére (betûtípus, méret, igazítás). A szöveg mellett tetszõleges objektumokat, képek, hangok, videók kezelésére alkalmas. Képes igen nagy méretû adatbázisok gyors kezelésére, nálunk jelenleg a legnagyobb méret a 200 MByte-os Magyar Hírlap.

Különleges tulajdonsága a programnak, hogy a felhasználó saját ízlése szerint alakíthatja az adatbázist, saját, akár kereshetõ megjegyzéseket, kereszthivatozásokat (hipertext link) helyezhet el, programkapcsolatokat hozhat létre. Ezt az ún árnyékfájl (shadow file) technikával éri el, ami egy látszólagos másolata a winchesteren a CD-s adatbázisnak, és azon lehet a módosításokat elvégezni.

Nagyszerûsége a programnak, hogy szerencsésen egyesíti a teljes szövegû és a bibliográfiai adatbázisok elõnyeit, igen fejlett a mezõkezelése, tetszõlegesen jelölhetünk ki mezõket, kereshetünk rájuk, formázhatjuk õket, stb.

A program az utóbbi hetekben megjelent 4-es verziója sok új, izgalmas tulajdonsággal rendelkezik, táblázatok kezelése, relevancia szerinti megjelenítés, gyrosabb, pontosabb keresés, stb. A program rendelkezik WEB serverrel, aminek óriási elõnye, hogy a CD-n megjelent adatbázis változtatás nélkül használható, a HTML lapok elõállítása dinamikusan történik.

Adatbeviteli kérdések

A teljes szövegû adatbázisok elõállításának központi kérdése a szöveg elõállítása. Ez bizonyos méret fölött utólag elõállíthatatlan, gondoljunk csak a minden nap megjelenõ Magyar Hírlapra. Kisebb méretnél (Biblia 5 MByte, VersTár CD 15 Mbyte) az adatrögzítéssel bevihetõk az adatok. Sokszor felmerülõ kérdés a billentyûzés és a szkennelés viszonya. Hosszú évek tapasztalata, hogy nincs lényeges különbség a kettõ között. A teljes szövegellõállításnak mintegy felét teszi ki a szövegrögzítés a másik felét a korrektúra és a javítás. A szkennelés során elõállt szöveg ugyanakkor rosszabb minõségû, így a korrektúra nehezebb, és a termelékenység is csak mintegy 50%-kal nagyobb. Így a teljes költségre vetítve maximum 20-25%-os megtakarítás érhetõ el.

A Magyar Hírlap adatbázisépítés azért tipikus, mert szinte az összes újság, folyóirat tördelése QuarkXPress programmal történik. Ennek, mint szinte mindegyik tördelõprogramnak megvan az a hátránya, hogy a szöveg szinte kinyerhetetlen a tördelt anyagból. Bár sokféle módszer létezett, ún. extension-ök, mindegyik alkalmatlannak mutatkozott ilyen nagy tömegû anyag feldolgozására. Ki kellett dolgozni egy nagyon speciális, a Magyar Hírlapra használható programot, amely a szöveget használható módon, a tördelési információkat felhasználva, azokat mezõszerkezetté konvertálva, szolgáltatja. Így programmal támogatva, de igen sok manuális munkával sikerült 6 hónap alatt a 30 hónapos anyagot feldolgozni. A késõbbiek során kiderült, hogy a készített program világviszonylatban is újszerûnek számít és kis átalakításokkal sokféle újság feldolgozására alkalmas. Ez a projekt megmutatta, hogy még a meglévõ anyagállomány felhasználása is igen nagy munkát, igen sok nehézséget jelent.

Az Országgyûlési Naplót WORD formátumban kaptuk meg, szinte teljesen tiszta szövegként. Itt szinte teljes egészében manuális munkával kellett az anyagot strukturálni.

Terveink

A fenti adatbázisok szinte mindegyike jó alany a folyamatos fejlesztésre. A Magyar Hírlap naponta jelenik meg, úgy tûnik igény van a havi CD kiadásra, illetve a bõvített tartalomra (képek, táblázatok, színes mellékletek). A Biblia kiadványt egyéb fordításokkal illetve bibliamagyarázatokkal, bibliai lexikonokkal, héber illetve görög szótárakkal kívánjuk bõvíteni. A VersTár CD esetén további áttörést a modern költészet jelentene, itt kizárólag a szerzõi jogi akadálya van a kiadásnak, szinte lehetetlen engedélyt szerezni 10-15 költõtõl illetve örököstõl. Így valószínûleg marad a klasszikus irodalom, a folytatásban további költõket tervezünk, drámákat, illetve a világirodalom magyar fordítása. Sajnos ugyancsak jogi akadályai vannak a Napló folytatásának, egyelõre nem lehetséges az update.