A tárgyi információkeresés problémái web-környezetben: megoldási törekvések és lehetõségek

Karácsony Gyöngyi

informatikus könyvtáros


Debreceni Egyetem Egyetemi és Nemzeti Könyvtár

Kenézy Könyvtára

4012 Debrecen

Nagyerdei krt. 98.

Tel/fax.: 52/413-847

e-mail: gyongyi@clib.dote.hu

2002.jan.9.

Bevezetõ

“A tudomány … utakat nyithat a faj krónikájának megteremtéséhez, tárolásához és eléréséhez” írja Vannevar Bush 1945-ben megjelent (az utóbbi 5 évben a Web of Science alapján 203 alkalommal idézett) híres cikkében. Ez az alapgondolat indította el egy új kutatási terület, az információ-visszakeresés (information retrieval) megszületését és azóta is tartó gyors fejlõdését.

Az információ-visszakeresés életkorait (1945-2015) a shakespeare-i felosztás szerint tárgyaló írás (Lesk) az 1990-es éveket a “kapuzárási pánik,” (mid-life crisis) a 21. sz. elsõ évtizedét pedig a “kiteljesedés” (fulfillment) korszakának tekinti.

Az 1990-es évek fejlõdési irányai az információ-visszakeresés terén:

A 21.sz elsõ évtizede a következõ kutatási-fejlesztési irányvonalakat mutatja:

Napjaink információs szakembereinek feladata (a 90-es évek eredményeire támaszkodva és a következõ évek kutatási irányának ismeretében) a nagy tömegû információmennyiségben való tájékozódni tudás kialakítása. Több tanulmány kimutatta, hogy a tárgyszavas keresések több mint fele eredménytelen (0 találat vagy túl sok találat).

A keresett információ gyors és hatékony elérését befolyásoló tényezõk közül az indexelés minõsége és a keresõprogram képességei emelhetõk ki. Ezen tényezõk jelentõségét igazolják az említett faktorokra irányuló kurrens kutatási-fejlesztési törekvések.

A megfelelõ stratégia kidolgozása a szakterület feltárására és kereshetõvé - elérhetõvé tételére csak a párhuzamos törekvések elõzetes áttanulmányozásával lehetséges. Az Interneten jelenleg észlelhetõ alapszabályok, törekvések:

A Web hatalmas információmennyisége miatt egy átlagos kereséskor a felhasználó szempontjából tulajdonképpen közömbös hogy honnan van az információ: bibliográfiából, katalógusból vagy weboldalról. Tudományos információk keresése esetén azonban különösen fontos a különbözõ információtípusok megkülönböztethetõsége - tudjon a kutató igénye szerint szelektálni. A lényeg a felhasználó számára szükséges információ gyors, hatékony megtalálása. Ennek alappillére az egymással kölcsönösen egymásra épülõ megfelelõ adatbázis-szerkezet illetve keresési feltételek. A felhasználóközpontúság ezen alapelvét szem elõtt tartva a megfelelõ technikai feltételek kifejlõdése révén lehetõség van adatbázisok összekapcsolására közös felhasználói felületen (közös katalógusok, átfogó tezauruszok építése, olyan szakterületi keresõk - pl. HON - melyek egyetlen keresési feltételre több forrásból többféle, jól elkülöníthetõ információtípusokat kínálnak eredményként).

Integrált könyvtári rendszerek és bibliográfiai adatbázisok keresõfelülete és tárgyszórendszerei

Integrált könyvtári rendszerek

Magyarországon a legtöbb felhasználóval rendelkezõ könyvtári programrendszer a Corvina, melyet a Debreceni Egyetem Egyetemi és Nemzeti Könyvtárának könyvtárai (illetve azok elõdintézményei) 1994 óta használnak. A programrendszer a könyvtári munkafolyamatokat integráltan kezeli a katalogizálástól a kölcsönzésig, a szerzeményezéstõl a folyóiratok érkeztetéséig. A rendszer moduláris felépítésû, így az integrált jellegét éppen az adja, hogy az egyik modulba bevitt adatok egy másik, kapcsolódó modulban azonnal láthatók és használhatók. A tárgyi visszakeresés szempontjából a keresõmodulon kívül a katalogizáló illetve az authority modult emeljük ki.

Keresõmodul

A nyilvánosan elérhetõ online könyvtári katalógusok 1. generációja (1970-es évek közepe) tulajdonképpen a cédulakatalógus gépesített változata volt, azzal megegyezõ adatokkal és visszakeresési lehetõségekkel. Az 1980-as évek közepére új keresési lehetõségek (kulcsszavas keresés, Boole operátorok használata /összetett keresés/, böngészés) megjelenésével kialakult az OPAC-ok 2. generációja. A mai könyvtári rendszerekben használatos webfelületû online katalógus (WebPAC, 3. generáció, a 1990-es évek második felétõl) a számítástechnika, s elsõsorban a hálózatok fejlõdésének eredménye. A WebPAC felhasználói felülete és keresési lehetõségei megegyeznek bármely online bibliográfiai adatbázis keresési lehetõségeivel.

A Corvina jelenleg három keresõfelülettel rendelkezik: Unix-felület (X-terminálokon használható), Java-felület (PC-n futtatható), WebPAC (Web-böngészõvel kereshetõ). Rendelkezésre állnak kulcsszavas keresések a felhasználó által tetszõlegesen definiált indexekre (szerzõ, cím, tárgyszavak, kiadó, megjelenés éve, ETO, LCCN, ISBN, vonalkód, típus, nyelv, stb.), valamint böngészõ keresés lehetséges szerzõ, cím, kontrollált tárgyszavak és egyéb tetszõleges adatelemek listájában.

Jelenleg a Unix- és a Java-felület rendelkezik kifinomult keresési lehetõségekkel, a Web-felület további fejlesztést igényel. A keresések a szokásos logikai operátorokkal (AND, OR, NOT) kombinálhatók, lehetséges a találati halmazok megõrzése és késõbbi keresésben való használata. A modul információkat nyújt az egyes példányok lelõhelyeirõl, kölcsönzési állapotokról, valamint segítségével megtudhatunk speciális állapotokat is (például ha egy könyv vagy folyóirat megrendelés alatt áll, elveszett, szállítás alatt van, stb.).

Katalogizáló modul és authority control

A dokumentumok adatainak adatbázisba vitelére, katalogizálására jelenleg két felület áll rendelkezésre. A hardverhez kötött X-felületet a közeljövõben fokozatosan leváltja a Java modul. A JavaCAT a JavaPAC-hoz hasonlóan az a katalógus szerkesztõbe tudja átvenni a kiválasztott MARC formátumú rekordot. Ebbõl a modulból történik az authority funkciók indítása, valamint a multimédia jellegû információk összekötése a szabványos MARC rekorddal.

Az authority kontroll funkció biztosítja a szabványos névalakok használatát MARC authority rekordokon keresztül. A szerzõ, tárgyszó és cím jellegû mezõk egységesítése egyszerû folyamattá válik a modul használatával, az olvasóknak áttekinthetõ és egyértelmû adatokat nyújtva. Az utalókon keresztül szabványos formában építhetõk vagy alkalmazhatók már kész hierarchikus tárgyszórendszerek a saját katalógusban. A névalak egységesítés és az ún. “global update” során egy-egy kattintással lehet a hibás névalakokat helyesre cserélni valamennyi kapcsolódó bibliográfiai rekordban.

A VOCAL tárgyszórendszere

A VOCAL a Corvina rendszerek közötti közös katalogizálási rendszer. A Corvina bevezetésével egyidejûleg minden könyvtárnak lehetõsége van az eredeti katalogizálás nagyméretû csökkenésére, hiszen ha a VOCAL egy másik tagja már megtette, akkor a leíró adatok azonnal rendelkezésre állnak. A közös katalogizálási rendszer célja rekordforrások szolgáltatása kisebb könyvtárak számára, központi lelõhely- és címnyilvántartás az együttmûködõk részére, egységes és karbantartott authority adatok biztosítása.

Az online katalógusok vizsgálata során több tanulmány kimutatta (Thomas, 163), hogy a tárgyszavas keresések több mint fele eredménytelen (0 találat vagy túl sok találat). Okai:

Ezen problémák egy részének feloldására a VOCAL adatbázis tárgyszórendszere a szokásos online katalógus nyújtotta tárgyi keresésekhez képest két irányban lép tovább: lehetõséget nyújt egy általános tárgyszórendszer fogalmi hierarchiája mentén történtõ keresésre és biztosítja több tárgyszórendszer egymás mellett élését egy bibliográfiai adatbázison belül.

Az adatbázis jelen pillanatban a Debreceni Egyetem Egyetemi és Nemzeti Könyvtárában épített, a Library of Congress tárgyszórendszerének fordításán alapuló szókészletet, az eredeti Library of Congress tárgyszavakat, a Szegedi Egyetem Központi Könyvtárában épített szintén általános tárgyszókészletet, illetve az angol nyelvû MeSH orvosi tárgyszórendszert tartalazza. Mindegyik rendszer az érintett könyvtárak napi feldolgozó munkája által megkövetelt mértékben fejlõdik mind mélységében, mint a feldolgozott szakterületek tekintetében.

Az adatbázisban a tárgyszórekordok minden mezejére kiterjedõ kulcsszavas kereséseket, a deszkriptorokat listázó böngészõ kereséseket lehet végezni, majd az egyes tételektõl kiindulva a fogalmi hierarchiában lépegetve találhatjuk meg a kívánt tárgyszót. Az adatbázis kísérletet tesz a tárgyszavak ETO fõszámokhoz kapcsolására megcélozva az egyes nagyobb tárgykörök szókészletének összegyûjthetõségét.

A megtalált tárgyszó mellett szereplõ VOCAL gombra kattintva átléphetünk a VOCAL bibliográfiai adatbázisába, ahol az adott tárgyszóhoz tartozó bibliográfiai tételeket tekinthetjük meg.

Internetes keresõszolgáltatások tárgyi megközelítésben

A Web-en való tájékozódás elsõdleges segédeszközei a keresõrendszerek; vizsgálatukra és értékelésükre online szolgálatok szakosodtak (pl. searchenginewatch.com).

A keresõszolgáltatások hatékonyságának fejlesztése a következõ irányokban zajlik:

Jelentkeznek bizonyos indexelési-osztályozási törekvések: felismerték, hogy a könyvtártudományban évtizedek óta eredményesen használt osztályozási rendszerek alkalmazásával hatékonyab keresések végezhetõk. Szabványosított alkalmazási törekvés a metaadatok tárgyszó eleme, ami a forrást hitelesebbé, a keresési lehetõségeket eredményesebbé teheti.

Jelenlegi kutatások témája, hogyan lehet a kötött tárgyszórendszereket, az egyes adatbázisok szerkezetét széles tömegek számára érthetõvé tenni.

A keresõrendszerek új, speciális kategóriája a tudományos keresõk:

Scirus

(http://www.scirus.com/)

A Scirus keresõrendszerben a megadott kategóriák mindegyikét vagy bármely kategórák kombinációját kiválaszthatjuk. Kereshetünk pontos kifejezésre (Exact phrase), a megadott szavak mindegyikére (All of the words) vagy bármelyikére (Any of the words). Összetett keresés (Advanced search) esetén két ismérvet kombinálhatunk ÉS, VAGY, és NEM operátorokkal, kiválaszthatjuk hogy milyen mezõben akarunk keresni (cikk címe, folyóirat címe, szerzõ(k), kulcsszó, ISSN, URL és domain név), szûkíthetjük a keresést dokumentumtípus, forrás, és idõintervallum szerint. A tagsággal rendelkezõk a megtalált folyóiratcikkek teljes szövegéhez is eljuthatnak.

Search4Science

(http://www.search4science.com/)

Ez az online keresõ a természettudomány mûvelõinek sajátos keresési igényeit szeretné kiszolgálni: kifejezetten a tudományos kutatók számára készült. Két eltérõ technológia összefûzésén alapszik: az osloi székhelyû Search4Science cég 'Dynamic Search' elnevezésû technológiája kapcsolódik a Northern Light cég 'Custom Search Folders' nevû osztályozasi eljárásához.

A Dynamic Search technológiát a túl kevés információt tartalmazó keresési profilra kigyûjtött sokezer tétel kezelésére fejlesztették ki. A Dynamic Search arra bátorítja a használót, hogy bõvítse a kérésben szereplõ szavakat oly módon, hogy szinonímákat és releváns szavakat kínál föl a keresés szûkítéséhez. A kezelõrendszer ráadásul menet közben tanul a használótól és frissíti a szinonímákat. A Dynamic Search induló szinoníma-adatbázisa 50 ezer szót tartalmazott, azóta a szinonímák száma 235 ezerre duzzadt, s ezeket mind a használók vitték be.

A keresés második fázisában a Northern Light úgy lendíti tovább a keresési folyamatot, hogy a találati halmazt címkézett mappákba rendezi tárgy, típus, forrás, régió és nyelv alapján. Ezeken a mappákon keresztül juthatunk tovább a fókuszált eredményekhez egy-egy specifikus mappa megnyitásakor, amelyek újabb alhalmazok megnyitását teszik lehetõvé.

A szakterület fogalmának átértékelõdése

Az információhoz való tömegméretû hozzáféréssel az orvos-biológia-egészségtudomány szakterülete kibõvült a betegtájékoztatás, egészségvédelem, betegjogok fogalomkörével.

E fejlemény bizonyítékaként megjelentek a közérdekû, tájékoztató jellegû betegtájékoztató portálok, sok esetben az orvosi-egészségügyi szakmai információforrások ikertestvéreként:

A szakterületi tudományos információtartalmak legfõbb szolgáltatójaként (MeSH, PubMed és egyéb adatbázisok) ismert amerikai National Library of Medicine e téren is irányadó szerepet játszva olyan bárki számára hozzáférhetõ, közérdekû szolgáltatásokat kínál, mint a

A nagy amerikai orvosegyetemek honlapgyûjteményei mintájára a tudományos jellegû honlapokon világszerte találhatunk a felsorolt közérdekû információforrásokhoz vezetõ kapcsolódási pontokat. A látogatóknak nehézséget jelenthet a több tucat (esetenként több száz) webcím közül szétválogatni a tudományos illetve közérdekû információforrásokat, ezért a gyûjtemények megfelelõ struktúrája (ami követheti egy tárgyszórendszer szerkezetét) kiépítésével párhuzamosan az információ jellegét (közérdekû vagy szakmai) is érdemes lenne feltüntetni.

Összetett szakterületi keresõk - Health on the Net Foundation

Az információ jellegének és típusainak integrálódása tehát a lehetõségek bõvülésével és a források számának drasztikus növekedésével párhozamosan zajlik. A keresõknek a komplex keresések végrehajtása mellett fel kell készülniük az eredmények struktúrált megjelenítésére. Mindemellett egyre nagyobb az igény az olyan szolgáltatások iránt, melyek a sok millió információforrásból megfelelõ elemzés után csak a hiteles forrásokat emelik ki.

A felsorolt követelményeknek igyekszik megfelelni a Health on the Net Foundation (HON) (http://www.hon.ch/) keresõszolgáltatása. Az egészségügyi szféra jobb, gazdaságos mûködésének érdekében mind a szolgáltatói, mind a fogyasztói oldalt hiteles, megbízható információkkal kívánja ellátni.

A HON webterületén szakterületi webcímgyûjtemény (beleértve az ismert kórházi webcímeket), nemzetközi konferencia-naptár, hírek, tájékoztató anyagok, és két, különféle információforrásokat prezentáló keresõszolgáltatás (MedHunt és HONselect) áll az egészségügyben dolgozók és orvostanhallgatók rendelkezésére. A MedHunt kulcsszavas (szabadszöveges) keresõrendszer, míg a HONSelect-ben a MeSH 33 ezer tételes tezauruszának segítségével kereshetünk.

A szolgáltatások a felhasználói csoportok információigényének megfelelõen vannak tálalva. A betegtájékoztatást célzó oldalon kiemelt helyen találunk tájékoztató anyagokat pl. az anyaság, öregedés, allergia, Hepatitis B, stb. témakörében. A szakembereknek szóló oldalon ezt a helyet a konferencianaptár foglalja el.

A Health on the Net-en elérhetõ információk minõségét ("reliability and credibility:" megbízhatóság és hitelesség) az alapítvány által kidolgozott kódrendszer (HONcode) segítségével kívánják biztosítani. Az alapprobléma ugyanis nem az információk megtalálása, hanem azok relevanciájának, hitelességének ellenõrzése. A HONcode szabályai arra irányulnak, hogy


Bibliográfia

Bush, V.: Út az új gondolkodás felé. Ford. Ivacs Ágnes. (Eredeti változat: As we may think.= Atlantic Monthly, 176. 1945. júl. p. 101-108.) Online: http://mek.iif.hu/porta/szint/muszaki/szaamtech/multimed/memex.hu

Dublin Core Metadata Initiative. Online http://dublincore.org/

Duncan, E.B.: A concept map thesaurus as a knowledge-based hypertext interface to a bibliographic database. = Informatics 10: Prospects for Intelligent Retrieval. LondonÉ Aslib, 1990. p. 43-52.

Duncan, E.B.: A faceted approach to hypertext. = R.McAleese (szerk.): Hypertext: theory into practice. London: Intellect Limited, 1989. p.157-163.

Duncan, E.B.: Structuring knowledge bases for designers of learning materials. = Hypermedia 1989. 1. p. 20-32.

Extensible Markup Language. Online http://www.w3.org/XML/

Girill, T.R.: Fuzzy matching as a retrieval-enabling technique for digital libraries. Online: http://www.asis.org/midyear-96/girillpaper.html

Gõz Á.: Az Interneten elérhetõ információforrások katalogizálása. = Tudományos és Mûszaki Tájékoztatás 1998. 45/8-9. p. 315-330. Továbbá online: http://www.neumann-haz.hu/digital/studies/intercat/index.htm

Health on the Net. Online http://www.hon.ch/

Horváth T.: A második cranfieldi jelentés. = Babiczky B.: Szöveggyûjtemény az osztályozás és indexelés kérdéseinek tanulmányozására. Budapest: Tankönyvkiadó, 1976. p. 213-229.

Lawrence, S.-Giles, C.L.: Searching the World Wide Web. = Science. 1998. 280. p.98-100.

Lesk, Michael. “The seven ages of information retrieval.” UDT Occasional Paper. Online. http://www.ifla.org/VI/5/op/udtop5/

Nielsen, J.: Designing Web usability. Indianapolis: New Riders, 2000.

Rosenfeld, L.- Morville, P.: Information architecture for the World Wide Web. Beijing: O'Reilly, 1998.

Stern, D., szerk.: Digital libraries, philosophies, technical design considerations and example scenarios. New York: Haworth, 1999.

Tapolcai Á.: A hálózati dokumentumok bibliográfiai leírása (meta adatok) és a Dublin Core. Online: http://www.mek.iif.hu/porta/szint/tarsad/konyvtar/ekonyvt/dublin/dublin.mek

Thomas, A.R.-Shearer, J.T., szerk.: Internet searching and indexing: the subject approach. New York: Haworth, 2000.

Ungváry R.: Információkeresés az Interneten, avagy a világméretû hozzáférés a tömegek számára. = Ungváry R.-Orbán É.: Osztályozás és információkeresés: kommentált szöveggyûjtemény. Budapest: Országos Széchényi Könyvtár, 2001. 2. kötet p. 430-480. Továbbá online: http://mek.iif.hu/porta/szint/tarsad/konyvtar/forras/ungvary/html/bevezeto.htm

World Wide Web Consortium. Online http://www.w3.org/

The XML Cover Pages. Online http://xml.coverpages.org/

Yee, M.M.: Guidelines for OPAC displays. = 65th IFLA Council and General Conference Bangkok, Thailand, August 20-28, 1999. Online: http://ifla.inist.fr/IV/ifla65/papers/098-131e.htm