Tudásreprezentáció a weben

Dr. Krauszné Princz Mária

Debreceni Egyetem Mûszaki Fõiskolai Kar

Dr. Rutkovszky Edéné

Debreceni Egyetem TTK Matematikai és Informatikai Intézet

kata@delfin.klte.hu

Abstract

A weben lévõ dokumentumok keresésében a keresõgépek szerepe elsõdleges. Ahhoz, hogy jó, könnyen megtalálható dokumentumot készítsünk, tudnunk kell, hogyan mûködnek a keresõgépek. Ez az elõadás a keresõgépek (search engines) tulajdonságait vizsgálva próbál segíteni a feladatban. Jelenleg a keresõk leginkább még a HTML elemek alapján indexelik és keresik vissza a weben lévõ dokumentumokat, de egyre terjed az XML nyelv használata, amely már jóval pontosabb kereséseket is lehetõvé tesz azáltal, hogy strukturálja és így könnyen lekérdezhetõvé, visszakereshetõvé teszi a dokumentumot.

Hatalmas mennyiségû ismeret érhetõ el a weben keresztül. Ezen óriási mennyiségbõl a szükséges információt tartalmazó dokumentum megtalálására két jól bevált stratégiát követhetünk: keresõgépek segítségével vagy tematikus keresõk alkalmazásával képesek lehetünk megtalálni a keresett anyagot. Ha viszont mi szeretnénk egy dokumentumot a weben elhelyezni, s azt is szeretnénk, hogy minél több ember olvassa azt, akkor a dokumentum megírásánál nem árt ügyelni arra, hogy az jól kereshetõ legyen, azaz a keresõgépek minél könnyebben megtalálják s az eredménylistán minél elõkelõbb helyen szerepeltessék.

A keresõgépek tulajdonságainak ismerete segít a lekérdezések minél hatékonyabb megfogalmazásánál, s ezáltal a minél relevánsabb információ megtalálásában, valamint a jól kereshetõ web oldalak írásánál is.

A keresõgépek mûködési elve: Adatbázisban tárolt indexeken alapul a keresés, amely adatbázisokat web robotok építenek fel. A web robotok olyan számítógépes programok, melyeknek célja az Internet oldalain történõ adatgyûjtés vagy keresés. Jellemzõik az önállóság és a rekurzivitás.

A keresõgépek egy része saját adatbázisából keresi vissza a lekérdezésnél megadott szót, szavakat, kifejezést, de vannak olyan keresési szolgáltatók, amelyek egyszerre több keresõgép adatbázisában is keresnek (meta-search engines).

A tematikus keresõk az Interneten található dokumentumokra mutató hiperhivatkozások témakörönként csoportosított, sokszor hierarchikus gyûjteménye. A dokumentumok kiválogatása a témák szakértõi által történik, így sokszor egy helyen található meg az egész témakört lefedõ, rendszerezett, minõségileg kiválogatott anyag,

Ma már a felhasználók számára egyre inkább elmosódik a különbség a keresõgépek és a tematikus keresõk között, hiszen a fõbb keresõgépek nyitólapjukon közvetítenek portálszolgáltatást, különbözõ, témánként csoportosított hivatkozások gyûjteményét, és fordítva is igaz a dolog: a jelentõs tematikus keresõk lehetõvé teszik a weben való keresést is, amely az üzleti partner keresõgép adatbázisában való keresést jelent.

A továbbiakban a keresõgépekkel foglalkozunk, amelyek a legtöbb segítséget adják, hogy valamely tetszõleges témára vonatkozó dokumentumokat megtaláljunk a weben.

Keresõgépek

A keresõgépek három fõbb funkcionális részbõl állnak: a begyûjtõ robot, az indexelõ eljárás valamint a keresõ rendszer.

Begyûjtés

A különbözõ robotok a weben lévõ dokumentumok csak egy részét indexelik. Különböznek abban, hogy mely szervereket tekintenek kiindulási pontnak, milyen típusú információk között keresnek, az információ kigyûjtésének mely módszerét alkalmazzák, milyen frissítési periódust használnak.

Indexelés

A keresõk különböznek azon szavak gyûjteményének nagyságában (lexicon, thesaurus), amelyeket ismernek, s amelyekbõl adatbázisukat felépítik. A keresõk adatbázisában minden egyes szót (index) a koordináták egy halmaza reprezentál, amely leírja, hogy a keresett szó hol található (mely dokumentumban, bekezdésben, mondatban, címsorban, stb.).

A keresõgépek a dokumentumok különbözõ részeibõl építik fel adatbázisukat:

A dokumentum címét <TITLE> valamennyi keresõ indexeli.
A fejléc információkat a <HEAD> és </HEAD> rész között (pl. file információk, metaadatok) a legtöbb keresõ beépíti az adatbázisába.
Az URL címeket (host, könyvtár, file név) tartalmazzák a keresõk adatbázisai, s néhány keresõnél keresési szempontként külön is megadható.
Számos keresõ egyéb HTML elemeket is indexel: Például címsorokat, horgony elemeket (<A> és </A> közötti rész), kiemelt szövegrészeket.
Míg kezdetben a keresõk csak a dokumentum elejét, esetleg az elsõ néhány bekezdést indexelték, ma már a legjobb keresõk képesek a dokumentumok teljes szövegét indexelni.
Vannak olyan sûrûn elõforduló szavak (pl. névelõk, elöljárók), amelyeket néhány keresõ nem épít be adatbázisába (stop words). Ezen szavak listája keresõnként eltérõ lehet.

Keresõ rendszer

A keresõrendszer a keresési kulcsszavak, kifejezések alapján a keresõgép adatbázisából veszi elõ a keresett dokumentumokat.

A keresés interfész

Valamennyi jelentõs keresõgép a lekérdezések legegyszerûbb formáján kívül (egy vagy több kulcsszó megadása) lehetõvé teszi az összetettebb lekérdezéseket is. Azonban jelentõs eltérések vannak, hogy mely keresõknél mit használhatunk. Az egyes keresõk keresési interfészének ismerete segít a hatékony kereséseknél.

Logikai operátorokkal (AND, OR, NOT) a legtöbb keresõnél kombinálhatjuk a keresési kifejezések szavait. Elhagyásuk esetén több keresési kulcsszó megadásakor egyes keresõk AND, míg mások OR mûveletet vesznek alapértelmezettnek. A szó elõtti + jel használatával elõírhatjuk, a – jellel letilthatjuk szó jelenlétét az eredményhalmazban.
A kulcsszó egyezéses kereséseken kívül kifejezések keresésére is lehetõség van a legtöbb keresõnél. Ekkor a szavak sorrendje lényeges, és a kifejezést a " " jelek közé kell zárni.
Néhány keresõnél a NEAR operátor használatával elõírhatjuk, hogy egy adott szó környezetében kell elõfordulnia a keresett szónak. A szavak közötti távolság keresõnként változhat.
Keresési megszorítások adhatók meg néhány keresõ szolgáltatásnál. Elõírhatunk a dokumentumok létrehozására vonatkozó idõkorlátot, megadhatjuk a dokumentum nyelvét, típusát.
Számos keresõnél kereshetünk különbözõ szempontok szerint: Választhatjuk a keresést a dokumentum címében, a hiperhivatkozások között, illetve az URL alapján.
Egy-két keresõnél lehetõség van a szavak végének levágására. Ekkor a keres* keresés eredménye egyaránt lehet a keresés, keresõgépek, kereskedelem szavak valamelyikét tartalmazó dokumentum.
Kereséskor érdemes arra is figyelni, hogy néhány keresõ kis- és nagybetû érzékeny.

Sorrend

Valamennyi keresõ úgy rendezi a keresés eredményét, hogy az eredmény lista elejére az általa legfontosabbnak tartott dokumentumok kerüljenek, de a rangsorolási algoritmusok keresõnként különbözõk. A fontosság meghatározása alapvetõen két szemlélet szerint történik: az egyik a kulcsszavak elõfordulásának gyakoriságával és az elõfordulás helyével számol (elsõ generációs keresõgépek), de a legújabb trend már a dokumentumra mutató hivatkozásokat, a dokumentum népszerûségét veszi alapul (második generációs keresõgépek).

Valamennyi keresõgép küzd a webmesterek különbözõ mesterkedései ellen, amellyel megpróbálják oldalaik fontosságát megemelni. Ez számos módon történhet:

A kulcsszavak vég nélküli ismétlésével, ami a böngészõ számára láthatatlan, ha a háttérszín és a betûszín azonos, vagy ha a betûméret elég kicsinek van megválasztva, de a keresõ számára ugyanakkor a kulcsszavak láthatók.
A TITLE elem többszörözésével, amelyek közül csak az elsõt jelenítik meg a böngészõk, de a robot valamennyit indexeli.
A tartalom duplikálásával vagy ugyanazon oldal többszöri elõterjesztése, vagy ugyanazon tartalom más hoston való elhelyezése által.
A nyitólapra mutató „mesterséges linkek” elhelyezésével. Ilyenek az olyan oldalak, amelyek egyetlen tartalma egy link egy másik oldalra, vagy amelyek elsõdleges szándéka a felhasználót egy másik oldalra átirányítani.

Az említett próbálkozások eredménye számos keresõgépnél az, hogy az érintett oldalakat alacsonyabb rangsorolással büntetik vagy automatikusan kizárják az adatbázisukból.

Eredmények

Rendszerint a keresési eredmények listái tartalmazzák a dokumentum címét (TITLE), helyét (URL), összegzést róla, néha a dokumentum létrejöttének az idõpontját (néhány keresõgép esetében ez az adatbázisukba való bekerülés idõpontja), vagy a dokumentum méretét.

A különbözõ keresõgépeken feltett kérdések találati listája nagyon különbözõ, és csak nagyon kevés az átfedés közöttük. Ez azt jelenti, hogy célszerû minél több keresõt használni, ha valamely témában alaposan át szeretnénk nézni a weben tárolt dokumentumok tömegét.

Meta jelölõ elemek

HTML dokumentumok leírásánál hasznos a meta jelölõ elemek használata, amelyek segítségével információt adhatunk át az indexelõ résznek, evvel elõsegítve a dokumentum jobb leírását, és kereséseknél is sok keresõgép felhasználja ezen elemeket. A két leggyakrabban használt meta elem a keywords és a description.

Például a keywords használatával megadhatók a dokumentumra vonatkozó kulcsszavak:

A description használatával leírható a dokumentum tartalma. A keresési eredmények listájánál ezen szöveg jelenik meg, hiányában sok keresõ a dokumentum elsõ néhány sorát jeleníti meg

A NAME elemmel megadható még számos egyéb információ (pl. a dokumentum szerzõje, a dokumentum létrehozásának idõpontja, a generáló program, stb.), a HTTP-EQUIV elemmel a dokumentum nyelve, lejárati ideje, típusa paraméterezhetõ, a PICS elemmel kontrolálható a gyerekek számára való hozzáférés, s még számos beállítás lehetséges. Néhány HTML dokumentumot generáló program automatikusan helyez el meta elemeket a forrásban.

Ahhoz, hogy egy meta jelölõ nyelv elterjedjen és sikeres legyen, fontos a keresõk támogatása. Ezt példázza a Dublin Core esete is, amelyet a könyvtárosok igényeinek megfelelõen hoztak létre 1995-ben. A Dublin Core 15 meta jelölõelemet tartalmazó készlettel (pl. kulcsszó, leírás, szerzõ, kiadó, forrás, azonosító, szerzõi jogok, stb.) adja meg valamely dokumentum bibliografikus leírását, és ezáltal kísérli meg feljavítani a weben való kereshetõségét. A gyakorlatban azonban alig használják ezeket a jelölõ elemeket, s a fõbb keresõk egyike sem indexeli õket.

Újabb próbálkozás a dokumentumok jobb strukturálására és ezáltal kereshetõvé tételének javítására az RDF szabvány. Azonban ez a szabvány jóval komplikáltabb, mint az eddigi meta jelölõ elemek, s kérdés, hogy a felhasználók mennyire alkalmazzák majd, illetve az arány mennyire fogja ösztönözni a keresõgépeket fenntartó szolgáltatókat, hogy indexeljék a szabványhoz tartozó XML névterek elemeit. Jelenleg még a jelentõsebb keresõk nem indexelik az XML elemeket.

Resource Description Framework

Az RDF, a Resource Description Framework, azaz a forrásleíró rendszer rövidítése. Jelenleg a W3C ajánlása, és egy jelenleg is folyamatban lévõ fejlesztési munkát jelöl.

Az RDF megalkotásának célja, hogy segítse a weben található erõforrások automatikus feldolgozását, erõforrás felderítést tegyen lehetõvé, és ezzel támogassa a jobb keresõrendszerek kialakítását. Segítse a tartalom katalogizálását azzal, hogy formális nyelvi leíró eszközöket kínál a tartalom és a tartalommal kapcsolatban álló információk automatikus kezeléséhez, strukturált leírásához.

A HTML dokumentumokban adott metaelemek a teljes weboldalról adnak kereshetõ információt, de annak részeirõl, egy-egy linkrõl, ábráról, szövegrészrõl már nem. Az RDF-fel minden forrás, amely a hálózaton URI-vel rendelkezik, szintén a hálózaton található és címezhetõ tulajdonságokkal leírható.

A weblapok jelenlegi formátuma az emberek számára készült, géppel ugyan olvasható, de nem értelmezhetõ vele. A böngészõ alkalmazni tudja a megjelenítésre vonatkozó elõírásokat, például ha egy link van egy URL-re, a beállított színnel aláhúzva jelenik meg a képernyõn, de a link tartalmát már nem tudja feldolgozni. Az ember képes arra, hogy a szövegkörnyezetbõl rájöjjön, hogy a linket követve pl. XY homepage-re juthat, de gépi feldolgozással ezt nem lehet megtudni. A metaleírás ezzel szemben megadhatja, hogy az adott link XY életrajzát tartalmazza.

Az RDF elõzménye – PICS

A weben található dokumentumok elsõ tartalmi megjelölésére, címkézésére és értékelésére a PICS rendszert hozták létre, amely az RDF elõzményeként volt a W3C ajánlása. Neve is mutatja (Platform for Internet Content Selection), hogy tartalomszûrésre alkalmazható. A címkéket alapvetõen pedagógusok és szülõk számára készítették, segítségükkel a gyerekek számára nem megfelelõ tartalmú dokumentumok megtekintése és letöltése letiltható, bizonyos szerverek el nem érhetõvé tehetõk.

A PICS fejlesztése után az általános célú meta adat leírás felé fordultak a tervezõk. Az RDF tervezésének azonban egyik követelménye az volt, hogy mindent ki lehessen fejezni vele, amit a PICS címkékkel, valamint a PICS címkék automatikusan és információvesztés nélkül transzformálhatóak legyenek RDF formátumba.

Az RDF modell a web következõ generációjának, a szemantikus webnek is az alapja. A szemantikus web a maira épülõ olyan globális információs hálózat, amelynek tartalmát gépi intelligencia is képes megérteni, feldolgozni, átalakítani és belõle következtetéseket levonni, azaz új tényeket alkotni. Mindezt a digitális aláírásokkal együtt használva olyan rendszert kapnánk, amely automatikusan és megbízhatóan le tudná venni a vállunkról a legtöbb, jelenleg manuálisan végzett feladat terhét.

1. ábra A szemantikus web rétegei

Az RDF objektumai

Logikai szempontból az RDF modell egyszerû állítás, alany, tárgy hármassal leírható mondatok halmaza.

Elemei:

Tulajdonságok: a forrás leírására szolgáló jellemzõk, attribútumok vagy relációk.

Minden tulajdonság specifikus jelentéssel bír, definiálja a megengedhetõ értékeket, a leírható források típusait és más tulajdonságokkal való kapcsolatát. Maguk a tulajdonságok is rendelkezhetnek globális azonosítóval. Az RDF modellben magukról a tulajdonságokról is tehetünk állításokat. Leírásukra az RDF sémanyelvei szolgálnak, legismertebbek az RDFS és az erre épülõ DAML+OIL. A szemantikus web terminológiájában ontológiának nevezik õket.

Állítások, mondatok: hétköznapi mondatok alannyal, állítmánnyal és tárggyal, melyet a forrás a megnevezett tulajdonsággal és annak értékével együtt alkot.

Például egy egyszerû RDF állítás lehet a következõ mondat:

A http: //www.klte.hu/~kata/index.htm szerzõje Rutkovszky Edéné.

Az RDF modell szemléletesen grafikus formában is megjeleníthetõ a DLG (Directed Labelled Graph), irányított címkézett gráfok segítségével, ahol a mondat tárgyát képezõ forrás egy ellipszisben jelenik meg, az alanyt egy téglalapban ábrázoljuk és a kettõt a tulajdonsággal megnevezett él köti össze irányítottan.

Példánk modellje DLG formátumban:

http: //www.klte.hu/~kata/index.htm szerzõje Rutkovszky Edéné

Az általános leírási mód a hármasokkal adja meg az RDF modellt: {p,s,o} formában

{szerzõje, [http: //www.klte.hu/~kata/index.htm,]”Rutkovszky Edéné”}

Hogyan jelenik meg mindez egy weben elhelyezett dokumentumban?

Az RDF XML alapon készült, s címkéit az RDF specifikációban megadott névtérrõl veszi.

Ennek megfelelõen kis példánk így jelenik meg XML-ben:

<?xml version=”1.0”?>

<rdf :RDF

xmlns:rdf=”http://www.w3.org/1999/02/22-rdf-syntax-ns#”

xmlns:s=”http://description.org/schema/”>

<s:Creator>Rutkovszky Edéné</s:Creator>

</rdf :Description >

</rdf :RDF>

Az RDF-fel tartalmilag jelölt információ és a szematikus web ereje akkor realizálódik majd, amikor olyan programokat, agenseket hoznak létre, melyek összegyûjtik, feldolgozzák a különbözõ forrásokon található web tartalmat, és az eredményeket más programokkal kicserélik. Remélhetõleg a gyakran használt keresõk is beépítik szolgáltatásaikba az RDF-fel címkézett dokumentumok feldolgozását, s ezzel támogatják majd az ismeretek minél hathatósabb megtalálását a weben.