Nástroje pro vytváření metadat pro popis elektronických zdrojů
Transkript
Nástroje pro tvorbu metadat Dublin Core Petr Žabička* [email protected] Abstrakt: Tento příspěvek popisuje některé nástroje pro tvorbu metadat Dublin Core – a to jak těch, které pouze usnadňují manuální vytváření metadat, tak i těch, které tuto práci ulehčují automatickou analýzou dokumentu. Příspěvek také nastíní možnosti jejich rozšíření – například propojením s předmětovými hesláři, generátory jednoznačných identifikátorů (URN) a kontrolních součtů. U obou naposledy jmenovaných technologií rozebírá výhody a nevýhody jejich použití. Klíčová slova: Dublin Core, metadata, URN, MD5, NBN 1 Metadata Ačkoli je pojem metadata pouze novým názvem pro něco, s čím se v knihovnách pracuje od nepaměti, není dnes už pro nikoho překvapením, že spolu s příchodem tohoto pojmu přichází do knihoven i výrazná změna v dosavadních postupech a zaběhaných zvyklostech. Jednou z nejvýznamnějších změn je přesun katalogizační činnosti z knihovníka-katalogizátora na autora dokumentu. To je umožněno především příchodem jednoduchých metadatových standardů, které jsou pro autory podstatně přístupnější než standardy vytvořené knihovníky pro knihovníky. Vytvoření standardu pro široké masy autorů elektronických dokumentů samozřejmě nestačí, aby se standard uchytil a rozšířil, je nutné jej podpořit rozsáhlou paletou nástrojů, které dále usnadní jak tvorbu a editaci, tak i sběr, zpracování a konverzi metadat. V následujícím textu se zaměříme na nástroje, které významným způsobem usnadňují práci s metadaty, ať už autorům dokumentů či těm, kteří s vytvořenými metadaty pracují sekundárně. 2 Metadatové šablony Způsob uložení metadat v dokumentu závisí do značné míry na jeho formátu a do jisté míry také na způsobu, jakým je dokument publikován. Je zřejmé, že autorovi, který vytváří html stránky statické povahy bude plně postačovat některý z online Dublin Core generátorů. Ty usnadňují přípravu metadat pomocí metadatové šablony – webového formuláře, do jehož polí se vyplní jednotlivé popisné údaje, které jsou po odeslání přeformátovány do podoby zdrojového kódu. Ty nejlepší pak nabízejí i určitou formu automatické analýzy dokumentu a usnadňují tak tvorbu metadat pro existující dokumenty i editaci metadat stávajících. Je ovšem nutno dodat, že automatická analýza dokumentů se většinou omezuje na zjištění názvu dokumentu a jeho autora, někdy se pokusí najít v textu slova, která by se mohla stát předmětovými hesly a určí formát a délku dokumentu. V této oblasti existují v konkurenci mnoha dalších tyto dva zajímavé nástroje: anglický DCdot a finský Dublin Core metadata creator (obr. 1). Autor prvního z nich, Andy Powell z The UK Office for Library and Information Networking, vsadil především na podporu velkého množství výstupních formátů. Mimo běžných formátů * Moravská zemská knihovna v Brně, Kounicova 65a, 601 87 Brno 1 jako HTML, XHTML a RDF nabízí ještě 10 dalších výstupních formátů, mezi nimi například i výstup v USMARCu. Mimo analýzu formátu HTML podporuje DC-dot i omezenou analýzu souborů formátu MS Word a Powerpoint. Bohužel poskytuje DC-dot podporu jen pro základní (nekvalifikovaný) Dublin Core. DC-dot [1] je k dispozici i ve zdrojovém tvaru v jazyce perl a ve vývoji je i verze v jazyce java. Naproti tomu tým autorů z Helsinské univerzitní knihovny vedený Juhou Hakalou omezil podporu výstupních formátů na HTML a RDF, nicméně jejich Dublin Core metadata creator plně podporuje i kvalifikovaný Dublin Core. Tento nástroj, napsaný v jazyce perl a vyvinutý v rámci projektů Nordic Metadata, je také volně k dispozici. Díky tomu mohl být převeden do češtiny a v současné době je možné jej vyzkoušet na adrese [2]. obr. 1 Pro uživatele Windows je navíc na zkušební třicetidenní lhůtu k dispozici australský program Metabrowser [3]. Tento program, v podstatě „jen“ obohacený Internet Explorer, umožňuje při procházení Internetu v dolní části obrazovky přímo sledovat metadata obsažená v právě zobrazené stránce a v případě potřeby je rovnou editovat a ukládat (obr. 2). Na Metabrowseru je zajímavé i to, že podporuje kvalifikovaný Dublin Core a několik dalších, od něj odvozených schémat. Jde například o podporu správné syntaxe v polích datum, jazyk a dalších. Vzhledem k tomu, že se zkušební lhůta u tohoto programu vztahuje jen na editační funkce, lze jej doporučit i jako vhodný program pro prohlížení webu pro informační pracovníky, kterým může pomoci zvýšit produktivitu práce. 2 obr. 2 Ani jeden z těchto nástrojů však nedokáže analyzovat metadata, uložená mimo vlastní stránku (takto jsou například uložena ve formátu xml metadata stránek samotné iniciativy Dublin Core). Je tedy zřejmé, že v oblasti nástrojů pro tvorbu a analýzu metadat ještě dojde k dalšímu vývoji. Pro autory, publikující své dokumenty ve formátech jiných než html, mohou tyto nástroje být přínosem jedině v případě, že ukládá metadata mimo samotný dokument. V takovém případě je ale třeba používat redakční systém, který umožní zachovat obousměrnou vazbu mezi dokumentem a jeho metadaty. Takový systém pak ale většinou obsahuje i vlastní nástroje pro tvorbu metadat a použití výše zmíněných nástrojů by mohlo být kontraproduktivní. 3 Nástroje pro sběr a archivaci Zatímco produkce jednotlivce dosahuje nanejvýš několika článků denně a lze ji proto ošetřit výše popsanými prostředky, pozice knihoven je zcela jiná. I pouhá katalogizace elektronických periodik se při špatně zvoleném rozsahu snadno může změnit v noční můru a to nemluvíme o jednotlivých číslech nebo článcích. A právě jednotlivé články jsou tím informačním zdrojem, který zajímá koncového uživatele a zároveň tím zdrojem, který mohl být opatřen autorskými metadaty již při svém vzniku. Pokud se knihovna rozhodne, že zmíněné články zpřístupní uživateli jen na dobu omezenou buď trváním předplatného, existencí vydavatele, nebo existencí samotných článků, ale na druhou stranu má zájem zahrnout všechny tyto články do jednoho vyhledávacího nástroje, může použít například některý z volně dostupných nástrojů, připravených právě pro tento 3 účel. Jedním z nich je sada nástrojů pro tvorbu informačních portálů, která vzešla z evropských projektů DESIRE I a II [4]. Tato sada nástrojů kombinuje systém ROADS, který umožňuje ruční tvorbu rozcestníků podobných našemu portálu seznam.cz, s indexovacím strojem Combine, který umožňuje výběrovým způsobem indexovat webový prostor. Tato kombinace je ideální pro tvorbu předmětově orientovaných bran, nemůže však v žádném případě zajistit dostupnost dokumentu v případě jeho přestěhování, nebo ještě hůře úplném odstranění. Pro tyto účely byl v rámci evropského projektu Nedlib vyvinut nástroj NEDLIB harvester. Tento nástroj je, jak již název napovídá, založen na principu kompletního stahování vymezené části webu a jeho archivaci. Jeho funkce je podrobně popsána v článku [5]. Tento nástroj je sice volně dostupný, při jeho plošném nasazení však již může docházet, pomineme-li problémy technického rázu, ke kolizím v problematice autorských práv ke stahovaným a archivovaným dokumentům. Celou touto problematikou se nyní zabývá projekt Národní knihovny [6], zmíněný i na jiném místě tohoto sborníku. 4 Nástroje zvyšující kvalitu metadat Zatímco metadatové šablony pomáhají uživateli především s celkovou syntaxí metadatového záznamu, zejména pro určité prvky kvalifikovaného Dublin Core by bylo vhodné použít takové nástroje, které by umožnily sjednotit jejich obsah nejen po stránce syntaktické, ale i obsahové. Lze předpokládat, že už nynější provázání české verze finské metadatové šablony a databáze Polytematického strukturovaného hesláře na úrovni odkazu způsobí zvýšení kvality vytvářených metadat. Ještě lepší by samozřejmě bylo, kdyby se v budoucnu podařilo oba tyto nástroje integrovat. Podobně by se dalo využít databáze MDT nebo i autoritního indexu z online katalogu některé velké knihovny. Další oblastí, ve které je stále co zlepšovat, je pak oblast automatické identifikace dokumentů. Nejjednodušším, a proto v současné době nejrozšířenějším identifikátorem dokumentu je adresa umístění dokumentu v síti, tedy URL. Jak všichni víme, je to identifikace do značné míry nespolehlivá a někdy i matoucí. Pokud se například provozovatel nějakého serveru rozhodne v rámci údržby přeindexovat na serveru vystavené články, může se stát, že odkazy na server zvenčí vedoucí jsou v pořádku, ale vracejí jiný obsah než předtím. Podobně se snadno může stát, že vydavatel záměrně upraví nebo nahradí kontroverzní dokument, což se samozřejmě přeneseně dotkne i dokumentu odkazujícího. Na druhou stranu pouhá změna vzhledu stránky nemusí samozřejmě nutně znamenat změnu informačního obsahu dokumentu. Při identifikaci dokumentů musíme brát na tyto případy samozřejmě ohled. 4.1 Kontrolní součet – MD5 Chceme-li zjistit, že popisovaný dokument zůstal ode dne vzniku popisných metadat beze změny, můžeme jako identifikátor použít kontrolní součet. Jako jeden z nejvhodnějších se pro tento účel nabízí algoritmus kontrolního součtu MD5 [7]. Tento algoritmus vytvoří v podstatě „otisk prstu“ daného dokumentu v podobě 128 bitového čísla. To bývá obvykle reprezentováno v hexadecimálním tvaru, tedy jako posloupnost 32 znaků 0-9 a a-f. Uvádí se, že pravděpodobnost výskytu dvou dokumentů se stejným součtem MD5 je 2-64, zatímco k nalezení zprávy s nějakým předem daným kontrolním součtem by bylo zapotřebí 2128 operací. 4 Podpora pro kontrolní součty MD5 již existuje v mnoha programovacích jazycích (C, C++, javascript, perl, PHP, Visual Basic) a je tedy snadné ji nasadit všude tam, kde je zapotřebí. Vzhledem k povaze algoritmu je samozřejmě nutné mít na paměti, že jakákoli i sebemenší změna dokumentu provedená po vytvoření kontrolního součtu způsobí, že se kontrolní součet změní a že tedy není možné vkládat metadata obsahující kontrolní součet MD5 zpět do popisovaného dokumentu. Naopak ideálním nástrojem je kontrolní součet v případě, kdy chceme odkazovat na elektronické dokumenty archivované dlouhodobě a beze změn. V takovém případě lze totiž snadno ověřit pravost získaného dokumentu novým výpočtem kontrolního součtu a jeho srovnáním s původním odkazem. Díky velmi malé pravděpodobnosti výskytu dvou identických součtů lze také tento součet využít jako primární klíč pro vyhledávání v archivu dokumentů. Jeho délka je vždy stejná, nehrozí proto například to, že by identifikátor dokumentu byl delší, než povolená maximální délka vyhledávacího klíče (například u Oraclu je tato délka 256 bajtů, pokud bychom jako klíč použili URL dokumentu, snadno by se mohlo stát, že jeho délka tuto hranici přesáhne). 4.2 Uniform Resource Names Jednou z cest, vedoucích k jednoznačné a na aktuálním umístění nezávislé identifikaci dokumentu je použití URN. Toto univerzální schéma umožňuje zastřešit různá specializovaná identifikační schémata včetně například ISBN nebo ISSN. Jeho syntaxe je jednoduchá: "urn:" <NID> ":" <NSS> kde to, co je uzavřeno do uvozovek je povinné, <NID> je identifikátor jmenného prostoru (tedy například ISBN) a <NSS> je řetězec jednoznačně identifikující popisovaný zdroj v rámci daného jmenného prostoru. Pro účely identifikace online publikovaných dokumentů lze pak v rámci URN využít jmenného prostoru NBN – National Bibliography Number [8]. Ten definuje čísla národní bibliografie, přičemž pro jejich automatizované přidělování žadatelům se počítá s touto strukturou: <ST>"-"<PR>YYYYNNNN 3166 (u nás tedy cz), "-" je kde <ST> je kód státu dle ISO povinná pomlčka, <PR> je prefix, udávající přidělující agenturu (u nás Národní knihovna, tedy nk), YYYY je rok, ve kterém bylo číslo přiděleno a NNNN je pořadové číslo, počínaje 1000. Filozofie tohoto návrhu byla alespoň prozatím převzata i do české metadatové šablony [9]. První letos přidělené číslo u nás by tedy mělo tento tvar: URN:NBN:cz-nk20011000 Takto vytvořené číslo si uživatel může vložit přímo do dokumentu, aniž by ohrozil jeho integritu. Čísla přidělená tímto způsobem se nikde nearchivují a jediné omezení při jejich přidělování je to, že během 24 hodin nelze zažádat z jedné IP adresy o více než 30 čísel. Toto omezení je však jen obranou před nesmyslnými požadavky, vážní zájemci budou samozřejmě moci požádat o přidělení většího počtu čísel. Důvod, proč nedochází k archivaci přidělených čísel je jednoduchý: ve značném počtu případů není v době přidělení známo konečné umístění identifikovaného zdroje a i kdyby známo bylo, jen velmi těžko by se udržovalo aktuální. Takto přidělená čísla mají pouze zajistit propojení jednotlivých výskytů téhož dokumentu v prostoru a čase. Na rozdíl od použití MD5 lze tímto způsobem propojit i dokumenty, které se sice shodují obsahově, ale liší se na datové úrovni – jak již bylo uvedeno výše, kontrolní součet se změní i po změně byť jen jediného bitu v původním dokumentu. 5 Protože každá mince má dvě strany, nesmíme samozřejmě zapomenout ani na nevýhody přidělovaných čísel národní bibliografie: je na vydavateli dokumentu, aby zajistil, že s dokumentem svázaný identifikátor je uveden bez chyb či záměrných úprav. Proto je z dlouhodobého hlediska nejlepším řešením kombinace obou metod, kdy autor dokumentu použije číslo národní bibliografie z řady přidělené automaticky a pro účely případné identifikace v archivu elektronických dokumentů pak archivující instituce vygeneruje identifikátor založený na MD5. I na tuto variantu je v návrhu NBN pamatováno: Celková struktura URN zůstane zachována, změní se jen prefix, za kterým bude následovat 32 znaků kontrolního součtu. Celé URN pak může vypadat například takto: URN:NBN:cz-nka-3d516af8e71cc42f369b04efc51322d1 Je zřejmé, že oba přístupy vyžadují podpůrnou infrastrukturu, která těchto identifikátorů využije nejen pro vlastní potřebu, ale i pro zpřístupnění dokumentů samotných. 5 Závěr Protože se svět elektronického publikování a metadat stále vyvíjí, lze očekávat, že se v brzké době rozšíří i nabídka vhodných nástrojů pro jejich uchopení. Pro knihovníky může být například zajímavá snaha firmy ExLibris o implementaci podpory standardu Dublin Core v nejnovější verzi Alephu 500, pro uživatele knihoven pak zase výstupy projektů pro archivaci webového obsahu. V současnosti můžeme k tomuto vývoji přispět i tím, že budeme metadaty obohacovat například i online verze sborníků, jako je tento. Použitá literatura a WWW odkazy 1. 2. 3. 4. 5. 6. 7. 8. 9. http://www.ukoln.ac.uk/metadata/dcdot/ http://webarchiv.nkp.cz/cgi-bin/dc_cz.pl http://metabrowser.spirit.net.au/ http://www.desire.org/ ŽABIČKA, Petr. NEDLIB Harvester – technika „sklizně“ informací. Ikaros [online]. 2000, č. 10 [cit. 2001-03-23]. Dostupný na World Wide Web: <http://ikaros.ff.cuni.cz/2000/c10/harvest.htm>. ISSN 1212-5075. CELBOVÁ, Ludmila. Registrace, ochrana a zpřístupnění domácích elektronických zdrojů v síti Internet [online] Praha, listopad 2000 [cit. 2001-03-23]. Dostupné na World Wide Web: <http://www.nkp.cz/start/knihcin/projekty/Elzdroje/reg-elz-zprava.rtf>. RIVEST, Ronald. The MD5 Message-Digest Algorithm [online] RSA Data Security, Inc., April 1992 [cit. 2001-03-23]. Dostupné na World Wide Web: <http://search.ietf.org/rfc/rfc1321.txt> HAKALA, Juha. Using National Bibliography Numbers as Uniform Resource Names [online] Helsinki, 30 January 2001 [cit. 2001-03-23]. Dostupné na World Wide Web: <http://search.ietf.org/internet-drafts/draft-hakala-nbn-01.txt> http://webarchiv.nkp.cz/cgi-bin/urn_cz.pl 6
Podobné dokumenty
Souhrnná zpráva za rok 2000 - Národní knihovna České republiky
aj. časopisů. Problém vytváření vazeb na primární obsah se v současnosti soustřeďuje na
článkové databáze proto, že technologie přístupu k datům v síti celkem dobře umožňuje
přístup k článků v elek...
Informační entity, jejich identifikace a popis
za elektronickou publikaci můžeme považovat v podstatě jakýkoli dokument zpřístupňovaný
v elektronické podobě určitému okruhu uživatelů. Pokud však chceme pojednat o
elektronických dokumentech, jej...
1. INFORMACE, DATA, INFORMATIKA
s velkými jednobarevnými plochami. Textový dokument se považuje za ČB obrázek, celý se rozdělí na body, které
jsou buď bílé, nebo černé. Původní data se pak převedou na posloupnost nesoucí pouze in...
Březen
návštěvu připravili a dopoledne upekli tvarohové rohlíčky.
Setkání se zúčastnily i pacientky ze sousední léčebny, paní
Šubrtová a Stehnová. Než přijela návštěva, krátili jsme si
čas povídáním a pro...
Rychlý průvodce programem KaleidaGraph
přírůstek do softwarové knihovny. Pokud budete mít jakékoliv dotazy nebo problémy, kontaktujte
odbor technických dotazů fy Synergy (adresa na konci návodu).
Jakmile ke KalidaGraph správně instalová...
Pokyny pro přispěvatele do ArcRevue
Pro psaní textu používejte co nejstřídmější úpravu (sty‑
ly budou během sazby přeformátovány) a grafickou úpravu
textu řešte pouze do té míry, aby bylo zřejmé: