Nástroje pro vytváření metadat pro popis elektronických zdrojů

Transkript

Nástroje pro tvorbu metadat Dublin Core
Petr Žabička*
[email protected]
Abstrakt: Tento příspěvek popisuje některé nástroje pro tvorbu metadat Dublin Core – a to
jak těch, které pouze usnadňují manuální vytváření metadat, tak i těch, které tuto práci
ulehčují automatickou analýzou dokumentu. Příspěvek také nastíní možnosti jejich
rozšíření – například propojením s předmětovými hesláři, generátory jednoznačných
identifikátorů (URN) a kontrolních součtů. U obou naposledy jmenovaných technologií
rozebírá výhody a nevýhody jejich použití.
Klíčová slova: Dublin Core, metadata, URN, MD5, NBN
1
Metadata
Ačkoli je pojem metadata pouze novým názvem pro něco, s čím se v knihovnách pracuje od
nepaměti, není dnes už pro nikoho překvapením, že spolu s příchodem tohoto pojmu přichází
do knihoven i výrazná změna v dosavadních postupech a zaběhaných zvyklostech.
Jednou z nejvýznamnějších změn je přesun katalogizační činnosti z knihovníka-katalogizátora
na autora dokumentu. To je umožněno především příchodem jednoduchých metadatových
standardů, které jsou pro autory podstatně přístupnější než standardy vytvořené knihovníky
pro knihovníky.
Vytvoření standardu pro široké masy autorů elektronických dokumentů samozřejmě nestačí,
aby se standard uchytil a rozšířil, je nutné jej podpořit rozsáhlou paletou nástrojů, které dále
usnadní jak tvorbu a editaci, tak i sběr, zpracování a konverzi metadat.
V následujícím textu se zaměříme na nástroje, které významným způsobem usnadňují práci
s metadaty, ať už autorům dokumentů či těm, kteří s vytvořenými metadaty pracují
sekundárně.
2
Metadatové šablony
Způsob uložení metadat v dokumentu závisí do značné míry na jeho formátu a do jisté míry
také na způsobu, jakým je dokument publikován. Je zřejmé, že autorovi, který vytváří html
stránky statické povahy bude plně postačovat některý z online Dublin Core generátorů. Ty
usnadňují přípravu metadat pomocí metadatové šablony – webového formuláře, do jehož polí
se vyplní jednotlivé popisné údaje, které jsou po odeslání přeformátovány do podoby
zdrojového kódu. Ty nejlepší pak nabízejí i určitou formu automatické analýzy dokumentu a
usnadňují tak tvorbu metadat pro existující dokumenty i editaci metadat stávajících. Je ovšem
nutno dodat, že automatická analýza dokumentů se většinou omezuje na zjištění názvu
dokumentu a jeho autora, někdy se pokusí najít v textu slova, která by se mohla stát
předmětovými hesly a určí formát a délku dokumentu.
V této oblasti existují v konkurenci mnoha dalších tyto dva zajímavé nástroje: anglický DCdot a finský Dublin Core metadata creator (obr. 1).
Autor prvního z nich, Andy Powell z The UK Office for Library and Information Networking,
vsadil především na podporu velkého množství výstupních formátů. Mimo běžných formátů
*
Moravská zemská knihovna v Brně, Kounicova 65a, 601 87 Brno
1
jako HTML, XHTML a RDF nabízí ještě 10 dalších výstupních formátů, mezi nimi například
i výstup v USMARCu. Mimo analýzu formátu HTML podporuje DC-dot i omezenou analýzu
souborů formátu MS Word a Powerpoint. Bohužel poskytuje DC-dot podporu jen pro
základní (nekvalifikovaný) Dublin Core. DC-dot [1] je k dispozici i ve zdrojovém tvaru
v jazyce perl a ve vývoji je i verze v jazyce java.
Naproti tomu tým autorů z Helsinské univerzitní knihovny vedený Juhou Hakalou omezil
podporu výstupních formátů na HTML a RDF, nicméně jejich Dublin Core metadata creator
plně podporuje i kvalifikovaný Dublin Core. Tento nástroj, napsaný v jazyce perl a vyvinutý
v rámci projektů Nordic Metadata, je také volně k dispozici. Díky tomu mohl být převeden do
češtiny a v současné době je možné jej vyzkoušet na adrese [2].
obr. 1
Pro uživatele Windows je navíc na zkušební třicetidenní lhůtu k dispozici australský program
Metabrowser [3]. Tento program, v podstatě „jen“ obohacený Internet Explorer, umožňuje při
procházení Internetu v dolní části obrazovky přímo sledovat metadata obsažená v právě
zobrazené stránce a v případě potřeby je rovnou editovat a ukládat (obr. 2). Na Metabrowseru
je zajímavé i to, že podporuje kvalifikovaný Dublin Core a několik dalších, od něj
odvozených schémat. Jde například o podporu správné syntaxe v polích datum, jazyk a
dalších. Vzhledem k tomu, že se zkušební lhůta u tohoto programu vztahuje jen na editační
funkce, lze jej doporučit i jako vhodný program pro prohlížení webu pro informační
pracovníky, kterým může pomoci zvýšit produktivitu práce.
2
obr. 2
Ani jeden z těchto nástrojů však nedokáže analyzovat metadata, uložená mimo vlastní stránku
(takto jsou například uložena ve formátu xml metadata stránek samotné iniciativy Dublin
Core). Je tedy zřejmé, že v oblasti nástrojů pro tvorbu a analýzu metadat ještě dojde k dalšímu
vývoji.
Pro autory, publikující své dokumenty ve formátech jiných než html, mohou tyto nástroje být
přínosem jedině v případě, že ukládá metadata mimo samotný dokument. V takovém případě
je ale třeba používat redakční systém, který umožní zachovat obousměrnou vazbu mezi
dokumentem a jeho metadaty. Takový systém pak ale většinou obsahuje i vlastní nástroje pro
tvorbu metadat a použití výše zmíněných nástrojů by mohlo být kontraproduktivní.
3
Nástroje pro sběr a archivaci
Zatímco produkce jednotlivce dosahuje nanejvýš několika článků denně a lze ji proto ošetřit
výše popsanými prostředky, pozice knihoven je zcela jiná. I pouhá katalogizace
elektronických periodik se při špatně zvoleném rozsahu snadno může změnit v noční můru a
to nemluvíme o jednotlivých číslech nebo článcích. A právě jednotlivé články jsou tím
informačním zdrojem, který zajímá koncového uživatele a zároveň tím zdrojem, který mohl
být opatřen autorskými metadaty již při svém vzniku.
Pokud se knihovna rozhodne, že zmíněné články zpřístupní uživateli jen na dobu omezenou
buď trváním předplatného, existencí vydavatele, nebo existencí samotných článků, ale na
druhou stranu má zájem zahrnout všechny tyto články do jednoho vyhledávacího nástroje,
může použít například některý z volně dostupných nástrojů, připravených právě pro tento
3
účel. Jedním z nich je sada nástrojů pro tvorbu informačních portálů, která vzešla
z evropských projektů DESIRE I a II [4]. Tato sada nástrojů kombinuje systém ROADS,
který umožňuje ruční tvorbu rozcestníků podobných našemu portálu seznam.cz,
s indexovacím strojem Combine, který umožňuje výběrovým způsobem indexovat webový
prostor.
Tato kombinace je ideální pro tvorbu předmětově orientovaných bran, nemůže však v žádném
případě zajistit dostupnost dokumentu v případě jeho přestěhování, nebo ještě hůře úplném
odstranění.
Pro tyto účely byl v rámci evropského projektu Nedlib vyvinut nástroj NEDLIB harvester.
Tento nástroj je, jak již název napovídá, založen na principu kompletního stahování vymezené
části webu a jeho archivaci. Jeho funkce je podrobně popsána v článku [5]. Tento nástroj je
sice volně dostupný, při jeho plošném nasazení však již může docházet, pomineme-li
problémy technického rázu, ke kolizím v problematice autorských práv ke stahovaným a
archivovaným dokumentům. Celou touto problematikou se nyní zabývá projekt Národní
knihovny [6], zmíněný i na jiném místě tohoto sborníku.
4
Nástroje zvyšující kvalitu metadat
Zatímco metadatové šablony pomáhají uživateli především s celkovou syntaxí metadatového
záznamu, zejména pro určité prvky kvalifikovaného Dublin Core by bylo vhodné použít
takové nástroje, které by umožnily sjednotit jejich obsah nejen po stránce syntaktické, ale i
obsahové.
Lze předpokládat, že už nynější provázání české verze finské metadatové šablony a databáze
Polytematického strukturovaného hesláře na úrovni odkazu způsobí zvýšení kvality
vytvářených metadat. Ještě lepší by samozřejmě bylo, kdyby se v budoucnu podařilo oba tyto
nástroje integrovat. Podobně by se dalo využít databáze MDT nebo i autoritního indexu
z online katalogu některé velké knihovny.
Další oblastí, ve které je stále co zlepšovat, je pak oblast automatické identifikace dokumentů.
Nejjednodušším, a proto v současné době nejrozšířenějším identifikátorem dokumentu je
adresa umístění dokumentu v síti, tedy URL. Jak všichni víme, je to identifikace do značné
míry nespolehlivá a někdy i matoucí. Pokud se například provozovatel nějakého serveru
rozhodne v rámci údržby přeindexovat na serveru vystavené články, může se stát, že odkazy
na server zvenčí vedoucí jsou v pořádku, ale vracejí jiný obsah než předtím. Podobně se
snadno může stát, že vydavatel záměrně upraví nebo nahradí kontroverzní dokument, což se
samozřejmě přeneseně dotkne i dokumentu odkazujícího. Na druhou stranu pouhá změna
vzhledu stránky nemusí samozřejmě nutně znamenat změnu informačního obsahu dokumentu.
Při identifikaci dokumentů musíme brát na tyto případy samozřejmě ohled.
4.1
Kontrolní součet – MD5
Chceme-li zjistit, že popisovaný dokument zůstal ode dne vzniku popisných metadat beze
změny, můžeme jako identifikátor použít kontrolní součet. Jako jeden z nejvhodnějších se pro
tento účel nabízí algoritmus kontrolního součtu MD5 [7].
Tento algoritmus vytvoří v podstatě „otisk prstu“ daného dokumentu v podobě 128 bitového
čísla. To bývá obvykle reprezentováno v hexadecimálním tvaru, tedy jako posloupnost 32
znaků 0-9 a a-f. Uvádí se, že pravděpodobnost výskytu dvou dokumentů se stejným
součtem MD5 je 2-64, zatímco k nalezení zprávy s nějakým předem daným kontrolním
součtem by bylo zapotřebí 2128 operací.
4
Podpora pro kontrolní součty MD5 již existuje v mnoha programovacích jazycích (C, C++,
javascript, perl, PHP, Visual Basic) a je tedy snadné ji nasadit všude tam, kde je zapotřebí.
Vzhledem k povaze algoritmu je samozřejmě nutné mít na paměti, že jakákoli i sebemenší
změna dokumentu provedená po vytvoření kontrolního součtu způsobí, že se kontrolní součet
změní a že tedy není možné vkládat metadata obsahující kontrolní součet MD5 zpět do
popisovaného dokumentu. Naopak ideálním nástrojem je kontrolní součet v případě, kdy
chceme odkazovat na elektronické dokumenty archivované dlouhodobě a beze změn.
V takovém případě lze totiž snadno ověřit pravost získaného dokumentu novým výpočtem
kontrolního součtu a jeho srovnáním s původním odkazem. Díky velmi malé
pravděpodobnosti výskytu dvou identických součtů lze také tento součet využít jako primární
klíč pro vyhledávání v archivu dokumentů. Jeho délka je vždy stejná, nehrozí proto například
to, že by identifikátor dokumentu byl delší, než povolená maximální délka vyhledávacího
klíče (například u Oraclu je tato délka 256 bajtů, pokud bychom jako klíč použili URL
dokumentu, snadno by se mohlo stát, že jeho délka tuto hranici přesáhne).
4.2
Uniform Resource Names
Jednou z cest, vedoucích k jednoznačné a na aktuálním umístění nezávislé identifikaci
dokumentu je použití URN. Toto univerzální schéma umožňuje zastřešit různá specializovaná
identifikační schémata včetně například ISBN nebo ISSN. Jeho syntaxe je jednoduchá:
"urn:" <NID> ":" <NSS>
kde to, co je uzavřeno do uvozovek je povinné, <NID> je identifikátor jmenného prostoru
(tedy například ISBN) a <NSS> je řetězec jednoznačně identifikující popisovaný zdroj v rámci
daného jmenného prostoru. Pro účely identifikace online publikovaných dokumentů lze pak
v rámci URN využít jmenného prostoru NBN – National Bibliography Number [8]. Ten
definuje čísla národní bibliografie, přičemž pro jejich automatizované přidělování žadatelům
se počítá s touto strukturou:
<ST>"-"<PR>YYYYNNNN
3166 (u nás tedy cz), "-" je
kde <ST> je kód státu dle ISO
povinná pomlčka, <PR> je prefix,
udávající přidělující agenturu (u nás Národní knihovna, tedy nk), YYYY je rok, ve kterém bylo
číslo přiděleno a NNNN je pořadové číslo, počínaje 1000.
Filozofie tohoto návrhu byla alespoň prozatím převzata i do české metadatové šablony [9].
První letos přidělené číslo u nás by tedy mělo tento tvar:
URN:NBN:cz-nk20011000
Takto vytvořené číslo si uživatel může vložit přímo do dokumentu, aniž by ohrozil jeho
integritu. Čísla přidělená tímto způsobem se nikde nearchivují a jediné omezení při jejich
přidělování je to, že během 24 hodin nelze zažádat z jedné IP adresy o více než 30 čísel. Toto
omezení je však jen obranou před nesmyslnými požadavky, vážní zájemci budou samozřejmě
moci požádat o přidělení většího počtu čísel.
Důvod, proč nedochází k archivaci přidělených čísel je jednoduchý: ve značném počtu
případů není v době přidělení známo konečné umístění identifikovaného zdroje a i kdyby
známo bylo, jen velmi těžko by se udržovalo aktuální. Takto přidělená čísla mají pouze
zajistit propojení jednotlivých výskytů téhož dokumentu v prostoru a čase. Na rozdíl od
použití MD5 lze tímto způsobem propojit i dokumenty, které se sice shodují obsahově, ale liší
se na datové úrovni – jak již bylo uvedeno výše, kontrolní součet se změní i po změně byť jen
jediného bitu v původním dokumentu.
5
Protože každá mince má dvě strany, nesmíme samozřejmě zapomenout ani na nevýhody
přidělovaných čísel národní bibliografie: je na vydavateli dokumentu, aby zajistil, že
s dokumentem svázaný identifikátor je uveden bez chyb či záměrných úprav.
Proto je z dlouhodobého hlediska nejlepším řešením kombinace obou metod, kdy autor
dokumentu použije číslo národní bibliografie z řady přidělené automaticky a pro účely
případné identifikace v archivu elektronických dokumentů pak archivující instituce
vygeneruje identifikátor založený na MD5. I na tuto variantu je v návrhu NBN pamatováno:
Celková struktura URN zůstane zachována, změní se jen prefix, za kterým bude následovat
32 znaků kontrolního součtu. Celé URN pak může vypadat například takto:
URN:NBN:cz-nka-3d516af8e71cc42f369b04efc51322d1
Je zřejmé, že oba přístupy vyžadují podpůrnou infrastrukturu, která těchto identifikátorů
využije nejen pro vlastní potřebu, ale i pro zpřístupnění dokumentů samotných.
5
Závěr
Protože se svět elektronického publikování a metadat stále vyvíjí, lze očekávat, že se v brzké
době rozšíří i nabídka vhodných nástrojů pro jejich uchopení. Pro knihovníky může být
například zajímavá snaha firmy ExLibris o implementaci podpory standardu Dublin Core
v nejnovější verzi Alephu 500, pro uživatele knihoven pak zase výstupy projektů pro
archivaci webového obsahu. V současnosti můžeme k tomuto vývoji přispět i tím, že budeme
metadaty obohacovat například i online verze sborníků, jako je tento.
Použitá literatura a WWW odkazy
1.
2.
3.
4.
5.
6.
7.
8.
9.
http://www.ukoln.ac.uk/metadata/dcdot/
http://webarchiv.nkp.cz/cgi-bin/dc_cz.pl
http://metabrowser.spirit.net.au/
http://www.desire.org/
ŽABIČKA, Petr. NEDLIB Harvester – technika „sklizně“ informací. Ikaros [online]. 2000, č. 10
[cit. 2001-03-23]. Dostupný na World Wide Web:
<http://ikaros.ff.cuni.cz/2000/c10/harvest.htm>. ISSN 1212-5075.
CELBOVÁ, Ludmila. Registrace, ochrana a zpřístupnění domácích elektronických zdrojů v síti
Internet [online] Praha, listopad 2000 [cit. 2001-03-23]. Dostupné na World Wide Web:
<http://www.nkp.cz/start/knihcin/projekty/Elzdroje/reg-elz-zprava.rtf>.
RIVEST, Ronald. The MD5 Message-Digest Algorithm [online] RSA Data Security, Inc., April
1992 [cit. 2001-03-23]. Dostupné na World Wide Web: <http://search.ietf.org/rfc/rfc1321.txt>
HAKALA, Juha. Using National Bibliography Numbers as Uniform Resource Names [online]
Helsinki, 30 January 2001 [cit. 2001-03-23]. Dostupné na World Wide Web:
<http://search.ietf.org/internet-drafts/draft-hakala-nbn-01.txt>
http://webarchiv.nkp.cz/cgi-bin/urn_cz.pl
6

Nástroje pro vytváření metadat pro popis elektronických zdrojů

Transkript

Podobné dokumenty

Souhrnná zpráva za rok 2000 - Národní knihovna České republiky

Informační entity, jejich identifikace a popis

1. INFORMACE, DATA, INFORMATIKA

Březen

Rychlý průvodce programem KaleidaGraph

Pokyny pro přispěvatele do ArcRevue