Digitální knihovny: principy a problémy

Transkript

Digitální knihovny: principy a problémy
Jaroslav Pokorný1
[email protected]
Abstrakt: Digitální knihovna je logickým pokračováním automatizace knihovnických procesů. Spolu z řízeným zpřístupňováním informačních zdrojů na Internetu může přinést kvalitativní změny v přístupu k informacím. V článku jsou diskutovány pojmy digitální
knihovny, komponenty digitální knihovny a dva modely její architektury. Diskutovány jsou
i některé problémy budování digitální knihovny. Je zdůrazněn otevřený přístup
k informačním zdrojům na Internetu a pojetí automatizované digitální knihovny. V závěru
jsou zmíněny otevřené otázky, některé problémy a další vize digitálních knihoven.
Klíčová slova: digitální knihovna, architektura digitální knihovny, model 5S, automatizovaná digitální knihovna, federativní přístup, otevřený přístup k informačním zdrojům.
1
Úvod
Pojem „digitální knihovna“ se používá zhruba od r. 1994. Mezi jeho synonyma patří i starší
pojmy „elektronická knihovna“, „virtuální knihovna“ či „knihovna beze zdí“. Jako v řadě jiných oblastí, také zde se odborníci rádi hlásí k nějakému prvnímu „vizionářskému“ dílu.
V daném případě se jedná o knihovny budoucnosti, které popsal J. C. R. Licklider v roce
19652 [21].
Rozmach projektů digitálních knihoven v 90. letech měl za následek explozi nejrůznějších
odborných aktivit. Na téma digitálních knihoven vznikly knihy [1], specializované časopisy
(např. D-Lib Magazine [10] a International Journal on Digital Libraries [15]), samostatné
konference (např. ACM International Conference on Digital Libraries [11]) a kurzy na vysokých školách (za všechny jmenujme [7]). Přes veškeré tyto snahy, se nezdá jednoduché etablovat digitální knihovny jako samostatnou disciplínu. Jde o oblast, na kterou lze pohlížet
z hlediska již existujících odvětví velmi různorodým způsobem. Pro knihovníky může jít
o další krok ve vývoji automatizace knihoven, odborníci na databáze vidí digitální knihovnu
jako architekturu federativních databází, z hlediska hypertextu jde o aplikaci hypertextové
technologie. Procesy v knihovně lze také organizovat do pracovních toků (workflow), takže
lze uplatnit další disciplinu – workflow systémy.
V poslední době, kdy tématem číslo jedna v informačních technologiích je Web, je možné digitální knihovnu chápat jako množinu integrovaných zdrojů na Internetu vyznačující se nabídkou jistých specializovaných služeb. V extrémnějším pojetí se můžeme setkat s názorem,
že celý Web je digitální knihovnou. Uvádí to, i když trochu s nadsázkou, jedna
z nejvýznamnějších postav v oblasti knihoven M. Lesk [20]. Toto pojetí, které vychází spíše
ze strany zástupců počítačové vědy, je ovšem diskutabilní. Nesouhlasí s ním ani C. Lynch,
další známý odborník, který upozorňuje, že Web nebyl pro podporu organizovaného publikování a vyhledávání informací, jak je vlastní knihovnám, ani navržen. Jinými slovy řečeno,
konzervativnější tábor hlásá, že digitální knihovny jsou především knihovnami. Na druhé
straně současný posun v chápání Webu (mluví se o sémantickém Webu) naznačuje, že Web je
třeba jako jakousi „digitální knihovnu“ brát vážně.
1 MFF UK, Katedra softwarového inženýrství, Malostranské nám. 25, 118 00 Praha
2
Kniha vychází z idejí, které Licklider publikoval již v r. 1959.
1
Již déle je zřejmé, že budování digitálních knihoven je složitějším a dražším procesem, než se
zdálo v počátku 90. let. Článek je pokusem o přiblížení tohoto atraktivního tématu zvláště
z hlediska problémů, které budování digitálních knihoven přináší. Nezanedbatelnou roli
v pohledu na digitální knihovnu hraje webové prostředí, představuje buď alternativu
k digitální knihovně anebo šanci, jak budovat digitální knihovny ve zcela jiném rozsahu i
kvalitě. Akcentovány jsou problémy technologické, částečně ekonomické, vynechány jsou
problémy sociální a právní.
V kap. 2 se diskutuje pojem digitální knihovny. Kap. 3 se zabývá komponentami digitální
knihovny. Kap. 4 ukazuje základní architektonický model digitální knihovny a jeho revizi
vzhledem k současným trendům. Budování digitální knihovny je věnována kap. 5. V kap. 6 je
diskutován otevřený přístup k informačním zdrojům ve vztahu k ekonomickým problémům
(digitálních) knihoven a pojem automatizované digitální knihovny. Závěry naznačují některé
problémy a budoucnost digitálních knihoven. Připojen je i malý glosář některých zkratek.
2
Vymezení pojmu digitální knihovny
Existují desítky definic či vymezení, co je digitální knihovna. Co je společné těmto definicím? Dozvíme se, že
• digitální knihovna není jednotlivá entita,
• digitální knihovna vyžaduje technologii umožňující propojit několik informačních zdrojů,
• propojení mezi více digitálními knihovnami a informačními službami má být pro uživatele transparentní,
• cílem budování digitální knihovny je univerzální přístup k informačním zdrojům a službám.
Podstatné také je, že kolekce v digitálních knihovnách nejsou omezeny pouze na reprezentace
dokumentů: rozšiřují svůj dosah na artefakty, které nemohou být reprezentovány nebo distribuovány v tištěné formě, např. videa přednášek, hlasové záznamy apod.
V této práci budeme pod pojmem digitální knihovna chápat řízenou kolekci informací spolu
s jistými službami, přičemž tyto informace jsou uloženy v digitální formě a jsou přístupné po
síti. Všimněme si, že podobná vymezení lze nalézt i u pojmů jako jsou webové zdroje, databázové systémy, elektronické publikování, dolování dat či e-komerce. Pojem digitální
knihovny je tedy vymezen dost vágním způsobem.
Ze systémového hlediska jde samozřejmě o jistý systém, který se skládá z komponent, jejichž
funkce jsou zajišťovány odpovídajícím softwarem. Účelem systému digitální knihovna je:
• urychlit systematický rozvoj prostředků pro sběr, uložení a organizaci informací a znalostí
v digitální formě v kolekcích digitální knihovny,
• zesílit komunikaci a spolupráci v různých skupinách uživatelů (vědecké komunity, obchodní sféra, státní správa, vzdělávání).
Přehlednou a dostupnou publikací obsahující diskusi různých verzí pojmu digitální knihovny
spolu s řadou modelů digitální knihovny je zpráva [4].
3
Komponenty digitální knihovny
Hovoříme-li o digitální knihovně, pak lze klasickou knihovnu chápat jako fyzickou knihovnu.
Ano, jakákoliv klasická knihovna, byť je dnes vybavena odpovídajícím softwarem, který zahrnuje katalogizaci, výpůjční a další služby, není zatím digitální knihovnou. Data v počítači
týkající se fyzické knihovny, např. katalog a seznam čtenářů, jsou vzhledem k materiálu v re2
gálech knihovny pouhými metadaty. Digitálnost knihovny je tedy do značné míry dána použitím digitálních dokumentů.
Autoři [22] rozlišují elementy knihovny a doménu knihovny. V každé knihovně existují tři
třídy elementů: data, metadata a procesy. Data jsou představována materiálem, které
knihovna vlastní, metadata popisují tento materiál, procesy jsou aktivní funkce, které se provádějí nad elementy. Některé z procesů jsou dnes úplně nebo částečně automatizované, jiné se
provádějí ručně. Užitečné je přiřadit elementům role, které elementy plní např. vzhledem
k uživateli nebo uvnitř knihovny samotné.
Doména knihovny je univerzum, ze kterého čerpá materiál knihovny. Digitální knihovna by
zřejmě měla obsahovat digitální data. Víme však, že tomu tak vždy není a zřejmě
v průměrném případě bude digitální knihovna vždy nějakým způsobem provázána s fyzickou
knihovnou, tj. bude knihovnou hybridní. Bude obsahovat fondy fyzických dokumentů, některé její fondy budou digitalizované, některé však nebudou mít žádný fyzický protějšek.
Např. soubor elektronických časopisů, ke kterým není vydávána jejich papírová verze (viz
např. [Po99b]), či hypertextová kniha jsou příklady poslední alternativy.
Speciální případ představují fondy, které lze zakoupit na digitálních mediích. Jsou digitální
formou fyzických fondů a provozují se jako jeden element knihovny. Může jít např. o soubory
časopisů či článků z konferencí za určité období apod. V jiné podobě jsou tyto fondy
v digitální formě umístěny jinde na Internetu a přístupné přímo (on-line) přes knihovnu. Příkladem z praxe mohou být digitální knihovny ACM [8] a IEEE [9]. Lze ji zakoupit na nosičích CD-ROM a nebo přistupovat přímo prostřednictvím placené služby odkudkoliv na Internetu.
objekty převedené
z fyzických zdrojů
nové digitální objekty
data
metadata
procesy
kniha, časopis, video
statický index
akvizice dat
tezaurus
katalogizace
klasifikace
vyhledávací služby
prostorové umístění
výpůjční služby
hypertextová kniha
dynamický index
počítačový program
profily uživatelů
plnotextové
vyhledávání
vizualizace vědeckých anotace zdrojů
dat
tématické portály
elektronický časopis
personalizace nabídek
přírůstků
výběr pomocí agentů
ontologie
Tabulka 1: Klasifikace elementů digitální knihovny
Pro knihovníky může být užitečné klasifikovat elementy digitální knihovny podle jejich
vzniku. V tabulce 1 jsou ukázány výsledné kategorie. Zmíníme se o problémech souvisejících
s jednotlivými kategoriemi. Digitalizace fyzických objektů sebou nese problémy
s rozhodováním, která data a metadata digitalizovat a která nikoliv. Je jasné, že něco, např.
údaje o charakteru vazby knihy, počtu kopií či prostorovém umístění knihy, ztrácí
v digitálním prostředí smysl. Současným knihovníkům jsou dnes již blízké automatizované
3
knihovnické procesy, které nahradily ty předchozí, tj. ty, které se prováděly před příchodem
knihovnického software. V digitální knihovně může být služba zapůjčení svázaného ročníku
časopisu nahrazena procesem vyhledání několika relevantních článků, jejich vytištěním a zúčtováním. Akvizice nových titulů je částečně nahrazena tvorbou tématických portálů. Budování kolekcí ustupuje nárokům na přístup k datům a jejich výběr na základě uživatelských požadavků, bez ohledu na to, kde je umístěn zdroj těchto dat.
S příchodem nových typů digitálních dat a jejich distribuovaného rozmístění na Internetu je
dnes hlavním problémem zmapovat a zpřístupnit tyto zdroje. To představuje netriviální technologické nároky na tvorbu metadat a jejich organizaci. Zdůrazněme, že na části řešení těchto
problémů se podílejí a budou podílet sami knihovníci, resp. další pracovníci knihovny. Důsledkem těchto změn jsou opět nové typy služeb a z toho vyplývající nové procesy.
4
Architektura digitální knihovny
Na velmi obecné úrovni je možné digitální knihovnu chápat jako jistou interakci mezi výpočetními systémy a lidmi. Výpočetní systémy zahrnují servery a klienty, účastníky interakce
jsou tvůrci informací nebo jejich vydavatelé, knihovnici a uživatelé (obr. 1). Připomeňme, že
odborníci na software v daném schématu okamžitě rozpoznají aplikaci architektury klientserver, která se přirozeně nabízí k použití.
uživatel
knihovník
k
tvůrce
informací/
vydavatel
server
digitální
knihovny
klient
digitální
knihovny
Obr. 1: Klasické konceptuální schéma digitální knihovny
Příkladem realizace uvedené architektury může být projekt NDLP v Kongresové knihovně
z poloviny 90. let [2]. Toto základní schéma je však v dnešní době poněkud zastaralé. Již déle
je zřejmé, že digitální knihovna nemůže být zkonstruována jako jeden monolitický, technicky
centralizovaný systém. Přirozeným řešením jsou tzv. federativní databáze (obrázek 2). Tato
architektura je známa i mimo digitální knihovny. Je založena na existenci komponent, které
jsou provozovány autonomně a přitom jsou schopné vzájemné komunikace. Každá tato komponenta může být digitální knihovnou nebo i jenom jednoduchým informačním zdrojem, jako
je např. webová stránka obsahující roztříděnou předmětnou oblast se zajímavými odkazy dále
do Internetu.
Konstruktéři digitálních knihoven chápou federativní architekturu v poněkud omezené verzi.
Přístup ke komponentám je nejčastěji veden přes jistý speciální uzel (na obr. 2 je to server digitální knihovny), který obsahuje společné schéma, do kterého jsou zobrazeny participující
komponenty. Tato architektura není tak pružná, jak by se na první pohled zdálo. Každá další
komponenta musí být zapojena jako speciální případ. Nicméně na základě přísných protokolů
4
a nemalého úsilí vloženého do prezentace uživatelských služeb může být dosaženo transparence komponent. Uživatel formuluje své požadavky jedním dotazovacím jazykem, v jednom
prostředí. Podobně jsou mu i prezentovány odpovědi. V knihovnickém prostředí se uplatňuje
zejména protokol americké National Information Standards Organization Z39.50.
Všimněme si, že i v architektuře na obr. 2 je vzata v úvahu možnost, že uživatel přistupuje ke
zdrojům přímo, bez pomoci prostředí digitální knihovny. To jistě implikuje možnost totální
izolace uživatele a systému digitální knihovny.
uživatel
knihovník
tvůrce
informací/
vydavatel
server
digitální
knihovny
klient
digitální
knihovny
tvůrce
informací/
vydavatel
tvůrce
informací/
vydavatel
Internet
Obr. 2: Konceptuální schéma digitální knihovny s distribuovanými informačními zdroji
V tabulce 2 jsou vedle federace ve výše uvedeném smyslu popsány ještě dvě další tradiční
možnosti komunikace v digitální knihovně. Ta nejvolnější, shromažďování dat, vede k tomu,
že uživatel vidí komponenty a komunikuje s každou samostatně pomocí jejího vyhledávacího
stroje, nebo použije univerzálního prostředku (Altavista, Google, HotBot apod.). Nevýhodou
prvního řešení je, že uživatel je nucen zvládnout více softwarových rozhraní a nástrojů, druhá
možnost sebou nese základní handicap univerzálního vyhledávacího stroje – nízký koeficient
přesnosti, doprovázený ovšem vysokým koeficientem úplnosti. S mnoha sty či tisíci hity se
jistě každý uživatel Webu mnohokrát setkal a to i v případech, kdy algoritmus vyhledávacího
stroje řadí ty nejrelevantnější hity na začátek seznamu. Shromažďování dat se používá
u organizací, které nejsou připraveny na kooperaci postavenou na technologicky přínosnějších
základech.
Tzv. sklízení (harvesting) dat či metadat je založeno na přímém vstupu do vzdálených digitálních knihoven prostřednictvím metadat, která objevuje vyhledávací robot prohledávající síť.
5
Robot může být instruován tak, že vyhledává např. otevřené archivy zdroje popsané pomocí
standardu Dublin Core (dále DC). Tato metoda se používá hlavně pro vstup do otevřených archivů (např. e-Print archivy pro fyziku, matematiku a informatiku umístěné na arXiv.org [16])
a je podporována iniciativou Open Archives a konsorciem Digital Library Federation. V praxi
to funguje tak, že chce-li nějaká knihovna participovat v nějaké síti digitálních knihoven,
musí spolupracovat alespoň na této úrovni kooperace. Do dané kategorie lze pojmout i řešení
známé pod jménem SFX, které je založeno na dynamickém propojování databází a přiřazování těchto vazeb dokumentům.
Že se uvedené techniky kooperace úspěšně vyvíjejí, dokumentuje např. ResearchIndex. Je to
efektivní digitální knihovna1, která je budována automaticky pomocí shromažďování dat.
Úroveň
federace
sklizení (meta)dat
shromažďování dat
vyhledávací
middleware
Způsob kooperace
striktní použití standardů (syntaktické,
sémantické, obchodní)
digitální knihovny nabízejí základní
metadata; jednoduchý protokol a registrace
digitální knihovny nekooperují; informace se
musí hledat explicitně pomocí služeb
zdroje vybavené metadaty jsou volně
zapojovány do kooperace
Příklad
MARC, Z 39.50
otevřené archivy
vyhledávací stroje
Z 39.50, XML, RDF,
SDLIP2
Tabulka 2: Kooperace na různých úrovních
Dnes mnohem atraktivnější řešení nabízejí některé projekty založené na (vyhledávacím) middleware. To je jistý zprostředkující software, přes který se dotazy z digitální knihovny, či od
samotného uživatele dostávají podle jistých pravidel k informačním zdrojům, transformují se
nejen do jazyka těchto zdrojů, ale i do systému konceptů (ontologií – viz blíže odst. 5.1), kterými jsou informace ve zdrojích reprezentovány. Snad nejznámějším middlewarem
v knihovnické komunitě je standard (protokol) Z39.50. Definuje široké spektrum možností
jako jsou standardní strojová reprezentace dotazů, rozšiřitelná kolekce atributů dokumentu,
které mohou být v dotazech použity, dále i možnosti výběru fragmentů dokumentů. Bohužel
protokol Z 39.50 není v širším měřítku na Webu používán, což budování takto pojatých digitálních knihoven znesnadňuje. Zdůrazněme, že na rozdíl od složitého Z 39.50 jsou webové
protokoly a standardy mnohem jednodušší. Při budování digitálních knihoven se uplatňují ve
stále větší míře standardizované jazykové prostředky či protokoly jako DC, XML, RDF
(včetně jejich zobecnění na popis schémat).
5
Budování digitální knihovny
Problémy, které se řeší v disciplině digitální knihovny, lze rozdělit na technologické, sociální,
ekonomické a právní. V této souvislosti se často cituje unifikující přístup (model) nazývaný
5S (Societies, Scenarios, Spaces, Structures, Streams) [6]. Přiřaďme k těmto „S“ po řadě
české termíny společenství, scénáře, prostory, struktury a proudy.
1
2
ResearchIndex má v záhlaví poznámku, že je největší svého druhu na světě.
Simple Digital Library Interoperability Protocol
6
Tento přístup nejen pomáhá v návrhu a vývoji digitální knihovny, je užitečný i pro pochopení
vztahu digitální knihovny k různých technologiím. Digitální knihovnu lze pomocí modelu 5S
vymezit jako složitý systém, který pomáhá vyhovět informačním potřebám uživatele (Societies), poskytovat informační služby (Scenarios), organizovat informace užitečným způsobem
(Structures), prezentovat užitečné informace (Spaces) a umožňovat šířit informace pomocí
komunikace s uživateli (Streams).
Kombinací jednotlivých S obdržíme známé pojmy, které lze technologicky řešit, jako např.:
• Společenství + Scénáře = uživatelský model
• Společenství + Scénáře + Prostory = uživatelské rozhraní
• Proudy + Struktury = značkování
• Proudy + Struktury + Scénáře = objekt
• Struktury + Scénáře = SŘBD
Při tvorbě digitálních knihoven vznikají především technologické problémy. Uplatní se zde
mnohem více než dříve odborníci na hardware, sítě, standardy, softwarové nástroje apod.
Problémy pocházejí zejména ze dvou zdrojů, o kterých se zmíníme v následujících odstavcích.
5.1
Přechod od klasické knihovny k digitální
Do této kategorie patří problémy
• vybudování technické infrastruktury,
• konstrukce digitálních kolekcí,
• přehodnocení některých klasických knihovnických služeb, případně zavedení zcela nových, které vyžaduje nový způsob zpracování.
S problémy technologickými se tedy spojují i problémy metodologické.
Digitální kolekce vznikají jednak digitalizací dokumentů, dále pak akvizicí původních digitálních prací a stále více přístupem k externím zdrojům prostřednictvím Webu. Je známé, že
digitalizace je drahý proces (G. Cleveland uvádí v [5] údaj z amerického prostředí – 2-6 $ za
stránku). Trendem je tedy prostředky a projekty na digitalizaci spíše slučovat a takto získané
kolekce prodávat, např. formou licencí.
Důležitou součástí budování digitálních kolekcí je tvorba a údržba metadat (pro podrobnější
přehled viz [23]). Knihovníci sice pracují s metadaty od pradávna (katalogizace, indexace),
nicméně digitální knihovny kladou na metadata zvýšené nároky. Ve své základní podobě jsou
metadata představována nějakými elementy, jejich jmény a popisem jejich významu. Např.
dnes mezi knihovníky obecně přijímaný standard DC [14] (v české literatuře např. [25]) definuje 15 elementů rozdělených do 3 kategorií (popis zdroje a jeho obsahu, intelektuální vlastnictví, elektronické a fyzické vlastnosti). DC je dokonce rozšiřitelný, tj. do aplikace DC je
možné přidat další popisný materiál, nevylučuje se ani přidávání dalších elementů
v budoucnosti.
Nestačí však mít pouze standard. Další otázkou je, jak kódovat jeho aplikace. Poněkud zastaralejší možností vhodnou pro HTML dokumenty je mapování metadat do elementů dokumentu se značkou META. Jinou možností je vytvořit speciální HTML dokument a nebo speciální databázi metadat. Té se obvykle říká repozitář dat. Zdůrazněme, že vhledem ke složitosti webových informačních zdrojů se DC jeví pro jejich popis jako příliš jednouchý. Obecnějším řešením je dnes použití XML a RDF, přesněji řečeno jazyků XML Schema a RDF
Schema. Oba prostředky se docela dobře doplňují. Pomocí XML Schema se popisují struktu7
rální omezení, typy dat apod., pomocí RDF Schema je možné popsat sémantiku. Iniciativa
DC metadata již vytvořila řešení, jak reprezentovat DC elementy pomocí výrazů XML
v RDF.
Vlastní jazyk použitelný při tvorbě metadat je představován nějakou řízenou terminologií.
V prostředí XML jsou to dnes různé jazyky značek vytvářené různými zájmovými komunitami (matematika, chemie, finance apod.). Atraktivnější možností je zahrnout mezi metadata i
terminologii použitou v datech dané kolekce. Původní tezaury se dnes propagují v obecnějším
přístupu jako tzv. ontologie, které popisují koncepty a jejich vztahy v rámci nějaké domény.
Jak dokládá např. zdroj [12], je výzkum ontologií velice aktivní a představuje dnes zřejmě
nejperspektivnější řešení pro interoperabilitu heterogenních informačních zdrojů. Pro vystavení digitální kolekce na Webu a její zpřístupnění v rámci nějaké digitální knihovny hrají
metadata nepochybně nejdůležitější roli.
Poslední problém, o kterém se zde zmíníme, se týká pojmenování digitálních objektů.
V digitálních knihovnách již nevystačíme s identifikacemi jako jsou ISBN či ISSN. Nestačí
ani URL webového zdroje. URL se mění a digitální dokumenty zůstávají. Trendem je použít
pro digitální objekty identifikaci nezávislou na jejich umístění. Objevují se snahy o zavedení
„perzistentního“ URL (PURL vyvinuté OCLC), dalšími možnostmi jsou Uniform Resource
Name (URN) či Digital Object Identifier (DOI).
5.2
Absorbování nových forem reprezentace informací do digitální knihovny
Problémy této kategorie jsou fundamentálnější. Do knihoven se dostává něco, co tam dosud
nebylo, mění se techniky vyhledávání, pořádání informací, objevují se nové, zatím obtížně definovatelné služby, mění se pojem knihovny jako takový.
Zastavme se ještě jednou u digitálních kolekcí. Vedle digitálních dokumentů, které vznikly
digitalizací dokumentů klasických, jsou k dispozici dokonce digitální objekty, které můžeme
nazvat multimediálními daty. Sami vydavatelé klasických publikací přiznávají, že multimediálním formám digitálních publikací mohou jen těžko konkurovat. Který vědecký časopis má
dnes barevné ilustrace, animované sekvence, příklady ve 3D grafice, hypertextové odkazy
mezi částmi textu apod. To však není všechno. Digitální kolekce, které vznikají v současné
době ponejvíce neřízeným způsobem na Webu, rozšiřují přístup k informacím i jiným způsobem. Mohou obsahovat tzv. šedou literaturu (výzkumné zprávy, vládní materiály, digitální
sborníky z workshopů a různých odborných setkání, články autorů na jejich osobních webových stránkách apod). Takové kolekce mají pro stále větší množství uživatelů nezastupitelnou
úlohu. Poskytují totiž rychle informace, které by v běžném publikačním řetězci byly získány
s nezanedbatelným časovým zpožděním.
Speciálním problémem je uchování digitálních fondů. Nejde pouze o zálohování počítačových systémů. Digitální data je třeba uchovávat trvale včetně jejich metadat a složité struktury. Webové zdroje jsou navíc mnohem nestálejší než klasické informační fondy. Zdroje
vznikají, dočasně nebo úplně zanikají, mění se jejich obsah i struktura. W. Koehler uvádí
v [18], že poločas rozpadu webového zdroje (stránky) je okolo dvou let. Po dvou letech se původní obsah z poloviny změní, po 10 letech z něho zůstává o něco málo víc než 3 %. Jde samozřejmě o nejhorší případ, jisté však je, že webové kolekce jsou mnohem méně perzistentní
než jakékoliv jiné kolekce. Na rozdíl od uchovávání klasických knihovních fondů, v oblasti
elektronických nosičů dat, kde dochází ke stálému vývoji jak médií, tak zařízení, která s nimi
pracují, je třeba chápat problém uchovávání digitálních dokumentů jako trvalý a živý proces.
8
6
Od digitální knihovny k automatizované digitální knihovně
V souvislosti s vytvářením informačních zdrojů na Webu se mění názor na kvalitu knihovnických služeb. Vize změn klasické knihovny hezky rozebral již v r. 1997 opět M. Lesk [19].
Zatímco klasické knihovny jsou založeny na přesných katalogizačních procedurách, webové
služby nabízejí pravý opak – víceméně neřízenou indexaci bez odstraňování duplicit, bez autorit atd. Jde o stejný postup jako je automatizovaná indexace úplných textů, V čem jsou
ovšem webové služby silné, je masivní přístup. Indexace webových stránek je levná, pracuje
automaticky a stále. Je založena na silném hardware a jednoduchých algoritmech. Jak zdůraznil W. Arms v [3], počet indexovaných webových stránek u nejznámějších vyhledávacích
strojů je mnohem vyšší než počet záznamů ve formátu MARC, které kdy byly vytvořeny.
Jistě, jde o souboj kvality a kvantity. Prohledávání webových zdrojů pomocí přímého použití
univerzálních vyhledávacích zdrojů může být časově náročné a mnohdy i neúspěšné. Nicméně závisí na uživateli, čeho chce dosáhnout.
Ve vědě lze předpokládat, že většina výsledků, než jsou publikovány v časopisech, se stejně
dříve objeví na Webu, obvykle na osobních stránkách tvůrců informací (vědců, odborníků firem apod.) nebo na webových stránkách specializovaných zdrojů různých komunit (např.
anotované články o XML shromažďované organizací OASIS [13]). Dokumenty s těmito výsledky jsou tedy dostupné dříve než se objeví v oficiálních databázích, kde je navíc ve většině
případů vyžadován placený přístup. Tento trend lze nazvat „každý sám sobě vydavatelem“.
O něco méně živelný způsob práce s vědeckými informacemi se snaží současné elektronické
časopisy 3. generace (viz [24]), které podporují zveřejňování preprintů, diskusí k článkům,
možnosti dalšího vývoje článků apod.
Mění se však i názory na kvantitu knihovnických služeb. Zdůrazňuje se, že v současných
knihovnách je nejdražší lidská práce. Knihovny v Harvardu zaměstnávají tisíc lidí, Kongresová knihovna více než 4 tisíce. V [20] se uvádí odhady, kolik se z rozpočtu knihovny se věnuje na mzdy odborného personálu. V anglických a amerických knihovnách se tato čísla pohybují mezi 50-75 %. Úspory se hledají, kde to jen jde. Jednou z nich, asi ne příliš populární
v knihovnické komunitě, je omezování kvalifikovaného personálu a přenesení úkolů jednak
na počítačový systém, jednak na uživatele1.
Systémové řešení, které se razí, je skryto v pojmu automatizované digitální knihovny (ADK)
[3], kde se většina procesů provádí automaticky. Kupodivu, hrubá síla, používaná v dnešní
indexaci informací ve webových zdrojích, je sice z hlediska klasických knihoven primitivní,
nicméně v praxi velmi účinná. První ADK využívají této techniky.
S rozšiřováním možností webových služeb se mění nejen pojetí digitální knihovny, ale i ekonomického modelu pro publikování v otevřeném přístupu. Knihovny vynakládají značnou
část svých rozpočtů na časopisy a již méně jim zbývá na vytváření vlastních webových
zdrojů. Vzpomeňme nedávné krize vědeckých knihoven související s permanentně se zvyšujícími cenami časopisů. Na druhé straně většina kvalitních webových zdrojů negeneruje žádný
příjem. Jsou financovány z externích zdrojů, obvykle těmi, kdo do nich vkládají data, nebo
reklamou (např. Google, Amazon). Případně je sponzorem digitálních knihoven přímo vláda
(viz např. v USA Digital Libraries Initiative, z otevřených archivů již citovaný arXiv.org).
Jako příklad nového ekonomického modelu pro on-line publikaci sborníku konference může
být způsob rozdělení příspěvku na konferenci. Část těchto prostředků bude věnována na jeho
digitální podobu spolu s umístěním a následnou údržbou.
1
V angličtině se v této souvislosti používá slovo „disintermediation”, tj. odstraňování mezičlánků.
9
Nový pohled je možný i na technické vybavení digitální knihovny nebo ADK. Nebude třeba
pořizovat rozsáhlé počítačové vybavení do kampusových knihovních studoven, protože hodně
uživatelů bude přistupovat do knihovny odjinud, např. z kolejí či z domova. Také odborný
servis nebude nutné rozptylovat do několika fyzických knihoven. Ten může být centralizován
do méně míst na telefon, podobně jako se to dnes provádí u počítačových firem, kdy odborná
systémová podpora je třeba na jednom místě v Evropě.
Kombinace ADK a otevřeného přístupu k webovým zdrojům se zdá být pozitivní alternativou
pro budoucnost knihoven. Jedním z nezanedbatelných aspektů této alternativy je nízká cena
otevřeného přístupu. Díky ní se digitální knihovna stane dostupnou mnohem většímu množství uživatelů, než jak tomu dosud je v řešeních, které využívající spíše klasických postupů.
7
Závěr
Je třeba si zvyknout na skutečnost, že na základě současných technologií se vedle digitálních
knih či časopisů budují kvalitativně nové celky – webové zdroje. Tento trend má vliv na pojetí digitálních knihoven. Bude mít důsledky ekonomické, ale i společenské. Knihovny obnoví
svoji primární funkci – být vzdělávací institucí. Otevřený přístup se stane zřejmě běžnou
skutečností.
Zůstává však mnoho dosud nevyřešených otázek, jako např.:
• Jak zajistit věrohodnost a prestiž digitálních informačních zdrojů?
• Jak prohledávat digitální kolekce, které jsou ve více jazycích?
• Jak integrovat digitální kolekce, aby samy poskytovaly uživateli další nabídku možností
vztažených k jeho problému?
• Jak personalizovat služby podle profilu a zájmu uživatele?
• Jak organizovat, aby informace samy hledaly svého uživatele?
Kromě prvního bodu, vše ostatní je řešitelné (nebo alespoň částečně) na základě současných
informačních technologií a souvisejícího výzkumu. Důvěra a respekt u elektronických publikací nejsou tak samozřejmé. Ředitelka nakladatelství Elsevier K. Hunter uvedla na symposiu
o digitálních knihovnách v Osace příklad [17] tří elektronických časopisů vydávaných na
MIT. Jeden z nich musel být zrušen z principiálních důvodů – z nedostatku nabízených
článků. Důvodem byla absence papírové verze. Autoři si chtěli být jisti existencí permanentního (rozuměj tištěného) záznamu své práce.
Co říci závěrem? V lednu r. 2000 formulovala skupina odborníků na knihovny na konferenci
americké Asociace knihoven šest trendů, které mohou být inspirující i v prostředí našich
knihoven:
Trend 1. Knihovníci musí pracovat s Internetem a ne proti němu. Učení se, co s Webem dělat a co s ním mohou dělat uživatelé, by se mělo stát hlavní prioritou.
Trend 2. Knihovníci by se měli usnést na svých rolích ve světě všudypřítomných
elektronických informací. Mají se rozhodnout pro to, co je „správné”, nebo mají naslouchat uživatelům a nabízet jim alternativy? Měli by začít uvažovat, jak přidat hodnotu
elektronickým informacím jedinečným způsobem, aniž by se namáhali dosáhnout úrovně,
které třeba ani nepotřebují dosáhnout.
Trend 3. Postupné sbližování. Není již čára mezi tím, co dělají s technologií knihovníci a co
uživatelé. Je třeba řešit situace, jak pro uživatele neustále rozšiřovat počet funkcí, jak konfigurovat jejich vyhledavače apod. Knihovníci se musí rozhodnout, co mohou a budou
10
podporovat na základě reálných potřeb uživatelů a ne na úrovních knihovnického komfortu.
Trend 4. Partnerství. Knihovníci si nemohou dovolit zůstat izolovaní. Technologie poskytují stále více prostředků a příležitostí pro spolupráci. Je třeba být proaktivní v hledání
užitečných partnerství speciálně s finančně silnými organizacemi. Je třeba být připraven
dívat se „za” tradiční knihovnu a opustit rigidní struktury – existuje život za standardem
MARC.
Trend 5. Ochrana soukromí. Jednoduchost vytváření individuálních dat i použití Webu je
jak hrozbou tak výzvou. V minulosti se knihovníci vždy snažili chránit individuální soukromí ve vztahu k intelektuální svobodě. Na druhé straně může být uživatel veden
k využívání zdrojů, kde tato ochrana není zaručena. Individuální data mohou být podobně
zneužita jako data z prodejů apod.
Trend 6. Nelze odsunout nabídku elektronických knih s tím, že se argumentuje „čtením
v tramvaji, v posteli, na pláži” apod. Knihovníci by měli zůstat informováni, měli by se
zapojit s nakladateli do diskusí o standardech elektronických publikací apod.
Použitá literatura a WWW odkazy
1. ARMS, W. Y. Digital Libraries. Cambridge : MIT Press, 2000. x, 287 s. ISBN 0-262-01180-8.
2. ARMS, W. Y. et al. An Architecture for Information in Digital Libraries. D-Lib Magazine, 1997.
3. ARMS, W. Y. Open access to digital libraries: Must research libraries be expensive? In:
BORBINHA, J., BAKER, T. (Eds.). 4th European Conference on Research and Advanced
technology for Digital Libraries, ECDL 2000, Lisbon, Portugal 18-20 September 2000.
4. BROPHY, P. Digital Library Research Review. Final Report. Centre for Research in Library &
Information Management, Department of Information & Communications, Manchester
Metropolitan University August 1999.
5. CLEVELAND, G. Digital Libraries: Definitions, Issues and Challenges. UDT Occasional Paper
#8, International Federation of Library Associations and Institutions, 1998.
6. FOX, E. A. From Theory to Practice in Digital Libraries: 5S and Educational Applications
(NDLTD, CSTC). In Proceedings of NSF-CONACyT Workshop, Albuquerque, NM, July 1999.
7. http://ei.cs.vt.edu/~dlib/(courseware)
8. http://www.acm.org/dl/
9. http://www.computer.org/publications/dlib/
10. http://www.acm.org/pubs/contents/proceedings/series/dl/
11. http://www.jcdl.org/
12. http://www.cs.utexas.edu/users/mfkb/related.html
13. http://www.oasis-open.org/cover/xmlArticles.html
14. http://dublincore.org/
15. http://link.springer.de/link/service/journals/00799/
16. http://xxx.lanl.gov/
17. HUNTER, K. Digital Libraries: Today, Tomorrow and Beyond. In Digital Libraries Symposium,
May 26, 2000. Osaka.
18. KOEHLER W. Digital libraries and World Wide Web sites and page persistence. Information
Research, Volume 4 No. 4 June 1999.
19. LESK, M. Digital Libraries: A Unifying or Distributing Force? Presentation at Conference
Scholarly Communiaction and Technology, Atlanta, Georgia, April 24, 1997.
20. LESK, M. The Organization of Digital Libraries. http://www.lesk.com/mlesk/libtech/libtech.html
11
21. LICKLIDER, J. C. R. Libraries of the Future. Cambridge : MIT Press, 1965. xvii, 219 s.
22. NÜRNBERG, P. J. N. et al. Digital Libraries: Issues and Architectures. In Proc. of DL95, 1995.
23. POKORNÝ, J. Metadata – klíč ke globálním informačním systémům. In POUR, Jan and
VOŘÍŠEK, Jiří (eds.). Proc. of Int. Conf. on Systems Integration ’99, My 31-June 1, 1999, Praha,
Žofín, 1999, s. 209-218.
24. POKORNÝ, J. Elektronické časopisy a jejich vliv na infrastrukturu vědeckých znalostí. In
RAMAJZLOVÁ, Barbora (ed.). Automatizace knihovnických procesů – VII : sborník ze 7. ročníku
semináře pořádaného ve dnech 9. - 10. června 1999 v Ústí nad Labem. Ústí nad Labem: EKAS
1999, s. 5-13.
25. ŽABIČKA, P. Dublin Core – metadata pro popis elektronických dokumentů. In VALENTA, Jan
(eds.). Datasem 2000 – 20th Annual Conference on the Current Trends in Database and
Information Systems, October 21-24, 2000 v Brně. Brno : DATASEM, 2000, s. 193-201.
Glosář
Dublin Core
MARC
Portál
RDF
RDF Schema
SFX
SŘBD
URL
XML
XML Schema
Z 39.50
Formát pro metadata definovaný na základně mezinárodního konsensu, který
definuje minimální popis informačního zdroje, obecně po použití v prostředí
Webu.
MAchine Readable Cataloging. Rodina formátů založena na ISO 2709 pro
výměnu bibliographických a dalších vztažených informací ve strojově čitelné
formě. Např. USMARC, UKMARC a UNIMARC.
Webová brána do internetových zdrojů, často se službami, které přidávají
hodnotu, např. volné emailové účty, speciální vyhledávače apod.
Resource Description Framework. RDF je vyvíjen konsorciem W3C.
Poskytuje základ pro popis metadat v různých aplikačních doménách. Jako
modelovací nástroj používá entity, atributy a vztahy. Používá XML.
Jazyk pro popis RDF schémat. RDF schémata obsahují omezení na
specifikace psané pomocí jazyka RDF (např. CENA je větší než 0, SLEVA
je menší než 15 %).
Special Effects. Systém pro ukládání a řízení vazeb mezi dokumenty na
základě vazeb mezi informačními zdroji.
Systém Řízení Bází Dat. Software zajišťující vytváření databází, jejich
údržbu a možnosti dotazování podle uživatelských požadavků.
Uniform Resource Locator. Standardní způsob zadání adresy webového
zdroje, např.: http://lisp.vse.cz/znal2001/.
eXtensible Markup Language. Značkovací jazyk, který je zjednodušenou
verzí obecnějšího značkovacího jazyka SGML. Umožňuje definovat vlastní
uživatelské značky.
Jazyk pro popis XML schémat. XML schémata slouží pro popis struktury a
omezení obsahu XML dokumentů a typů dat vztažených k typům XML
elementů a atributů.
Standard NISO pro aplikace vrstvy protokolu pro výběr informací. Je
navržen, aby napomáhal výběru z distribuovaných serverů.
12

Digitální knihovny: principy a problémy

Transkript

Podobné dokumenty

Gramofon a jeho nastavení

Zeptejte se Anny - od osobního softwarového asistenta k virtuální

Stáhnout PDF - Laissez Faire

Digitální knihovny: více problémů než očekávání?

Úvod - Robotika.cz

Citace odborné literatury jako nástroj rozvoje služeb a integrace

Digitální knihovny: principy a problémy

Identifikace tématických sociálních sítí

Kanonizace MathML pro vyhledávání matematiky

Použití CASE nástrojů pro řízení architektury SOA