Digitální knihovny: principy a problémy
Transkript
Digitální knihovny: principy a problémy Jaroslav Pokorný1 [email protected] Abstrakt: Digitální knihovna je logickým pokračováním automatizace knihovnických procesů. Spolu z řízeným zpřístupňováním informačních zdrojů na Internetu může přinést kvalitativní změny v přístupu k informacím. V článku jsou diskutovány pojmy digitální knihovny, komponenty digitální knihovny a dva modely její architektury. Diskutovány jsou i některé problémy budování digitální knihovny. Je zdůrazněn otevřený přístup k informačním zdrojům na Internetu a pojetí automatizované digitální knihovny. V závěru jsou zmíněny otevřené otázky, některé problémy a další vize digitálních knihoven. Klíčová slova: digitální knihovna, architektura digitální knihovny, model 5S, automatizovaná digitální knihovna, federativní přístup, otevřený přístup k informačním zdrojům. 1 Úvod Pojem „digitální knihovna“ se používá zhruba od r. 1994. Mezi jeho synonyma patří i starší pojmy „elektronická knihovna“, „virtuální knihovna“ či „knihovna beze zdí“. Jako v řadě jiných oblastí, také zde se odborníci rádi hlásí k nějakému prvnímu „vizionářskému“ dílu. V daném případě se jedná o knihovny budoucnosti, které popsal J. C. R. Licklider v roce 19652 [21]. Rozmach projektů digitálních knihoven v 90. letech měl za následek explozi nejrůznějších odborných aktivit. Na téma digitálních knihoven vznikly knihy [1], specializované časopisy (např. D-Lib Magazine [10] a International Journal on Digital Libraries [15]), samostatné konference (např. ACM International Conference on Digital Libraries [11]) a kurzy na vysokých školách (za všechny jmenujme [7]). Přes veškeré tyto snahy, se nezdá jednoduché etablovat digitální knihovny jako samostatnou disciplínu. Jde o oblast, na kterou lze pohlížet z hlediska již existujících odvětví velmi různorodým způsobem. Pro knihovníky může jít o další krok ve vývoji automatizace knihoven, odborníci na databáze vidí digitální knihovnu jako architekturu federativních databází, z hlediska hypertextu jde o aplikaci hypertextové technologie. Procesy v knihovně lze také organizovat do pracovních toků (workflow), takže lze uplatnit další disciplinu – workflow systémy. V poslední době, kdy tématem číslo jedna v informačních technologiích je Web, je možné digitální knihovnu chápat jako množinu integrovaných zdrojů na Internetu vyznačující se nabídkou jistých specializovaných služeb. V extrémnějším pojetí se můžeme setkat s názorem, že celý Web je digitální knihovnou. Uvádí to, i když trochu s nadsázkou, jedna z nejvýznamnějších postav v oblasti knihoven M. Lesk [20]. Toto pojetí, které vychází spíše ze strany zástupců počítačové vědy, je ovšem diskutabilní. Nesouhlasí s ním ani C. Lynch, další známý odborník, který upozorňuje, že Web nebyl pro podporu organizovaného publikování a vyhledávání informací, jak je vlastní knihovnám, ani navržen. Jinými slovy řečeno, konzervativnější tábor hlásá, že digitální knihovny jsou především knihovnami. Na druhé straně současný posun v chápání Webu (mluví se o sémantickém Webu) naznačuje, že Web je třeba jako jakousi „digitální knihovnu“ brát vážně. 1 MFF UK, Katedra softwarového inženýrství, Malostranské nám. 25, 118 00 Praha 2 Kniha vychází z idejí, které Licklider publikoval již v r. 1959. 1 Již déle je zřejmé, že budování digitálních knihoven je složitějším a dražším procesem, než se zdálo v počátku 90. let. Článek je pokusem o přiblížení tohoto atraktivního tématu zvláště z hlediska problémů, které budování digitálních knihoven přináší. Nezanedbatelnou roli v pohledu na digitální knihovnu hraje webové prostředí, představuje buď alternativu k digitální knihovně anebo šanci, jak budovat digitální knihovny ve zcela jiném rozsahu i kvalitě. Akcentovány jsou problémy technologické, částečně ekonomické, vynechány jsou problémy sociální a právní. V kap. 2 se diskutuje pojem digitální knihovny. Kap. 3 se zabývá komponentami digitální knihovny. Kap. 4 ukazuje základní architektonický model digitální knihovny a jeho revizi vzhledem k současným trendům. Budování digitální knihovny je věnována kap. 5. V kap. 6 je diskutován otevřený přístup k informačním zdrojům ve vztahu k ekonomickým problémům (digitálních) knihoven a pojem automatizované digitální knihovny. Závěry naznačují některé problémy a budoucnost digitálních knihoven. Připojen je i malý glosář některých zkratek. 2 Vymezení pojmu digitální knihovny Existují desítky definic či vymezení, co je digitální knihovna. Co je společné těmto definicím? Dozvíme se, že • digitální knihovna není jednotlivá entita, • digitální knihovna vyžaduje technologii umožňující propojit několik informačních zdrojů, • propojení mezi více digitálními knihovnami a informačními službami má být pro uživatele transparentní, • cílem budování digitální knihovny je univerzální přístup k informačním zdrojům a službám. Podstatné také je, že kolekce v digitálních knihovnách nejsou omezeny pouze na reprezentace dokumentů: rozšiřují svůj dosah na artefakty, které nemohou být reprezentovány nebo distribuovány v tištěné formě, např. videa přednášek, hlasové záznamy apod. V této práci budeme pod pojmem digitální knihovna chápat řízenou kolekci informací spolu s jistými službami, přičemž tyto informace jsou uloženy v digitální formě a jsou přístupné po síti. Všimněme si, že podobná vymezení lze nalézt i u pojmů jako jsou webové zdroje, databázové systémy, elektronické publikování, dolování dat či e-komerce. Pojem digitální knihovny je tedy vymezen dost vágním způsobem. Ze systémového hlediska jde samozřejmě o jistý systém, který se skládá z komponent, jejichž funkce jsou zajišťovány odpovídajícím softwarem. Účelem systému digitální knihovna je: • urychlit systematický rozvoj prostředků pro sběr, uložení a organizaci informací a znalostí v digitální formě v kolekcích digitální knihovny, • zesílit komunikaci a spolupráci v různých skupinách uživatelů (vědecké komunity, obchodní sféra, státní správa, vzdělávání). Přehlednou a dostupnou publikací obsahující diskusi různých verzí pojmu digitální knihovny spolu s řadou modelů digitální knihovny je zpráva [4]. 3 Komponenty digitální knihovny Hovoříme-li o digitální knihovně, pak lze klasickou knihovnu chápat jako fyzickou knihovnu. Ano, jakákoliv klasická knihovna, byť je dnes vybavena odpovídajícím softwarem, který zahrnuje katalogizaci, výpůjční a další služby, není zatím digitální knihovnou. Data v počítači týkající se fyzické knihovny, např. katalog a seznam čtenářů, jsou vzhledem k materiálu v re2 gálech knihovny pouhými metadaty. Digitálnost knihovny je tedy do značné míry dána použitím digitálních dokumentů. Autoři [22] rozlišují elementy knihovny a doménu knihovny. V každé knihovně existují tři třídy elementů: data, metadata a procesy. Data jsou představována materiálem, které knihovna vlastní, metadata popisují tento materiál, procesy jsou aktivní funkce, které se provádějí nad elementy. Některé z procesů jsou dnes úplně nebo částečně automatizované, jiné se provádějí ručně. Užitečné je přiřadit elementům role, které elementy plní např. vzhledem k uživateli nebo uvnitř knihovny samotné. Doména knihovny je univerzum, ze kterého čerpá materiál knihovny. Digitální knihovna by zřejmě měla obsahovat digitální data. Víme však, že tomu tak vždy není a zřejmě v průměrném případě bude digitální knihovna vždy nějakým způsobem provázána s fyzickou knihovnou, tj. bude knihovnou hybridní. Bude obsahovat fondy fyzických dokumentů, některé její fondy budou digitalizované, některé však nebudou mít žádný fyzický protějšek. Např. soubor elektronických časopisů, ke kterým není vydávána jejich papírová verze (viz např. [Po99b]), či hypertextová kniha jsou příklady poslední alternativy. Speciální případ představují fondy, které lze zakoupit na digitálních mediích. Jsou digitální formou fyzických fondů a provozují se jako jeden element knihovny. Může jít např. o soubory časopisů či článků z konferencí za určité období apod. V jiné podobě jsou tyto fondy v digitální formě umístěny jinde na Internetu a přístupné přímo (on-line) přes knihovnu. Příkladem z praxe mohou být digitální knihovny ACM [8] a IEEE [9]. Lze ji zakoupit na nosičích CD-ROM a nebo přistupovat přímo prostřednictvím placené služby odkudkoliv na Internetu. objekty převedené z fyzických zdrojů nové digitální objekty data metadata procesy kniha, časopis, video statický index akvizice dat tezaurus katalogizace klasifikace vyhledávací služby prostorové umístění výpůjční služby hypertextová kniha dynamický index počítačový program profily uživatelů plnotextové vyhledávání vizualizace vědeckých anotace zdrojů dat tématické portály elektronický časopis personalizace nabídek přírůstků výběr pomocí agentů ontologie Tabulka 1: Klasifikace elementů digitální knihovny Pro knihovníky může být užitečné klasifikovat elementy digitální knihovny podle jejich vzniku. V tabulce 1 jsou ukázány výsledné kategorie. Zmíníme se o problémech souvisejících s jednotlivými kategoriemi. Digitalizace fyzických objektů sebou nese problémy s rozhodováním, která data a metadata digitalizovat a která nikoliv. Je jasné, že něco, např. údaje o charakteru vazby knihy, počtu kopií či prostorovém umístění knihy, ztrácí v digitálním prostředí smysl. Současným knihovníkům jsou dnes již blízké automatizované 3 knihovnické procesy, které nahradily ty předchozí, tj. ty, které se prováděly před příchodem knihovnického software. V digitální knihovně může být služba zapůjčení svázaného ročníku časopisu nahrazena procesem vyhledání několika relevantních článků, jejich vytištěním a zúčtováním. Akvizice nových titulů je částečně nahrazena tvorbou tématických portálů. Budování kolekcí ustupuje nárokům na přístup k datům a jejich výběr na základě uživatelských požadavků, bez ohledu na to, kde je umístěn zdroj těchto dat. S příchodem nových typů digitálních dat a jejich distribuovaného rozmístění na Internetu je dnes hlavním problémem zmapovat a zpřístupnit tyto zdroje. To představuje netriviální technologické nároky na tvorbu metadat a jejich organizaci. Zdůrazněme, že na části řešení těchto problémů se podílejí a budou podílet sami knihovníci, resp. další pracovníci knihovny. Důsledkem těchto změn jsou opět nové typy služeb a z toho vyplývající nové procesy. 4 Architektura digitální knihovny Na velmi obecné úrovni je možné digitální knihovnu chápat jako jistou interakci mezi výpočetními systémy a lidmi. Výpočetní systémy zahrnují servery a klienty, účastníky interakce jsou tvůrci informací nebo jejich vydavatelé, knihovnici a uživatelé (obr. 1). Připomeňme, že odborníci na software v daném schématu okamžitě rozpoznají aplikaci architektury klientserver, která se přirozeně nabízí k použití. uživatel knihovník k tvůrce informací/ vydavatel server digitální knihovny klient digitální knihovny Obr. 1: Klasické konceptuální schéma digitální knihovny Příkladem realizace uvedené architektury může být projekt NDLP v Kongresové knihovně z poloviny 90. let [2]. Toto základní schéma je však v dnešní době poněkud zastaralé. Již déle je zřejmé, že digitální knihovna nemůže být zkonstruována jako jeden monolitický, technicky centralizovaný systém. Přirozeným řešením jsou tzv. federativní databáze (obrázek 2). Tato architektura je známa i mimo digitální knihovny. Je založena na existenci komponent, které jsou provozovány autonomně a přitom jsou schopné vzájemné komunikace. Každá tato komponenta může být digitální knihovnou nebo i jenom jednoduchým informačním zdrojem, jako je např. webová stránka obsahující roztříděnou předmětnou oblast se zajímavými odkazy dále do Internetu. Konstruktéři digitálních knihoven chápou federativní architekturu v poněkud omezené verzi. Přístup ke komponentám je nejčastěji veden přes jistý speciální uzel (na obr. 2 je to server digitální knihovny), který obsahuje společné schéma, do kterého jsou zobrazeny participující komponenty. Tato architektura není tak pružná, jak by se na první pohled zdálo. Každá další komponenta musí být zapojena jako speciální případ. Nicméně na základě přísných protokolů 4 a nemalého úsilí vloženého do prezentace uživatelských služeb může být dosaženo transparence komponent. Uživatel formuluje své požadavky jedním dotazovacím jazykem, v jednom prostředí. Podobně jsou mu i prezentovány odpovědi. V knihovnickém prostředí se uplatňuje zejména protokol americké National Information Standards Organization Z39.50. Všimněme si, že i v architektuře na obr. 2 je vzata v úvahu možnost, že uživatel přistupuje ke zdrojům přímo, bez pomoci prostředí digitální knihovny. To jistě implikuje možnost totální izolace uživatele a systému digitální knihovny. uživatel knihovník tvůrce informací/ vydavatel server digitální knihovny klient digitální knihovny tvůrce informací/ vydavatel tvůrce informací/ vydavatel Internet Obr. 2: Konceptuální schéma digitální knihovny s distribuovanými informačními zdroji V tabulce 2 jsou vedle federace ve výše uvedeném smyslu popsány ještě dvě další tradiční možnosti komunikace v digitální knihovně. Ta nejvolnější, shromažďování dat, vede k tomu, že uživatel vidí komponenty a komunikuje s každou samostatně pomocí jejího vyhledávacího stroje, nebo použije univerzálního prostředku (Altavista, Google, HotBot apod.). Nevýhodou prvního řešení je, že uživatel je nucen zvládnout více softwarových rozhraní a nástrojů, druhá možnost sebou nese základní handicap univerzálního vyhledávacího stroje – nízký koeficient přesnosti, doprovázený ovšem vysokým koeficientem úplnosti. S mnoha sty či tisíci hity se jistě každý uživatel Webu mnohokrát setkal a to i v případech, kdy algoritmus vyhledávacího stroje řadí ty nejrelevantnější hity na začátek seznamu. Shromažďování dat se používá u organizací, které nejsou připraveny na kooperaci postavenou na technologicky přínosnějších základech. Tzv. sklízení (harvesting) dat či metadat je založeno na přímém vstupu do vzdálených digitálních knihoven prostřednictvím metadat, která objevuje vyhledávací robot prohledávající síť. 5 Robot může být instruován tak, že vyhledává např. otevřené archivy zdroje popsané pomocí standardu Dublin Core (dále DC). Tato metoda se používá hlavně pro vstup do otevřených archivů (např. e-Print archivy pro fyziku, matematiku a informatiku umístěné na arXiv.org [16]) a je podporována iniciativou Open Archives a konsorciem Digital Library Federation. V praxi to funguje tak, že chce-li nějaká knihovna participovat v nějaké síti digitálních knihoven, musí spolupracovat alespoň na této úrovni kooperace. Do dané kategorie lze pojmout i řešení známé pod jménem SFX, které je založeno na dynamickém propojování databází a přiřazování těchto vazeb dokumentům. Že se uvedené techniky kooperace úspěšně vyvíjejí, dokumentuje např. ResearchIndex. Je to efektivní digitální knihovna1, která je budována automaticky pomocí shromažďování dat. Úroveň federace sklizení (meta)dat shromažďování dat vyhledávací middleware Způsob kooperace striktní použití standardů (syntaktické, sémantické, obchodní) digitální knihovny nabízejí základní metadata; jednoduchý protokol a registrace digitální knihovny nekooperují; informace se musí hledat explicitně pomocí služeb zdroje vybavené metadaty jsou volně zapojovány do kooperace Příklad MARC, Z 39.50 otevřené archivy vyhledávací stroje Z 39.50, XML, RDF, SDLIP2 Tabulka 2: Kooperace na různých úrovních Dnes mnohem atraktivnější řešení nabízejí některé projekty založené na (vyhledávacím) middleware. To je jistý zprostředkující software, přes který se dotazy z digitální knihovny, či od samotného uživatele dostávají podle jistých pravidel k informačním zdrojům, transformují se nejen do jazyka těchto zdrojů, ale i do systému konceptů (ontologií – viz blíže odst. 5.1), kterými jsou informace ve zdrojích reprezentovány. Snad nejznámějším middlewarem v knihovnické komunitě je standard (protokol) Z39.50. Definuje široké spektrum možností jako jsou standardní strojová reprezentace dotazů, rozšiřitelná kolekce atributů dokumentu, které mohou být v dotazech použity, dále i možnosti výběru fragmentů dokumentů. Bohužel protokol Z 39.50 není v širším měřítku na Webu používán, což budování takto pojatých digitálních knihoven znesnadňuje. Zdůrazněme, že na rozdíl od složitého Z 39.50 jsou webové protokoly a standardy mnohem jednodušší. Při budování digitálních knihoven se uplatňují ve stále větší míře standardizované jazykové prostředky či protokoly jako DC, XML, RDF (včetně jejich zobecnění na popis schémat). 5 Budování digitální knihovny Problémy, které se řeší v disciplině digitální knihovny, lze rozdělit na technologické, sociální, ekonomické a právní. V této souvislosti se často cituje unifikující přístup (model) nazývaný 5S (Societies, Scenarios, Spaces, Structures, Streams) [6]. Přiřaďme k těmto „S“ po řadě české termíny společenství, scénáře, prostory, struktury a proudy. 1 2 ResearchIndex má v záhlaví poznámku, že je největší svého druhu na světě. Simple Digital Library Interoperability Protocol 6 Tento přístup nejen pomáhá v návrhu a vývoji digitální knihovny, je užitečný i pro pochopení vztahu digitální knihovny k různých technologiím. Digitální knihovnu lze pomocí modelu 5S vymezit jako složitý systém, který pomáhá vyhovět informačním potřebám uživatele (Societies), poskytovat informační služby (Scenarios), organizovat informace užitečným způsobem (Structures), prezentovat užitečné informace (Spaces) a umožňovat šířit informace pomocí komunikace s uživateli (Streams). Kombinací jednotlivých S obdržíme známé pojmy, které lze technologicky řešit, jako např.: • Společenství + Scénáře = uživatelský model • Společenství + Scénáře + Prostory = uživatelské rozhraní • Proudy + Struktury = značkování • Proudy + Struktury + Scénáře = objekt • Struktury + Scénáře = SŘBD Při tvorbě digitálních knihoven vznikají především technologické problémy. Uplatní se zde mnohem více než dříve odborníci na hardware, sítě, standardy, softwarové nástroje apod. Problémy pocházejí zejména ze dvou zdrojů, o kterých se zmíníme v následujících odstavcích. 5.1 Přechod od klasické knihovny k digitální Do této kategorie patří problémy • vybudování technické infrastruktury, • konstrukce digitálních kolekcí, • přehodnocení některých klasických knihovnických služeb, případně zavedení zcela nových, které vyžaduje nový způsob zpracování. S problémy technologickými se tedy spojují i problémy metodologické. Digitální kolekce vznikají jednak digitalizací dokumentů, dále pak akvizicí původních digitálních prací a stále více přístupem k externím zdrojům prostřednictvím Webu. Je známé, že digitalizace je drahý proces (G. Cleveland uvádí v [5] údaj z amerického prostředí – 2-6 $ za stránku). Trendem je tedy prostředky a projekty na digitalizaci spíše slučovat a takto získané kolekce prodávat, např. formou licencí. Důležitou součástí budování digitálních kolekcí je tvorba a údržba metadat (pro podrobnější přehled viz [23]). Knihovníci sice pracují s metadaty od pradávna (katalogizace, indexace), nicméně digitální knihovny kladou na metadata zvýšené nároky. Ve své základní podobě jsou metadata představována nějakými elementy, jejich jmény a popisem jejich významu. Např. dnes mezi knihovníky obecně přijímaný standard DC [14] (v české literatuře např. [25]) definuje 15 elementů rozdělených do 3 kategorií (popis zdroje a jeho obsahu, intelektuální vlastnictví, elektronické a fyzické vlastnosti). DC je dokonce rozšiřitelný, tj. do aplikace DC je možné přidat další popisný materiál, nevylučuje se ani přidávání dalších elementů v budoucnosti. Nestačí však mít pouze standard. Další otázkou je, jak kódovat jeho aplikace. Poněkud zastaralejší možností vhodnou pro HTML dokumenty je mapování metadat do elementů dokumentu se značkou META. Jinou možností je vytvořit speciální HTML dokument a nebo speciální databázi metadat. Té se obvykle říká repozitář dat. Zdůrazněme, že vhledem ke složitosti webových informačních zdrojů se DC jeví pro jejich popis jako příliš jednouchý. Obecnějším řešením je dnes použití XML a RDF, přesněji řečeno jazyků XML Schema a RDF Schema. Oba prostředky se docela dobře doplňují. Pomocí XML Schema se popisují struktu7 rální omezení, typy dat apod., pomocí RDF Schema je možné popsat sémantiku. Iniciativa DC metadata již vytvořila řešení, jak reprezentovat DC elementy pomocí výrazů XML v RDF. Vlastní jazyk použitelný při tvorbě metadat je představován nějakou řízenou terminologií. V prostředí XML jsou to dnes různé jazyky značek vytvářené různými zájmovými komunitami (matematika, chemie, finance apod.). Atraktivnější možností je zahrnout mezi metadata i terminologii použitou v datech dané kolekce. Původní tezaury se dnes propagují v obecnějším přístupu jako tzv. ontologie, které popisují koncepty a jejich vztahy v rámci nějaké domény. Jak dokládá např. zdroj [12], je výzkum ontologií velice aktivní a představuje dnes zřejmě nejperspektivnější řešení pro interoperabilitu heterogenních informačních zdrojů. Pro vystavení digitální kolekce na Webu a její zpřístupnění v rámci nějaké digitální knihovny hrají metadata nepochybně nejdůležitější roli. Poslední problém, o kterém se zde zmíníme, se týká pojmenování digitálních objektů. V digitálních knihovnách již nevystačíme s identifikacemi jako jsou ISBN či ISSN. Nestačí ani URL webového zdroje. URL se mění a digitální dokumenty zůstávají. Trendem je použít pro digitální objekty identifikaci nezávislou na jejich umístění. Objevují se snahy o zavedení „perzistentního“ URL (PURL vyvinuté OCLC), dalšími možnostmi jsou Uniform Resource Name (URN) či Digital Object Identifier (DOI). 5.2 Absorbování nových forem reprezentace informací do digitální knihovny Problémy této kategorie jsou fundamentálnější. Do knihoven se dostává něco, co tam dosud nebylo, mění se techniky vyhledávání, pořádání informací, objevují se nové, zatím obtížně definovatelné služby, mění se pojem knihovny jako takový. Zastavme se ještě jednou u digitálních kolekcí. Vedle digitálních dokumentů, které vznikly digitalizací dokumentů klasických, jsou k dispozici dokonce digitální objekty, které můžeme nazvat multimediálními daty. Sami vydavatelé klasických publikací přiznávají, že multimediálním formám digitálních publikací mohou jen těžko konkurovat. Který vědecký časopis má dnes barevné ilustrace, animované sekvence, příklady ve 3D grafice, hypertextové odkazy mezi částmi textu apod. To však není všechno. Digitální kolekce, které vznikají v současné době ponejvíce neřízeným způsobem na Webu, rozšiřují přístup k informacím i jiným způsobem. Mohou obsahovat tzv. šedou literaturu (výzkumné zprávy, vládní materiály, digitální sborníky z workshopů a různých odborných setkání, články autorů na jejich osobních webových stránkách apod). Takové kolekce mají pro stále větší množství uživatelů nezastupitelnou úlohu. Poskytují totiž rychle informace, které by v běžném publikačním řetězci byly získány s nezanedbatelným časovým zpožděním. Speciálním problémem je uchování digitálních fondů. Nejde pouze o zálohování počítačových systémů. Digitální data je třeba uchovávat trvale včetně jejich metadat a složité struktury. Webové zdroje jsou navíc mnohem nestálejší než klasické informační fondy. Zdroje vznikají, dočasně nebo úplně zanikají, mění se jejich obsah i struktura. W. Koehler uvádí v [18], že poločas rozpadu webového zdroje (stránky) je okolo dvou let. Po dvou letech se původní obsah z poloviny změní, po 10 letech z něho zůstává o něco málo víc než 3 %. Jde samozřejmě o nejhorší případ, jisté však je, že webové kolekce jsou mnohem méně perzistentní než jakékoliv jiné kolekce. Na rozdíl od uchovávání klasických knihovních fondů, v oblasti elektronických nosičů dat, kde dochází ke stálému vývoji jak médií, tak zařízení, která s nimi pracují, je třeba chápat problém uchovávání digitálních dokumentů jako trvalý a živý proces. 8 6 Od digitální knihovny k automatizované digitální knihovně V souvislosti s vytvářením informačních zdrojů na Webu se mění názor na kvalitu knihovnických služeb. Vize změn klasické knihovny hezky rozebral již v r. 1997 opět M. Lesk [19]. Zatímco klasické knihovny jsou založeny na přesných katalogizačních procedurách, webové služby nabízejí pravý opak – víceméně neřízenou indexaci bez odstraňování duplicit, bez autorit atd. Jde o stejný postup jako je automatizovaná indexace úplných textů, V čem jsou ovšem webové služby silné, je masivní přístup. Indexace webových stránek je levná, pracuje automaticky a stále. Je založena na silném hardware a jednoduchých algoritmech. Jak zdůraznil W. Arms v [3], počet indexovaných webových stránek u nejznámějších vyhledávacích strojů je mnohem vyšší než počet záznamů ve formátu MARC, které kdy byly vytvořeny. Jistě, jde o souboj kvality a kvantity. Prohledávání webových zdrojů pomocí přímého použití univerzálních vyhledávacích zdrojů může být časově náročné a mnohdy i neúspěšné. Nicméně závisí na uživateli, čeho chce dosáhnout. Ve vědě lze předpokládat, že většina výsledků, než jsou publikovány v časopisech, se stejně dříve objeví na Webu, obvykle na osobních stránkách tvůrců informací (vědců, odborníků firem apod.) nebo na webových stránkách specializovaných zdrojů různých komunit (např. anotované články o XML shromažďované organizací OASIS [13]). Dokumenty s těmito výsledky jsou tedy dostupné dříve než se objeví v oficiálních databázích, kde je navíc ve většině případů vyžadován placený přístup. Tento trend lze nazvat „každý sám sobě vydavatelem“. O něco méně živelný způsob práce s vědeckými informacemi se snaží současné elektronické časopisy 3. generace (viz [24]), které podporují zveřejňování preprintů, diskusí k článkům, možnosti dalšího vývoje článků apod. Mění se však i názory na kvantitu knihovnických služeb. Zdůrazňuje se, že v současných knihovnách je nejdražší lidská práce. Knihovny v Harvardu zaměstnávají tisíc lidí, Kongresová knihovna více než 4 tisíce. V [20] se uvádí odhady, kolik se z rozpočtu knihovny se věnuje na mzdy odborného personálu. V anglických a amerických knihovnách se tato čísla pohybují mezi 50-75 %. Úspory se hledají, kde to jen jde. Jednou z nich, asi ne příliš populární v knihovnické komunitě, je omezování kvalifikovaného personálu a přenesení úkolů jednak na počítačový systém, jednak na uživatele1. Systémové řešení, které se razí, je skryto v pojmu automatizované digitální knihovny (ADK) [3], kde se většina procesů provádí automaticky. Kupodivu, hrubá síla, používaná v dnešní indexaci informací ve webových zdrojích, je sice z hlediska klasických knihoven primitivní, nicméně v praxi velmi účinná. První ADK využívají této techniky. S rozšiřováním možností webových služeb se mění nejen pojetí digitální knihovny, ale i ekonomického modelu pro publikování v otevřeném přístupu. Knihovny vynakládají značnou část svých rozpočtů na časopisy a již méně jim zbývá na vytváření vlastních webových zdrojů. Vzpomeňme nedávné krize vědeckých knihoven související s permanentně se zvyšujícími cenami časopisů. Na druhé straně většina kvalitních webových zdrojů negeneruje žádný příjem. Jsou financovány z externích zdrojů, obvykle těmi, kdo do nich vkládají data, nebo reklamou (např. Google, Amazon). Případně je sponzorem digitálních knihoven přímo vláda (viz např. v USA Digital Libraries Initiative, z otevřených archivů již citovaný arXiv.org). Jako příklad nového ekonomického modelu pro on-line publikaci sborníku konference může být způsob rozdělení příspěvku na konferenci. Část těchto prostředků bude věnována na jeho digitální podobu spolu s umístěním a následnou údržbou. 1 V angličtině se v této souvislosti používá slovo „disintermediation”, tj. odstraňování mezičlánků. 9 Nový pohled je možný i na technické vybavení digitální knihovny nebo ADK. Nebude třeba pořizovat rozsáhlé počítačové vybavení do kampusových knihovních studoven, protože hodně uživatelů bude přistupovat do knihovny odjinud, např. z kolejí či z domova. Také odborný servis nebude nutné rozptylovat do několika fyzických knihoven. Ten může být centralizován do méně míst na telefon, podobně jako se to dnes provádí u počítačových firem, kdy odborná systémová podpora je třeba na jednom místě v Evropě. Kombinace ADK a otevřeného přístupu k webovým zdrojům se zdá být pozitivní alternativou pro budoucnost knihoven. Jedním z nezanedbatelných aspektů této alternativy je nízká cena otevřeného přístupu. Díky ní se digitální knihovna stane dostupnou mnohem většímu množství uživatelů, než jak tomu dosud je v řešeních, které využívající spíše klasických postupů. 7 Závěr Je třeba si zvyknout na skutečnost, že na základě současných technologií se vedle digitálních knih či časopisů budují kvalitativně nové celky – webové zdroje. Tento trend má vliv na pojetí digitálních knihoven. Bude mít důsledky ekonomické, ale i společenské. Knihovny obnoví svoji primární funkci – být vzdělávací institucí. Otevřený přístup se stane zřejmě běžnou skutečností. Zůstává však mnoho dosud nevyřešených otázek, jako např.: • Jak zajistit věrohodnost a prestiž digitálních informačních zdrojů? • Jak prohledávat digitální kolekce, které jsou ve více jazycích? • Jak integrovat digitální kolekce, aby samy poskytovaly uživateli další nabídku možností vztažených k jeho problému? • Jak personalizovat služby podle profilu a zájmu uživatele? • Jak organizovat, aby informace samy hledaly svého uživatele? Kromě prvního bodu, vše ostatní je řešitelné (nebo alespoň částečně) na základě současných informačních technologií a souvisejícího výzkumu. Důvěra a respekt u elektronických publikací nejsou tak samozřejmé. Ředitelka nakladatelství Elsevier K. Hunter uvedla na symposiu o digitálních knihovnách v Osace příklad [17] tří elektronických časopisů vydávaných na MIT. Jeden z nich musel být zrušen z principiálních důvodů – z nedostatku nabízených článků. Důvodem byla absence papírové verze. Autoři si chtěli být jisti existencí permanentního (rozuměj tištěného) záznamu své práce. Co říci závěrem? V lednu r. 2000 formulovala skupina odborníků na knihovny na konferenci americké Asociace knihoven šest trendů, které mohou být inspirující i v prostředí našich knihoven: Trend 1. Knihovníci musí pracovat s Internetem a ne proti němu. Učení se, co s Webem dělat a co s ním mohou dělat uživatelé, by se mělo stát hlavní prioritou. Trend 2. Knihovníci by se měli usnést na svých rolích ve světě všudypřítomných elektronických informací. Mají se rozhodnout pro to, co je „správné”, nebo mají naslouchat uživatelům a nabízet jim alternativy? Měli by začít uvažovat, jak přidat hodnotu elektronickým informacím jedinečným způsobem, aniž by se namáhali dosáhnout úrovně, které třeba ani nepotřebují dosáhnout. Trend 3. Postupné sbližování. Není již čára mezi tím, co dělají s technologií knihovníci a co uživatelé. Je třeba řešit situace, jak pro uživatele neustále rozšiřovat počet funkcí, jak konfigurovat jejich vyhledavače apod. Knihovníci se musí rozhodnout, co mohou a budou 10 podporovat na základě reálných potřeb uživatelů a ne na úrovních knihovnického komfortu. Trend 4. Partnerství. Knihovníci si nemohou dovolit zůstat izolovaní. Technologie poskytují stále více prostředků a příležitostí pro spolupráci. Je třeba být proaktivní v hledání užitečných partnerství speciálně s finančně silnými organizacemi. Je třeba být připraven dívat se „za” tradiční knihovnu a opustit rigidní struktury – existuje život za standardem MARC. Trend 5. Ochrana soukromí. Jednoduchost vytváření individuálních dat i použití Webu je jak hrozbou tak výzvou. V minulosti se knihovníci vždy snažili chránit individuální soukromí ve vztahu k intelektuální svobodě. Na druhé straně může být uživatel veden k využívání zdrojů, kde tato ochrana není zaručena. Individuální data mohou být podobně zneužita jako data z prodejů apod. Trend 6. Nelze odsunout nabídku elektronických knih s tím, že se argumentuje „čtením v tramvaji, v posteli, na pláži” apod. Knihovníci by měli zůstat informováni, měli by se zapojit s nakladateli do diskusí o standardech elektronických publikací apod. Použitá literatura a WWW odkazy 1. ARMS, W. Y. Digital Libraries. Cambridge : MIT Press, 2000. x, 287 s. ISBN 0-262-01180-8. 2. ARMS, W. Y. et al. An Architecture for Information in Digital Libraries. D-Lib Magazine, 1997. 3. ARMS, W. Y. Open access to digital libraries: Must research libraries be expensive? In: BORBINHA, J., BAKER, T. (Eds.). 4th European Conference on Research and Advanced technology for Digital Libraries, ECDL 2000, Lisbon, Portugal 18-20 September 2000. 4. BROPHY, P. Digital Library Research Review. Final Report. Centre for Research in Library & Information Management, Department of Information & Communications, Manchester Metropolitan University August 1999. 5. CLEVELAND, G. Digital Libraries: Definitions, Issues and Challenges. UDT Occasional Paper #8, International Federation of Library Associations and Institutions, 1998. 6. FOX, E. A. From Theory to Practice in Digital Libraries: 5S and Educational Applications (NDLTD, CSTC). In Proceedings of NSF-CONACyT Workshop, Albuquerque, NM, July 1999. 7. http://ei.cs.vt.edu/~dlib/(courseware) 8. http://www.acm.org/dl/ 9. http://www.computer.org/publications/dlib/ 10. http://www.acm.org/pubs/contents/proceedings/series/dl/ 11. http://www.jcdl.org/ 12. http://www.cs.utexas.edu/users/mfkb/related.html 13. http://www.oasis-open.org/cover/xmlArticles.html 14. http://dublincore.org/ 15. http://link.springer.de/link/service/journals/00799/ 16. http://xxx.lanl.gov/ 17. HUNTER, K. Digital Libraries: Today, Tomorrow and Beyond. In Digital Libraries Symposium, May 26, 2000. Osaka. 18. KOEHLER W. Digital libraries and World Wide Web sites and page persistence. Information Research, Volume 4 No. 4 June 1999. 19. LESK, M. Digital Libraries: A Unifying or Distributing Force? Presentation at Conference Scholarly Communiaction and Technology, Atlanta, Georgia, April 24, 1997. 20. LESK, M. The Organization of Digital Libraries. http://www.lesk.com/mlesk/libtech/libtech.html 11 21. LICKLIDER, J. C. R. Libraries of the Future. Cambridge : MIT Press, 1965. xvii, 219 s. 22. NÜRNBERG, P. J. N. et al. Digital Libraries: Issues and Architectures. In Proc. of DL95, 1995. 23. POKORNÝ, J. Metadata – klíč ke globálním informačním systémům. In POUR, Jan and VOŘÍŠEK, Jiří (eds.). Proc. of Int. Conf. on Systems Integration ’99, My 31-June 1, 1999, Praha, Žofín, 1999, s. 209-218. 24. POKORNÝ, J. Elektronické časopisy a jejich vliv na infrastrukturu vědeckých znalostí. In RAMAJZLOVÁ, Barbora (ed.). Automatizace knihovnických procesů – VII : sborník ze 7. ročníku semináře pořádaného ve dnech 9. - 10. června 1999 v Ústí nad Labem. Ústí nad Labem: EKAS 1999, s. 5-13. 25. ŽABIČKA, P. Dublin Core – metadata pro popis elektronických dokumentů. In VALENTA, Jan (eds.). Datasem 2000 – 20th Annual Conference on the Current Trends in Database and Information Systems, October 21-24, 2000 v Brně. Brno : DATASEM, 2000, s. 193-201. Glosář Dublin Core MARC Portál RDF RDF Schema SFX SŘBD URL XML XML Schema Z 39.50 Formát pro metadata definovaný na základně mezinárodního konsensu, který definuje minimální popis informačního zdroje, obecně po použití v prostředí Webu. MAchine Readable Cataloging. Rodina formátů založena na ISO 2709 pro výměnu bibliographických a dalších vztažených informací ve strojově čitelné formě. Např. USMARC, UKMARC a UNIMARC. Webová brána do internetových zdrojů, často se službami, které přidávají hodnotu, např. volné emailové účty, speciální vyhledávače apod. Resource Description Framework. RDF je vyvíjen konsorciem W3C. Poskytuje základ pro popis metadat v různých aplikačních doménách. Jako modelovací nástroj používá entity, atributy a vztahy. Používá XML. Jazyk pro popis RDF schémat. RDF schémata obsahují omezení na specifikace psané pomocí jazyka RDF (např. CENA je větší než 0, SLEVA je menší než 15 %). Special Effects. Systém pro ukládání a řízení vazeb mezi dokumenty na základě vazeb mezi informačními zdroji. Systém Řízení Bází Dat. Software zajišťující vytváření databází, jejich údržbu a možnosti dotazování podle uživatelských požadavků. Uniform Resource Locator. Standardní způsob zadání adresy webového zdroje, např.: http://lisp.vse.cz/znal2001/. eXtensible Markup Language. Značkovací jazyk, který je zjednodušenou verzí obecnějšího značkovacího jazyka SGML. Umožňuje definovat vlastní uživatelské značky. Jazyk pro popis XML schémat. XML schémata slouží pro popis struktury a omezení obsahu XML dokumentů a typů dat vztažených k typům XML elementů a atributů. Standard NISO pro aplikace vrstvy protokolu pro výběr informací. Je navržen, aby napomáhal výběru z distribuovaných serverů. 12
Podobné dokumenty
Gramofon a jeho nastavení
Často je nastavení boční síly popsáno ve stejné stupnici jako vertikální přítlak na hrot a na stejnou hodnotu by se
měla také nastavit. Neznamená to ovšem, že při přítlaku na přenosku 2 g (20 mN) ...
Zeptejte se Anny - od osobního softwarového asistenta k virtuální
Pojmy jako Cloud Computing, delegované výpočty,
sociální sítě, síťová ekonomika a podobné možnosti,
které přinášejí moderní technologie, nabízejí příležitosti,
jak novým způsobem řešit problémy inf...
Stáhnout PDF - Laissez Faire
šením produkce – tím, čemu ekonomové
říkají „hospodářský růst“.
Na první pohled vypadá zvýšení pro
Digitální knihovny: více problémů než očekávání?
zdrojem budeme chápat kolekci nebo více kolekcí digitálních dokumentů. Tyto dokumenty mohou vznikat přímo v prostředí počítačových systémů nebo jde o digitalizované verze dokumentů existujících na ...
Úvod - Robotika.cz
Náročnější druhy algoritmů, pravděpodobnostní
algoritmy pro zpracování senzorů, pro plánování,
práce s neúplnou informací (cca 6 přednášek)
Cvičení
Celkem asi 6, nejspíše po přednášce, v laboratoři...
Citace odborné literatury jako nástroj rozvoje služeb a integrace
* Ústav informačních studií a knihovnictví, Filozofická fakulta UK v Praze, U Kříže 8, 158 00 Praha 5