Zpráva za rok 2008 - Národní knihovna České republiky
Transkript
Výzkumný záměr Vytvoření virtuálního badatelského prostředí pro zpřístupnění a ochranu digitálních dokumentů Dílčí zpráva o řešení za rok 2008 Mgr. Adolf Knoll, řešitel PhDr. Zdeněk Uhlíř, PhDr. Jiří Polišenský, spoluřešitelé Národní knihovna ČR Klementinum 190 110 00 Praha 1 11. prosinec 2008 1 OBSAH A. Konstatační část...............................................................................................................3 B. Analytická část.................................................................................................................8 Oblast digitalizace a zpřístupnění rukopisů a starých tisků..................................................8 Příprava dokumentů........................................................................................................8 Cesta z Evropské knihovny TEL do Manuscriptoria k distribuovaně uloženému dokumentu....................................................................................................................11 Vnitřní prostředí databáze Manuscriptoria ....................................................................12 Aplikace QCatalog .......................................................................................................13 Další práce....................................................................................................................13 Oblast digitalizace a zpřístupnění novodobých fondů .......................................................14 Automatizace vstupních procesů digitalizace ................................................................14 Zveřejnění informací o digitalizovaných dokumentech v katalozích NKC a SKC .........14 RELIEF III – přestěhování do sídla NK ČR ..................................................................15 Role jedinečných identifikátorů ....................................................................................15 Kontrola kvality obrazových souborů ...........................................................................16 Funkcionalita WEB 2.0.................................................................................................16 Migrace CD Rom a DVD médií na datové úložiště .......................................................17 Pravidla tvorby popisných metadat ...............................................................................17 C. Návrhová část ................................................................................................................18 Historické fondy...............................................................................................................18 Novodobé fondy...............................................................................................................18 Řešitelský tým..................................................................................................................18 D. Použití institucionální podpory ..................................... Chyba! Záložka není definována. E. Stručné résumé ..............................................................................................................20 F. Přílohy ............................................................................................................................21 2 A. Konstatační část Pro pochopení dílčí zprávy o řešení výzkumného záměru v r. 2008 je třeba uvést konkretizaci cílů výzkumného záměru, zpracovanou, předloženou a schválenou v minulých obdobích; z tohoto důvodu níže uvádíme s odkazem na zprávu o řešení za r. 2006 a 2007 základní závěry a upřesnění vzhledem k návrhu výzkumného záměru z 19. února 2003. Všechny dílčí zprávy o řešení a jejich přílohy jsou dostupné on-line na URL http://digit.nkp.cz/projekty/CurrentProjects_cz.htm: Cíle realizované z finančních důvodů mimo tento výzkumný záměr: a) masová digitalizace b) ochrana digitálních dat c) autorská práva Zároveň je třeba uvést, že byla též schválena zvýšená orientace na rozvoj virtuálního badatelského prostředí, které se soustřeďuje na oblast rukopisů a částečně starých tisků, tj. tam, kde drží nositel výzkumného záměru evropský primát. Tato skutečnost je od r. 2007 významnější z toho důvodu, že dnem 1. prosince 2007 byl zahájen evropský projekt ENRICH v programu eContentPlus, jehož cílem je agregace dat o rukopisech v Evropě, a to jak popisných, tak i vlastních binárních dat. Jde o aplikační projekt financovaný Evropskou komisí z 50% a koordinovaný Národní knihovnou ČR; z tohoto důvodu a zcela v souladu s výsledky oponentního řízení se výzkumný záměr zabývá řešením těch úkolů, které mají charakter výzkumu a vývoje a vytvářejí předpoklady pro úspěšné zvládnutí virtuálního slučování dat různorodých evropských institucí. V r. 2008 byly těmito podpůrnými pracemi zejména ty, které směřovaly k řešení standardizace sdílených metadat vzhledem k tomu, že instituce budující Manuscriptorium používají různé popisné formáty a různé přístupy k mapování struktury digitálního dokumentu. Z tohoto pohledu byla důležitá: a) standardizace sdílených resp. produkovaných metadat b) personalizace prostředí Manuscriptoria pro uživatele c) personalizace prostředí Manuscriptoria pro přispěvatele d) multilingvální a uživatelsky přívětivý přístup k Manuscriptoriu V oblasti digitalizace novodobých dokumentů se aktivity v oblasti institucionálního vývoje virtuálního badatelského prostředí zaměřily na následující oblasti: a) Automatizaci vstupních procesů digitalizace pomocí funkcí knihovního systému ALEPH b) Zveřejnění informací o digitalizovaných dokumentech v katalozích NKC a SKC c) Přenesení systému RELIEF III do Centrálního depozitáře v Hostivaři a zahájení ověřovacího provozu d) Zpracování příručky pro vyhodnocování kvalitativních parametrů digitálních obrazových souborů e) Využití funkcionality WEB 2.0 pro Systém Kramerius. V r. 2008 byla zpracována studie a vytvořen informační portál pro Systém Kramerius 3 f) Migraci elektronických dokumentů na fyzických nosičích na Centrální datové úložiště V r. 2008 došlo k některým změnám řešitelského týmu, což ovlivnilo řešení některých dílčích úloh a plánování dalších činností v příštích letech. Současně pokrok v oblasti přípravy hromadné digitalizace ovlivňuje původní přístupy k řešené problematice vzhledem k proměnám střednědobých cílů. V důsledku uvedených změn nebude nadále rozvíjen nástroj DigTool, který se sice v praxi osvědčil, a je využíván při rutinní digitalizaci, ale v příštích letech by měl být nahrazen profesionálními programovými nástroji zajišťujícími kompletní workflow. V r. 2008 byl schválen programový projekt VaV Knihovny AV ČR zaměřený na další rozvoj Systému Kramerius a vytvoření Registru digitalizace CZ na bázi systému RELIEF III. V rámci výzkumného záměru bylo řešeno přenesení systému do prostředí NK ČR, zajišťování ověřovacího provozu, plnění systému daty a jejich následná kontrola a optimalizace a propojení systému s katalogem NK ČR. V oblasti kontroly kvality obrazových souborů byly stanoveny základní přístupy a do konce r. 2008 bude zpracována příručka pro provozovatele digitalizačních zařízení. V dalších letech by příručka měla být doplňována a optimalizována podle zkušeností z jednotlivých pracovišť. Výsledky řešení dle RIV V r. 2008 bylo uplatněno pět výsledků řešení výzkumného záměru, viz tabulka, jež je výpisem za databáze RIV: 1. RIV/00023221:_____/07:#0000026 Databáze evidenčních záznamů Druh výsledku: Z - Poloprovoz, ověřená technologie, odrůda, plemeno, Obor: AF Dokumentace, knihovnictví, práce s informacemi, Stav uplatnění výsledku: U - Výsledek již uplatněný, Rok uplatnění výsledku: 2007, Rok sběru dat: 2008, Dodavatel výsledku: MK0 - Ministerstvo kultury (MK), Předkladatel výsledku: Národní knihovna České republiky. 2. RIV/00023221:_____/07:#0000027 Implementace formátu METS ve formě Komplexního digitálního dokumentu jako interního formátu digitální knihovny Manuscriptorium Druh výsledku: Z - Poloprovoz, ověřená technologie, odrůda, plemeno, Obor: AF Dokumentace, knihovnictví, práce s informacemi, Stav uplatnění výsledku: U - Výsledek již uplatněný, Rok uplatnění výsledku: 2007, Rok sběru dat: 2008, Dodavatel výsledku: MK0 - Ministerstvo kultury (MK), Předkladatel výsledku: Národní knihovna České republiky. 3. RIV/00023221:_____/07:#0000029 DTD pro strukturaci historického fulltextu ve verších Druh výsledku: S - Prototyp, metodika, vzorek, software, výsledky apl. výzkumu promítnuté do práv. předpisů a norem, užitný vzor, Obor: AF - Dokumentace, knihovnictví, práce s informacemi, Stav uplatnění výsledku: U - Výsledek již uplatněný, Rok uplatnění výsledku: 2007, Rok sběru dat: 2008, Dodavatel výsledku: MK0 - Ministerstvo kultury (MK), Předkladatel výsledku: Národní knihovna České republiky. 4. RIV/00023221:_____/07:#0000030 DTD pro strukturaci historického fulltextu s tabulkami Druh výsledku: S - Prototyp, metodika, vzorek, software, výsledky apl. výzkumu promítnuté do práv. předpisů a norem, užitný vzor, Obor: AF - Dokumentace, knihovnictví, práce s informacemi, Stav uplatnění výsledku: U - Výsledek již uplatněný, Rok uplatnění 4 výsledku: 2007, Rok sběru dat: 2008, Dodavatel výsledku: MK0 - Ministerstvo kultury (MK), Předkladatel výsledku: Národní knihovna České republiky. 5. RIV/00023221:_____/07:#0000035 RELIEF Registr digitalizovaných dokumentů Druh výsledku: S - Prototyp, metodika, vzorek, software, výsledky apl. výzkumu promítnuté do práv. předpisů a norem, užitný vzor, Obor: AF - Dokumentace, knihovnictví, práce s informacemi, Stav uplatnění výsledku: U - Výsledek již uplatněný, Rok uplatnění výsledku: 2007, Rok sběru dat: 2008, Dodavatel výsledku: MK0 - Ministerstvo kultury (MK), Předkladatel výsledku: Národní knihovna České republiky. Dosažené a uplatnitelné výsledky za r. 2008 resp. za dřívější období: a) Za rok 2007 se předpokládá uplatnění těchto aplikovaných výstupů: • Schéma pro popis rukopisů na platformě TEI P5 enrich.dtd (řešitelský tým se podílel na tomto výsledku, jehož garantem byl Lou Burnard z Oxford University Computing Services) • M-TOOL On-line (nový nástroj pro tvorbu složených digitálních dokumentů založený na enrich.dtd) • Aplikace QCatalog (určená pro vyhledávání duplicitních úseků v TEI dokumentech) b) publikací našich příspěvků na konferencích • • Knoll, Adolf - Psohlavec, Stanislav - Psohlavec, Tomáš - Uhlíř, Zdeněk ENRICH: an eContentPlus Project for Creation of a European Digital Library of Manuscripts. In: Digital Heritage. Proceedings of the 14th International Conference on Virtual Systems and Multimedia. Project Papers. 20 - 25 October 2008, Limassol, Cyprus. Limassol, Archaeolingua, 2008. 444 pp. Pp. 201 - 206. ISBN 978-9639911-00-0 Knoll, Adolf Towards Creation of a European Digital Library of Manuscripts. In: Conferinţa Internaţională: Biblioteca şi Noile Tehnologii Informaţionale între Tradiţie şi Inovaţie, ediţia a VI-a, 11 - 13 iunie 2007, Braşov = International Conference: The Libraries and the New Information Technologies. Tradition and Inovation. 6th Edition, 11 - 13 June 2007 = Conférence internationale: Bibliothèques et nouvelles technologies: Tradition et innovation. VI-ème édition, 11 - 13 juin 2007. Braşov, Biblioteca Judeţeană George Bariţiu, 2007. 271 pp. Pp. 27 - 31 Romanian (Crearea unei biblioteci europene digitale pentru manuscrise), pp. 110 - 114 English, pp. 195 200 French (Vers la création d'une bibliothèque européenne numérique de manuscripts); ISBN 978-973-0-05372-2 (vyšlo také jako: Knoll, Adolf: Crearea unei biblioteci europene digitale pentru manuscrise. In: Biblioteca. Revista de bibliologie şi ştiinţa informării. Bucureşti, Revista lunară - Instituţie publică, 1948 Anul LIX. Serie nouă, Anul XVIII. Numărul 7/2007. Pp. 205 - 207. ISSN 1220-3386) 5 • Zdeněk Uhlíř ENRICH – Projekt evropské integrace rukopisů. In: Knihovny současnosti 2008: Sborník z 16. konference, konané ve dnech 16. – 18. září 2008 v Seči u Chrudimi. Brno: Sdružení knihoven ČR, 2008. 373 s., ss. 21 - 26 (ISBN 978–80-86249–49-0) • Zdeněk Uhlíř Manuscriptorium – European digital library of Manuscripts. In: Materialy čatvjortych miždunarodnych knigaznaučych čytannjau: Novyma technologii u zachavanni dakumental´nych pomnikau, Minsk, 20-21 listapada 2008 g. Minsk: Ministerstva kul´tury Respubliki Belarus´ - Nacyjanal´na Biblijateka Belarusi, 2008. 251 s, ss. 4147 (ISBN 978-985-6557-94-4) • Zdeněk Uhlíř Digitization is not only making images: manuscript studies and digital processing of manuscripts. In: Knygotyra, Vilnius, Vilnius University Publishing House, 314 s., rok 2008, roč. 51, s. 150–161 (ISSN 0204–2061) Kopie těchto publikací jsou ve formátu PDF resp. tiskem v přílohách k této zprávě; nikoli na webu, neboť to podléhá souhlasu vydavatele. Zahraniční sborníky a už samo přijetí příspěvků do konferencí podléhalo recenznímu posouzení. Další výsledky a aktivity spojené s řešením Mezinárodní aktivity Hlavní řešitel Adolf Knoll a Zdeněk Uhlíř se zapojili do celé řady iniciativ, které přispívají k nově vyhlášené prioritě Národní knihovny ČR, tj. rozšíření digitální knihovny Manuscriptorium za hranice České republiky, vytvoření mezinárodní digitální knihovny rukopisů. V r. 2008 byl Adolf Knoll i nadále členem vysoké skupiny expertů na digitální knihovny (High Level Expert Group on Digital Libraries), která je poradním orgánem komisařky EU pro informační společnost a média, paní Viviane Reding. Pokračoval též jako poradce pro digitalizaci evropského projektu NUMERIC, řešeného na přímou objednávku Evropské komise. Projekt, zahájený v polovině r. 2007, má za úkol nastartovat sběr dat o digitalizaci ze všech možných aspektů v různých typech institucí pro potřeby Evropské komise. Pokračoval též v práci subkomise pro technologii programu UNESCO Pamět světa, která se sešla v listopadu 2008 v Alexandrii (Egypt). Stal se členem rady pro výzkum a vývoj Národní knihovny Lotyšska v Rize a členem programového výboru konference ELPUB, jejíž v r. 2009 zasedání bude v Miláně. Podílí se na přípravě konference o digitalizaci, kterou v rámci konference INFORUM 2009 uspořádá Ministerstvo kultury ČR dne 26. května 2009 jako akci českého předsednictví EU. Hlavní řešitel je též členem TEL Management Board (TEL = The European Library). Výsledky řešení byly šířeny zejména oběma výše uvedenými řešiteli na řadě dalších mezinárodních akcí, viz cestovní zprávy, resp. publikace. Za zmínku stojí prezentace Manuscriptoria a projektu ENRICH na zasedání CENL (Conference of European National 6 Librarians) v září 2008 v Záhřebu (Chorvatsko) a zejména obdobná prezentace na konferenci o digitalizaci pořádané pod záštitou Ministerstva kultury Francouzské republiky jako akce francouzského předsednictví EU v listopadu 2008 (jako jediný zástupci zemí tzv. střední a východní Evropy). Zdeněk Uhlíř je hlavním koordinátorem projektu EU ENRICH, řešení ENRICH se účastní i někteří další členové řešitelského týmu, zejména Adolf Knoll. Řešitelský tým Řešitelský tým opustil dnem 31. 10. 2008 Aleš Dostál (odešel z Národní knihovny ČR); doplnění a změny v řešitelském týmu viz Návrhová část. 7 B. Analytická část Oblast digitalizace a zpřístupnění rukopisů a starých tisků Příprava dokumentů Velké úsilí bylo věnováno rozšíření Manuscriptoria do zahraničí mimo partnery projektu ENRICH. Do digitální knihovny Manuscriptorium se připojily v r. 2008 Univerzitní knihovna v Heidelbergu (prozatím 570 zpřístupněných rukopisů na základě harvestingu popisných dat a struktur prostřednictvím OAI) a Národní knihovna Rumunska v Bukurešti (na 110 starých tisků s využitím Manuscriptoria kandidátů a M-TOOL). Jednání byla zahájena s dalšími zahraničními institucemi; v některých případech včetně testování dat (Národní knihovna Lotyšska, Národní knihovna Koreje, Sv. Sergievská Lavra ve městě Sergiev Posad a další); řada institucí vyjádřila svůj zájem buď formálně (Letter of Intent) nebo v jednání; mnozí čekají na zveřejnění enrich.dtd a jeho zabudování do nástrojů digitální knihovny (M-TOOL On-line a Manuscriptorium kandidátů). V rámci projektu ENRICH jsou testovány příspěvky partnerů projektu (http://enrichdata.manuscriptorium.com) Rukopis z Univerzitní knihovny v Heidelbergu Níže uvádíme část výpisu dokumentu XML, připraveného Národní knihovnou Rumunska: 8 !-generated by M-Tool ver. 1.2, for more info visit www.aipberoun.cz --> − <manuscript> − <msDescription> − <msIdentifier> <settlement>Bucharest</settlement> <repository>National Library of Romania</repository> <idno>CR XVIII II 74</idno> </msIdentifier> − <msHeading> − <title> Octoihu acumu întâi tălmăcit pre limba rumânească, spre înteleagerea de obşte şi tipărită întru al 24 de an a înalţatei domnii a prea luminatului oblăduitoriu a toată Ţara Rumânească, Ioann Constandin B. Basarabu Voevod, cu toată chieltuiala prea sfinţitului Mitropolitu alu Ungrovlahiei, Kyr Anthimu Ivireanulu. În sfânta Mitropolie a Târgoviştii. La anul dela Hs. 1712 </title> <author/> − <respStmt> <resp>printer</resp> <name type="place" role="printer">Târgovişte</name> <name type="person" role="printer">Radovici, Gheorghe</name> </respStmt> <origDate>1712</origDate> <textLang>română</textLang> − <note> Tipar negru şi roşu, cu câte 26 de rânduri pe pagină. Exemplar cu ex-librisul Bibliotecii Aşezământului Cultural Nicolae Bălcescu. </note> </msHeading> − <physDesc> − <support> <p>Hârtie</p> </support> − <extent> [4] f. , 464 p. <dimensions>In 4° (20 x 16 cm.)</dimensions> </extent> − <decoration> − <decoNote> <p>Ornamentată cu iniţiale, frontispicii şi viniete.</p> − <p> Pe verso paginii de titlu se află stema Ţîrii Româneşti şi versurile politice. </p> − <p> F. [4] v.: gravura reprezentându-l pe Sf. Ioan Damaschin. </p> </decoNote> </decoration> − <bindingDesc> − 9 <binding> − <p> Legătura din piele brună pe scoarţe din lemn. Coperţile sunt ornamentate prin presare cu fiare la rece. Poarta urme de încuietori metalice. </p> </binding> </bindingDesc> </physDesc> − <additional> − <adminInfo> − <recordHist> − <source> <p/> </source> </recordHist> </adminInfo> − <listBibl> − <bibl> Bianu, Ioan; Hodoş, Nerva. Bibliografia românească veche. Vol. 1. Bucureşti: Stabilimentul Grafic J. V. Socec, 1903. p. 485, poz. 162. </bibl> </listBibl> </additional> </msDescription> − <page> <pgPagination>0001</pgPagination> − <pgDescription lang="RUM"> − <pgText> <pgItem/> </pgText> </pgDescription> <pgImage id="ID0001" href="http://virtual.bibnat.ro/manuscriptorium/CR_XVIII_II_74/normal/CR XVIII.II74- Octoih Targoviste 1712 - 00000001.jpg" quality="normal"/> <pgImage id="ID0001" href="http://virtual.bibnat.ro/manuscriptorium/CR_XVIII_II_74/low/CR XVIII.II74 Octoih Targoviste 1712 - 00000001.jpg" quality="low"/> <pgImage id="ID0001" href="http://virtual.bibnat.ro/manuscriptorium/CR_XVIII_II_74/prev/CR XVIII.II74 Octoih Targoviste 1712 - 00000001.jpg" quality="prev"/> </page> − <page> atp. další strany dokumentu… Za povšimnutí stojí odkazy na obrazová data na rumunském serveru. 10 Cesta z Evropské knihovny TEL do Manuscriptoria k distribuovaně uloženému dokumentu TEL Výsledek vyhledávání v TEL z pohledu Manuscriptoria Manuscriptorium Přechod z TEL do Manuscriptoria: zobrazení popisu dokumentu v Manuscriptoriu 11 Manuscriptorium ve spolupráci se serverem Národní knihovny Rumunska Studium dokumentu v Manuscriptoriu: obrazy jsou uloženy v rumunském datovém úložišti Vnitřní prostředí databáze Manuscriptoria Aplikace TEI P5 Během agregace dokumentů do Manuscriptoria počaly vznikat závažné problémy v oblasti popisu rukopisů, resp. starých tisků. Obecně lze rozdělit komunitu zacházející s těmito dokumenty na dvě části: 1. knihovny a jim podobné instituce, které dokumenty vlastní a jejichž úkolem je je zpřístupnit, 2. badatelská veřejnost. Knihovnám je vlastní relativně stručný identifikační popis dokumentu většinou na bázi formátů typu MARC, kdežto badatelská veřejnost popisuje rukopisy za účelem jejich prezentace (TEI description; tady se blíží roli MARC) a edice (přepisu textu) v prostředí TEI (TEI transcription). Původně jsme si kladli za úkol přemostit starší a novou verzi TEI (P4 a P5) a rozpor s MARC řešit paralelním umístěním popisů v příslušném oddíle formátu METS s tím, že pravděpodobně žádný identifikační popis nebude hlavní, což by znamenalo samostatné transformace jak pro indexaci, tak i zobrazení. Z tohoto důvodu byla definována a provedena analýza interoperability MARC21 a TEI P5 s tím, že konkrétní řešení této otázky bude vnitřním řešením Manuscriptoria (tzn. DTD respektující kritickou granularitu obou v oblasti identifikačního popisu). Současně v projektu ENRICH, koordinovaném Národní knihovnou ČR, vznikalo pod vedením Oxford University Computing Services nové DTD pro popis rukopisů na platformě TEI P5. K problematice nového DTD proběhla schůzka ENRICH v Kodani v únoru 2008 a vyjasňování přístupů řešitelských týmů bylo předmětem každé schůzky ENRICH, zejména setkání v Reykjavíku. De facto šlo o dialog řešitelů tohoto výzkumného záměru, AiP Beroun a Oxfordu. Po nelehkých jednáních vzniklo enrich.dtd 12 http://tei.oucs.ox.ac.uk/ENRICH/Deliverables/referenceManual_en.html, které na základě naší analýzy vzalo v úvahu nezbytné identifikační rozšíření. Kromě toho nové enrich.dtd vzalo i v úvahu nezbytnost mapování struktury složeného digitálního dokumentu vč. vazby na binární data. Enrich.dtd bude zveřejněno též na http://enrich.manuscriptorium.com. <TEI> <teiHeader> <!-- ... metadata describing the manuscript --> </teiHeader> <facsimile> <!-- ... metadata describing the digital images --> </facsimile> <text> <!-- (optional) transcription of the manuscript --> </text> </TEI> Tři hlavní bloky enrich.dtd Tím se z pohledu interoperability a spolupráce v Manuscriptoriu podstatně snížila úloha METS. Dosažení této shody a zpracování enrich.dtd v TEI P5 je kvalitativně lepším výsledkem, než jakékoli řešení v rámci METS. Váhu mu může v budoucnu dodat i postoj TEI konsorcia. Enrich.dtd se jako takové stane vnitřním formátem Manuscriptoria a bude produkováno též novým M-TOOL On-line a bude s ním pracováno i v Manuscriptoriu pro kandidáty. Protože jde o výraznou vazbu na mezinárodní komunitu, budou veškeré aplikace enrich.dtd široce testovány. Tento převrat v řešení popisu rukopisů umožní zapojení dalších institucí do Manuscriptoria. To má t.č. více než 40 přispěvatelů v ČR a kolem 30 zahraničních institucí v něm má data, resp. projevilo zájem o spolupráci. Zájem přitom neustále roste; aplikace TEI P5 pro zpracování rukopisů tomu výrazně přispěje. TEI P5 bude muset být namapováno i do databáze evidenčních záznamů. Aplikace QCatalog Off-line aplikace QCatalogue je určená pro vyhledávání duplicitních úseků v TEI dokumentech – viz http://digit.nkp.cz/qcatalogue/qcatalog.zip. Aplikace má návaznost na mss-fulltext.dtd, dle níž se strukturují plné historické texty v Manuscriptoriu. Případné zabudování do interface Manuscriptoria bude předmětem dalšího řešení. Další práce Spolu s národními knihovnami Rumunska, Polska a Litvy byl podán projekt REDISCOVER do programu Kultura 2000, který by v případě získané podpory umožnil jejich rychlejší integraci do Manuscriptoria. Dále probíhají práce na personalizaci uživatelského prostředí; testuje se tvorba individuálních sbírek. 13 Oblast digitalizace a zpřístupnění novodobých fondů Automatizace vstupních procesů digitalizace Řešení navázalo na aktivity v r. 2007. Pro automatizaci byly využity soubory xls, vytvářené zpočátku manuálně, později generované z knihovního systému ALEPH. Jejich transformací byly vytvářeny předávací protokoly pro dodavatelské firmy a pro evidenci výpůjček. Současně byly v knihovním systému změněny statusy exempláře, které uživatele informovaly o nedostupnosti dokumentu a skutečnosti, že je digitalizován. Další oblastí automatizace bylo vytváření bibliografických předloh pro mikrofilm dle normy ISO 4087, které byly vytvářeny manuálně a nyní jsou transformovány ze záznamu v elektronickém katalogu NK ČR. Bibliografické předlohy pro mikrofilmování a záznamy exportované z katalogu do systému RELIEF jsou využívány pro tvorbu popisných metadat. V procesu přípravy dokumentů pro mikrofilmování a digitalizaci se nyní využívá výpůjční protokol knihovního systému, jehož prostřednictvím se nyní evidují výpůjčky dokumentů, a vytváří se dílčí sbírka, jejímž prostřednictvím se do systému RELIEF exportují informace o jednotlivých dokumentech. Tím se redukuje role hlavního xml souboru a jeho manuální transformace, které byly časově náročnější než stávající postup. Využití výpůjčního protokolu pomáhá při operativnějším vracení digitalizovaných dokumentů do skladiště. Původní systém předávaných dávek se mohl opustit a knihy mohou být vraceny individuálně bez ohledu na příslušnost k dané dávce. To výrazně zjednodušilo a urychlilo proces navracení knih do běžného provozu. Podmínkou využití funkcí knihovního systému bylo rozhodnutí rekatalogizovat veškeré dokumenty, které nemají dosud záznam v elektronickém katalogu, a opatřit všechny svazky čárovými kódy, které se dále v procesu mikrofilmování a digitalizace využívají jako základní jedinečný identifikátor. Vyvinuté procesy byly v průběhu roku ověřovány v praxi Zveřejnění informací o digitalizovaných dokumentech v katalozích NKC a SKC Systém Kramerius byl vytvořen jako autonomní systém pro zpřístupňování digitalizovaných dokumentů. V případě periodik byly postupně zveřejňovány údaje o titulech, obsažených v Krameriovi, v záznamech elektronického katalogu NK ČR (NKC) a později i v souborném katalogu CASLIN (SKC). Propojení mezi oběma systémy se uskutečňuje prostřednictvím ISSN, což vyžadovalo přidělování tohoto identifikátoru i starším periodickým titulům. Zahájením projektu tzv. Norských fondů, zaměřeného na mikrofilmování a digitalizaci velkého počtu monografií, bylo třeba řešit i předávání informací o digitalizovaných dokumentech do uvedených katalogů. K tomuto účelu byl využit nově vytvářený identifikátor HANDLE, který může propojit oba systémy. Vzhledem k velkému počtu titulů (celkem bude v rámci projektu zpracováno cca 20 tis. svazků), se neuvažuje o manuálním plnění těchto údajů, ale byl navržen a realizován automatizovaný proces přenosu dat mezi systémy. 14 Prostřednictvím protokolu OAI-PMH poskytuje Systém Kramerius odkazy na digitalizované dokumenty pro systém RELIEF III, který je po doplnění dál předává do katalogu NKC a SKC. Do konce roku 2008 bude do NKC a po té i do SKC importováno cca 4000 odkazů na digitalizované dokumenty v Systému Kramerius. RELIEF III – přestěhování do sídla NK ČR V r. 2008 byl schválen programový projekt VaV Knihovny AV ČR, který řeší další rozvoj systému. V rámci výzkumného záměru se realizovalo přemístění aplikace RELIEF III do Centrálního depozitáře v Hostivaři. Přestěhováním se řešil problém zrychlení odezvy systému. Současně byl zahájen ověřovací provoz rozšířené aplikace a její plnění staršími daty o digitalizovaných dokumentech. Ukázalo se, že původní nástroje pro evidenci procesů mikrofilmování a digitalizace, soubory xls, jejichž obsah bylo třeba importovat do systému, obsahují chyby, které bylo nutné identifikovat a opravit. Současně byly optimalizovány procesy využívající aplikaci RELIEF III. Role jedinečných identifikátorů Pokrok v oblasti automatizace procesů digitalizace včetně přípravných prací byl umožněn zavedením jedinečných persistentních identifikátorů v Systému Kramerius. Pro jejich tvorbu byl využit mechanismus vytváření UUID (číslo síťové karty a časové razítko), který se transformuje do podoby HANDLE, která je vhodnější pro uživatele. V procesu digitalizace se tvoří identifikátory pro všechny úrovně dokumentu až na úroveň reprezentace. Identifikátory zajišťují trvalý přístup prostřednictvím Internetu ke zveřejněným dokumentům a jejich částem. V současné době se jedná o identifikátory vlastní dané instanci Krameria, ty nejsou využívány mimo ni (není národní resolver). Identifikátory se využívají v procesu výroby a slouží k propojení digitální knihovny a katalogu. Kromě systémových identifikátorů digitálních dokumentů se využívá čárový kód identifikující konkrétní fyzický exemplář, pole 001 identifikující daný záznam v systému ALEPH pro NKC a systémové číslo knihy (SYSNO) identifikující popsané dílo. Pole 001 i SYSNO jsou taktéž pouze identifikátory vlastní dané instanci systému. Pomocí těchto nástrojů lze účinně čelit duplicitám a identifikovat různé druhy chyb v odkazech. Pro kooperaci mezi systémy a na národní úrovni chybí jedinečný persistentní identifikátor, který by mohl sloužit pro identifikaci duplicit mezi systémy, příp. by mohl být využíván pro další operace. V současné době se připravuje využití čísla národní bibliografie (NBN) jako celonárodního jedinečného persistentního identifikátoru. Bez jeho zavedení by bylo budování Národní digitální knihovny velmi obtížné. V procesu digitalizace se používají ještě evidenční identifikační údaje jako čísla zakázek pro části digitalizovaných dokumentů (na bázi elementů PeriodicalVolume, Monograph a MonographUnit), které tvoří součást pojmenování obrazových souborů. Mikrofilmy jsou identifikovány podle svých lokačních údajů: ČAN – číslo archivního negativu, MfD – signatura periodického titulu a MfE signatura monografie na mikrofilmu. Udržování 15 konzistence v systému těchto údajů bylo velmi náročné. Pro jednotlivé evidence sloužily soubory xls, ve kterých docházelo k chybám (překlepy, posunutí řádků apod.) jejichž výsledkem byly chybné odkazy mezi evidenčními údaji a identifikátory. Efektivní udržování konzistence všech evidenčních údajů a identifikátorů je možné pouze pomocí robustnější databáze, kterou disponuje systém RELIEF III, kde lze využít kontrolní mechanizmy. Kontrola kvality obrazových souborů Tvorba obrazových souborů byla do nedávné doby centralizována na několika pracovištích v knihovnách a u dodavatelských firem. Vzhledem k tomu, že se pro skenování mikrofilmů, příp. hybridní snímkování, se většinou využívají přístroje s automatickým nastavováním skenovacích parametrů, nebylo nutné provádět podrobnější kontrolu a řízení kvality obrazových souborů. Vznikla však nová pracoviště využívající digitální fotoaparáty, u kterých je větší riziko chybných nastavení, pro které je třeba stanovit pravidla kontroly kvality obrazových souborů. Dalším důvodem je koncepce centralizované archivace národního kulturního dědictví v digitální podobě, která předpokládá spolupráci různých institucí při digitalizaci různých zdrojových dokumentů. I v tomto případě bude výhodné využívat společné mechanismy pro kontrolu kvality zdrojových obrazových souborů. V současné době neexistuje universální metoda, která by mohla být využita pro kontrolu kvality obrazových souborů. Pro tuto potřebu byly stanoveny tři základní přístupy: 1. Vytvoření provozních metod pro kontrolu stability zpracování. Bude se jednat o operace prováděné v denním nebo průběžném režimu vyžadující minimální vybavení 2. Metody určené pro diagnostiku chyb 3. Metodu pro automatizovanou průběžnou kontrolu dokumentů určených pro trvalou archivaci Součástí příručky je navržená sada obrazců, které bude možné používat. Obrazce budou snímkovány pro dané nastavení a v případě jeho změny bude nutné snímek obrazce opakovat. Postup měření je popsán v příloze. Funkcionalita WEB 2.0 V r. 2008 byl vytvořen nový informační portál Systému Kramerius a zpracována studie mapující možnosti využití funkcionality WEB 2.0. Další vývoj je možný dvěma směry, a to buď postupně implementovat vybranou funkcionalitu prostřednictvím portálu do Systému Kramerius nebo pořídit nástroj, který již těmito funkcemi disponuje a který by sloužil např. na úrovni portálu Jednotné informační brány i pro další aplikace. Mohlo by se jednat např. o: § RSS technologii, informace o nově importovaných dokumentech § bookmarkovací služby, vytváření příručních knihoven § podporu sdílení § budování znalostní báze o dokumentech § editace a doplňování metadat 16 Navázně bude ještě zpracována analýza porovnávající různé knihovnické portály pro zpřístupňování zdrojů využívající funkcionalitu WEB 2.0 (Aquabrowser, Primo, Encore atd.). Studie budou využity pro další rozhodování. Systém Kramerius je dokumentová platforma poskytující současně zdrojový dokumentový materiál pro výzkum zejména ve společenských vědách, ale i odborné publikace, které mají charakter příruční literatury. Barierou pro plné využití bez ohledu na místo badatele jsou omezení daná autorským zákonem (ochrana autorského díla 70 let po smrti autora). V důsledku toho mohou knihovny zpřístupnit kopie těchto děl pouze ve svých prostorách. Digitalizace však může být i přes tato omezení přínosem pro badatele. V sídle knihovny mohou získat přístup k těmto digitalizovaným dokumentům, příp. i dalším elektronickým zdrojům podle charakteru licence, v kombinaci s klasickými dokumenty, poskytovanými pouze k prezenčnímu studiu. Pomocí funkcionality WEB 2.0 si mohou uživatelé vytvářet vlastní elektronické příruční knihovny profilované přesně podle vlastní specializace a současně i vlastní knihovny pramenných dokumentů v digitální podobě pro svůj výzkum. Další rozvoj služeb, spojený s novostavbou nebo rekonstrukcí Klementina předpokládá vybudování individuálních studoven, ve kterých by VIP uživatelé mohli mít k dispozici elektronické dokumenty, přístupy do elektronických bází i dlouhodobě rezervované knihy. Takového služby však bývají v zahraničních knihovnách zpoplatňovány. Migrace CD Rom a DVD médií na datové úložiště Migrace pokračovala v r. 2008 v omezeném rozsahu, což bylo dáno jednak nedostatkem finančních prostředků pro OON a jednak nedostatkem prostoru na datovém úložišti. Pravidla tvorby popisných metadat V r. 2007 byla optimalizována pravidla pro tvorbu popisných metadat. Tím bylo dosaženo poměrně stabilního stavu a nebylo nutné dále pravidla měnit nebo doplňovat. V následujících letech ale bude nutné počítat s vytvořením pravidel pro popis dle nového standardu (MODS), který se řeší v souvislosti s přechodem Systému Kramerius na Fedoru. Role pravidel bude odlišná od stávajícího standardu založeného na definici jednotlivých druhů dokumentů (DTD). Stávající standard slučoval bibliografický popis, popis logické a fyzické struktury dokumentu a základ technických metadat. Současně představoval i návod pro tvorbu digitálních dokumentů, zejména jejich strukturálního členění na definované úrovně (Periodical-PeriodicalVolume-PeriodicalItem-PeriodicalPage-PageRepresentation, obdobně u monografií). V případě Fedory bude role standardu redukována na popisnou funkci. Fedora umožní akceptovat dokumenty s různou fyzickou strukturou a umožní jejich popis. Základem je formát METS, používající standardy MODS pro popisná metadata, PREMIS a MIX pro administrativní metadata. Cílem je max. automatizovat vytváření metadat. Popisná metadata budou vytvářena konverzí z bibliografických záznamů, ostatní by mněla být generována v procesu digitalizace. 17 C. Návrhová část V r. 2008 budou realizovány následující činnosti: Historické fondy a) Zabudování enrich.dtd do všech součástí Manuscriptoria, testování aplikací a jejich nasazení do provozu b) pokračování prací na personalizaci uživatelského prostředí (individuální a virtuální kolekce) c) získávání nových přispěvatelů a propagace výsledků, vč. možných školení v zahraničí Novodobé fondy a) další rozvíjení systému REILEF III (Registr digitalizace CZ) a optimalizace pro hromadný provoz. Systém bude třeba propojit s externím editorem metadat. Dále budou identifikovány a odstraňovány chyby zavlečené z původních xls souborů a z katalogu b) v procesu digitalizace bude implementován jedinečný perzistentní identifikátor c) dopracování příručky pro vyhodnocování kvality obrazových souborů a navržení funkčního modelu programového nástroje pro automatizovanou kontrolu kvalitativních parametrů d) v případě funkcionality WEB 2.0 bude navržen další postup (implementace knihovního nástroje, nebo postupná aplikace navržených funkcí v rámci informačního portálu Systému Kramerius) e) Migrace CD-R a DVD médií na datové úložiště f) Optimalizace způsobu archivace digitalizovaných dokumentů. Řešitelský tým V souvislosti s odchodem Aleše Dostála z Národní knihovny ČR a v souvislosti se změnami priorit v řešení navrhujeme posílit oblast integrace zdrojů do digitální knihovny Manuscriptorium. Vzhledem k tomu také navrhujeme vyřadit z týmu Miloše Dostála, neboť na práci jím vykonávanou bude kladen menší důraz. Do týmu naopak navrhujeme přijmout tyto dva pracovníky oddělení rukopisů a starých tisků Národní knihovny ČR: Tomáš Klimek, nar. 1979, studoval historii (Mgr., pokračuje PhD.); již pracoval na projektech (zejména ENRICH a dále na přípravě nově podaných projektů EU, jako jsou ANCHISAE, REDISCOVER, resp. SLAVO); bude se věnovat zejména agregaci dat partnerů do Manuscriptoria; účast v týmu 60% pracovního úvazku. 18 Zuzana Kulová, nar. 1977, vystudovala latinu, historii a pomocné vědy historické (Mgr.); již pracovala na projektech (zejména ENRICH a dále na přípravě nově podaných projektů EU, jako jsou ANCHISAE, REDISCOVER, resp. SLAVO); bude se věnovat zejména agregaci dat partnerů do Manuscriptoria; účast v týmu 40% pracovního úvazku. 19 E. Stručné résumé V návaznosti na projekt EU ENRICH - http://enrich.manuscriptorium.com - a ve spolupráci s ním došlo k zásadnímu obratu v aplikaci TEI P5 pro popis rukopisu. Vznikl nový komplexní standard, jehož mezinárodní dosah je nesmírný. Tento standard, pojmenovaný enrich.dtd se stává vnitřním standardem Manuscriptoria se všemi důsledky jak ve zpracování dat ze strany přispěvatele, tak i pro zpracování dat pro uživatele. Tím dochází k nebývalému mezinárodnímu posílení Manuscriptoria jako agregátora dat dalších digitálních knihoven nebo primárního prostředí pro ty, kteří digitálním knihovnami nedisponují, přestože mají digitální data. Tento standard musí zapracovat všechny produkty Manuscriptoria: M-TOOL On-Line, Manuscriptorium pro kandidáty - http://candidates.manuscriptorium.com - testovací klon Manuscriptoria - http://enrichdata.manuscriptorium.com - zároveň vyhovuje svou granularitou v identifikační oblasti záznamům typu MARC. V oblasti digitalizace novodobých dokumentů probíhaly především práce na optimalizaci procesu pořizování dat. Obě digitální knihovny jsou napojeny na Evropskou knihovnu TEL a probíhá i dialog ohledně zpřístupnění vybraných dat v portálu Europeana. 20 F. Přílohy 1. Analýza MARC21 vs. TEI P5 2. M-TOOL On-line - rozvaha 3. Posouzení kvality a použitelnosti digitálních dat 4. Kontrola kvality obrazových souborů v procesu digitalizace 5. Web 2.0 a jeho dopad na digitální knihovny 6. Optimalizace agend v systému RELIEF III 7. Kopie publikací navržených jako výsledky do RIV: nelze zveřejnit on-line 8. Cestovní zprávy 9. Software - Qkatalog Kromě finančních údajů a publikovaných článků vše přístupno též na adrese http://digit.nkp.cz/projekty/CurrentProjects_cz.htm – odkaz výzkumný záměr Vytvoření virtuálního badatelského prostředí pro zpřístupnění a ochranu digitálních dokumentů, Zpráva za rok 2008 21
Podobné dokumenty
Seznam časopisů objednaných do KAŠ na rok 2016
Poĺnohospodársky rok
Poĺnohospodárstvo
Poľovníctvo a rybárstvo
Popis použití aplikace M-Edit
klávesové zkratky. Nebo menu "Zobrazit". Pro presun na další položku na formulári
Analýza MARC21 vs. TEI P5 - Národní knihovna České republiky
v systémech užívající odlišný formát. Výsledkem zajištění interoperability by neměla
být jednosměrná ani obousměrná konverze formátů, ale zjištění jejich společného
průniku a z toho vyplývající mož...
ke stažení zde - Manuscriptorium
součástí každého předávaného MC (digitálního dokumentu archivní kvality pro dlouhodobé
uchování). Pomocí HEXACHROM (digitálního obrazu tabulky a jejího fyzického exempláře) lze
v budoucnu doladit z...
45 Digitální kodikologie a bibliologie: Hromadná
virtuální prostředí a knihovna bez katalogu
PhDr. Zdeněk Uhlíř / Národní knihovna České republiky
Abstrakt:
Článek sleduje vliv masové, tj. hromadné a systematické digitalizace na metodologickou pr...
speciální výňatek
Seznam změn pro Definice metadatových formátů, 1.1.3; 1.5.2
MODS:GENRE; DC:TYPE ELEMENT PRO MONOGRAFICKÉ DOKUMENTY
VÍCESVAZEK:
Úroveň TITUL:
Tvorba využití dalších (autoritních)
Systém Manuscriptorium prochází neustálým vývojem. Ke změnám v systému
dochází především v oblasti přípravy dat. Zkvalitňují se metody indexace dat a také
způsoby vyhledávání v katalogu Manuscripto...
Zpráva - Manuscriptorium
1 Úvo d
Výzkumný úkol "Využití tezaurů a databází autorit agregovaných CERL pro
vyhledávání v Manuscriptoriu“ navazuje na výzkumný úkol „Autoritní databáze
a řízené slovníky (Pilotní řešení s využ...