PDF (Adobe Acrobat) - Staré a historické mapy
Transkript
MASARYKOVA UNIVERZITA FAKULTA INFORMATIKY } w !"#$%&'()+ A| 2345<y ,-./01 Zpracovánı́ a zpřı́stupněnı́ historických dokumentů Diplomová práce Petr Přidal Verze diplomové práce s opravami zanesenými po obhajobě Brno, 2007 Prohlášenı́ Prohlašuji, že tato práce je mým původnı́m autorským dı́lem, které jsem vypracoval samostatně. Všechny zdroje, prameny a literaturu, které jsem při vypracovánı́ použı́val nebo z nich čerpal, v práci řádně cituji s uvedenı́m úplného odkazu na přı́slušný zdroj. Poděkovánı́ Petru Žabičkovi, vedoucı́mu diplomové práce, za dostatečnou volnost a zároveň upomı́nánı́, za odpovědi na četné otázky a za úžasný rozhled v knihovnı́ch technologiı́ch. Velké dı́ky náležı́ za pomoc se sazbou v systému TEX Ondřeji Koalovi Váchovi. Poděkovánı́ také zasloužı́ Gjermund Gusland Thorsen, můj obchodnı́ partner z Norska, za tolerovánı́ upřednostněnı́ této práce před zahraničnı́mi projekty. Rodině a přátelům za úžasnou podporu, bez nich by tato práce nemohla vzniknout. Abstrakt Práce shrnuje oblast digitálnı́ho zpracovánı́ a zpřı́stupněnı́ historických dokumentů (předevšı́m starých map a vedut) z pohledu knihoven a archivů. Pro uvedené instituce je sestavena kolekce volně dostupného software (přiložena na DVD), která umožnı́ digitalizované kopie historických dokumentů konvertovat, editovat, indexovat i zpřı́stupňovat. Dále jsou popsány standardy a datové formáty využı́vané během celého procesu digitalizace, katalogizace i zpřı́stupněnı́. Práce se věnuje i editaci a publikovánı́ opravdu rozměrných rastrových obrazů na PC. K publikovánı́ je využito předevšı́m struktury programu Zoomify, která je v práci analyzována. Zvláštnı́ důraz je kladen na možnosti prohledávánı́ databáze historických dokumentů pomocı́ záznamů s georeferencı́, předevšı́m s využitı́m volně dostupného projektu TimeMap. Uvedeny jsou i nástroje pro georeferencovánı́ starých map, tisků a vedut a také možnosti uloženı́ georeference v metadatech, předevšı́m v knihovnı́m bibliografickém záznamu. Pro publikovánı́ výsledků této práce byl zřı́zen web http://www.staremapy.cz, kde byly také vystaveny prvnı́ staré mapy našeho územı́ pro Google Earth. Klı́čová slova Historické dokumenty, staré mapy, historické mapy, veduty, staré tisky, rukopisy, archivy, knihovny, digitálnı́ knihovny, Manuscriptorium, rozměrné bitmapy, color management, ICC, imageserver, mapserver, georeference, Zoomify, TimeMap, Nip2, VIPS, DjVu, MrSID, ArcGIS, ESRI, Shape Files, World Files, Python, JavaScript, AJAX, XML, Google Maps, Google Earth, KML, OpenGIS, GML, WMS, WFS, S-JTSK, S-42, WGS84 Obsah Úvod . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1 Digitalizace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.1 Účel digitalizace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.2 Parametry při digitalizaci . . . . . . . . . . . . . . . . . . . . . . . . 7 1.3 Digitalizace externı́ firmou . . . . . . . . . . . . . . . . . . . . . . . . 9 1.4 Digitalizace s vlastnı́m zařı́zenı́m . . . . . . . . . . . . . . . . . . . . . 9 2 Editace a formát uloženı́ . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.1 Běžné datové formáty . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.3 Rozměrné předlohy a datové formáty . . . . . . . . . . . . . . . . . . 14 2.4 Lepenı́ digitalizovaných částı́ . . . . . . . . . . . . . . . . . . . . . . 17 3 Metadata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3.1 Metadata dokumentu v knihovnı́m systému . . . . . . . . . . . . . . . 21 3.1.1 MASTER . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.1.2 MASTER+ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.1.3 MARC21 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.1.4 DublinCore . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.1.5 METS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.1.6 FGDC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 4 Georeference . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 4.1 Jak georeferencovat? . . . . . . . . . . . . . . . . . . . . . . . . . . 25 4.2 Nástroje pro georeferencovánı́ . . . . . . . . . . . . . . . . . . . . . 26 4.3 Georeference a metadata . . . . . . . . . . . . . . . . . . . . . . . . 29 4.3.1 MASTER . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 4.3.2 METS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 4.3.3 MARC21 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 4.3.4 DublinCore . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 4.4 Kartografická projekce, geodetické systémy našeho územı́ . . . . . . . . . 31 4.5 Datové formáty a standardy v GIS . . . . . . . . . . . . . . . . . . . 32 4.6 Nástroje pro editaci a konverzi geodat . . . . . . . . . . . . . . . . . . 35 5 Zpřı́stupněnı́ dokumentů . . . . . . . . . . . . . . . . . . . . . . . . . 37 5.1 Vystavenı́ dokumentů on-line . . . . . . . . . . . . . . . . . . . . . . 37 5.1.1 Zpřı́stupněnı́ rozměrných rastrových obrazů v . . . . . . . . . . . . . 38 5.1.4 Zpřı́stupněnı́ georeferencovaných dokumentů . . . . . . . . . . . . . 5.2 Vyhledávánı́ dokumentů s georeferencı́ 41 . . . . . . . . . . . . . . . . . 44 . . . . . . . . . . . . . . . . . . . . . . . . . 44 5.2.3 Google Maps a algoritmus s hodnocenı́m . . . . . . . . . . . . . . . 46 5.2.1 Projekt TimeMap 6 Projekt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1 TimeMap a historické fondy Moravské zemské knihovny 47 . . . . . . . . . 47 . . . . . . . . . . . . . . . . . . . . . . . 48 6.3 Česká sı́dla v databázi GeoNames.org . . . . . . . . . . . . . . . . . . 48 6.4 Struktura dlaždic použitá v Zoomify . . . . . . . . . . . . . . . . . . 48 6.5 ZoomifyJS – JavaScript prohlı́žeč pro zoomify data . . . . . . . . . . . . 50 6.2 Česká sı́dla pro TimeMap 6.6 ZoomifyKML – Georeference zoomify dlaždic pro Google Earth a Google Maps 51 6.7 Zoomify Downloader . . . . . . . . . . . . . . . . . . . . . . . . . 51 6.8 Slepenı́ mapy pomocı́ Hugin a NIP2 . . . . . . . . . . . . . . . . . . . 52 6.9 Staré mapy ČR poprvé na Google Earth! . . . . . . . . . . . . . . . . . 52 6.10 Projekt www.staremapy.cz . . . . . . . . . . . . . . . . . . . . . . 53 6.11 DVD-Video s kolekcı́ software a dokumentace . . . . . . . . . . . . . . 53 7 Závěr . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 Literatura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 1 Úvod Úvodnı́ slovo Od nepaměti má člověk touhu zachycovat věci kolem sebe. Velcı́ mistři vytvářeli nádherná umělecká dı́la, kterým se obdivujı́ celé generace ještě staletı́ po jejich vzniku, nacházı́ v nich krásu a něco magického, zklidňujı́cı́ho nebo i pobuřujı́cı́ho. Je fascinujı́cı́ nechat se oslovit takovým přı́během uměnı́ a umu [1]. Tento přı́běh začı́ná někde v pravěku s dřevěným uhlı́kem a pokračuje spolu s vývojem lidstva dál a dál. S úctou proto uchováváme výtvory našich předků a pečujeme o ně, abychom mohli i generacı́m po nás nabı́dnout tyto střı́pky minulosti ve stejné kráse, jako byly nabı́dnuty nám. Proto zřizujeme knihovny, archivy, muzea a dalšı́ pamět’ové instituce, aby věděnı́ a krása historických děl nezmizela v kolotoči času. S přı́chodem celosvětové sı́tě Internet a výkonných počı́tačů máme najednou možnosti, o kterých se nám ještě před nedávnem ani nesnilo. V okamžiku můžeme vidět data uložená na druhé straně světa, prohledávat a porovnávat dokumenty dnešnı́ch dnů s dokumenty z minulosti, a to včetně jejich vzhledu, až do nejmenšı́ch detailů. Dı́ky této, dnes již samozřejmé technologii se můžeme pokusit začı́t z těchto rozsypaných střı́pků minulosti rozházených po celém světě skládat libovolné mozaiky. Tato práce se snažı́ nabı́dnout nástroje a postupy pro počı́tačové zpracovánı́ a zpřı́stupněnı́ historických dokumentů, tedy ukázat možnosti jak zpřı́stupnit veřejnosti dokumenty uložené v regálech a trezorech institucı́ a to efektivně a s pomocı́ modernı́ch technologiı́. Zaměřenı́ práce Práce se předevšı́m zaměřuje na fyzicky rozměrné historické dokumenty, jakými jsou staré mapy 1), veduty nebo nákresy. Primárnı́m cı́lem je najı́t softwarové nástroje pro zpřı́stupněnı́ Mollovy mapové sbı́rky, uved’me zde citaci [2]: „Sběratelskou činnostı́ Paula Bernarda Molla (1697-1780), brunšvického vyslance u vı́deňského dvora, vznikla do r. 1750 jedinečná sbı́rka asi 12 000 map (a archeologických kreseb, zčásti podvržených). Je rozdělena na dvě části, tzv. Atlas Austriacus (44 svazků) a Atlas Germanicus (24 svazků). Od r. 1821 je pod názvem Mollova sbı́rka map uložena v Brně v Moravské Zemské knihovně.“ 1) Pro „staré mapy“ se někdy použı́vá označenı́ „historické mapy“, což je ale kartografický termı́n pro současné mapy zobrazujı́cı́ stav v historii (přı́kladem historické mapy je mapa znázorňujı́cı́ hranice států za Habsburské monarchie vytištěná v současném školnı́m atlase). 2 Úvod Rukopisy a staré tisky jsou v této diplomové práci zmı́něné spı́še okrajově. Lišı́ se předevšı́m tı́m, že majı́ charakter vı́cestránkových dokumentů a obvykle menšı́ fyzický rozměr než mapy. Primárnı́m cı́lem bylo najı́t zdarma dostupné softwarové nástroje (nejlépe nabı́zené i se zdrojovým kódem pod svobodnou licencı́) a ukázat jak pomocı́ těchto nástrojů připravit zmı́něné dokumenty až do podoby vhodné pro vystavenı́ na sı́ti Internet. Uvedené nástroje by také mělo být možné použı́t automatizovaně, tedy bez zásahu člověka, aby přı́padné zpracovánı́ většı́ kolekce map a historických dokumentů nebylo přı́liš pracné a šlo využı́t skriptů a dávkového zpracovánı́ běžně dostupného na počı́tači. Softwarové nástroje, které použı́vám, nejsou většinou nijak vázány na charakter dokumentu, mohou tedy být aplikovány i při digitálnı́m zpracovánı́ a zpřı́stupněnı́ jiných typů dat. Napřı́klad software VIPS byl původně navržen pro editaci digitalizovaných obrazů v galeriı́ch, jiné nástroje zase souvisejı́ s tvorbou panoramatických fotografiı́, dalšı́ jsou použity při vystavenı́ rozměrných snı́mků z mikroskopu, CT či dalšı́ch lékařských přı́strojů 2). Obecně se tedy zabývám zpracovánı́m rozměrných rastrových obrazů, zohledňuji ale také jejich geografický a historický charakter. Výsledky práce jsou také využity v rámci výzkumného záměru „Historické fondy Moravské zemské knihovny v Brně“, MK00009494301. Navržené postupy a nástroje by ale měly být snadno použitelné i jinými institucemi. Projekty digitalizace v ČR Hlavnı́mi projekty digitalizace v České republice jsou programy VISK (veřejné informačnı́ služby knihoven) Ministerstva kultury a to předevšı́m VISK 6 a VISK 7, do kterých je nemalou měrou zapojena Národnı́ knihovna ČR. VISK 4 řešı́ kvalitnı́ systém uloženı́ a zpřı́stupněnı́ digitálnı́ch dokumentů pro projekt Národnı́ digitálnı́ knihovny viz http://www.ndk.cz/. Podrobnějšı́ informace o programech VISK viz http://visk.nkp.cz/. Digitalizacı́ dokumentů se zabývá Akademie věd, předevšı́m v nově zřı́zeném středisku, kde proběhla záchrana fondů poškozených povodněmi, dále napřı́klad Národnı́ knihovna, která v prosinci loňského roku zı́skala grant z finančnı́ch mechanismů EHP/Norska na digitalizaci bohemikálnı́ch monografı́ı́ 19. stoletı́, nebo také Městská knihovna v Praze, která obdobný projekt chystá. 2) Napřı́klad Hypertextové atlasy dermatologie a patologie, Masarykova univerzita, http://atlases.muni.cz/ 3 Úvod VISK 6 – Memoriae Mundi Series Bohemica Projekt pod záštitou organizace UNESCO a jejı́ho programu „Memory of the World“ (Pamět’ světa) VISK 6 je hlavnı́m zdrojem financı́ i pokroku digitalizace historických dokumentů (v současné době předevšı́m středověkých rukopisů) na našem územı́. Hlavnı́ částı́ tohoto projektu je digitálnı́ knihovna Manuscriptorium dostupná na adrese http://www.manuscriptorium.com/, která je i souborným katalogem historických fondů, tj. rukopisů, prvotisků (tisky vydané do roku 1500), starých tisků i starých map vydaných do roku 1800 včetně. Manuscriptorium zpřı́stupňuje veřejnosti digitálnı́ kopie významných českých historických dokumentů, jako jsou např. Dalimilova kronika, Kosmova kronika, Rukopis královédvorský a zelenohorský, Jistebnický kancionál, spisy Jana Husa, Jana Ámose Komenského, Petra Chelčického a mnoho dalšı́ch dokumentů. Z informatického pohledu je systém bohužel uzavřený, nenı́ k němu k dispozici zdrojový kód, vytvářen je firmou AiP Beroun s.r.o. Digitalizovaná verze dokumentu obsahuje vodotisk a nenı́ dostupná na Internetu všem, ale jen partnerským a spolupracujı́cı́m institucı́m. Náhledy dokumentů jsou dostupné pro každého. Cena za plný přı́stup do systému naštěstı́ nenı́ závratná, pohybuje se pro instituce v řádu tisı́cikorun za rok. Pro školy všech stupňů koupilo MŠMT plošnou licenci – vı́ce informacı́ naleznete na adrese http://skoly.manuscriptorium.com/. Postupně jsou zařazovány do systému Manuscriptorium také dokumenty z historických fondů Moravské zemské knihovny. VISK 7 – Kramerius Národnı́ program mikrofilmovánı́ a digitálnı́ho zpřı́stupňovánı́ dokumentů ohrožených degradacı́ kyselého papı́ru. Digitalizovány jsou předevšı́m periodika a monografie z 19. a 1. pol. 20. stoletı́. V rámci projektu je dostupná digitálnı́ knihovna Kramerius na adrese http://kramerius.nkp.cz/. Kramerius byl vytvářen na zakázku Národnı́ knihovny brněnskou firmou QBizm, komerčnı́ podporu pro něj nynı́ nabı́zı́ firma UniData. Zdrojový kód je dostupný pod svobodnou licencı́. Systém této digitálnı́ knihovny je napsán v jazyce Java, využı́vá technologie Apache Tomcat a serveru PostgreSQL. Dokumenty jsou publikovány pomocı́ standardizovaného formátu DjVu. Veřejně dostupné jsou jen dokumenty nepodléhajı́cı́ ochranné lhůtě Autorského zákona. Všechny dokumenty jsou přı́stupné pouze v Národnı́ knihovně ČR. Systém Kramerius je použit i v Digitálnı́ knihovně Akademie věd ČR (http://kramerius.lib.cas.cz/) 4 Úvod Digitalizované staré mapy českých zemı́ Z jiných zdrojů byly digitalizovány staré mapy prezentované na stránkách Laboratoře geoinformatiky Univerzity J. E. Purkyně, http://oldmaps.geolab.cz/. Zajı́mavý je také digitálnı́ mapový archiv České geologické služby dostupný na adrese http://www.geology.cz/. Velkou sbı́rku starých map zpřı́stupňuje on-line i Digitálnı́ knihovna map Vědecké knihovny v Olomouci na http://mapy.vkol.cz/. Existuje i mnoho dalšı́ch menšı́ch sbı́rek různých institucı́ i jednotlivců. Vı́ce on-line zdrojů starých map je uvedeno na stránkách http://www.staremapy.cz/, které byly vytvořeny v rámci této diplomové práce. Digitalizace samozřejmě probı́há i v dalšı́ch projektech a je financována z grantu a zdrojů, které zde nejsou uvedeny. Zde uvedený výčet tedy nenı́ ani zdaleka úplný. 5 Kapitola 1 Digitalizace V této kapitole si ukážeme, jaké máme možnosti pro převod fyzického dokumentu na papı́ře do podoby uložené v počı́tači, s jakými obtı́žemi se u tohoto převodu můžeme setkat a jak se s nimi vypořádat. O procesu digitalizace bylo napsáno již hodně, takže většinou bude v přı́slušných pasážı́ch uvedena vhodná literatura. 1.1 Účel digitalizace Výhodnost digitalizace je nesporná. Převodem dokumentu do počı́tačové formy ochránı́me originálnı́ dokument, čtenářům a badatelům může být přitom zpřı́stupněna digitálnı́ kopie a vlastnı́ fyzický dokument nebude tolik zatěžován častými výpůjčkami, snı́žı́ se tedy riziko jeho poškozenı́. Distribuce digitálnı́ch kopiı́ je také technicky mnohem jednoduššı́ než zapůjčovánı́ originálu. Dokument může být navı́c k dispozici 24 hodin denně a zájemci jej mohou prohlı́žet i z pohodlı́ vlastnı́ho domova dı́ky sı́ti Internet. Otevı́rajı́ se nám také možnosti dalšı́ho zpracovánı́ takového dokumentu, napřı́klad u starých map mohou kartografové provádět na digitálnı́ch kopiı́ch různé studie, porovnávat současný stav krajiny se stavem v minulosti, dı́vat se na vývoj prvků v krajině v kontextu historie (viz granty napřı́klad GA ČR 205/04/0888: Georeferencovánı́ a kartografická analýza historických mapovánı́ Čech, Moravy a Slezka; GA 205/07/0385: Kartometrická a semiotická analýza a vizualizace starých map českých zemı́ z obdobı́ 1518-1720). S digitalizacı́ bohužel přicházı́ nové problémy, které je potřeba řešit. Digitálnı́ data jsou vysoce zranitelná, musı́ být provedeno správné zálohovánı́ digitálnı́ch dokumentů. Vývoj v informačnı́ch technologiı́ch běžı́ dopředu obrovským tempem a formáty pro uloženı́ dat mohou velmi rychle morálně stárnout. Pokud nezvolı́me datový formát s patřičnou péčı́, může se nám jednoduše stát, že např. za 10 let nebude možné digitálnı́ data zobrazit, protože přı́slušné softwarové vybavenı́ již nebude existovat. V této oblasti je proto velmi výhodné držet se doporučovaných standardů a využı́vat svobodný software, protože ten nenı́ vázán na jednu konkrétnı́ společnost a máme tedy jistotu, že bude dostupný i v dalšı́ch letech. Dostupnost zdrojového kódu nám také zaručuje, že bude i v budoucnu možné data zpracovávat. Dlouhodobé nebo trvalé uchovávánı́ digitálnı́ch dokumentů či digitálnı́ho obsahu se snažı́ řešit pamět’ové instituce v celé řadě zemı́. Vývoj v této oblasti je v podstatě na začátku. U nás se tento problém řešı́ předevšı́m v Národnı́ Knihovně (projekt Národnı́ digitálnı́ 6 Kapitola 1 Digitalizace knihovny, viz. http://www.ndk.cz/) nebo v Národnı́m archivu (na základě usnasenı́ vlády z ledna 2004, nynı́ ve fázi výběru firmy pro zpracovánı́ zadávacı́ dokumentace). 1.2 Parametry při digitalizaci Během procesu digitalizace se setkáme s mnoha faktory, které významně ovlivnı́ výslednou kvalitu digitálnı́ho dokumentu. Proces digitalizace je vždy ztrátový, tedy nikdy nejsme schopni do počı́tače uložit dokonalou kopii originálnı́ho dokumentu. Proto musı́me určit, jakým způsobem se rozhodneme vstupnı́ data omezit, jsme také limitovánı́ schopnostmi digitalizačnı́ho zařı́zenı́, které máme k dispozici. Výběr správných parametrů při digitalizaci je vždy kompromisem, kvalita digitálnı́ho dokumentu totiž přı́mo souvisı́ i s jeho velikostı́ – při uloženı́ velkých digitalizovaných sbı́rek často narážı́me i na limity kapacity dostupných úložných systémů. Kvalita digitalizace dokumentů se přı́mo odvı́jı́ od cı́le použitı́ digitálnı́ kopie. Jiné parametry jsou nutné pro zobrazenı́ náhledu dokumentu na monitoru, jiné pro distribuci obrazu na CD-ROM, jiné pro tisk digitálnı́ kopie a zase jiné pro bádánı́ a výzkum nad digitálnı́m dokumentem. U historických dokumentů se ale většinou snažı́me provést digitalizaci co nejkvalitněji, protože každá manipulace s takovým dokumentem jej poškozuje a je tedy vhodné se vyvarovat opakované digitalizace. Základnı́m problémem při digitalizaci je správná volba kvantovánı́ (podrobnost při digitalizaci barev, tedy volba barevné palety) a vzorkovánı́ (velikost rastru, tedy volba rozlišenı́ při digitalizaci, počet bodů které bude obraz mı́t). Kvalita digitalizace samozřejmě souvisı́ i s kvalitou optiky a snı́macı́ch prvků digitalizačnı́ho zařı́zenı́. Obrázek č. 1 Ukázka ztráty informace při nevhodném kvantovánı́ (nedostatek barev) a vzorkovánı́ (nedostatek pixelů) Nevhodným vzorkovánı́m (sampling) ztrácı́me na historickém dokumentu detaily, může se nám napřı́klad stát, že nebude možné přečı́st nějaký nápis, protože pro jeho reprezentaci v počı́tači nebude použit dostatečný počet bodů (pixelů). Obdobně pro jiné drobné detaily, které se objevı́ napřı́klad až při přiblı́ženı́ dokumentu během zobrazenı́ nebo při tisku dokumentu na papı́r. Mı́ra vzorkovánı́ se většinou udává v počtech bodů na palec (DPI – Dots Pet Inch). Pro zobrazenı́ na monitoru je vhodné mı́t alespoň 100 DPI, pro kvalitnı́ tisk 400 DPI, záležı́ ale na konkrétnı́ch podmı́nkách. Pro staré mapy se výběru vhodného DPI věnuje dostatečně diplomová práce Filipa Antoše [6]. 7 Kapitola 1 Digitalizace Nevhodným kvantovánı́m, tedy při využitı́ nedostatečného množstvı́ barev, se objevı́ na souvislých barevným plochách přechody, které na originálnı́m dokumentu nejsou. Běžně se barvy v počı́tači ukládajı́ pomocı́ třı́ složek: červené (Red), zelené (Green) a modré (Blue), pak mluvı́me o barevném prostoru RGB. U každé z těchto složek zachytı́ digitalizačnı́ zařı́zenı́ mı́ru jejı́ho zastoupenı́ pro každý snı́maný bod. Složenı́m těchto záznamů je na počı́tači opětovně sestavena konkrétnı́ barva z barevného spektra. Kromě RGB se použı́vajı́ i jiné barevné prostory, napřı́klad vhodné pro tisk (CMYK), zohledňujı́cı́ princip vnı́mánı́ jasu a barev lidským okem (YUV, YCB CR ), přirozeného mı́chánı́ barev (HSV, HLS), nebo princip fyzikálně měřitelného zastoupenı́ složek v barevném spektru (CIE 1931 XYZ a CIE 1976 L*a*b*). Podrobněji v knize Modernı́ počı́tačová grafika [7]. Zůstaňme zatı́m ale u RGB. Každé z barevných složek můžeme přiřadit čı́slo z nějakého intervalu – většinou od 0 do 255. Tuto informaci zachytı́me v počı́tači pomocı́ 8 bitů (tedy jednoho byte) a je to nejčastějšı́ typ uloženı́ použı́vaný dnes na počı́tači. Pro většinu aplikacı́ je tato podrobnost vyhovujı́cı́. Máme tak k dispozici barevnou paletu s 16 miliony barev (256*256*256). Při opravdu kvalitnı́ digitalizaci se ale ukládá i vı́ce bitů na kanál, nejčastěji 16 bitů, nebo i 32 bitů. Pak mluvı́me o HDR (High Dynamic Range) obrazu. Podrobněji se tomu věnuje napřı́klad diplomová práce Michala Havleny [8]. Obrázek č. 2 Chromatický diagram CIE 1931 xy s měřitelným barevným spektrem, na druhém diagramu je zobrazena podmnožina barev zobrazitelných na běžném monitoru (tzn. gamut) standardu sRGB V počı́tači a během práce s digitálnı́mi předlohami je velkým problémem korektnı́ zachycenı́ barev. Nenı́ samozřejmé, aby barva digitalizovaná na fyzickém dokumentu, byla poté totožně zobrazena na monitoru a následně i vytištěna. Každé ze zobrazovacı́ch (nebo digitalizačnı́ch) zařı́zenı́ má jinou schopnost reprodukce barev, umı́ tedy zobrazit (nebo snı́mat) jinou podmnožinu barev, tuto podmnožinu barev nazýváme gamut tohoto 8 Kapitola 1 Digitalizace zařı́zenı́. Napřı́klad nemůžeme na normálnı́ barevné tiskárně vytisknout zlatou barvu, nebo na monitoru zobrazit nejčernějšı́ černou. Abychom byli schopni provádět konverzi barev mezi jednotlivými gamuty, aby vždy byla zobrazena co nejvěrnějšı́ barva, potřebujeme mı́t na počı́tači podporu pro Color Management [3]. Ten ke každému zařı́zenı́ (jako je skener, monitor, nebo tiskárna) přiřadı́ tzv. ICC profil, který přesně popı́še gamut tohoto zařı́zenı́. Při korektnı́ digitalizaci by k výslednému souboru měl být přiložen i ICC profil zařı́zenı́, na kterém proběhla digitalizace. Dı́ky tomu je pak možné provést barevně věrné zobrazenı́ přı́padně tisk takové digitálnı́ kopie. Podrobněji se barevné kalibraci při digitalizaci historických dokumentů věnuje např. stejnojmenný článek Stanislava Psohlavce [9]. Výsledkem digitalizace by měl být tzv. primárnı́ dokument (někdy označovaný jako master, nebo primárnı́ data), který je kvalitně uchováván a zálohován. Od něj se pak mohou odvozovat napřı́klad verze určené pro zpřı́stupněnı́ nebo dalšı́ zpracovánı́. Pro projekt Manuscriptorium byla vytvořena sada pravidel a doporučenı́ pro digitalizaci dokumentů, aby byla zaručena kvalita a věrohodné uchovánı́ dat i pro budoucnost. Digitálnı́ data, která odpovı́dajı́ těmto doporučenı́m pak obdržı́ známku Manuscriptorium Quality. Přesný popis viz přı́slušná dokumentace [10]. 1.3 Digitalizace externı́ firmou Pokud chceme zı́skat profesionálnı́ digitalizované kopie historických dokumentů, asi nejjednoduššı́ je využı́t služeb jednoho z českých digitalizačnı́ch center: AIP Beroun http://www.aipberoun.cz/ Digitalizačnı́ centrum Knihovny Akademie věd ČR http://digit.lib.cas.cz/ Lišı́ se nabı́zeným sortimentem služeb, majı́ různá digitalizačnı́ zařı́zenı́, rozdı́lná je i cena pořı́zenı́ digitálnı́ kopie. Podrobnějšı́ informace najdete na přı́slušných webových stránkách. Pro podporu při digitalizaci vzácných historických dokumentů knihoven a dalšı́ch sbı́rek lze zı́skat finance prostřednictvı́m programu VISK 6 (Národnı́ program digitálnı́ho zpřı́stupněnı́ vzácných dokumentů Memoriae Mundi Series Bohemica). VISK 7 je pak určen předevšı́m pro podporu skenovánı́ a mikrofilmovánı́ starých novin, které jsou ohrožené rozpadem kyselého papı́ru. 1.4 Digitalizace s vlastnı́m zařı́zenı́m Jednou z cest jak provádět digitalizaci je i pořı́dit si vlastnı́ zařı́zenı́ pro digitalizaci. 9 Kapitola 1 Digitalizace Digitalizačnı́ pracoviště s digitálnı́ stěnou Velmi drahá profesionálnı́ pracoviště s obrovským rozlišenı́m jsou určena pro bezdotykové snı́mánı́. Vlastnı́ je výše uvedená digitalizačnı́ centra. Přı́kladem jsou výrobky firmy Zeutschel. Digitalizačnı́ pracoviště s kvalitnı́m digitálnı́m fotoaparátem (DSLR) Přı́kladem je digitalizačnı́ pracoviště ATLAS, které vyvinula a prodává firma Elsyst Engineering. V kombinaci s digitálnı́m fotoaparátem, jako je napřı́klad Canon EOS 20D, umožňuje pořı́zenı́ relativně kvalitnı́ch digitálnı́ch kopiı́ bezdotykově. Specializované digitálnı́ kopı́rky a automatizované digitalizačnı́ stroje Výkonné automatizované stroje, které napřı́klad i otáčı́ stránky knih. Hrozı́ ale poškozenı́ vazby. Použı́vajı́ se pro projekty hromadné digitalizace běžných knih. Velkoformátový planografický skener Skener použı́vaný pro digitalizaci technických výkresů. Mimochodem, cena takové služby v se nynı́ pohybuje již od 25 Kč za scan při 400dpi do velikost A0 (např. CopyCentrum Kobližná, Brno, http://www.spin.cz/). Nevýhoda je, že mapy jsou při skenovánı́ protahovány štěrbinou. Proto se přı́liš nehodı́ pro skenovánı́ historických dokumentů, protože hrozı́ jejich poškozenı́ nebo riziko prokluzu mapy při skenovánı́ a následná deformace výsledného obrazu. Běžný stolnı́ skener a jeho varianty Tyto přı́stroje nabı́zı́ zajı́mavou alternativu pro levnou digitalizaci. Zajı́mavý pro zpracovánı́ starých map je zejména skener ScanJet HP 4670 v ceně kolem 5ti tisı́c korun. Lze jej položit shora na skenovaný dokument a skrze jeho tělo vidět skenovanou oblast. Nevýhodou však je průnik vnějšı́ho světla na digitalizovanou plochu, což znemožňuje barevné kalibrace. Dalšı́m zajı́mavým digitalizačnı́m nástrojem v této oblasti je stolnı́ skener Mustek ScanExpress A3, jehož přednostı́ je předevšı́m nı́zká cena. S cenou kolem 4000 Kč jde totiž o bezkonkurenčně nejlevnějšı́ plochý A3 skener na trhu a je tak vhodný pro rozjezd menšı́ch projektů. Výčet dalšı́ch zařı́zenı́ a také popis zařı́zenı́ použitých v MZK můžete najı́t ve výzkumné zprávě projektu „Historické fondy Moravské zemské knihovny v Brně“ za rok 2005 [4] a 2006 [5]. 10 Kapitola 2 Editace a formát uloženı́ Výsledkem digitalizace z předchozı́ kapitoly je primárnı́ (master) dokument, ve kterém je uložena nejkvalitnějšı́ verze rastrových dat, kterou máme k dispozici. Ideálně se jedná přı́mo o data produkovaná digitalizačnı́m zařı́zenı́m nebo skenerem. K jejich uloženı́ by měl být zvolen některý ze standardizovaných formátů, nejlépe s dostupnými open-source nástroji pro zobrazenı́ a konverze, aby byla zaručena možnost zobrazenı́ a konverze dat i v budoucnu. Grafická data tohoto souboru by rozhodně neměla být dále měněna. Primárnı́ dokument je v tomto ohledu nedotknutelný a měl by být uložen na kvalitnı́m zálohovaném médiu. Nynı́ si uvedeme stručný výčet formátů použı́vaných v oblasti zpracovánı́ digitalizovaných dokumentů. Zvláštnı́ kapitola je věnována formátům určeným pro ukládánı́ opravdu rozměrných dokumentů, jakými jsou napřı́klad mapy. 2.1 Běžné datové formáty Pokud bychom grafická data produkovaná digitalizačnı́m zařı́zenı́m přı́mo ukládali, brzy bychom narazili na problém s jejich nadměrnou velikostı́. Proto se při uchovávánı́ použı́vá (i pro primárnı́ dokumenty) některá z forem datové komprese. Pro primárnı́ dokumenty je nejvhodnějšı́ bezztrátová komprese, jejı́ž užitı́m nedojde ke ztrátě žádné informace – z komprimovaných dat je možné rekonstuovat původnı́ vstupnı́ data. Velikost ale může být zmenšena až na polovinu oproti původnı́. Pokud je potřeba zı́skat lepšı́ho kompresnı́ho poměru, může být řešenı́m využitı́ ztrátové komprese. Ta se na základě principů lidského vnı́mánı́ snažı́ z obrazu vypustit informace, jejichž nepřı́tomnost nejsme většinou schopni ani zpozorovat. Dı́ky tomuto typu komprese docházı́ ke značnému zmenšenı́ nároků na prostor potřebný pro uloženı́ výsledného grafického souboru. Kromě primárnı́ho grafického souboru je často nezbytné vytvářet za účelem prezentace nebo dalšı́ho zpracovánı́ i odvozené verze, u kterých se použı́vá jiných datových formátů. Často se také bokem udržujı́ zmenšené náhledy digitalizovaných dokumentů, někdy opatřené vodotiskem, které nejsou tolik náročné na pamět’ové kapacity. TIFF Tento standardizovaný formát (ISO-12234-2) bývá velmi často zvolen pro uloženı́ primárnı́ch dokumentů. Standard TIFF je velmi variabilnı́. V hlavičce tohoto formátu mohou být uložena metadata (typ a výrobce digitalizačnı́ho zařı́zenı́, čas digitalizace, barevný 11 Kapitola 2 Editace a formát uloženı́ profil ICC a dalšı́). Při ukládánı́ do TIFF si můžete zvolit formu uloženı́ grafických dat: nekomprimovaně, s využitı́m bezztrátové komprese ZIP (Deflate), LZW (Lempel-Ziv-Welch) a také ztrátové komprese JPEG. Standard obsahuje i podporu pro ukládánı́ velkorozměrných bitmap (pomocı́ systému dlaždic). Do jednoho souboru dokáže vložit i vı́ce grafických vrstev. JPEG Velmi rozšı́řený a standardizovaný grafický formát, který se masově použı́vá na Internetu (nejčastěji pro publikovánı́ fotografiı́). Využı́vá ztrátové komprese postavené na algoritmu DCT (Diskrétnı́ Kosinová Transformace), který je odvozen z Furiérovy transformace, princip je popsán napřı́klad v knize Modernı́ počı́tačová grafika [7]. Tento formát nenı́ přı́liš vhodný pro uloženı́ primárnı́ch grafických dat v dokumentu dı́ky své ztrátové povaze. Mı́ra degradace grafických souborů je minimálnı́ – předevšı́m při volbě vysoké kvality během komprimace JPEG. Často bývá použit pro distribuci kopiı́ digitalizovaných dokumentů na CD-ROM. PNG Je dalšı́m z formátů s bezztrátovou kompresı́. Postupně vytlačuje velmi rozšı́řený formát GIF. V některých přı́padech může být použit i pro uloženı́ digitalizovaných dokumentů. RAW formáty digitálnı́ch fotoaparátů Jedná se o rodinu grafických formátu, které jsou přı́mým výstupem digitalizačnı́ch čipů na fotoaparátech. Data jsou uložena bezztrátově, většinou se 16 bity na kanál. Každý výrobce má nynı́ vlastnı́ datový formát, ale pracuje se na standardu OpenRAW, který má za cı́l tyto formáty sjednotit. S RAW se můžeme setkat při digitalizaci historických dokumentů předevšı́m u digitalizačnı́ho pracoviště s DSLR. Výhody focenı́ na RAW jsou popsány na webu http://www.fotoroman.cz/ a také v nové knize stejného autora, která se velmi podrobně věnuje principům digitálnı́ho focenı́. [35] OpenEXR Standardizovaný formát navržený firmou Industrial Light & Magic pro ukládánı́ HDR (High Dynamic Range) obrazů, což je termı́n označujı́cı́ obrázky, které majı́ barevné kanály reprezentované pomocı́ čı́sel s plovoucı́ desetinnou čárkou. Na každý kanál je využito 16 nebo 32 bitů. Tento datový formát je často použı́ván ve filmovém průmyslu a nacházı́ své uplatněnı́ také v oblasti 3D grafiky. 12 Kapitola 2 Editace a formát uloženı́ Obsahuje kompresi založenou na WaveLet, podobně jako JPEG2000, a je implementován i v programech pro profesionálnı́ práci s grafickými daty. JPEG2000 Standardizovaný formát (ISO-15444-1:2000) s podporou komprese umožňujı́cı́ bezztrátové i ztrátové uloženı́ dat. Komprese je založena na teorii waveletů dosahuje velmi dobrého kompresnı́ho poměru. Podrobnosti o této kompresi najdete v diplomové práci Lukáše Rychnovského na toto téma [36]. Podle původnı́ho plánu měl nahradit formát JPEG, stále ale nenı́ implementován v internetových prohlı́žečı́ch a dalšı́ch programech, což bránı́ jeho většı́mu nasazenı́. Pro jeho zpracovánı́ existuje několik programátorských knihoven. V open-source projektech se použı́vá projekt JasPer (http://www.ece.uvic.ca/~ mdadams/jasper/)[37]. Komerčnı́ knihovnou je napřı́klad Kakadu (http://www.kakadusoftware.com/). DjVu Datový formát, který byl navržen přı́mo pro uchovávánı́ digitalizovaných dokumentů, předevšı́m knih a novin. Využı́vá jej napřı́klad projekt Kramerius. Každá stránka dokumentu může obsahovat: černobı́lou vrstvu s daty popředı́, barevnou reprezentaci pozadı́ uloženou jako JPEG2000, a také textovou vrstvu (využitelnou pro plnotextové hledánı́). Tento formát dosahuje velmi kvalitnı́ho kompresnı́ho poměru. Jsou k němu dostupné nástroje pro prohlı́ženı́ i konverze včetně zdrojového kódu. PDF Obecně použı́vaný formát pro šı́řenı́ digitálnı́ch dokumentů, předevšı́m nativně digitálnı́ch. Umožnuje zaznamenávat popis stránky pomocı́ vektorů, může obsahovat vložené fonty. Je použı́ván i jako formát pro uloženı́ digitalizovaných dokumentů. I zde je podporována indexace pro plnotextové prohledávánı́. Nástroje pro editaci a konverzi V této kapitole si ukážeme nástroje použı́vané pro automatizovanou konverzi mezi dostupnými formáty a nástroje pro prováděnı́ základnı́ch dávkovych operacı́ jako je změna velikosti apod. Gimp, CinePaint Alternativa PhotoShopu, jinak např. Paint Shop Pro, nebo český Zoner PhotoStudio a mnoho dalšı́ch. CinePaint je odnož Gimp, určená pro zpracovánı́ a má podporu pro HDRI, tedy barevný kanál s vı́ce než 8-mi bity. 13 Kapitola 2 Editace a formát uloženı́ IrfanView a XnView Nástoj použı́vaný pod Windows s grafickým rozhranı́m pro automatizované operace. Možnost spouštěnı́ některých operacı́ z přı́kazové řádky. ImageMagic Tento open source program nabı́zı́ automatizované operace pro velké množstvı́ grafických formátů (mimo jiné i JPEG2000). Běžı́ na přı́kazové řádce a zvládá i hromadné grafické operace, napřı́klad ořez, zaostřenı́, rozmazánı́. Umı́ také kombinovat dva obrazy (tedy napřı́klad opatřenı́ grafického souboru vodotiskem). Ukázka, konverze z jpeg do png a zmenšenı́ velikosti na 50% $ convert rose.jpg -resize 50% rose.png Konverze z tifu do JPEG2000: $ convert image.tif image.jp2 Konverze do pyramidového tifu: $ convert input_image.tif ptif:output_image.tif[64x64] Podrobněji viz dokumentace programu ImageMagic DCRaw Konverze z RAW formátu Nikon, Canon, a mnoha dalšı́ch do formátu TIFF. Umožňuje dodatečné vyváženı́ bı́lé, či záznam barevného profilu ICC. Využı́vá se pro zpracovánı́ v tzv. ”digitálnı́ černé komoře”. 2.3 Rozměrné předlohy a datové formáty Zpracovánı́ obrovských rastrových obrazů na běžném PC vyžaduje užitı́ speciálnı́ho software. Programy běžně použı́vané pro práci s grafikou načı́tajı́ obsah bitmapy do operačnı́ paměti počı́tače, což u rozměrných předloh nenı́ možné. Pro zpracovánı́ a ukládánı́ takových typů souborů je nutné využitı́ speciálnı́ch datových formátů. Ty využı́vajı́ pyramidového principu uloženı́ dat. Předpočı́taný grafický soubor je uložen v několika rozdı́lných velikostech, využı́vá systém dlaždic pro přı́mý přı́stup ke grafickým datům na dané pozici. Dı́ky tomu je možné zobrazit, přı́padně zpracovávat vždy jen část bitmapy. 14 Kapitola 2 Editace a formát uloženı́ Obrázek č. 3 Pyramidová struktura s dlaždicemi použitá při zpracovánı́ rozměrných rastrových obrazů TIFF Má přı́mou podporu pro pyramidovou strukturu, kde jsou jednotlivá patra pyramidy uložena jako vrstvy uvnitř jednoho souboru. Zoomify Většinou využı́vá dlaždice ve formátu JPEG o velikosti 256 x 256 pixelů, které jsou rozmı́stěny v adresářové struktuře. Jeden rozměrný obraz je tak reprezentován adresáři s velkým množstvı́m malých souborů. Podrobněji strukturu těchto dlaždic rozebı́rám v kapitole Projekt. JPEG2000 Je možné jej využı́t jako formát pro rozměrné bitmapy. Typ komprese přı́mo podporuje uloženı́ tohoto typu dat. MrSID Pyramidový datový formát využı́vajı́cı́ stejné komprese jako formát JPEG2000. Pro jeho editaci je nutné zakoupit potřebnou licenci. ECW Principiálně totožný s formátem MrSID. 15 Kapitola 2 Editace a formát uloženı́ Nástroje pro editaci a konverzi rozměrných předloh NIP2 Je profesionálnı́ software vytvořen Národnı́ Galeriı́ v Londýně v rámci grantů EU, použı́vá se pro digitalizaci map také napřı́klad v Louvre v Pařı́ži. Jedná se o grafické prostředı́ pro knihovnu VIPS. NIP2 je napsán pomocı́ funkcionálnı́ch paradigmat, to s sebou nese možnost využı́t všechny procesory připojené k počı́tači. Obecně totiž na počı́tači vyvstává problém, jak rozdělit úlohu, aby všechny procesory měly vytı́ženou svoji kapacitu. Lze jej navı́c spustit na všech platformách (Windows, Mac, Linux). Mezi hlavnı́ výhody můžeme zařadit postupné editovánı́ a možnost vrátit se ke kterémukoli kroku, tedy možnost změny kdekoliv ve workflow, dále operace s bitmapami většı́mi než je velikost operačnı́ paměti, korektnı́ práce s vı́cebitovými kanály i s reálnými bity, profesionálnı́ správa barev pomocı́ ICC profilů, skriptovatelnost či otevřenost celého systému. Obrázek č. 4 Pracovnı́ plocha a ukázka workflow v programu NIP2 NIP2 užı́vá vlastnı́ formát, mimoto je podporován i pyramidový dlaždicový TIFF se ztrátovou nebo bezztrátovou kompresı́. Přı́klad konverze extrémně velkého souboru na přı́kazové řádce do pyramidového TIFFu (mimochodem, parametry uvedené za čárkou u jména souborů lze zapsat i do dialogu v grafickém prostrědı́ NIP2 se stejným efektem). $ vips im_tiff2vips hugefile.tif hugefile.v $ vips im_vips2tiff hugefile.v output_image.tif:jpeg:75,tile:64x64,pyramid $ rm hugefile.v 16 Kapitola 2 Editace a formát uloženı́ VIPS na přı́kazové řádce: zmenšenı́ TIFFu na polovičnı́ a uloženı́ jako JPEG s mı́rou komprese 85 a barevným profilem ze souboru srgb.icc $ vips im_shrink velky.tif polovicni.jpg:85,srgb.icc 2 2 Program umožňuje dalšı́ tradičnı́ operace, jako je rotace, zrcadlenı́, blur, sharpen, spojovánı́ do mozaiky, deformace, ale zvládá je na takřka neomezené velikosti bitmap. Podporována je také konverze bitové šı́řky barevného kanálu, konverze mezi barevnými profily a teplotou osvětlenı́. Vips zatı́m nativně nepodporuje JPEG2000, ale předpokládám, že by nebylo obtı́žné podporu doplnit s použitı́m knihovny JasPer. Novějšı́ verze knihovny majı́ i vazbu na skriptovacı́ jazyk Python. FWTools Obsahujı́ kartografický nástroj GDAL, který umı́ zpracovávat rozměrné bitmapy a to včetně neomezeného zápisu i čtenı́ JPEG2000, GeoTIFF a načı́tánı́ MrSID i ECW. Ve FWTools najdete i dalšı́ užitečné open-source nástroje užı́vané v oblasti kartografie. Jasper a GeoJasper Jsou nástroje vytvořené pro konverze velkých formátů TIFF do JPEG2000 volitelně s podporou georeference. Podporujı́ také pyramidový TIFF, či uloženı́ barevného kanálu pomocı́ 16 bitů. FWTools i Jasper se řadı́ mezi open-source. 2.4 Lepenı́ digitalizovaných částı́ Při digitalizaci se někdy potýkáme s problémem extrémně rozměrných dokumentů. Je pochopitelné, že optimálnı́ digitalizačnı́ zařı́zenı́, které by bylo schopné zachytit celý dokument na jeden snı́mek, zde nenı́ k dispozici, proto musı́me využı́t vhodných editačnı́ch nástrojů pro kombinaci vı́ce snı́mků (např. mapy většı́ než A0, nebo fresky na stěnách chrámu). 17 Kapitola 2 Editace a formát uloženı́ Obrázek č. 5 Digitalizace pomocı́ několika snı́mků a následné slepenı́ dokumentu Jednou z možnostı́, jak slepit naskenované dlaždice je použı́t software pro tvorbu panoramat z balı́ku Panorama Tools přı́padně podobný komerčnı́ software původně určený pro zpracovánı́ panoramatických fotografiı́. Panorama Tools Sada nástrojů původně vytvořená jako produkt diplomové práce, nynı́ ale doplněná a rozšı́řena do formy plnohodnotně použitelného softwarového balı́ku, včetně komfortnı́ho grafického prostředı́. Tyto nástroje jsou zdarma a pokud spojı́me všechny dohromady (grafické prostředı́ Hugin, Autopano, Enblend), máme možnost dlaždice slepit takřka bez zásahu člověka (automaticky detekuje společné body, provede rotaci a vzájemné prolnutı́ tak, aby lidské oko nebylo schopno přechod zaznamenat). Alternativou jsou komerčnı́ nástroje, které fungujı́ na podobných principech, např. PTGui, PanaVue, ImageAssembler, dalšı́ možnostı́ je software Arcsoft Panorama Maker dodávaný se skenerem HP 4670. NIP2 a VIPS Již zmı́něný NIP2 a knihovna VIPS majı́ i podporu pro spojovánı́ grafických souborů. Použı́vajı́ techniku jednoho nebo dvou překryvných bodu (minimálně 60 pixelů). Ukázce této metody se věnuji v přiložené prezentaci na DVD. 18 Kapitola 2 Editace a formát uloženı́ Obrázek č. 6 Označenı́ totožného bodu nutné pro korektnı́ slepenı́ digitalizovaných částı́ v programu NIP2 19 Kapitola 3 Metadata Vzhledem k nemalému množstvı́ vznikajı́cı́ch elektronických dokumentů, at’ už nativně elektronických („born digital“), nebo pořı́zených procesem digitalizace z fyzických předloh, vyvstává problém jejich efektivnı́ho vyhledávánı́, třı́děnı́ a evidence. Proto je bezpochyby nezbytné pořı́dit k vlastnı́m digitálnı́m datům také kvalitnı́ metadata – podle knihovnické terminologie korektně „zpracovat“ tyto dokumenty. Metadata musı́me dále udržovat, indexovat a využı́vat pomocı́ knihovnı́ho systému nebo systému nějaké digitálnı́ knihovny. Technologiı́m digitálnı́ch knihoven se u nás podrobněji věnuje napřı́klad Miroslav Bartošek, problematiku rozebı́rá napřı́klad v (již staršı́m) článku [11]. Charakter metadat pro historické dokumenty (at’ už se jedná o rukopisy, staré tisky, nebo i staré mapy a veduty) se ale může lišit od běžně pořizovaných metadat pro knihy, periodika a jiné dokumenty normálně uchovávané v knihovnách. Proto tradičnı́ knihovnı́ systémy a standardy nemusı́ být pro uloženı́ metadat historických dokumentů nejvhodnějšı́. Obsahem bibliografického záznamu pro katalogizaci tištěných knih a periodik jsou popisná metadata, jako je jméno autora či rok vytvořenı́ dokumentu, ale pro historické dokumenty nemusı́ být tyto informace během katalogizace přesně známy, mnohdy se napřı́klad rok původu odhaduje. Chybı́ také běžně použı́vané identifikátory (např. ISBN), pro bibliografický záznam je tedy nutné určit historickému dokumentu jinou identifikaci. Podobně pro evidenčnı́ knihovnı́ záznam, který se vztahuje ke konkrétnı́m jednotkám (je v něm uložena napřı́klad signatura přı́padně přı́růstkové čı́slo exempláře). Dı́ky digitálnı́ formě uloženı́ takového dokumentu se také setkáváme kromě popisných metadat i s metadaty technickými (vyjadřujı́ vlastnosti objektu – např. textový dokument se lišı́ od obrazového apod.), strukturálnı́mi (propojujı́ metadata a objekty mezi sebou i navzájem) a administrativnı́mi (řı́zenı́ přı́stupu k objektům, jejich dlouhodobé uchovánı́, ošetřenı́ autorského práva apod.) Kromě bibliografického záznamu v knihovnı́m systému mohou být matadata týkajı́cı́ se digitálnı́ho objektu uložena také přı́mo uvnitř vlastnı́ho datového souboru, napřı́klad v hlavičce grafického souboru. Jedná se předevšı́m o metadata týkajı́cı́ se zařı́zenı́, na kterém byla provedena digitalizace, barevném profilu, přesném datu digitalizace ale i mnoha dalšı́ch. 20 Kapitola 3 3.1 Metadata Metadata dokumentu v knihovnı́m systému Uved’me velmi stručně standardy použı́vané u nás v souvislosti s historickými dokumenty. Popis je uveden z informatického pohledu, podrobnějšı́ analýza z knihovnického hlediska nenı́ předmětem této práce. 3.1.1 MASTER Standard MASTER (Manuscript Access through Standards for Electronic Records) vznikl přı́mo pro popis rukopisů a je součástı́ TEI (Text Encoding Initiative), která se zabývá právě a postupy pro uchovávánı́ a výměnu textových dat v elektronické formě. MASTER je definován v dokumentu TEI P4, pro novou verzi TEI P5 se pracuje na jeho úpravách a integraci. Tento formát je použit (verze TEI P4) v Národnı́ knihovně, kde se pomocı́ něho zaznamenávajı́ metadata pro projekt Manuscriptorium. Ve světe nenı́ sice přı́liš rozšı́řen, u nás se jedná o jedno z nejmasivnějšı́ch nasazenı́ tohoto formátu vůbec. Výhodou tohoto formátu je možnost integrace plného textu i bibliografického záznamu v jednom XML souboru. 3.1.2 MASTER+ Rozšı́řenı́ standardu MASTER použı́vané v NK v Praze, kdy je přidána možnost zaznamenánı́ administrativnı́ch a strukturálnı́ch metadat, napřı́klad přidává vazbu na sekvenci digitalnı́ch dokumentů (souborů), které jsou obrazem stránek originálnı́ho dokumentu. V blı́zké budoucnosti se plánuje přechod na standard METS, viz dále. MASTER i MASTER+ jsou textové soubory použı́vajı́cı́ jazyka XML. K jejich editaci je k dispozici program M-Tool, ale je možné použı́t i obecné XML editory. Podrobnějšı́ informace např. v [12]. K projektu Manuscriptorium existuje celkem kvalitnı́ dokumentace na stránkách projektu http://www.manuscriptorium.cz/. Historické dokumenty jsou v Moravské zemské knihovně katalogizovány vždy ve formátu MARC21. Pro popis rukopisů je však použı́ván primárně formát MASTER, který je využı́ván i pro zpřı́stupněnı́ jiných digitalizovaných historických dokumentů v systému Manuscriptorium, přı́padně i mimo něj. MASTER nenı́ možné vložit do knihovnı́ho systému přı́mo, proto je nutné provést (ztrátovou) konverzi do MARCu, nebo ručně vytvořit velmi stručný knihovnı́ záznam a v něm vytvořit odkaz na XML soubor s MASTER, přı́padně se odkazovat přı́mo do Manuscriptoria (zatı́m ale přı́mý odkaz na digitalizovaný dokument nebo bibliografický záznam v Manuscriptoriu nenı́ umožněn. 21 Kapitola 3 3.1.3 Metadata MARC21 Původ rodiny formátů MARC (tedy dnešnı́ UNIMARC, MARC21 a dalšı́) hledejme už v době sálových počı́tačů. I přesto se stále jedná o nejrozšı́řenějšı́ a nejčastěji použı́vaný metadatový formát v knihovnı́ch systémech. Standardně se jedná o binárnı́ formát, který je možné zapsat i v takzvané řádkové formě, nebo (pro formát MARC21) také využı́t syntaxi MARCXML. MARC (MAchine Readable Cataloging) umožnuje do sekvenčnı́ho záznamu zapisovat metadata do struktury (pole, indikátor, podpole). Pro každou verzi MARCu existujı́ dohodnutá katalogizačnı́ pravidla, mimo jiné přiřazujı́cı́ ke každému poli jeho sémantiku. Na našem územı́ je nejčastěji použı́vaným formátem ve velkých knihovnách MARC21 (udržován v Kongresové knihovně), který vznikl modifikacı́ USMARCu. Po mnoho let byl u nás ale prosazován výhradně formát UNIMARC, který je z technického hlediska kvalitnějšı́, ale bohužel se takřka nerozvı́jı́, přesto jej stále použı́vá velké množstvı́ zejména menšı́ch knihoven. Ukázka bibliografického záznamu ve formátu MARC21 (řádková forma) z knihovnı́ho systému Aleph pro Komenského mapu Moravy použitou v přı́kladech v této práci (signatura Moll-0090.900, AA.T.XXII, Supl.6, systémové čı́slo 903870) FMT MP LDR -----nem-a22-----2a-4500 001 000903870 003 CZ-BrMZK 005 20060208150519.0 007 aj aa 008 050104s18uu----xr-i a r 0 latod 0341 a 470000 b 520000 d E151000 e E185000 f N501000 g N483500 a BOA001 b cze 040 043 a e-xr--- b e-xr-mr 2 czenas a 912 x Mapy. Atlasy 2 Konspekt 9 7 072 7 080 a 025.171 2 MRF 080 a (437.32) 2 MRF 080 a (084.3) 2 MRF 1001 a Komenský, Jan Amos, d 1592-1670 7 jk01061444 4 aut 24510 a Moraviae nova et post omnes priores accuratissima delineatio h [kartografický dokument] / c auctore I.A. Comenio 255 a Měřı́tko sı́tě [ca. 1:470,000]. Měřı́tko kresby [ca. 1:520,000] c [(15˚10’ v.d. -- 18˚50’ v.d./50˚10’ s.š.--48˚35’ s.š.)]. 260 a Praha : b Tisk Farského, c [18--] 300 a 1 mapa : b mědirytina ; c 38 cm x 54 cm 500 a Přetisk Komenského mapy Moraviae nova et post omnes priores accuratissima delineatio. Noviter edita,à Nicolao Iohannide Piscatore. Anno Domini 1633. V 22 Kapitola 3 500 590 648 7 651 7 655 7 61027 65007 8564 910 3.1.4 Metadata levém hornı́m rohu kartuš s věnovánı́m Ladislavu Velenovi ze Žerotı́na psaným latinsky. V levém dolnı́m rohu kartuš s měřı́tkem, v pravém hornı́m rohu kartuš s názvem mapy, v pravém dolnı́m rohu kartuš s legendou a vydavatelem. Údaje čerpány z Drápela,V: Monumenta delineationum Moraviae Auctore I.A. Comenio. Brno, 1984 a Velká rytina Abrahama Goose označovaná jako KMM A1.3 a Hornı́ část mapy s vedutami měst odřı́znuta, v mı́stech přeloženı́ mapa značně potrhaná a 1851-1900 2 czenas a Morava (Česko) 2 czenas a historické mapy 2 czenas a Moravská zemská knihovna (Brno, Česko). b Mapová sbı́rka B.P. Molla 7 mzk2005304487 2 czenas a historické knihovnı́ fondy 2 czenas u http://almor.mzk.cz/moll/AA22/108.html z Digitalizovaná mapa, klikněte zde b Moll-0090.900,AA.T.XXII,Supl.6 DublinCore Velmi univerzálnı́ formát, s minimalistickým přı́stupem – definuje pouze 15 pevných základnı́ch prvků, které je možné dále libovolně kvantifikovat (rozšiřovat). Použit napřı́klad v projektu TimeMap pro uloženı́ metadat. 3.1.5 METS METS (Metadata Encoding & Transmission Standard) je spravován Kongresovou knihovnou. Umožňuje seskupovat v XML popisná, administrativnı́ i strukturálnı́ metadata a využı́vá k tomu, pokud je to možné, již existujı́cı́ch standardů pro uchovánı́ metadat (MARCXML, DublinCore). Standard METS bude pravděpodobně využit v připravované Národnı́ digitálnı́ knihovně (http://www.ndk.cz/), ale již předtı́m i v projektu Manuscriptorium. V principu bude i nadále zachován bibliografický záznam v knihovnı́m systému pro originál historického dokumentu. Z něj povede odkaz na popis digitálnı́ kopie dokumentu, uložený mimo knihovnı́ systém (např. pomocı́ formátu METS), ten teprve bude popisovat samotné soubory v systému digitálnı́ knihovny, resp. důvěryhodného datového úložiště. 3.1.6 FGDC FGDC (Federal Geographic Data Comittee, viz http://www.fgdc.gov/metadata) definuje metadatové standardy primárně určené pro uchovávánı́ a výměnu geografických dat. Tato metadata jsou použita jako deskriptivnı́ metadata např. v projektu Alexandrijské digitálnı́ knihovny, digitálnı́ knihovny uchovávajı́cı́ georeferencované dokumenty. 23 Kapitola 4 Georeference Pokud je našı́m úkolem zpřı́stupnit velké množstvı́ digitalizovaných historických dokumentů, navı́c různého typu, zjistı́me, že nalézt v takové sbı́rce požadovaný záznam s pomocı́ tradičnı́ho plnotextového hledánı́ může být obtı́žné. Bez znalosti přesného roku vzniku, jména autora nebo jiných selekčnı́ch údajů se prohledávánı́ takových dokumentů může degradovat až na prosté procházenı́ seznamu. Kdybychom v bibliografickém záznamu měli uvedenu i informaci o geografickém umı́stěnı́ dokumentu a využili ji pro indexaci takových záznamů v nějakém sofistikovanějšı́m prohledávacı́m systému, mohli bychom zı́skat seznam historických dokumentů na základě mnohem přirozenějšı́ho dotazu typu „chci veduty Olomouce a okolı́ z druhé poloviny osmnáctého stoletı́“, nebo „chci mapy pokrývajı́cı́ zvolené územı́, které byly vytvořeny v letech 1700-1850“. Navı́c takové dotazy mohou být kombinovány i s plnotextovým hledánı́m. Jak určit rozsah územı́, který je relevatnı́ k danému dokumentu? U map se bezpochyby jedná o územı́, které pokrývajı́, u dokumentů jiného typu (napřı́klad fotografie, veduty nebo staré tisky) může jı́t o mı́sto vzniku tohoto dokumentu, nebo o mı́sto v něm zobrazené či popsané (bylo by vhodné tyto dvě informace nezaměňovat). Georeference s cı́lem prohledávat rozsáhlou sbı́rku dokumentů je hlavnı́m cı́lem našı́ snahy. Pokud vı́m, jen výjimečně se v knihovnách v České Republice v bibilografickém záznamu uvádı́ i informace o georeferenci, také v zahraničı́ se s tı́mto typem metadat pro většı́ sbı́rky teprve začı́ná. Důvodem může být také fakt, že knihovnı́ systémy nejsou zatı́m schopny tento typ informace přı́mo zpracovávat a využı́vat – pro prohledávánı́ rozsáhlejšı́ sbı́rky dokumentu pomocı́ georeference se tedy zatı́m musı́m využı́t externı́ch specializovaných systémů. Myslı́m si, že přı́nos záznamu geodat je neoddiskutovatelný a možnosti georeferencované indexace a následného hledánı́ budou v budoucnu bezpochyby využı́vány častěji a časteji. Svědčı́ o tom i vzrůstajı́cı́ obliba georeference nově pořizovaných snı́mku z digitálnı́ch fotoaparátů, georeference webových stránek i jiných dat, označovaná termı́nem „geotagging“. Podpora pro geotagging je již implementována např. v programu pro organizaci fotografiı́ Google Picasa, kde je možné celou sérii fotografiı́ (nebo obecně rastrových obrázků) georeferencovat za pomoci jednoduchého určenı́ pozice v programu Google 24 Kapitola 4 Georeference Earth 1). Metadata uchovávajı́cı́ záznam o rovnoběžce a polednı́ku jsou potom uložena přı́mo do hlaviček grafických souborů (EXIF – Exchangeable image file format, podporován např. ve formátu JPEG nebo TIFF), a mohou být tedy dále zpracovávána jinými programy a skripty. Zajı́mavá je i služba Panoramio, která umožňuje určenı́ pozice a odeslánı́ fotografie do zobrazovacı́ho systému jen pomocı́ webové stránky. Podporu pro geotagging obsahuje také oblı́bený systém Flickr pro publikovánı́ digitálnı́ch fotografiı́ na webu. Některé stránky ve svobodné encyklopedii Wikipedia majı́ také záznam pro geografickou polohu. Dalšı́ služby a programy se stále objevujı́. Dokonce se již objevujı́ digitálnı́ fotoaparáty, které informaci o mı́stě vzniku fotografie do snı́mku uložı́ automaticky se stiskem spouště dı́ky vbudovanému modulu GPS – Global Positioning System, přijı́mač signálu ze skupiny družic, který jednoznačně určı́ pozici kdekoliv na našı́ planetě je běžně použı́ván k navigaci. 4.1 Jak georeferencovat? Pro určenı́ jednoznačné pozice na Zemi se užı́vá mnoha geodetických souřadných systémů, na jejichž základnı́ přehled pro oblast České republiky se podı́váme v dalšı́ kapitole. Pro účely pozice v celosvětovém měřı́tku se nejčastěji mluvı́ o WGS84, který je i nativnı́m souřadným systémem pro GPS. Georeference, nebo chcete-li geotagging, fotografiı́ a jiných dokumentů proto většinou probı́há v tomto systému. Vlastnı́ pozici podle mı́sta na mapě můžeme jednoduše určit pomocı́ volně dostupných on-line map, tedy služeb jako je http://www.mapy.cz/, http://mapy.atlas.cz/ , http://maps.google.com/ a dalšı́ch. Většinou stačı́ najı́t funkci „GPS souřadnice“, nebo „GPS“ a zı́skáte patřičné informace. Napřı́klad pro budovu Moravské zemské knihovny v Brně se jedná o data: 49˚12’31.14”N 16˚35’38.5”E tedy konkrétnı́ stupně severnı́ šı́řky a východnı́ délky, někdy je též možné se setkat s desetiným zápisem, tedy: 49.208650 Latitude 16.594028 Longitude Obdobně můžeme využı́t jakýchkoliv geografických informačnı́ch systému, nebo přı́mo přı́stroje GPS, programů jako je Google Earth, a podobně. Možnostı́ je opravdu hodně. Pomocı́ takto definovaného bodu na Zemi máme tedy jasnou georeferenci pro historické dokumenty jako jsou staré tisky, rukopisy, veduty apod. 1) DVD:/install/google-earth 25 Kapitola 4 Georeference Pro staré mapy můžeme určit georeferenci obdobně. Tedy jednoduše určit souřadnice rohů územı́, které mapa pokrývá. Pro účely hledánı́ je toto velmi přibližné určenı́ oblasti ve většině přı́padů dostačujı́cı́. Korektně by se mělo jednat o tzv. „bounding box“ mapy, tedy nejmenšı́ možný ohraničujı́cı́ obdélnı́k s územı́m mapy. To je nutné zohlednit obzvláště pro mapy, které nejsou orientovány k severu, napřı́klad mapy povodı́ řek. Veduty a jiné nemapové prvky obsažené na dokumentu by neměly být součástı́ georeference. Obrázek č. 7 Odečtenı́ souřadnic z mapy a idálnı́ „bounding box“ Pokud bychom chtěli historické mapy srovnávat s těmi současnými, nebo zobrazit starou mapu v kontextu jiných starých map, je nezbytné provést georeferenci s přihlédnutı́m k přepočtu kartografické projekce, resp. u velmi starých map provést opravu nepřesnostı́ a deformovat rastrový obraz mapy pro účely srovnávánı́. Tento proces kartograficky přesné georeference může být zdlouhavý a pro rozsáhlé sbı́rky knihoven nebo archivů je obtı́žně proveditelný. Navı́c tato práce se primárně zabývá zpřı́stupněnı́m sbı́rek map vytvořených před rokem 1800, u kterých bývajı́ nepřesnosti opravdu velké a tudı́ž proces reprojekce obtı́žný. 4.2 Nástroje pro georeferencovánı́ Zůstaňme zatı́m u jednoduché georeference vytvořené za účelem vyhledávánı́ v rozsáhlé sbı́rce historických dokumentů. Při vytvářenı́ tohoto záznamu je možné využı́t některého z těchto postupů: Přečı́st souřadnice rohů mapy přı́mo z rámu mapy, tedy využı́t zápisu souřadnic uvedených fyzicky na vlastnı́m dokumentu. Můžeme pak ale narazit (a pravděpodobně také narazı́me) na jiný souřadný systém uvedený na mapách. Na starých mapách bývá většinou uvedena zeměpisná šı́řka korektně, ale zeměpisná 26 Kapitola 4 Georeference délka se počı́tá od jiného nultého polednı́ku než dnes. Nultý polednı́k tedy neprocházı́ přes Královskou observatoř v Greenwich v Londýně ale nejčastěji ostrovem Ferro, nejzápadnějšı́m z Kanárských ostrovů. Ferrský polednı́k byl použı́ván jako nultý v letech 1634 až 1884 (s definitivnı́ platnostı́ byl zrušen až roku 1911) a mimochodem v době antiky představoval nejzápadnějšı́ mı́sto známého světa (podle Ptolemaia). Někdy se také můžete setkat s jinými nultými polednı́ky, pak ale bývá problém určit, který polednı́k byl použit. Přepočet je možné provést skriptem, který napsal Michal Žbodák pro Moravskou zemskou knihovnu, zdroj je dostupný na přiloženém DVD v souboru souradnice.pl 2). Skript navı́c zobrazı́ souřadnice v zápisu vhodném pro vloženı́ do knihovnı́ho systému Aleph. Určit body rohů vizuálně na jiné georeferencované mapě na základě sı́del nebo geografických prvků shodných na obou mapách. Nejjednoduššı́ je opět využı́t některé z volně dostupných on-line map. Pro tento způsob pravděpodobně ještě vytvořı́me pomocný skript – s pomocı́ Google Maps API to nenı́ obtı́žné. Obrázek č. 8 Přibližná vizuálnı́ georeference pomocı́ programu Google Earth Relativně přesnou ale pracnějšı́ georeferenci bez přepočtu digitalizovaného rastru nabı́zı́ program Google Earth 3), který pomocı́ funkce ImageOverlay umožňuje vložit na podklad satelitnı́ch snı́mků jakýkoliv rastrový obraz, tedy i digitalizovanou starou mapu. Poté je možné provést zmenšenı́ či zvětšenı́ obrazu, rotaci a posun. Během těchto 2) DVD:/project/souradnice/souradnice.pl 3) DVD:/install/google-earth 27 Kapitola 4 Georeference operacı́ je také možné nastavovat průhlednost georeferencované bitmapy, a tudı́ž vizuálně porovnávat aktuálnı́ satelitnı́ snı́mek s vkládanou mapou a dosáhnout tak co nejkvalitnějšı́ podrobnosti georeference. Obrázek č. 9 Georeference pomocı́ vlı́covacı́ch bodů v programu MSR MapCruncher Digitalizovaný obraz nenı́ nijak přepočı́táván, tudı́ž pro některé mapy nemůže s podkladem lı́covat, pokud obraz předem nepřepočı́táme (a tudı́ž i negeoreferencujeme) nějakým kartografickým nástrojem. Pro hrubou georeferenci se ukázalo výhodné na satelitnı́m snı́mku označit pomocı́ virtuálnı́ho špendlı́ku tři znatelně rozpoznatelné body georeferencované mapy, a poté provést zmı́něné deformačnı́ operace tak, aby tyto tři body seděly i na nově umı́st’ované mapě. Dodatečně pomocı́ nastavovánı́ průhlednosti zpřesnit takto provedenou georeferencioperaci. Údaje o georeferenci je možné uložit přes pravé tlačı́tko na jménu vkládané mapy v seznamu vrstev a to do textového XML souboru s koncovkou KML. Tato informace je tedy dále zpracovatelná. Opravdu rozměrné bitmapy Google Earth zmenšı́ při načtenı́ na přijatelnou velikost, která by snad měla být dostatečná pro georeferenci. Výsledný soubor KML s georeferencı́ je ale možné využı́t i pro zpřı́stupněnı́ digitalizovaným map v plném (takřka neomezeném) rozlišenı́. Ale o tom později. 28 Kapitola 4 Georeference Alternativou ke Google Earth je Microsoft Virtual Earth. Pro přidávánı́ map do tohoto systému vyvinul Microsoft ve svých laboratořı́ch nástroj MSR MapCruncher, který je dostupný zdarma, ale nenı́ multiplatformnı́ (narozdı́l od Google Earth). Umožňuje načı́st bitmapu a pomocı́ skupiny totožných bodů (tzv. vlı́covacı́ body) označených na dostupné mapě i na vkládaném rastrovém obrazu provést přepočet tohoto obrazu. Deformace je spočı́tána jen na základě zvolených bodů, pracuje tedy s vkládanou mapou pouze jako s obrazem. Výsledný přepočı́taný a deformovaný rastrový obraz je uložen do skupiny dlaždic (soubory ve formátu PNG) i s přı́slušným textovým XML souborem určujı́cı́m georeferenci. Výslednou mapu je tedy možné zobrazit jak dvourozměrně tak i v prostoru přı́mo v okně internetového prohlı́žeče (třı́dimenzionálnı́ pohled je dostupný pokud je nahrán přı́slušný plugin). Vı́ce viz stránky http://dev.live.com/virtualearth/sdk/. Použı́t pro georeferenci některý z kartografických nástrojů, které přepočı́távajı́ rastrový obraz a provádějı́ přesnou georeferenci včetně reprojekcı́. Takovým software jsou napřı́klad nástroje firmy ESRI jako ArcView s extenzı́ Image Analysis, nebo české nástoje jako TopoL, či geodetický software KOKEŠ a dalšı́. Tento přı́stup byl využit mimo jiné při přesné georeferenci starých map I. a II. vojenského mapovánı́, celý proces od digitalizace, přes georeferenci až po zpřı́stupněnı́ je popsán v [13]. Z pohledu knihoven a archivů je ale digitálnı́ primárnı́ obraz mapy nedotknutelný, měl by představovat digitálnı́ otisk fyzického dokumentu. Proto pokud se budou zmı́něné kartografické operace provádět, je nutné udržovat dalšı́ digitálnı́ kopii dat a zpřı́stupňovat je odděleně. Na druhou stranu v přı́padě srovnávánı́ digitalizovaných starých map bez kartografické reprojekce s jinými mapami může docházet ke značným nepřesnostem a takové srovnánı́ je tedy spı́še orientačnı́. Pokud kvalitnı́ srovnávánı́ map vyžadujeme (přinese nám to nemalý užitek, vidı́me tak vývoj územı́ v čase) je nezbytné provést georeferenci s přepočtem rastru podle kartografické projekce a u velmi starých map provést opravu nepřesnostı́, tedy deformovat obraz mapy pro účely srovnávánı́. 4.3 Georeference a metadata V předchozı́ kapitole jsme si uvedli jak zı́skat georeferenci pro historické dokumenty, v této kapitole si ukážeme, jak tuto georeferenci zapsat do metadat v knihovnı́m systému. Připomeňme, že se jedná o georeferenci primárně určenou k prohledávánı́ dokumentů. Geotagované obrázky ve formátu JPEG nebo TIFF obsahujı́ geografické souřadnice bodu v hlavičkách EXIF. Automatizovaně na přı́kazové řádce je možné přečı́st tyto hlavičky např. pomocı́ programu EXIFGREP z balı́ku EXIFPROBE. Podobně může být v hlavičkách souboru uložena i informace o georeferenci celého 29 Kapitola 4 Georeference obrazu, např. ve formátech GeoTIFF nebo GeoJP2. Výsledkem georeference pomocı́ kartografických nástrojů může být i tzv. WorldFile, o tom ale později. Je nutné si také uvědomit, že georeference rastrového obrázku jako celku se může lišit od souřadnic „bounding boxu“, který bychom rádi zapsali do metadat knihovnı́ho systému. Bibliografický knihovnı́ záznam se obvykle váže k fyzickému dokumentu, nikoliv k jeho digitálnı́ kopii, takže i uvedená georeference by neměla být závislá na konkrétnı́ digitálnı́ kopii dokumentu, ale měla by být jednotná pro všechny digitalizované verze dokumentu. Přı́kladem mohou být mapy s velmi širokým okrajem, které se digitalizujı́ dvakrát: jednou včetně prázdného okraje (aby byl zachycen celý dokument) a podruhé jen s detailem vlastnı́ mapy. Podpora zápisu georeference pro jednotlivé formáty metadat: 4.3.1 MASTER Ve formátu MASTER nenı́ přı́mý zápis georeference podporován. Je možné pouze vložit (otagovat v textu) časové a mı́stnı́ údaje. 4.3.2 METS V METS by z principu podpora měla být, ale protože tento formát nenı́ v ČR zatı́m využı́ván, dále se mu zde nebudeme věnovat. 4.3.3 MARC21 Tento, ve velkých českých knihovnách nejčastěji použı́vaný formát pro uchovávánı́ bibliografických záznamů, přı́mo podporuje uloženı́ georeference. Ukázka výstupu z výše uvedeného skriptu 4) pro konverzi zeměpisné šı́rky a délky: pole 034: $$dE0123600$$eE0273600$$fN0500000$$gN0400000 pole 255: $$c[(012˚36’00" v.d.--027˚36’00" v.d./050˚00’00" s.š.--040˚00’00" s.š.)]. Georeference je uložena ve dvou polı́ch: v prvnı́m poli (034) je hlavnı́ záznam určený pro počı́tačové zpracovánı́, druhé pole (255) obsahuje záznam převedený do formy čitelné pro člověka. Tento typ duplicity informace se v MARCu použı́vá poměrně často a to z historických důvodů, protože přı́slušnou konverzi knihovnı́ systém neuměl provést sám. V kapitole Metadata se můžete podı́vat na kompletnı́ bibliografický záznam včetně těchto polı́. Podrobnějšı́ informace hledejte v dokumentaci k MARC21. 4) DVD:/project/souradnice/souradnice.pl 30 Kapitola 4 4.3.4 Georeference DublinCore V DublinCore máme možnost zapsat pod „Coverage“ (jeden z 15 základnı́ch prvků) dodatečnou informaci pomocı́ kvalifikátoru. Projekt TimeMap, o kterém bude řeč dále, využı́vá DublinCore pro zápis metadat popisujı́cı́ celou kolekci historických dokumentů. Vlastnı́ záznamy s georeferencı́ jsou v TimeMap uloženy v SQL databázi nebo v DBF souboru (tedy přesněji v Shape File, viz dále). Následuje tedy ukázka výseku z XML Metadat TimeMap (souboru s koncovkou .tmm): <META <META <META <META <META <META NAME="dc.coverage.x.min" CONTENT="11.500"/> NAME="dc.coverage.x.max" CONTENT="19.583"/> NAME="dc.coverage.y.min" CONTENT="47.583"/> NAME="dc.coverage.y.max" CONTENT="53.000"/> NAME="dc.coverage.t.early" CONTENT="1550-01-01T00:00:00"/> NAME="dc.coverage.t.late" CONTENT="1850-01-01T00:00:00"/> Jak využı́t takto zapsaná geodata v systému pro prohledávánı́ databáze dokumentu si ukážeme v kapitole Vyhledávánı́ dokumentů s georeferencı́. Nynı́ ale uděláme malý odskok do kartografie. 4.4 Kartografická projekce, geodetické systémy našeho územı́ Velmi obecně zde uvedu základnı́ informace, čerpal jsem z Multimediálnı́ učebnice kartografie a geoinformatiky [14], kde najdete přesnějšı́ popis. Podrobněji se tomuto problému věnuje vědnı́ obor matematická kartografie. Čerpat je možné napřı́klad i z manuálu ke knihovně Proj.4 [15], která implementuje většinu známých projekcı́ a dokáže mezi nimi i převádět. Kartografická projekce je postup použı́vaný k promı́tnutı́ povrchu Země (či jiného vesmı́rného tělesa) do roviny. Prvnı́m základnı́m krokem v tomto převodu je matematické určenı́ prostorového tělesa, které bude nahrazovat tvar planety Země – tzv. referenčnı́ho elipsoidu. V nejjednoužšı́m přı́padě se jedná o kouli, jinak je tvar udán pomocı́ poloos, excentricity a zploštěnı́. Nejznámějšı́ referenčnı́ elipsoidy majı́ svá jména, většinou podle autora. Dalšı́m krokem je určenı́ vzorce pro vlastnı́ kartografické zobrazenı́ souřadnic z elipsoidu do roviny. Zobrazenı́ je mnoho druhů, některá nezkreslujı́ délky (ekvidistantnı́), některá nezkreslujı́ plochy ale velice zkreslujı́ úhly (ekvivalentnı́), jiná zase nezkreslujı́ úhly ale zkreslı́ délky a plochy (konformnı́). Jednoduchá zobrazenı́ můžeme také třı́dit podle tělesa, na které se promı́tá a jehož 31 Kapitola 4 Georeference plocha je rozvinuta do roviny – máme tak zobrazenı́ válcová, kuželová, nebo azimutálnı́ s průmětem na tečnou rovinu – jsou ale i zobrazenı́ složitějšı́. Poslednı́m krokem je určenı́ použitého souřadného systému. Geodetické referenčnı́ systémy použı́vané u nás (převzato z [14]): WGS 84 – světový geodetický referenčnı́ systém 1984 • je spojen s referenčnı́m elipsoidem WGS 84 • je definován Mercatorovým univerzálnı́m konformnı́m válcovým zobrazenı́m (UTM) v 6˚ polednı́kových pásech S-JTSK – souřadnicový systém Jednotné trigonometrické sı́tě katastrálnı́ • je spojen s Besselovým elipsoidem • je definován Křovákovým konformnı́m kuželovým zobrazenı́m v obecné poloze S-42 – souřadnicový systém 1942 • je spojen s Krasovského elipsoidem • je definován Gaussovým přı́čným konformnı́m válcovým zobrazenı́m v 6˚ polednı́kových pásech v Krügerově úpravě Z historických důvodů se u nás často použı́vá systém S-JTSK (napřı́klad katastrálnı́ mapy, základnı́ mapa ČR), který byl navržen přı́mo pro oblast našı́ republiky. Stále vı́ce se ale prosazuje i WGS-84, tedy světový geodetický referenčnı́ systém 1984, ve kterém jsou nynı́ zobrazeny vojenské topografické mapy (dřı́ve použı́valy S-42). Jednoduchou transformaci souřadnic základnı́ch českých geodetických referenčnı́ch systému můžete provést on-line např. na adrese http://astro.mff.cuni.cz/mira/sh/sh.php?type=trans2. K dispozici je i zdrojový kód těchto stránek v jazyce PHP 5) a popis algoritmu transformacı́ [16]. 4.5 Datové formáty a standardy v GIS Georgafické informačnı́ systémy použı́vajı́ vlastnı́ datové formáty a standardy, se kterými se u zpracovánı́ historických dokumentů přı́mo setkáváme. Velkou roli v oblasti GIS standardů hraje Open Geospatial Consorcium (OGS) – konzorozium vı́ce než třı́set firem, institucı́ a univerzit, které vydává specifikace standardů a rozhranı́ pro výměnu dat mezi geografickým systémy, napřı́klad pomocı́ technologı́ı́ jako je XML nebo web-services, viz [17]. Vyberme proto nejznámějšı́ standardy tohoto konzorcia: 5) DVD:/project/souradnice/db trans.tar.gz 32 Kapitola 4 Georeference OpenGIS Web Map Service (WMS) Standard webové služby, který implementujı́ mapservery. Umožnuje vzdáleně přistupovat k mapovým podkladům geografických informačnı́ch systémů a využı́vá k tomu protokolu HTTP. Definuje předevšı́m: • Pravidla pro položenı́ gereferencovaného dotazu a formy poskytnutı́ mapy jako rastrového obrazu (GetMap). • Jak zı́skat informace o obsahu jako je hodnota nějaké vlastnosti v daném umı́stěnı́ (GetFeatureInfo). • Jak zı́skat informaci o typu map, které server zpřı́stupňuje (GetCapabilities). Standard viz [18]. OpenGIS Geography Markup Language (GML) Univerzálnı́ značkovacı́ jazyk pro popis geografických dat založený na XML. Standard viz [19]. OpenGIS Web Feature Service (WFS) Standard webové služby pro výměnu geografických dat mezi informačnı́mi systémy ve formátu GML. Standard viz [20]. Nemalou měrou se také svými de-facto standardy zasloužlla firma ESRI: ESRI Shape Files Často využı́vaný formát uloženı́ indexovaných prostorových dat s atributy, tedy typických geodat. Je použit i v projektu TimeMap, o kterém se zmı́nı́me později, jako jedna z možnostı́ uloženı́ dat. Ve skutečnosti se jedná vždy o skupinu třı́ souborů: XXX.shp - obsahuje vlastnı́ prostorová data, vektory XXX.shx - obsahuje index dat s odkazy do struktury .shp souboru XXX.dbf - obsauje atributy ve formátu xBase (dBase) Pro automatizované zpracovánı́ (editaci i čtenı́) se hodı́ programátorská knihovna ShapeLib, která má i rozhranı́ pro skriptovacı́ jazyky, mimo jiné i Python. 33 Kapitola 4 Georeference ESRI World Files Textové soubory nesoucı́ informaci o georeferenci rastrového obrázku, standardně použı́vané v systému ArcGIS. V nových verzı́ch je nahrazuje formát AUX. Pro formát JPEG má World file koncovku .jfw, pro TIFF .tfw. Ukázka World file je např. v dokumentu [21]. Google KML – Keyhole Markup Language XML formát využı́vaný v produktech Google Earth a Google Maps, který podobně jako GML umožnuje v notaci jazyka XML zapisovat geografická data, georeferencovat bitmapu (nebo pyramidovou strukturu bitmap), vložit na povrch Země 3D objekt s texturami a podobně. Je to nativnı́ formát programu Google Earth, takže přı́mo odražı́ jeho vlastnosti a možnosti. Ukázka zapsánı́ bodu pomocı́ KML: <?xml version="1.0" encoding="UTF-8"?> <kml xmlns="http://earth.google.com/kml/2.0"> <Placemark> <description>New York City</description> <name>New York City</name> <Point> <coordinates>-74.006393,40.714172,0</coordinates> </Point> </Placemark> Pozice je v Google Earth vždy určena pomocı́ standardnı́ho systému polednı́ků a rovnoběžek udaném v souřadném systému WGS84. Je použita jednoduchá ekvidistantnı́ válcová projekce (označovaná jako plate carré), která mapuje rovnobězky na stejně vzdálené vertikálnı́ lı́nie, kolmé na horizontálnı́ lı́nie představujı́cı́ polednı́ky. Narozdı́l od GML tedy nemůžeme určit jiný geodetický referenčnı́ systém. Ukázka georeference bitmapy: <?xml version="1.0" encoding="UTF-8"?> <kml xmlns="http://earth.google.com/kml/2.1"> <GroundOverlay> <name>1627 Komenského mapa Moravy</name> <Icon> <href>/Users/klokan/komensky.jpg</href> <viewBoundScale>0.75</viewBoundScale> </Icon> <LatLonBox> 34 Kapitola 4 Georeference <north>50.96860555555556</north> <south>48.11342777777778</south> <east>19.20189166666666</east> <west>14.75865833333333</west> <rotation>-17.92435786338503</rotation> </LatLonBox> </GroundOverlay> </kml> Microsoft Virtual Earth, NASA World Wind Podobně jako Google Earth i konkurenčnı́ produkty od Microsoftu a od NASA definujı́ vlastnı́ XML formáty pro popis geografických dat. Microsoft Virtual Earth použı́vá souřadnice WGS84 s Mercatorovou projekcı́, běžně použı́vanou na námořnı́ch mapách pro navigaci (sı́t’ polednı́ků a rovnoběžek je pravoúhlá, rovnoběžky se však nezobrazujı́ v konstantnı́ch rozestupech – čı́m blı́že k pólu, tı́m jsou dál od sebe. Docházı́ tak ke zkreslenı́ ploch). NASA World Wind je v tomto ohledu nejdále, protože pomocı́ pluginu dokáže před vloženı́m dat provést jejich reprojekci, takže striktně nenı́ vázán na jeden referenčnı́ systém. Navı́c dı́ky dostupnému zdrojovému kódu (platforma .NET, C#, využı́vá DirectX) tento systém vypadá velice perspektivně. Umı́ také načı́tat data z KML. Existuje i multiplatformnı́ varianta na stránkách http://ww2d.org/. 4.6 Nástroje pro editaci a konverzi geodat Kromě komerčnı́ch nástrojů různých firem jsou k dispozici i svobodné GIS nástroje. Hlavnı́ rozcestnı́kem pro tuto oblast je předevšı́m stránka http://www.maptools.org/. Jen stručně výčet nejvýznamnějšı́ch projektů: UNM MapServer Open Source MapServer vytvářený na univerzitě v Minesotě. Velmi rozšı́řený a hojně využı́vaný produkt. Implementuje specifikace OGS (Open Geospatial Consortium) jako je WMS, nebo WFS. GIS Grass Plnohodnotný geografický informačnı́ systém, s dostupnou dokumentacı́ v českém jazyce 6) a aktivnı́ skupinou uživatelů z ČR http://grass.fsv.cvut.cz/wiki/index.php/GRASSwikiCZ. 6) DVD:/docs/grass 35 Kapitola 4 Georeference QGIS, uDig GIS editory s grafickým rozhranı́m a mnoha dalšı́mi možnostmi. Pro atomatizované úlohy se také hodı́ skupina nástrojů v balı́ku FWTools 7) (obsahuje např. GDAL a PROJ.4). Knihovna proj4 umožnuje převody kartografických projekcı́ (z přı́kazové řádky pomocı́ proj, nebo cs2cs), podrobněji pro naše územı́ viz webové stránky http://grass.fsv.cvut.cz/wiki/index.php/S-JTSK. Automatizovanou práci s bitmapami zase umožnuje knihovna GDAL, která napřı́klad zvládne i reprojekci bitmapy mezi jednotlivými systémy. Pomocı́ přı́kazové řádky s nástrojem gdalwarp, viz. http://www.remotesensing.org/gdal/gdal utilities.html. 7) DVD:/install/fwtools/ 36 Kapitola 5 Zpřı́stupněnı́ dokumentů V daný moment máme k dispozici digitalizovanou verzi historického dokumentu (např. starou mapu nebo vedutu) ve vysoké kvalitě, máme přı́slušný bibliografický záznam i s údajem o georeferenci a před námi je úkol, jak taková data zpřı́stupnit čtenářům. Tedy jak tuto digitálnı́ kopii vystavit na sı́t’ Internet a přı́padně jak umožnit jednoduché hledánı́ ve sbı́rce dokumentů s využitı́m georeference. Nebudeme se zde zabývat možnostmi omezenı́ přı́stupu k takto vystaveným dokumentům, většinou je možné řešit ochranu heslem nebo přı́stupem jen pro vybrané počı́tače v sı́ti Internet na nižšı́ch vrstvách a použı́t napřı́klad možnostı́ webového serveru nebo firewallu. Kvalitnějšı́ možnosti autentizace a řı́zenı́ přı́stupu jsou mimo rozsah této práce. U starých map a historických dokumentů nebývá problém s autorskými právy, jejich veřejnému vystavenı́ na sı́ti Internet tedy nic nebránı́. Pokud se instituce publikujı́cı́ zmı́něné dokumenty obává, že by vystavená digitálnı́ kopie mohla být bez jejich souhlasu zneužita napřı́klad jako zdroj dat pro reprint fyzické kopie tohoto dokumentu, jediným jistým řešenı́m je opatřit dokument ve vysokém rozlišenı́ vodotiskem. Taková ochrana je ale na úkor kvality zpřı́stupněnı́ dokumentu, protože vodotisk při prohlı́ženı́ vizuálně rušı́. 5.1 Vystavenı́ dokumentů on-line Vystavit přı́mo primárnı́ verzi digitalizovaného dokumentu je velice nepraktické. Transport velkých souborů prostřednictvı́m sı́tě Internet je i na rychlém připojenı́ zdlouhavý, zobrazovánı́ opravdu rozměrných rastrových obrazů může být na běžném počı́tači bez speciálnı́ho software velmi problematické. Čtenář nebo badatel stejně při prohlı́ženı́ většinou nepoužije data celého dokumentu v plném rozlišenı́, spı́še ho zajı́majı́ výseky v plné kvalitě a celkový náhled na dokument. Uvedeme zde techniky, které umožnı́ komfortně, v internetovém prohlı́žeči, zobrazit i velmi rozměrné rastrové obrazy na běžném internetovém připojenı́. Většinou se digitálnı́ dokument musı́ pro publikovánı́ předzpracovat, konvertovat do jiného datového formátu. Máme pak dvě kopie digitálnı́ho dokumentu: • Primárnı́ (master) verzi digitalizovaného dokumentu, nejčastěji vzniklou jako přı́mý výstup procesu digitalizace, kterou je nutno uchovávat na kvalitnı́m zálohovaném datovém úložišti. 37 Kapitola 5 Zpřı́stupněnı́ dokumentů • Kopii pro zpřı́stupněnı́, většinou zkonvertovanou do nějakého formátu vhodného pro publikovánı́. Uvedeme si ale postup, kdy bitmapa může být zpřı́stupněna přı́mo z primárnı́ verze dokumentu. Nástroje pro vystavenı́ rastrových obrazů jsou obecné, nezávislé na georeferenci, takže je možné je použı́t (a také se tak děje) pro vystavenı́ jakékoliv rozměrné bitmapy, tedy napřı́klad digitalizovaného obrazu v galerii, fresky nebo malby, nebo i detailnı́ho snı́mku z mikroskopu, který chceme dát k dispozici na webu. Vystavenı́ dokumentů s přesnou georeferencı́ je věnována zvláštnı́ kapitola. 5.1.1 Zpřı́stupněnı́ rozměrných rastrových obrazů Statická struktura dlaždic Nejčastějšı́m přı́stupem k publikovánı́ rozměrných bitmap je jejich rozřezánı́ na skupinu menšı́ch souborů, tzv. dlaždic, které jsou zobrazovány na základě požadavku uživatele nějakým prohlı́žecı́m programem (dnes nejčastěji přı́mo zapouzdřeném v internetovém prohlı́žeči). Tyto dlaždice mı́vajı́ pevnou velikost (nejčastěji 256x256 pixelů) a bývajı́ vypočı́tány nejen pro plné rozlišenı́ rastrového obrazu, ale i pro několik stupňů zmenšenı́ tohoto obrazu, takže je možné zobrazit i různě velké náhledy digitalizovaného dokumentu. Systém těchto dlaždic je obdobou pyramidového tiffu popsaného v kapitole Editace. Při zobrazovánı́ tedy prohlı́žecı́ software vždy využije jen několik málo dlaždic z celého souboru, navı́c vybraných ze zvoleného stupně přiblı́ženı́. Při vstupu do prohlı́žeče nejčastěji vidı́me zmenšený celý dokument a můžeme přiblı́žit na nějakou jeho část, pohybovat se po dokumentu v horizontálnı́ i vertikálnı́ ose. Výhoda této statické struktury dlaždic (souborů ve formátu JPEG nebo PNG) je jejich jednoduché publikovánı́ – stačı́ jakýkoliv obyčejný webserver, bez dodatečné instalace speciálnı́ho software. Vystavit takovouto mapu na Internet je tedy možné pro kohokoliv, kdo již má webové stránky. Zobrazovánı́ takové mapy bude také pravděpodobně velmi rychlé (na dobrém internetovém připojenı́), protože se může využı́t systému cache na straně webserveru nebo proxy serveru, který pro statické soubory, jakými předpočı́tané dlaždice jsou, funguje velmi dobře. Rozměrnou bitmapu v tomto formátu můžeme také umı́stit na CD-ROM a prohlı́žet ji stejně jako jejı́ on-line verzi. 38 Kapitola 5 Zpřı́stupněnı́ dokumentů Zoomify Nejznámějšı́m systémem využı́vajı́cı́m předpočı́taných dlaždic je Zoomify. Je to de facto standard pro tento typ publikovánı́. Pro zobrazovánı́ vyžaduje mı́t nainstalován Flash plugin, který je dnes dostupný ve většině prohlı́žečů (nicméně je to technologie komerčnı́ a uzavřená). Zoomify umı́ přibližovat plynule, vždy si žádá dlaždice nejvhodnějšı́ pro mı́ru zobrazených detailů. Obrázek č. 10 Zpřı́stupněnı́ mapy na webové stránce pomocı́ Zoomify Na stránkách http://www.zoomify.com/ je k dispozici několik verzı́ tohoto software. Základnı́ je dostupná zdarma společně s programem ZoomifierEZ 1) (platformy Windows a Mac), který připravı́ pro zadaný obrázek (v našem přı́padě digitalizovaný historický dokument) strukturu dlaždic. Jednoduchou editacı́ připraveného vzoru webové stránky zı́skáme plnohodnotný prohlı́žecı́ systém pro náš dokument. Komerčnı́ verze majı́ dodatečná rozšı́řenı́, přı́jemné grafické prostředı́, podporu automatizované přı́pravy vı́ce dokumentů, ale hlavně je dodán i zdroj zobrazovacı́ rutiny ve formátu Flash, je tedy možné upravit vzhled prohlı́žeče, přidat dodatečné navigačnı́ prvky, zapouzdřit jej do designu webu apod. Ukázka takovéto komerčnı́ aplikace Zoomify je napřı́klad na stránkách National Geographic zpřı́stupňujı́cı́ch Jidášovo evangelium. 1) DVD:/install/zoomify/ZoomifierEZ3.1 39 Kapitola 5 Zpřı́stupněnı́ dokumentů Zoomify se hodı́ pro zpřı́stupněnı́ opravdu rozměrných bitmap, např. na adrese http://www.haltadefinizione.com/ je k viděnı́ obraz fresky s rozlišenı́m 8.6 GigaPixelu, přesněji se jedná o bitmapu 96.679 x 89.000 pixelů, pravděpodoně největšı́ digitálnı́ obraz na světě vystavený online. Alternativnı́ skripty pro připravenı́ struktury zoomify automatizovaně jsou dostupné v projektu ZoomifyImage. 2) Ve své diplomové práci jsem se zabýval analýzou struktury dlaždic, které použı́vá zoomify, podrobněji viz kapitola Projekt. Zoomify systém je vhodný pro publikovánı́ starých map a historických dokumentů. viz např. mapy publikované na http://oldmaps.geolab.cz/, nebo diplomová práce [6]. Nevýhodou je uzavřenost technologie Flash a fakt, že zdrojový kód je zpoplatněn. JavaScript Viewer Poslednı́ dobou se stává technologie JavaScript a předevšı́m AJAX (Asynchronous JavaScript and XML) velmi populárnı́, JavaScript byl standardizován jako ECMAScript ve standardu ECMA-262, včechny modernı́ internetové prohlı́žeče jej plně podporujı́ a ve spojenı́ s objektovým modelem webové stránky DOM (Document Object Model) a kaskádovými styly CSS (Cascading Style Sheets) dávajı́ tvůrcům webových prezentacı́ možnost tvořit plnohodnotné aplikace srovnatelné s běžnými grafickými aplikacemi na desktopu. Přı́kladem je služba Gmail, nebo Google Maps, přı́padně i české Mapy.cz. Poslednı́ dvě jmenované zpřı́stupňujı́ mapy a satelitnı́ snı́mky, tedy v principu rozměrné rastrové obrazy, a využı́vajı́ k tomu právě statické struktury předpočı́taných dlaždic a JavaScript. Je to tedy v principu technologie, kterou můžeme využı́t i pro zpřı́stupněnı́ digitalizovaných historických dokumentů a starých map. Takový systém pro prohlı́ženı́ rozměrných bitmap on-line implementuje projekt PanoJS (Panoramic JavaScript Image Viewer) a jeho předchůdce GSIV (Giant Scalable Image Viewer). Je s nimi dodáván i skript v jazyce Python, který vytvořı́ strukturu dlaždic ze zadaného souboru. Oba tyto projekty jsou i na přiloženém DVD 3). Pro účely této práce jsem provedl modifikaci projektu PanoJS, tak aby použı́val strukturu dlaždic Zoomify. Podrobněji v kapitole Projekt. Imageservery Imageserver je server, který se specializuje na zpřı́stupněnı́ obrazů. Dokáže tedy na požádánı́ vrátit výřez z nějakého rastrového obrazu umı́stěného na serveru, nebo jeho 2) DVD:/install/zoomify/ZoomifyImage1 2.tar.gz 3) DVD:/project/zoomify-javascript 40 Kapitola 5 Zpřı́stupněnı́ dokumentů zmenšenou verzi či provést jiné modifikace (rotace, barevný posun, atd.) podle požadavku a vrátit výslednou bitmapu. Standardem pro formulaci dotazu na image server je Internet Imaging Protocol (IIP) [22]. IIPImage Server Kromě komerčnı́ch imageserverů je k dispozici i zajı́mavý projekt IIPImage 4) využı́vajı́cı́ knihovny VIPS. S jeho pomocı́ je možné zpřı́stupnit primárnı́ verze digitalizovaných dokumentů přı́mo, odpadla by tak nutnost udržovánı́ dvou kopiı́ digitálnı́ho dokumentu. Čte soubory ve standardizovaném formátu TIFF (konkrétně v pyramidovém tiffu s dlaždicemi). Podrobněji viz. článek Object Browsing Using the Internet Imaging Protocol [23]. IIPImage umı́ spolupracovat se serverem Apache, využı́vá rozhranı́ FastCGI. Instalace pod systém Windows obsahuje i webserver. Na stránkách projektu http://iipimage.sf.net/ jsou dva klienti: jeden využı́vajı́cı́ JavaScriptu, dalšı́ má formu Java Appletu. Také se zde nacházı́ podrobnějšı́ dokumentace. Pomocı́ mod python je možné napsat rozhranı́ na straně webserveru Apache, které poskytne emulaci statické adresářové struktury vyžadované prohlı́žečem Flash Zoomify. Jako prohlı́žeč by pak šlo využı́t i Zoomify Flash plugin, přı́padně modifikaci PanoJS. V daný moment by takové rozhranı́ muselo využı́vat zatı́m pouze vývojové verze mod python 3.3 5). Otázkou zůstává, jestli je tento přı́stup výhodný – tedy jestli předčı́ jednoduchost práce se statickou strukturou předpočı́taných dlaždic. 5.1.4 Zpřı́stupněnı́ georeferencovaných dokumentů Pro zpřı́stupněnı́ dokumentů, které majı́ přesnou georeferenci se tradičně použı́vá mapserveru. Mapservery Standardy použı́vané pro mapservery jsou definovány v Open Geospatial Consorcium – jedná se převážně o OpenGIS WMS a OpenGIS WFS. Vı́ce se jim věnujeme v minulé kapitole georeference. Hlavnı́m úkolem mapserveru je poskytnout výsek mapy určený pomocı́ zeměpisné 4) DVD:/install/iipimage/ 5) Konverzace s vývojáři mod python viz DVD:/project/FUTURE/ 41 Kapitola 5 Zpřı́stupněnı́ dokumentů šı́řky a výšky a územı́, pracuje s vı́ce datovými vrstvami (některé mohou být rastrové, jiné vektorové), zvládá přepočet kartografických projekcı́ a různé typy souřadných systémů. UNM Mapserver je asi nejznámějšı́ volně dostupný mapserver. Je vytvářen na univerzitě v Minesotě, jeho vývoj podporuje i NASA. Využı́vá mnoho jiných svobodných knihoven a nástrojů z http://www.maptools.org/. Podrobnějšı́ informace a dokumentaci najdete na stránkách projektu http://mapserver.gis.umn.edu/. Klient pro webový prohlı́žeč využı́vajı́cı́ AJAX je implementován např. v projektu msCross. Mapservery jsou velmi vhodné pro vystavenı́ starých map s přesnou georeferencı́ (včetně kartografické projekce). Viz např. [24]. Georeferencované dlaždice zoomify Zajı́mavou možnostı́ jak vystavit georeferencovanou bitmapu by bylo použı́t dřı́ve zmı́něnou statickou strukturu dlaždic (napřı́klad takovou jakou generuje program ZoomifierEZ) a doplnit ji o informaci o georeferenci. Asi prvnı́ formát, který se přı́mo nabı́zı́ pro záznam korektnı́ georeference je standard GML, georeferenci by šlo zapsat podobně jako je uvedena např. v dokumentu [21]. Takto georeferencovanou strukturu by pak bylo možné jednoduše vystavit on-line. Podobně můžeme zvolit např. jazyk KML a dlaždicı́m přiřadit georeferenci pomocı́ tohoto formátu. Tı́m ale ztratı́me možnost volby kartografické projekce – KML je striktně vázáno jen na jednu projekci, viz kapitola georeference, pro přesné zobrazenı́ je tedy nutné počı́tat s reprojekcı́ před převedenı́m rastrového obrazu do formátu dlaždic. Na druhou stranu zı́skáme možnost takto georeferencované dlaždice zobrazit v programu Google Earth ve 3D prostoru a umı́stěné na reliéfu krajiny. Mapa může být porovnávána s aktuálnı́m satelitnı́m snı́mkem či jinou starou mapou. Podpora pro zobrazenı́ dat popsaných pomocı́ KML byla nedávno přidána i do on-line služby Google Maps – i když zatı́m nenı́ implementováno načı́tánı́ dlaždic podle přiblı́ženı́, je pravděpodobné, že tato vlastnost bude brzy doplněna. Jednou vystavená datová struktura dlaždic by tedy mohla být využita jak pro zobrazenı́ pomocı́ webového prohlı́žeče s použitı́m Zoomify nebo JavaScriptu, tak jako mapový zdroj pro program typu Google Earth či jiný geografický informačnı́ systém. V Google Maps pro takovouto strukturu dlaždic zı́skáme georeferencovaný náhled a v budoucnu pravděpodobně i plnohodnotné zobrazenı́. Tato myšlenka jednoho zdroje dlaždic mě nadchla, proto jsem se jı́ dále zabýval a vytvořil jsem skript, který zmı́něnou georeferenci v KML pro dlaždice vygeneruje. Je popsán 42 Kapitola 5 Zpřı́stupněnı́ dokumentů Obrázek č. 11 Ukázka umı́stěnı́ dlaždic III. vojenského mapovánı́ z roku 1878 v programu Google Earth v kapitole Projekt. Výhody publikovánı́ statických dlaždic zůstávajı́: Jednoduchost vystavenı́ na Internet – stačı́ jakýkoliv i free hosting, nenı́ nutná instalace žádného speciálnı́ho software na serveru. Rychlost zpřı́stupněnı́ dat. Využitı́ cache. Technicky možné a určitě přı́nosné by bylo i zpřı́stupnit dlaždice pomocı́ standardu OpenGIS WMS – tedy nejlépe doprogramovat podporu načtenı́ struktury dlaždic do UNM Mapserveru, nebo využı́t serverové instalace projektu TimeMap s podporou WMS, či vytvořit novou jednoduchou implementaci standardu WMS nad protokolem IIP (viz [33]). Možná by to bylo vhodné téma pro dalšı́ diplomovou práci. Velmi perspektivnı́ se jevı́ i využitı́ projektu NASA World Wind, http://worldwind.arc.nasa.gov/, protože se jedná o open-source projekt. Georeference Zoomify dlaždic by mohla být vygenerována i pro Microsoft Virtual Earth. Trojrozměrnou visualizacı́ se zabývá i brněnská firma Geodis. Použı́vá k tomu komerčnı́ produkt GeoShow3D. Za zmı́nku také stojı́ jiný komerčnı́ produkt s názvem Arc2Earth, který umožňuje přı́mý export dat do Google Earth ze systému ArcGIS – viz http://www.arc2earth.com/ 43 Kapitola 5 5.2 Zpřı́stupněnı́ dokumentů Vyhledávánı́ dokumentů s georeferencı́ Vzhledem k tomu, že dosavadnı́ knihovnı́ systémy neumožňujı́ využı́t záznam georeference k hledánı́ dokumentů podle zeměpisné oblasti, musı́me tuto funkčnost realizovat pomocı́ externı́ch systémů. 5.2.1 Projekt TimeMap Jádrem projektu TimeMap je vlastnı́ prohledávacı́ systém s názvem TMJava, který pomocı́ internetového prohlı́žeče nabı́zı́ dokumenty na základě zvolené zeměpisné oblasti na mapě, časového obdobı́ a klı́čových slov. Technicky se jedná o Java Applet vložený do webové stránky, pro jeho použitı́ je tedy nutné mı́t nainstalovanou Java Virtual Machine, která by dnes měla být součástı́ většiny modernı́ch operačnı́ch systémů. TMJava vznikl modifikacı́ GIS s názvem ALOV. Kromě systému pro vlastnı́ hledánı́ TMJava je v projektu vyvı́jena i sada nástrojů (zejména TMWin), která usnadňuje vytvářenı́ metadat pro nově indexované dokumenty. Metadata využı́vajı́ jazyk XML a formát DublinCore. V projektu jsou i nástroje pro georeferenci (TMGeoreg, TMLocate) nově zařazovaných dokumentů. Data, tedy záznamy s georeferencı́, jsou uložena v SQL databázi nebo v Shape Files (s formátem DBF). Podporováno je i zobrazovánı́ běžných rastrových souborů s georeferencı́, ale také Zoomify struktury a dat z komerčnı́ch imageserverů. Timemap má v sobě dokonce podporu animace v čase (podobně jako má nynı́ nově i Google Earth). Grafické prostředı́ je možné přizpůsobit podle požadavků designu. Většinou obsahuje okno s mapou, na které volı́me územı́ našeho zájmu, pak časovou osu a vstupnı́ box pro zadánı́ klı́čových slov. Kombinacı́ takto zadaných argumentů dojde k výběru odpovı́dajı́cı́ch dostupných dokumentů. Seznam dokumentů s tı́mto výběrem je nám poté zobrazen. Jednotlivé dokumenty mohou obsahovat odkaz, který je po kliknutı́ zobrazen v okně prohlı́žeče (např. webová stránka s digitalizovanou verzı́ dokumentu, nebo záznam v knihovnı́m systému). TimeMap je úzce provázán s projektem Elektronického kulturnı́ho Atlasu, který vzniká na stránkách www.ecai.org (ECAI, Electronic Cultural Atlas Initiative). Jde o jakési centrum sběru metadat pro dokumenty indexované pomocı́ TimeMap, které je následně možné prohledávat, a zı́skat tak informaci o tom, která sbı́rka pokrývá uvedenou geografickou oblast a rozmezı́ let. Vlastnı́ data (tedy záznamy o dokumentech) nejsou předmětem sběru. Pomocı́ ECAI můžeme dát světu vědet, jaký typ dokumentů máme k dispozici v našich sbı́rkách. Instalačnı́ balı́k tohoto projektu je možné zdarma zı́skat z přiloženého DVD 6) i z webových stránek projektu http://www.timemap.net/. 6) DVD:/install/timemap/ 44 Kapitola 5 Zpřı́stupněnı́ dokumentů Obrázek č. 12 Ukázka hledánı́ pomocı́ projektu TimeMap na stránkách ECAI.org Standalone a Client/Server mód Projekt TimeMap je možné provozovat v tzv. standalone módu, kdy jsou načtena do paměti data dostupná z lokálnı́ch souborů (formáty jako JPEG, Shape Files, Zoomify) a tudı́ž je možné hledánı́ umı́stit na CD-ROM a použı́vat jej i bez přı́stupu k sı́ti Internet. Naopak v servlet módu mohou být data zı́skávána ze zdrojů jako je SQL server, nebo ImageServer. Applet TMJava běžı́cı́ u klienta komunikuje se servletem běžı́cı́m na serveru a žádá od něj data, která odpovı́dajı́ právě zobrazované oblasti na mapě. Pro testovánı́ můžete využı́t servlet běžı́cı́ na serveru ECAI. Pokud budete chtı́t provozovat servlet na vlastnı́m serveru, budete potřebovat Apache Tomcat, nebo jiný servlet container implementujı́cı́ technologii Java Servlet. Servlet umı́ zpřı́stupňovat mapy a dokumenty i dle standardu OpenGIS WMS. Podrobnějšı́ popis TimeMap a také návod na zprovozněnı́ Standalone TimeMap krok 45 Kapitola 5 Zpřı́stupněnı́ dokumentů za krokem najdete v mém článku ze sbornı́ku konference Archı́vy, knihovny, muzea v digitálnı́m světě 2005 7). Slideshow prezentace na přiloženém Video-DVD, i jako webové prezentace na DVD 8) Nepřeberným zdrojem informacı́ je také oficiálnı́ dokumentace TimeMap [34]. Samotný systém TimeMap se přı́liš nehodı́ pro prohledávánı́ opravdu rozsáhlých sbı́rek dokumentů, pro menšı́ sbı́rky je ale vhodný. Také plánovaný přechod na licenci GPL u tohoto projektu ještě stále neproběhl, přestože byl ohlášen již před dvěma lety. Stále nenı́ možné využı́t systému na správu verzı́ pro přı́stup ke zdrojovému kódu. Na druhou stranu jsem se setkal s komunikativnı́mi vývojáři a byla mi zdarma přidělena licence a přı́stup ke zdrojovému kódu. 5.2.3 Google Maps a algoritmus s hodnocenı́m Touto oblastı́ se zabývajı́ v projektu Alexandrijské digitálnı́ knihovny (http://www.alexandria.ucsb.edu/) na Kalifornské univerzitě. Jde o distribuovanou digitálnı́ knihovnu s kolekcı́ georeferencovaných materiálů. Jejich webový klient využı́vá JavaScript a Google Maps API pro označenı́ vstupnı́ch hodnot při hledánı́: http://clients.alexandria.ucsb.edu/webclient/ Ukazuje se, že pro prohledávánı́ rozsáhlejšı́ch sbı́rek je nezbytné použı́t algoritmus kvalitně třı́dı́cı́ nalezené historické dokumenty. Využı́t tedy techniky, které použı́vá např. Google PageRank [25] a určit algoritmus, který by nalezené dokumenty co nejpřesněji hodnotil a podle tohoto hodnocenı́ třı́dil výsledek dotazu. Základnı́mi články v této oblasti jsou [26] a [27] a také vědecké práce použité v Alexandrijské digitálnı́ knihovně. Tato oblast digitálnı́ch knihoven je velmi mladá a přı́liš standardů zde zatı́m ustáleno nenı́. Bylo by zajı́mavé navrhnout algoritmus speciálně pro kolekci digitalizovaných map, tedy nějaký algoritmus „MapRank“. Takový algoritmus bude muset zohlednit data z vı́ce vstupů (mı́ra překryvu hledaného uzemı́ s bounding boxem mapy, měřı́tko/rozlišenı́ digitalizované mapy, mı́ra překryvu časového obdobı́ dotazu a dokumentu, možná i nějakou formu uživatelského hodnocenı́, aby opravdu významná mapová dı́la byla zvýhodněna před nevýznamnými a podobně). Podrobnějšı́ návrh algoritmu pro kvalitnı́ hodnocenı́ map je mimo zadánı́ této diplomové práce, ale možná by to bylo dobré téma disertačnı́ práce. 7) DVD:/presetantions/timemap.pdf 8) DVD:/presentations/2005timemap/index.html 46 Kapitola 6 Projekt V této kapitole jsem popsal projekty vytvořené jako součást diplomové práce. 6.1 TimeMap a historické fondy Moravské zemské knihovny Část fondů Moravské zemské knihovny v Brně byla zpřı́stupněna pomocı́ systému TimeMap. Konkrétně se jedná o výběr z Mollovy mapové sbı́rky (digitalizované mapy jsou zpřı́stupněné on-line pomocı́ Zoomify) a výběr některých starých tisků (s vazbou do knihovnı́ho systému Aleph). TimeMap využı́vá módu standalone. Vše si můžete vyzkoušet na adrese http://timemap.mzk.cz/ nebo na DVDv 1) Ukázka práce s tı́mto prostředı́m je i na Video-DVD ve slideshow prezentace o TimeMap. Obrázek č. 13 Prostředı́ TimeMap s daty historických fondů MZK TimeMap jsem také přeložil ze zdrojových kódů a zprovoznil na Apache Tomcat na serveru v MZK. Data s georeferencı́ byla uložena do SQL databáze. TimeMap je tedy připraven pro převod do módu Client/Server. 1) DVD:/project/timemap-search/timemap.mzk.cz/index.html 47 Kapitola 6 Projekt To má smysl až v momentě, kdy bude existovat skript, který automatizovaně pomocı́ OAI-PMH exportuje záznamy georeference z bibliografického knihovnı́ho záznamu do uvedené SQL databáze. OAI-PMH vazba pro knihovnı́ systém Aleph nebyla v MZK z licenčnı́ch důvodu zatı́m dostupná. Také asi nejprve dojde ke stěhovánı́ této instalace na nový server. 6.2 Česká sı́dla pro TimeMap Provedl jsem konverzi záznamů všech českých sı́del z volně dostupných geografických dat (http://grass.fsv.cvut.cz/wiki/index.php/FreeGeodataCZ) systému GRASS do formátu vhodného pro načtenı́ do systému TimeMap. Data jsou dostupná online na http://staremapy.mzk.cz/czech-gis-data/ i na DVD 2) 6.3 Česká sı́dla v databázi GeoNames.org Byla provedena aktualizace volně dostupné databáze GeoNames.org, která poskytuje zdarma databázi (SQLdump) i on-line rozhranı́ (SOAP, JSON) ke geografickým polohám mı́st z celého světa. Oblast ČR nebyla před importem dostatečně přesná – pouze na celé úhlové minuty. Z databáze 6249 obcı́ v ČR bylo spárováno a aktualizováno 5923 záznamů, zbývajı́cı́ch 326 bude vyžadovat ručnı́ korekci. Zajı́mavá je u GeoNames.org možnost ukládat k názvu mı́sta jeho alternativnı́ jména – toponyma. Databáze by tak mohla být využita i pro účely toponomastiky. Po zaregistrovánı́ může každý člověk editovat databázi, funguje tedy v podobném duchu jako encyklopedie Wikipedia. Služba GeoNames.org je také využı́vána pomocı́ RDF pro sémantický web. 6.4 Struktura dlaždic použitá v Zoomify Za účelem dalšı́ práce se statickou strukturou použı́vanou v Zoomify bylo nezbytné napsat pomocné skripty (v jazyce Python a JavaScript). Formát zoomify vypadá takto: ImageProperties.xml je XML soubor s obsahem podobným tomuto: 2) DVD:/project/czech-gis-data/ 48 Kapitola 6 Projekt <IMAGE_PROPERTIES WIDTH="5000" HEIGHT="1000" NUMTILES="111" NUMIMAGES="1" VERSION="1.8" TILESIZE="256" /> dále následujı́ adresáře s dlaždicemi TileGroup0 TileGroup1 ... TileGroupN kde každý adresář TileGroupX obsahuje maximálně 256 souborů dlaždic. Každá dlaždice je JPEG soubor který je pojmenovaný podle vzoru: zoom-x-y.jpg kde zoom, x a y odpovı́dajı́ jeho pozici v pomyslné pyramidě, a iterujı́ od nuly. Mějme řadu souborů, třı́děnou podle level, y, x (nikoliv tedy abecedně): 0-0-0.jpg 1-0-0.jpg 1-1-0.jpg 1-0-1.jpg 1-1-1.jpg ... v této řadě je prvnı́ch 256 souborů uloženo v adresáři TileGroup0, dalšı́ch v TileGroup1, atd. Dlaždice maji standardně rozměr 256x256 pixelů, ale rozměr dlaždic na pravém a spodnı́m okraji pyramidy může být menšı́. V pyramidě se vždy zmenšuje na polovičnı́ velikost, lichý pixel je odstraněn. Použijeme-li matematické syntaxe [28], pak Hloubka pyramidy (depth): a0 = dmax{W idth, Height}/T ileSizee an = dan−1 /2e ad−1 = dad−2 /2e = 1 d =? Pozor ale: d 6= dlog2 (max{W idth, Height}/T ileSize)e 49 Kapitola 6 Projekt Celkový počet dlaždic: d X bW idth/2d−i c bHeight/2d−i c i=1 T ileSize T ileSize Index dané dlaždice: f (l, x, y) = x + y 6.5 X l bW idth/2d−l−1 c bW idth/2d−i c bHeight/2d−i c + T ileSize T ileSize T ileSize i=1 ZoomifyJS – JavaScript prohlı́žeč pro zoomify data JavaScriptový prohlı́žeč pro strukturu dlaždic Zoomify. Jednotlivé dlaždice jsou stahovány podle potřeby (JavaScriptem je nahrazen atribut src) a umı́st’ovány na správnou pozici v náhledovém okně. Je umožněn posun pomocı́ myši i klávesnice. Prvnı́ verze vycházı́ z prohlı́žeče PanoJS. Verze přiložená na DVD nenı́ odladěná, s dalšı́m vývojem se počı́tá v rámci výzkumného záměru Historické fondy Moravské zemské knihovny. Pro zpřı́stupněnı́ jiného obrazu by mělo stačit změnit v index.html... ZOOMIFY_URL = ’../image-brno’; //ZOOMIFY_URL = ’http://www.staremapy.cz/mapy/1919-janc-brno’; ZOOMIFY_TILESIZE = 256; ZOOMIFY_WIDTH = 7000; ZOOMIFY_HEIGHT = 9600; Ukázku najdete na DVD 3) a novějšı́ verze s aktualizovaným zdrojovým kódem na webové adrese http://www.staremapy.cz/zoomifyjs/. 3) DVD:/projects/zoomify-javascript/index.html 50 Kapitola 6 Projekt 6.6 ZoomifyKML – Georeference zoomify dlaždic pro Google Earth a Google Maps Použitı́: • Pomocı́ Google Earth funkcı́ ImageOverlay georeferencujete originálnı́ digitálnı́ verzi mapy, postup popsán v kapitole georeference. • Poté uložte údaje o této georeferenci do souboru KML. Tzn. klikněte pravým tlačı́tkem na jméno vkládané mapy v seznamu vrstev nalevo a zvolte možnost ”Save As” a ”KML”. • Pomocı́ přı́kazové řadky spust’te: python zoomify google earth.py <jmeno KML> <adresa webové stránky se zoomify> • Mělo by dojı́t k vygenerovánı́ stejnojmeného souboru jako je KML, jen s přı́ponou ZIP. • Tento soubor rozbalte a jeho obsah vystavte někde na webu. • Kopii souboru doc.kml přejmenujte (zvolte lepšı́ název) a otevřete jej nějakým editorem (Poznámkový blok) • Na řádku <href>0-0-0.kml</href> doplňte před jméno kompletnı́ cestu k souboru 0-0-0.kml, jak jste jej umı́stili na webu. Řádek tedy může vypadat nějak takto: <href>http://www.hosting.cz/mapa/TileGroup0/0-0-0.kml</href> • Soubor uložte a otevřete v Google Earth, měli byste vidět georeferencované dlaždice stahované z původnı́ho zdroje dat Zoomify. • Tento KML soubor můžete vystavit, aby si kdokoliv mohl otevřı́t zmı́něnou mapu v Google Earth. Vyžaduje nainstalovaný Python 4). Projekt je na přiloženém DVD 5) a dále bude rozvı́jen na http://www.staremapy.cz/zoomifykml/. 6.7 Zoomify Downloader Skript, pomocı́ kterého je možné rekonstruovat zoomify dlaždice do původnı́ho grafického souboru. Má omezenı́ na velikost vytvářeného souboru (maximálně 4096x4096), je určen na pořizovánı́ georeference zoomify obrazů, ke kterým nemáme originálnı́ primárnı́ rastrový obraz. Spouštı́ se z přı́kazové řádky. Při použitı́ tohoto skriptu respektujte prosı́m práva vystavovatele původnı́ho zoomify obrazu, vámi pořı́zená data nesmı́ být publikována 4) DVD:/install/python/ 5) DVD:/project/zoomify-google-earth-kml 51 Kapitola 6 Projekt a jsou určena výhradně pro georeferenci v Google Earth. Před jiným použitı́m se obrat’te na autora stránek se zoomify souborem. Vyžaduje nainstalovaný Python a PIL (Python Imaging Library) Projekt je na přiloženém DVD 6) 6.8 Slepenı́ mapy pomocı́ Hugin a NIP2 Pro prezentaci v Národnı́m archivu v Praze v roce 2006 byla provedena digitalizace staré mapy Brna (Jančův plán velkého Brna z roku 1919) pomocı́ standardnı́ho stolnı́ho skeneru formátu A3. Snı́mky z tohoto skeneru byly lepeny pomocı́ software Hugin a také NIP2. Ukázku skenů, soubory s lepenı́m i výsledek naleznete na DVD. 7) Finálnı́ mapa byla poté zpřı́stupněna pomocı́ Zoomify na http://www.staremapy.cz/mapy/1919-jancuv-plan-velkeho-brna/ a také na DVD 8). Dlažice tohoto zpřı́stupněnı́ byly dále využity i jako datový zdroj pro ZoomifyJS na http://www.staremapy.cz/zoomifyjs/ a na DVD 9). Sloužı́ také jako zdroj obrazových dat pro Google Earth. U této mapy neproběhla reprojekce. Digitalizovaná kopie by mohla být kvalitnějšı́ (lepšı́m nastavenı́m panoramatického software při slepovánı́ jednotlivých skenů). Originál dokumentu byl také značně opotřebován. 6.9 Staré mapy ČR poprvé na Google Earth! Dı́ky uvedeným skriptům a této diplomové práci byly také zveřejněny na serveru www.staremapy.cz vůbec prvnı́ staré mapy pro program Google Earth pokrývajı́cı́ oblast České republiky, konkrétně Brna. Po 16 starých mapách z Rumseyho mapové kolekce (např. stará mapa Pařı́že nebo Londýna), oficiálně přidaných tvůrci programu Google Earth, jsou to jedny z prvnı́ch starých map veřejně dostupných ve formátu pro tento program. Navı́c nebylo nutné znovu přepublikovávat grafická data těchto map, protože se s výhodou použilo existujı́ch dlaždic Zoomify. 6) DVD:/project/zoomify-downloader/ 7) DVD:/project/image-brno-scan/ 8) DVD:/project/image-brno/ 9) DVD:/project/zoomify-javascript/index.html 52 Kapitola 6 6.10 Projekt Projekt www.staremapy.cz Webové stránky, které se snažı́ prezentovat veřejnosti přı́jemnou formou sbı́rky starých map s územı́m našeho státu. Zároveň se snažı́ být základnı́m zdrojem a rozcestnı́kem pro zájemce o historickou kartografii v České republice a jsou připraveny i pro spolupráci komunity lidı́, kteřı́ digitalizujı́ staré mapy. Doména je také využita pro publikovánı́ výsledků této diplomové práce. Podrobněji viz http://www.staremapy.cz/. 6.11 DVD-Video s kolekcı́ software a dokumentace Poslednı́m nemalým dı́lem je sestřı́hánı́ video-materiálu z přednášky „Staré mapy a software zdarma“ z konference „Archivy, knihovny, muzea v digitálnı́m světě 2006“, které proběhla začátkem prosince v budově Národnı́ho archivu v Praze na Chodovci. Jedná se předevšı́m o přı́jemnějšı́ formu zprostředkovánı́ informacı́ a výsledků této diplomové práce určenou široké veřejnosti. Hlavnı́ stopa tohoto DVD je také dostupná online na službě Google Video – viz stránky prezentace http://www.klokan.cz/presentations/2006staremapy/ resp. DVD 10) Pro tuto diplomovou práci byl také připraven DVD s kopiı́ většiny dokumentace a článků, které jsem použil v textu této práce (zařazeny byly články volně přı́stupné na webu – předevšı́m z důvodu možného zmizenı́ takového zdroje ze sı́tě Internet, u každé citované neveřejné diplomové práce uložené v PDF na DVD mám svolenı́ autora). Na DVD je také skupina instalačnı́ch balı́ků zmiňovaného software pro operačnı́ systém Windows a všechny zdroje zde uvedených projektů. Také je zde zdroj textu této práce v TeXu a adresář s prezentacemi. 10) DVD:/presentation/2006staremapy/ 53 Kapitola 7 Závěr Věřı́m, že tato diplomová práce shrnuje celou oblast digitálnı́ho zpracovánı́ a zpřı́stupněnı́ historických dokumentů (předevšı́m tedy starých map a vedut) z pohledu knihoven a archivů. Inovativnı́m způsobem propojuje zdarma dostupné projekty a systémy v celek, který může převzı́t jakákoliv instituce řešı́cı́ digitalizaci a uchovávánı́ podobného typu dat. Probı́raná témata jsou velmi aktuálnı́, souvisı́ s aktivnı́m výzkumem i trendy v různých oblastech aplikované informatiky a zároveň kartografie, knihovnictvı́ a archivnictvı́. Dı́ky tomuto vı́ceoborovému zaměřenı́ práce jsou výsledky velmi atraktivnı́ pro širokou skupinu odbornı́ků, ale zároveň majı́ potenciál zaujmout i laickou veřejnost. Zde uvedené postupy a výběr nástrojů nabı́zı́ po technické stránce cestu jak digitalizované dokumenty ještě vı́ce přiblı́žit veřejnosti a předevšı́m mladšı́ generaci. Práce jakoby přı́mo reagovala na článek [29]. Systém TimeMap, pro prohledávánı́ sbı́rek historických dokumentů pomocı́ času a geografické lokalizace, byl vůbec poprvé použit pro data pokrývajı́cı́ územı́ našeho státu. Dı́ky prezentaci těchto výsledků na odborné konferenci „Archivy, knihovny a muzea v digitálnı́m světě 2005“ vyvolal tento počin nemalý zájem. Článek „TimeMap – georefererencované historické dokumenty a mapy“ 1) vyšel kromě sbornı́ku konference [30] i v Knihovnickém zpravodaji Vysočina [31]. Důkazem aktraktivnosti výsledků s projektem TimeMap může být i fakt, že se staly tématem dalšı́ho referátu – na Semináři knihoven pamět’ových institucı́ Zlı́nského kraje v únoru 2006 jej měl ing. J. Kaňka z Krajské knihovny Františka Bartoše ve Zlı́ně. Můj přı́spěvek byl hodnocen jako zajı́mavý i ve shrnujı́cı́m článku v periodiku Čtenář, měsı́čnı́k pro knihovny, [32]. Druhá přednáška, která v podstatě reflektuje obsah této diplomové práce, měla také velký ohlas. Navázal jsem dı́ky nı́ spolupráci se zajı́mavými lidmi z oblasti kartografie a zpracovánı́ starých map, kteřı́ projevili zájem o moji práci. Navı́c, dı́ky jejich konstruktivnı́m připomı́nkám, jsem měl možnost si doplnit i patřičné kartografické znalosti, což se snažı́m prokázat v textu této práce. Byl jsem také požádán o přednesenı́ přı́spěvku na konferenci „Společnost a krajina v minulosti na rekonstrukčnı́ch mapách“ pořádané Historickým ústavem Akademie věd ČR a komisı́ pro Historickou geografii. 1) DVD:/presentations/timemap.pdf 54 Kapitola 7 Závěr Na závěr bych rád znovu zmı́nil nové projekty, které jsem vytvořil pro podpořenı́ dalšı́ho rozvoje v dané oblasti (viz sekce Projekty). Za nejatraktivnějšı́ z nich považuji ZoomifyKML – skript, který umožňuje do programu Google Earth umı́stit rozměrnou bitmapu ve formátu Zoomify. Dı́ky němu je možné zpřı́stupnit v Google Earth obrovské množstvı́ již existujı́cı́ch digitalizovaných map, byt’ pro přesné zobrazenı́ by bylo nutné provést jejich kartografickou reprojekci. Na konferenci v Praze jsem publikoval prvnı́ pro Google Earth upravené staré mapy našeho územı́ (Brna) a věřı́m, že dalšı́ mapy budou dı́ky tomuto skriptu následovat, což považuji za obrovský přı́nos pro zviditelněnı́ tohoto projektu a předevšı́m pro hromadné rozšı́řenı́ výsledků mé práce – k čemuž by mohl pomoct i nově vytvořený server http://www.staremapy.cz/. 55 Literatura [1] GOMBRICH, E.H. Přı́běh uměnı́; The Story of Art. Praha: Nakladatelstvı́ Argo, 1998. 684 s. ISBN 80-7203-143-0 [2] MACHOVÁ, J. - ŽABIČKA, P. Historické fondy Moravské zemské knihovny v Brně a lidé kolem nich, Brno 2004. [3] JOHNSON, Herald. Mastering Digital Printing: The Photographer’s and Artist’s Guide to High-Quality Digital Output. Thomson Course Technology, 2002 s. 127, ISBN 15-9200-431-8 [4] ŽABIČKA, Petr. Zpráva o řešenı́ výzkumného záměru MK00009494301 řešeného Moravskou zemskou knihovnou v Brně. Brno, Moravská zemská knihovna, 2005. 19 s. DVD:/docs/mzk/MK00009494301 zprava2005.pdf [5] ŽABIČKA, Petr. Zpráva o řešenı́ výzkumného záměru MK00009494301 řešeného Moravskou zemskou knihovnou vBrně. Brno, Moravská zemská knihovna, 2006. 35 s. DVD:/docs/mzk/MK00009494301 zprava2006.pdf [6] ANTOŠ, Filip. Problematika skenovánı́ historických map a jejich následné prezentace na internetu. Praha, 2006. 85s. Diplomová práce na Stavebnı́ fakultě Českého Vysokého učenı́ technického na katedře mapovánı́ a kartografie. Vedoucı́ diplomové práce Ing. Jiřı́ Cajthaml. DVD:/docs/staremapy/dp antos.pdf [7] ŽÁRA, Jiřı́. - FELKEL, Petr. - BENEŠ, Bedřich. - SOCHOR, Jiřı́. Modernı́ počı́tačová grafika. Brno: Computer Press, 2005. 628 s. ISBN 80-251-0454-0 [8] HAVLENA, Michal. Pořizovánı́ HDR dat. Praha, 2005. 62s. Diplomová práce na Matematicko - fyzikálnı́ fakultě Univerzity Karlovy. Vedoucı́ diplomové práce RNDr. Josef Pelikán. DVD:/docs/hdr/Text.pdf [9] PSOHLAVEC, Stanislav. Barevná kalibrace při digitalizaci. Praha, Národnı́ Knihovna, 2006. 9 s. DVD:/docs/icc/icc calib gretmacbeth.pdf [10] PSOHLAVEC, Stanislav. Manuscriptorium Quality; kvalita obrazových dat. Beroun, Aip, 2006. 16 s. DVD:/docs/manuscriptorium/image quality.pdf [11] BARTOŠEK, Miroslav. Digitálnı́ knihovny. Brno, Masarykova univerzita, 2001. 40s. DVD:/docs/digilibs/dl-datakon01.pdf [12] UHLÍŘ, Zdeněk. Manuscriptorium v. 1.0, Výběr a popis dokumentů. Praha, Národnı́ knihovna ČR, 2006. 7 s. DVD:/docs/manuscriptorium/document description.pdf [13] BRŮNA, V. - BUCHTA, I. - UHLÍŘOVÁ, L. Identifikace historické sı́tě prvků ekologické stability krajiny na mapách vojenských mapovánı́. Ústı́ nad Labem, Laboratoř geoinformatiky, 2002. 44 s. DVD:/docs/staremapy/studia geo II.pdf 56 Literatura [14] KONEČNÝ, M. - KAPLAN, V. - KEPRTOVÁ, K. - PODHRÁZSKÝ, Z. - STACHOŇ, Z. - TAJOVSKÁ, K. - ZBOŘIL, J. Multimediálnı́ učebnice kartografie a geoinformatiky. Brno, Masarykova univerzita, geografický ústav. Dostupné na http://www.geogr.muni.cz/ucebnice/kartografie [15] EVENDEN, Gerald, I. A comprehensive Library of Cartographic Projection Functions (Preliminary Draft). March, 2005. DVD:/docs/kartografie/proj4-manual.pdf [16] HRDINA, Zdeněk. Transformace souřadnic ze systému WGS-84 do systému S-JTSK. Praha, České vysoké učenı́ technické, fakulta elektrotechnická, katedra radioelektroniky, 1997. 21 s. DVD:/docs/kartografie/WGS JTSK.pdf [17] TALICH, Milan. Využitı́ metajazyka XML pro zeměměřictvı́ a efektivnı́ zpracovánı́ a poskytovánı́ informacı́ prostřednictvı́m Internetu. Zdiby, Výzkumný ústav geodetický, topografický a kartografický, 2003. 29 s. DVD:/docs/kartografie/vyzk zprava xml 2003.pdf [18] DE LA BEAUJARDIERE, Jeff. OpenGIS Web Map Server Implementation Specification. Open Geospatial Consortium, 2006. Dostupné na http://www.opengeospatial.org/. DVD:/docs/opengis/wms.pdf [19] KYLE, M. - BURGGRAF, D. - FORDE, S. - LAKE, R. GML in JPEG 2000 for Geographic Imagery (GMLJP2) Encoding Specification. Open Geospatial Consortium, 2006. Dostupné na http://www.opengeospatial.org/. DVD:/docs/opengis/gml.pdf [20] VRETANOS, A., P. Web Feature Service Implementation Specification. Open Geospatial Consortium, 2005. Dostupné na DVD:/docs/opengis/wfs.pdf [21] COPE, S. - TAUBMAN, D. - JUNG, K. - DE BAILLIENCOURT, G. - FOX, I. Storing Geo-Location Metadata in JPEG 2000 image files using the OpenGIS Standard. Open Geospatial Consortium, 2004. DVD:/docs/opengis/JPEG2000 Geolocation.pdf [22] Hewlett Packard Company, Live Picture, Eastman Kodak Company. Internet Imaging Protocol. 1997. 75 s. DVD:/docs/iipimage/IIPv105.pdf [23] MARTINEZ, K. - PERRY, S. - CUPITT, J. Object browsing using the Internet Imaging Protocol. 2006. 7 s. Dostupné a http://www9.org/w9cdrom/122/122.html. DVD:/docs/iipimage/object-browsing-using-the-internet-imagining-protocol.pdf [24] CAJTHAML, Jiřı́. Historické mapy v prostředı́ mapového serveru. Praha, České vysoké učenı́ technické, 2006. 6 s. DVD:/docs/staremapy/cajthaml/geoctu2006.pdf [25] BRING, Sergey. - PAGE, Lawrence. The Anatomy of a Large-Scale Hypertextual Web Search Engine. Stanford, Stanford Universtiy, 2001. 20 s. DVD:/docs/ranking/pagerank-1998-8.pdf [26] LARSON, R. - FRONTIERA, P. Geographic Information Retrieval (GIR) Ranking Methods for Digital Libraries. Tucson, 2004. 1 s. 57 Literatura [27] BEARD, K. - SHARMA, V. Multidimensional ranking for data in digital spatial libraries. Heidelberg: Springer Berlin, 2004. [28] CORMEN, T. - LEISERSON, E. - RIVEST, R. - STEIN, C. Introduction to Algorithms, second edition. Cambridge: MIT Press, 2001. 1180 s. ISBN 81-203-2141-3 [29] SEMOTANOVÁ, Eva. Ano! netradičnı́m formám evidence a zpřı́stupňovánı́ mapového a obrazového bohatstvı́, Archivnı́ časopis 2006, 56, č. 1, s. 17-28., ISSN 0004-0393 [30] PŘIDAL, Petr. TimeMap – georeferencované historické dokumenty a mapy, Rozpravy Národnı́ho technického muzea v Praze 195: Archivy, knihovny, muzea vdigitálnı́m světě. Praha, 2005. ISBN: 80-7037149-8 [31] PŘIDAL, Petr. TimeMap – georefererencované historické dokumenty a mapy, Knihovnický zpravodaj Vysočina, ISSN 1213-82311, čı́slo 1 řočnı́k 6, 2006 [32] MIKA, Jiřı́ - ŠVORCOVÁ, Vladimı́ra. Archivy, knihovny, muzea v digitálnı́m světě 2005, Čtenář, měsı́čnı́k pro knihovny, 2/58, 2006, ISSN 0011-2321 [33] DOYLE, Allan. WMS Cookbook, http://www.intl-interfaces.com/cookbook/WMS/ DVD:/docs/opengis/WMS Cookbook.html [34] JOHNSON, Ian et al. Project TimeMap.net Documentation. http://www.timemap.net/, DVD:/docs/timemap/ [35] PIHAN, Roman. Mistrovstvı́ práce s DSLR, Institut digitálnı́ fotografie s. r. o., 2006, ISBN: 80-903210-8-9 [36] RYCHNOVSKÝ, Lukáš. Wavelety, Diplomová práce, Masarykova Univerzita, Přı́rodovědecká fakulta, květen 2003, DVD:/docs/wavelety/wavelety.pdf [37] ADAMS, D.M. JasPer Software Reference Manual (Version 1.900.0), 2006, DVD:/docs/wavelety/jasper.pdf 58 Literatura Seznam obrázků Obr. č. 1 Ukázka ztráty informace při nevhodném kvantovánı́ (nedostatek barev) a vzorkovánı́ (nedostatek pixelů) . . . . . . . . . . . . . . . . . . . . . . 7 Obr. č. 2 Chromatický diagram CIE 1931 xy s měřitelným barevným spektrem, na druhém diagramu je zobrazena podmnožina barev zobrazitelných na běžném monitoru (tzn. gamut) standardu sRGB . . . . . . . . . . . . . . . . . . . 8 Obr. č. 3 Pyramidová struktura s dlaždicemi použitá při zpracovánı́ rozměrných rastrových obrazů . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 Obr. č. 4 Pracovnı́ plocha a ukázka workflow v programu NIP2 . . . . . . . . 16 Obr. č. 5 Digitalizace pomocı́ několika snı́mků a následné slepenı́ dokumentu . . 18 Obr. č. 6 Označenı́ totožného bodu nutné pro korektnı́ slepenı́ digitalizovaných částı́ v programu NIP2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 Obr. č. 7 Odečtenı́ souřadnic z mapy a idálnı́ „bounding box“ . . . . . . . . . 26 Obr. č. 8 Přibližná vizuálnı́ georeference pomocı́ programu Google Earth . . . . 27 Obr. č. 9 Georeference pomocı́ vlı́covacı́ch bodů v programu MSR MapCruncher 28 Obr. č. 10 Zpřı́stupněnı́ mapy na webové stránce pomocı́ Zoomify . . . . . . . 39 Obr. č. 11 Ukázka umı́stěnı́ dlaždic III. vojenského mapovánı́ z roku 1878 v programu Google Earth . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 Obr. č. 12 Ukázka hledánı́ pomocı́ projektu TimeMap na stránkách ECAI.org . . 45 Obr. č. 13 Prostředı́ TimeMap s daty historických fondů MZK . . . . . . . . . 47 59
Podobné dokumenty
Raytracing - Pavel Strachota
pokud paprsek neprotne ani kouli, není nutné testovat
průsečík s objektem
pro paprsek blízko objektu (protne kouli) sice provádíme 2
testy, ale takových dvojic paprsek-objekt je obvykle málo
=⇒ v...
Geografická prostorová data a informace
najdi v 10 km okolí školy / bydliště
všechna maloplošná i velkoplošná CHÚ
geoportal.cenia.cz – Chráněná území
lokalizace školy v hrubším topografickém
Odkaz na text - Katedra geoinformatiky
Aplikací využívajících publikování rastrových dat na podklad Google
Maps (tedy principielně podobných aplikaci zadané v bakalářské práci) je možné na
internetu najít hned několik.
Nejvíce informací...
Všechny kapitoly s rejstříkem pojmů ()
Jak tedy vnı́máme barvy? Tak napřı́klad, když bı́lé světlo dopadne na červený
objekt, tento objekt absorbuje (pohltı́) všechny složky bı́lého světla kromě červené.
Objekt pak odrážı...
O GRASSu - Les-ejk
Zavádı́ termı́n copyleft
Kdokoliv může studovat, měnit, použı́t a dále distribuovat
zdrojový kód programu
Programu odvozené od programu uvolněného pod GNU/GPL
musı́ tuto licenci ,,dědit...
Mapové projekce - Les-ejk
Založenı́ location v S-JTSK
GRASS 6.3.cvs
DATABASE: A directory (folder) on disk to contain all GRASS maps and data.
LOCATION: This is the name of a geographic location. It is defined by a
co-ord...