lindat-clarin
Transkript
Jan Hajič Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze 26. 11. 2014 Přehled - Základní informace - Motivace - Klíčové komponenty - Repozitář (PIDs, zálohování, replikace, licence/práva) - Metadata, uživatelský „data upload“ - User IDs a AII přihlašování - Služby - Stávající stav - Problémy - Co dále? Základní informace ● CLARIN Common Language Resources and Technology Infrastructure ● Cíl zpřístupňovat a uchovávat jazyková data a nástroje ● Spolupráce – síť uzlů sítě Clarin (Clarin ERIC, f. 2012) AT, BG, CZ, DE, DK, EE, NL, PL, PO + DLU, PT (NO, FI, UK) ● Projekt velkých infrastruktur pro VaVaI (2010+, MŠMT) ● LINDAT/CLARIN = Clarin Centrum v České republice ● Partneři: UK, ZČU, ÚJČ, MU Motivace: neobjevovat kolo ...recyklovat! NALÉZT SDÍLET ZÍSKAT VYTVOŘIT Klíčové komponenty ● Nalézt Repozitář (WWW, OAI-PMH, PID, interoperabilita) ● Získat Repozitář (AAI, licence, služby) ● Vytvořit Know-how, data, nástroje a služby ● Sdílet (a citovat) Repozitář (infrastruktura, PID, zálohy) Infrastruktura ● 24/7 provoz, 100% redundance (zrcadlení) ● virtualizace na platformě Proxmox ● 10+ TB diskové pole RAID6 separátně 20TB pro videoarchiv VHI/USC (pamětníci Holokaustu) ● online replikace přes iSCSI, failover ● zálohování: lokálně, CESNET, CINES (Francie) CESNET: 30TB, týdně, CINES: B2SAFE (EUDAT EU projekt) ● monitorování přes Nagios, uptimerobot.com, proprietární skripty Repozitář ● úložiště jazykových dat & nástrojů pro jazykovou analýzu ● ● ● ● ● ● fork open source projektu DSpace (v1.8.2) vylepšené uživatelské rozhraní vylepšená autentizace (AAI, Shibboleth) více výstupních formátů (OAI-PMH) persistentní identifikátory (Handle, vlastní PID server) otevřený repozitář jakákoli jazyková/multimediální data, uživatelský upload (login) AAI ● Authentication and Authorization Infrastructure na bázi Shibboleth (SAML2) ● GUI: open-source projekt Disco Juice ● stabilní a uživatelsky přívětivé rozhraní ● snadná integrace do existujících aplikací ● discovery služba (WAYF) → aplikace dostupné pro širokou (i zahraniční) akademickou obec OAI-PMH ● ● ● ● Open Archives Initiative Protocol for Metadata Harvesting standard pro publikování metadat základní formát metadat: CMDI metadata konvertována do různých formátů DC (Dublin Core), META-SHARE, ORE, ... ● metadata standardním způsobem “sklízena” metavyhledavači (VLO, ...) Replikace a zálohování ● ● CESNET – pravidelné zálohy (30GB) Replikace: CINES (Francie) - B2SAFE – vyvinuto v projektu EU EUDAT - založeno na iRODS http://www.eudat.eu/b2safe - LINDAT/CLARIN: obecný plugin do Dspace https://github.com/EUDAT-B2SAFE/B2SAFE-repository-package - AIP – Archival Information Package nové workflow v Dspace pro korektní replikaci B 2 S A F E W I T H D S PA C E Submit Data and Metadata (SIP) Approve the Record (Dspace Editor) The record with a PID published Save AIP to disk Trigger iRODS copy Replica in Destination created, Eudat PID assigned (project internal) Confirmation of transfer, replica PID returned, log the replication Remove the local AIP copy iRODS EUDAT PID REPLICA STATUS Služby výzkumníkům ● jednotné přihlašování (je-li třeba) ● jeden přístupový bod pro existující nástroje ● webové a REST(-like) rozhraní metadata, demo, dokumentace ● příklady: prohledávač treebanků NLP framework – analýza a syntéza češtiny (aj.) automatický překladač morfologický analyzátor, tagger, korektor pravopisu jazyková příručka Současný stav ● ● ● ● ● ● CLARIN Centre – certifikace úrovně B Data Seal of Approval 2014-2015 116 záznamů od 180 autorů, ~ 100 GB dat migrace centrálního repozitáře CLARIN (LRT) 12 on-line služeb zapojení do evropských infrastruktur (Clarin ERIC) Weblicht, Federated Content Search VLO – Virtual Language Observatory (Clarin portál) Problémy ● jednoznačná identifikace autorů, objektů, uživatelů (Researcher ID, PIDs, AAI) ● globální autorizace komplikované smlouvy s federacemi identit ● data a nástroje se kontinuálně vyvíjí PID, verzování, provozovatelnost uložených nástrojů ● právní otázky licencování zdrojů, souhlas s licencí texty – copyright Propojení s EU projekty ● EUDAT (2010-2014) – propojení s PRACE projekt – network pro vědecká data obecně LINDAT: B2SHARE, B2SAFE ● DARIAH (Dariah ERIC) obecná podpora „Digital Humanities“ ● EHRI – Holocaust Research Kontakt přes Centrum vizuální historie Malach spolupráce s USC (Los Angeles) – voice search (ZČU) ● Výzkumné projekty EU – využití LINDAT/CLARIN Companions, Euromatrix, Khresmoi, Faust, META-NET, QTLeap, QT21, HimL, CRACKER, KConnect, ... Co dále? ● více spokojených uživatelů ● intuitivnější uživatelské rozhraní repozitáře zlepšení workflow podpora pro prealokaci PID podpora verzování záznamů ● více dat ● více služeb a jejich propojení pomocí REST(-like) API ● certifikace CLARIN Centre úrovně A (LRT) ● kompatibilita s OpenAire (HORIZON 2020) http://lindat.cz Poděkování: původní prezentace: M. Josífko, screenshots a data: J. Mišutka (LINDAT/CLARIN)
Podobné dokumenty
Seminář o digitálních zdrojích a službách ve společenských
ve společenských a humanitních vědách
(1st Workshop on Digital Humanities 2015 - WDH 2015)
pořádá
LINDAT/CLARIN, český uzel infrastruktury pro jazyková data Clarin ERIC
ve čtvrtek dne 24. září 2015...
Genetické defekty skotu u plemene
Genetické defekty a nejrÛznûj‰í
anomálie nalezneme u v‰ech
moderních plemen skotu vystaven˘ch intenzivním selekãním tlakÛm. Plemeno belgické modrobílé
není samozfiejmû v˘jimkou. Pomineme-li dvojité ...
Federativní autentizační metody
Bezpečnostní standardy vynucují používání silných hesel
(obtížně zapamatovatelná)
Zajištění provozu Jednotné informační brány v celonárodním
linkování pro uživatele NK ČR. U zdrojů, které nepodporují Shibboleth nativně, je nastaveno linkování
přes shibbolethizovanou EZproxy NK ČR.
Uživatelé NK ČR s SFX JIB a el. zdroji pracu...
RNDr. Ondřej Bojar, Ph.D.
textů z webu. In ITAT 2009 Information Technologies – Applications and Theory, September.
Jana Šindlerová and Ondřej Bojar. 2009. Towards English-Czech Parallel Valency Lexicon via Treebank Example...
RNDr. Ondrej Bojar, Ph.D.
Michal Novák, Martin Popel, and Aleš Tamchyna. 2012. The Joy of Parallelism with CzEng 1.0. In Proceedings of the Eighth International Language Resources and Evaluation Conference (LREC’12), page...
užitečný blbec
tato rodina o další desítky kombinací rozroste. Kolem osmi set překladatelů a tlumočníků, kteří
najdou ročně práci při převodu dokumentů a jednání do mateřských jazyků členských zemí, se
zatím o sv...