Instructions for ACL-2013 Proceedings
Transkript
Využití elektronických zdrojů historické češtiny pro formální popis deklinace apelativních substantiv Boris Lehečka Ústav pro jazyk český AV ČR Valentinská 1 116 46 Praha 1 [email protected] Pavlína Jínová Filozofická fakulta UK nám. Jana Palacha 2 116 38 Praha 1 [email protected] Abstrakt Cílem příspěvku je představit způsoby, jakým byly využity zdroje, kterými disponuje oddělení vývoje jazyka Ústavu pro jazyk český AV ČR, v. v. i., a které jsou přístupné ve Vokabuláři webovém, pro popis deklinace apelativ v nejstarším období vývoje českého jazyka, tj. pro období od počátku doložení souvislých zápisů zhruba do roku 1500. Těmito zdroji jsou jednak staročeské texty interní textové banky, jednak elektronicky zpřístupněné novodobé historické slovníky. Uvedené texty slouží k ověření a doplnění popisu deklinace staročeských apelativ, přejatého z gramatických příruček: pomocí nástroje Analýza tokenů v programu Microsoft Excel je v nich možné na rozdíl od korpusových manažerů vyhledat najednou velké množství tvarů a získat údaje o jejich frekvenci v textech, čímž lze docílit komplexnější představy o tvarech apelativ v tomto období. Staročeské slovníky slouží k získání seznamů lemmat a jejich poloautomatickému přiřazení k jednotlivým deklinačním vzorům. Popsané postupy získání těchto informací jsou využitelné i pro jiné výzkumy s jinými daty. 1 Formální popis deklinace apelativních substantiv Formální popis deklinace apelativ (obecných jmen) v nejstarším období vývoje českého jazyka, tj. v období od počátku doložení souvislých zápisů zhruba do roku 1500, má 1) systematizovat a prohloubit poznání formálního tvarosloví ve zmíněném období pro všechna apelativní substantiva a 2) vytvořit základ pro automatickou morfologickou analýzu a lemmatizaci staročeských textů. 1 Východiskem pro popis deklinace apelativních substantiv ve zkoumaném období jsou vedle Gebauerovy Historické mluvnice jazyka českého (1960) a dalších gramatických příruček hlavně primární texty, přístupné prostřednictvím staročeské, resp. interní textové banky, a údaje obsažené v novodobých historických slovnících, zveřejněných na stránkách Vokabuláře webového. Deklinační vzor chápeme jako jedinečný repertoár koncovek, popis je uspořádán hierarchicky na základě rodového a kmenového principu: společný repertoár koncovek nazýváme substrát (ukázku zpracování přibližuje obrázek 1), jednotlivé vzory a podvzory se odlišují od nadřazené úrovně specifickou kombinací koncovek v konkrétních pádech. Kromě repertoáru koncovek je součástí popisu deklinace také analýza hláskoslovných variací v tvarotvorném základu (krácení samohlásky, elize vokálu ap.). Hláskoslovná podoba lemmat i koncovek se uvádí v podobě, kterou předpokládáme k roku 1300 (např. cěsta, INS.SG -ú). Nástupnické hláskoslovné podoby (např. cestou) se generují automaticky na základě formálního popisu staročeských hláskoslovných změn. Po technické stránce je formální popis tvořen sadou XML souborů, které je možné kombinovat a podle potřeby zahrnout jednotlivé komponenty: vzory, lemmata2 (L), hláskoslovné změny, alternace kmene ap. Software pro automatické generování staročeských tvarů, respektive rozpoznávání staročes- Tato práce podléhá licenci Creative Commons Attribution 4.0 International Licence. Zápatí a čísla stránek připojili organizátoři. Licenční podmínky zde: http://creativecommons.org/licenses/by/4.0/. 2 Lemma je zde pojímáno jako jednoslovná lexikální jednotka s jedinou formou: např. formy zpósob a zpósoba jsou tedy pojímány jako dvě lemmata stejně jako např. hora a hóra. kých tvarů v textu využívá připravená data, která usouvztažňují jednotlivé komponenty formálního popisu (schematicky je znázorňuje obrázek 2): popis vzoru (seznam koncovek), popis alternací kmene, lemmata, přiřazení lemmat ke vzoru, přiřazení alternace kmene k lemmatu, staročeské a pračeské hláskové změny. Obrázek 1: Definice vzoru ve formátu XML s využitím editoru oXygen XML Author Obrázek 2: Jednotlivé komponenty formálního popisu deklinace apelativních substantiv 2 Elektronické zdroje pro historickou češtinu Staročeská textová banka zahrnuje texty z období od počátků historické češtiny přibližně do konce 15. století. Texty jsou do banky zařazovány výhradně v transkripci do novočeského pravopisu. Drtivá většina textů vznikla prací členů oddělení vývoje jazyka Ústavu pro jazyk český3. Badatelé mohou s texty pracovat prostřednictvím aplikace Corpus Manager4 dostupné na adrese http://vokabular.ujc.cas.cz/banka.aspx?idz=STB. Vstupní data pro korpusový manažer mají podobu tzv. vertikálního textu (viz dokument Jak vytvořit korpus, 2001–2015), přičemž jednotlivé tokeny jsou doplněny příznakem, který např. označuje, zda se jedná o cizojazyčný výraz, defektní slovo ap. (podrobněji viz Lehečka 2015). Tokeny nejsou morfologicky značkované ani lemmatizované. Současná verze staročeské textové banky (prozatím poslední rozšíření proběhlo 9. 6. 2015) zpřístupňuje 172 textů, které obsahují 4 501 513 tokenů. Pro analýzu doložených tvarů, která vede ke stanovení deklinačních vzorů, se jako přínosnější ukázal rozsáhlejší soubor textů, označovaný jako tzv. interní textová banka. Ta obsahuje kromě zveřejněných textů také rozpracované, edičně dosud nehotové edice pramenů. Veřejně publikované a nepublikované prameny jsou rozlišeny v rámci metadat. Pro výzkum apelativní deklinace byl z interní textové banky vytvořen subkorpus 235 relevantních staročeských textů (7,6 milionů tokenů). Doklady pocházející z rozpracovaných edic je přitom třeba vždy nejdříve podrobit kontrole přímo ve zdrojích (v dostupných tištěných edicích, ale nejlépe přímo v pramenech), než je možné s nimi v popisu deklinace pracovat. Druhým elektronickým zdrojem pro popis deklinace staročeských apelativ jsou novodobé historické slovníky dostupné prostřednictvím Vokabuláře webového na adrese http://vokabular. ujc.cas.cz/hledani.aspx. Staročeskou slovní zásobu popisují v různé míře i rozsahu, přehled děl, která sloužila pro zpracování formálního popisu staročeských substantivních apelativ, zachycuje tabulka 1. Všechny slovníky mají podobu dokumentů XML s individuálním, nestandardním formátem, který z velké části zachycuje formální podobu tištěné předlohy, v menší míře pak zachycuje sémantickou strukturu lexikografického díla. Jednotlivé slovníky používají odlišné lexikologické i lexikografické koncepce, takže je obtížné získat z nich identické informace a ještě obtížnější je získat tyto informace v jednotném formátu. Webové rozhraní Vokabuláře webového, jehož prostřednictvím jsou slovníky pro badatele přístupné, navíc neumožňuje uvedené informace jednoduchým způsobem (počítačovými prostředky) extrahovat. Slovník Zpracovaná část abecedy Staročeský slovník (1968–2008) na–při J. Gebauer, Slovník staročeský (1903 a 1916) a–netbánlivý Malý staročeský slovník (1978) A–Ž Elektronický slovník staré češtiny (2006–) při–Ž, A–J Počet heslových statí 19 345 16 814 20 390 75 097 Počet lemmat 26 441 23 686 28 016 81 552 Zkratka StčS GbSlov MSS ESSČ Tabulka 1: Historické slovníky staré češtiny využité pro formální popis deklinace apelativních substantiv 3 Využití elektronických zdrojů pro popis apelativní deklinace Staročeské texty interní textové banky slouží k ověření a doplnění gramatického popisu deklinace apelativních substantiv z dostupných příruček. Vzhledem k tomu, že popis bude sloužit jako podklad pro automatickou morfologickou analýzu a lemmatizaci, musí zachytit apelativní deklinaci systematicky a co nejobsáhleji. Dosud nejrozsáhlejší gramatický popis deklinace sledovaného období (Gebauerova Historická mluvnice jazyka českého) může přitom být východiskem jen zčásti, protože vedle údajů relevantních obsahuje i množství výjimek a nářečních variant a mnoho míst nechává bez specifikace, která je však pro automatickou morfologickou analýzu nezbytná, např.: Údaje o pramenech, včetně jejich editorů, zahrnutých do staročeské textové banky jsou k dispozici na adrese http://vokabular.ujc.cas.cz/texty.aspx?id=STB. 4 Zdrojové kódy aplikace jsou k dispozici na adrese http://sourceforge.net/projects/corpman/. 3 deklinace je rozdělena do velkých typů, ale není už zřejmé, pro které zástupce musí být kvůli odchylkám založen vzor nebo podvzor vlastní; u některých specifických deklinací (např. u-kmenů, tedy jmen jako syn, vól, dóm) jsou sice popsány koncovky typické pro tuto deklinaci, stranou však zůstávají koncovky přejaté z deklinací s více zástupci (v tomto případě o-kmenové koncovky), které jsou v některých pádech běžnější; u jmen s alternací v tvarotvorném základu se alternace popisuje vždy pouze pro jednotlivá apelativa, rozsah jevu z popisu zřejmý není (např. u jmen s -ó- v kořeni jsou doloženy také tvary jako vuozu (vedle tvaru vozu, který je z dnešního hlediska pravidelný), ale není popsáno, zda se alternace týká pouze některých pádů nebo všech, ani zda se týká pouze některých jmen s touto stavbou, nebo všech); u jmen se vznikovou alternací v GEN.PL jako např. zrnko – zrnek, jehla – jehel jsou vyjmenováni někteří zástupci s touto alternací i bez ní (např. město – měst), ale na tvary všech zástupců daného vzoru se z těchto příkladů usoudit nedá. Zjišťování výskytu tvarů ve staročeských textech interní textové banky prostřednictvím korpusového manažeru se ukázalo být neefektivní – systematické vyhledávání kombinací desítek lemmat s desítkami koncovek, často navíc komplikované alternacemi v tvarotvorném základu, které mnohdy podléhají jiným zákonitostem než v češtině moderní (např. apelativum játry/játra má GEN jatr, játr, jater i játer), je velice časově náročné a pravděpodobnost chyby při zadávání jednotlivých dotazů je při počtu možných tvarů velmi vysoká. Proto byl vytvořen nástroj Analýza tokenů (v Excelu), s nímž lze analyzovat velké objemy dat bez přístupu k internetu a korpusovému manažeru. Nástroj využívá tabulkový kalkulátor Microsoft Excel a jeho doplňky PowerPivot a Power Query. Na vstupu jsou jednak metadata o textových pramenech, zejména období jejich vzniku, a dále informace o jednotlivých tokenech a jejich výskytu v konkrétních pramenech.5 Tato vstupní data, která mají formát TSV souborů,6 využívá doplněk PowerPivot, který umožňuje zpracovat v relativně krátkém čase velké množství dat. Doplněk Power Query se využívá ke generování tvarů slov na základě zadaných koncovek a tvarotvorných základů (koncovky i tvarotvorné základy musí být uvedeny ve všech možných hláskoslovných variantách). Doplněk je také unikátní tím, že zpracovává údaje o více tvarech, popř. koncovkách určitého vzoru najednou. Další předností je možnost vytvářet kontingenční tabulky a přehledy ad hoc podle potřeb badatele (obrázek 4 např. ukazuje přehled zastoupení koncovek vzoru žena (a-kmenových feminin) u lemmat dievka, dívka, ruka a žena). Navržená architektura umožňuje měnit zdrojová data (z aktualizovaného nebo ze zcela odlišného korpusu textů), takže je tento nástroj obecně použitelný pro analýzu zastoupení tokenů v libovolných korpusech. Zároveň s tímto nástrojem vznikl program, který na základě vertikálního textu a metadat generuje potřebné vstupní soubory ve formátu TSV. Nevýhoda Analýzy tokenů (v Excelu) ve srovnání s korpusovými manažery spočívá v tom, že jednotlivé tvary jsou zbaveny svého kontextu, takže slovnědruhová i tvarová homonyma jsou zde reprezentovaná pouze jedním tvarem. Bez studia tokenů v kontextu tedy např. nelze rozhodnout, kolik z výskytů tvaru ženu připadá na tvar substantiva žena a kolik na tvar slovesa hnáti. 5 6 Jejich strukturu přibližuje obrázek 3. Textový soubor s hodnotami oddělenými tabulátorem. Obrázek 3: Relační schéma tabulek s informacemi o tokenech v doplňku PowerPivot Pomocí nástroje pro generování tvarů jsou pro jednotlivé deklinace hledány zejména tvary v mluvnicích označované jako řídké/zvláštní a výběrově též tvary systematické, ale nikde nezmiňované – kontext těchto tvarů je kontrolován v dokladech staročeské textové banky, případně v edicích či přímo pramenech, pokud se jedná o tvary z neveřejných elektronických edic. Tímto způsobem jsou gramatické popisy ověřovány a doplňovány přímo s využitím dochovaných textů. Díky této analýze se např. ukázalo, že vzory kost (ženské i-kmeny) a dušě (ženské ja-kmeny) konvergují nesystematickým způsobem a pro obě deklinace je třeba počítat ve většině rozdílně zakončených pádů i s koncovkami druhé deklinace, než ke které náleží kořen (tedy i s formami jako věcěmi (i-kmenový kořen, ja-kmenová koncovka) nebo zemech (ja-kmenový kořen, i-kmenová koncovka), podrobněji viz Jínová et al. 2014). Jako další příklad nového zjištění můžeme uvést doložení koncovky -ě v LOC.SG mužských n-kmenů ([m]odrý kámen u prsteně menší radost i moc znamená BřezSnářM), kterou Gebauer (1960, 409) pro dané období neuvádí, nebo tvaru matery v GEN.SG jména máti (mnoho dětí urodí se pojednú z jedné matery LékŽen), o kterém se Gebauer (1960, 430) také nezmiňuje. Obrázek 4: Zastoupení koncovek vzoru žena u vybraných lemmat v interní textové bance Novodobé historické slovníky zpřístupněné ve Vokabuláři webovém umožnily vytvořit seznamy lemmat patřících k jednotlivým deklinačním vzorům. Pro tuto fázi formálního popisu deklinace substantivních apelativ bylo nutné extrahovat z jednotlivých slovníků veškerá substantiva, přesněji řečeno lemmata, které mají v rámci heslové stati uvedenu zkratku označující substantivum (obvykle označení jmenného rodu). Zároveň s tím bylo potřeba převést odlišné zkratky na jednu společnou zkratku (např. s., n., neutr. pro střední rod). Pokud se v jedné heslové stati nacházelo více lexikálních jednotek i označení slovního druhu, u nichž nebylo možné jednoznačně určit jejich vzájemný vztah, tyto výrazy se do zpracování nedostaly.7 Vzhledem k překrývání abeced jednotlivých slovníků bylo rovněž stanoveno pořadí slovníků podle kvality zpracování, na jehož základě se převzaly údaje pouze ze slovníku s kvalitnějším zpracováním: ESSČ > StčS > GbSlov > MSS. Pro další zpracování lexikálních jednotek byl kromě základních údajů o hesle extrahován do textového souboru ve formátu TSV také výchozí význam lexikální jednotky. Výchozí automatické přiřazování lemmatu ke vzoru probíhalo na základě formalizovaných pravidel, která vycházela z kombinace podmínek pro slovní druh, zakončení nominativu a opěrný pád. Pro tyto potřeby opět vznikl samostatný program, který na základě vstupních dat (seznamu lemmatu se slovníkovými údaji a pravidel přiřazení vzoru na základě zakončení kmene a genitivní koncovky) přiřadil jednotlivým lemmatům jeden či více deklinačních vzorů (ukázku formalizovaných pravidel přiřazování přináší obrázek 5). U vzorů s málo početnou skupinou reprezentantů se jako výhodnější ukázalo vyjmenování jednotlivých lemmat v rámci vzoru, protože ve slovnících nejsou tato substantiva mnohdy zpracována jednotně.8 Pro snazší přiřazení lemmatu ke vzoru při rozřazování mužských apelativ na názvy osob, zvířat a neživých entit se stal vodítkem popis jeho významu. Např. na základě vytipování často se opakujících výrazů člověk, kdo, výrobce, řemeslník, správce, obchodník ap. v popisu výchozího významu bylo možné přiřadit daná lemmata s větší mírou pravděpodobnosti ke vzoru pro názvy osob mužského rodu (u výrazů uvedených výše jde o vzor muž mužských jo-kmenů). Např. u hesla děsět je v ESSČ uvedena následující morfologická charakteristika: „num., arch. subst. f.“ (num. = číslovka, arch. = archaický). 8 Např. ke vzoru řebří (ijo-kmen maskulin) patří pouze následující hesla: řebří, hřěbí, třěví, střeví, črěví, řěpí, klí, úlí, pondělí, ponjelí, ve slovnících jsou u nich uvedené různé tvary v opěrném pádu, a seznam tak nebylo možné získat automaticky. 7 Obrázek 5: Ukázka formalizovaných pravidel pro přiřazení lemmatu ke vzoru Většina lemmat byla k deklinačnímu vzoru přiřazena na základě tohoto formalismu správně, nejčastější výjimku tvořila lemmata, u nichž slovníky uvádějí variantní zakončení opěrného pádu (např. popel, a/u, -e), případně i variantní rod (např. koráb, -a, -u, -ě m. i -i, -ě f.), a dále jména, u kterých slovníky opěrný pád neuvádějí (MSS pokrývá v poslední třetině abecedy slovní zásobu jako jediný zdroj a často tuto specifikaci vynechává). U všech těchto lemmat byla zapotřebí ruční analýza, k níž byl využit bezplatný program OpenRefine9. Celkově bylo k apelativním substantivním vzorům zařazeno asi 21 500 lemmat, u zhruba 6 000 z nich byl třeba ruční zásah, protože nedošlo k přiřazení žádného vzoru, bylo jich přiřazeno více, nebo byl vzor přiřazen na základě jiných kritérií než jen kombinace rodu a koncovky (např. podle podobnosti lemmatu a lemmatu již někam přiřazeného), a nebyl proto zcela spolehlivý. 4 Shrnutí Cílem příspěvku bylo ukázat využití elektronických zdrojů, kterými disponuje oddělení vývoje jazyka Ústavu pro jazyk český AV ČR, v. v. i., pro popis deklinace apelativ v nejstarším období vývoje českého jazyka. Staročeské texty zpřístupněné v novočeské transkripci v interní textové bance jsou využívány k ověření a zpřesnění popisu deklinace v historických mluvnicích (tedy k popisu seznamu koncovek i alternací doprovázejících deklinaci), novodobé historické slovníky na druhou stranu umožňují získat seznamy lemmat patřících k jednotlivým vzorům. Pro výzkum deklinace byly díky spolupráci badatele a programátora s přístupem ke zdrojovým datům vytvořeny nástroje, které umožnily zrychlit postup náročného badatelského úkolu a zpřesnit jeho výsledky. Nástroje pro přístup k datům, jež bývají součástí výzkumné infrastruktury (korpusové manažery, vyhledávací lexikografické nástroje ap.) nemohou ze své podstaty vyhovět potřebám všech výzkumů. Přístup ke zdrojovým datům a spolupráce počítačových a lingvistických odborníků představují vhodnou cestu, jak tento hendikep odstranit. Vedle využívání existujících nástrojů, jako je OpenRefine, mohou i ad hoc vytvářené aplikace pro řešení konkrétního badatelského problému být dostatečně univerzální, aby mohly sloužit i pro jiné výzkumy s odlišnými daty, jak ukazuje nástroj Analýza tokenů (v Excelu). Program OpenRefine pracuje podobně jako PowerPivot a Microsoft Excel s velkým množstvím dat v tabulkovém formátu. Jeho výhoda spočívá v tom, že na rozdíl od PowerPivotu umožňuje editovat jednotlivé záznamy. 9 Grantová podpora Vznik příspěvku byl podpořen projektem Ministerstva kultury ČR č. DF12P01OVV028 Informační technologie ve službách jazykového kulturního bohatství (IT JAKUB). Poděkování Děkujeme kolegům z oddělení vývoje jazyka za pomoc při přípravě příspěvku, recenzentům za podněty k jeho vylepšení a Martině Přibylákové za překlad textu do angličtiny. Seznam zkratek (v textu nerozepsaných) BřezSnářM f. GEN INS LékŽen LOC m. PL SG Snář Vavřince z Březové, rukopis M10 femininum genitiv instrumentál Sbírka pojednání z oboru ženského a dětského lékařství11 lokál maskulinum plurál singulár Reference Analýza tokenů (v Excelu). [cit. 2015-08-01]. Dostupné z: http://vokabular.ujc.cas.cz/moduly/ nastroje/analyza-tokenu/o-aplikaci. Corpus Manager. [cit. 2015-08-01]. Dostupné z: http://sourceforge.net/projects/corpman/. GEBAUER, Jan. 1960. Historická mluvnice jazyka českého. Díl III. Tvarosloví. I. Skloňování. Praha: Nakladatelství československé akademie věd. JÍNOVÁ, Pavlína, Boris LEHEČKA and Karel OLIVA. 2014. Describing Old Czech declension patterns for automatic text analysis. Mundo Eslavo: revista de cultura y estudios eslavos. 13(1): 7–17. ISSN 1579-8372. Dostupné z: http://mundoeslavo.com/index.php/meslav/article/view/161/144. Jak vytvořit korpus. 2001–2015. CENTRUM ZPRACOVÁNÍ PŘIROZENÉHO JAZYKA FAKULTA INFORMATIKY MASARYKOVY UNIVERZITY. Centrum zpracování přirozeného jazyka [online]. [cit. 2015-08-01]. Dostupné z: http://nlp.fi.muni.cz/cs/JakVytvoritKorpus1. LEHEČKA, Boris. 2015. Obsah a značkování diachronního korpusu češtiny. Časopis pro moderní filologii. Praha: Československá akademie věd, 97(1): 70–77. Dostupné z: http://cmf.ff.cuni.cz/sites/default/files/Boris_Lehecka_70-77.pdf. OpenRefine. [cit. 2015-08-01]. Dostupné z: http://openrefine.org. Staročeská textová banka [online]. Verze z 9. 6. 2015 [cit. 2015-08-01]. Oddělení vývoje jazyka Ústavu pro jazyk český AV ČR, v. v. i. Dostupné z: http://vokabular.ujc.cas.cz/banka.aspx. Vokabulář webový [online]. Verze 1.0.0. [cit. 2015-08-01]. Oddělení vývoje jazyka Ústavu pro jazyk český AV ČR, v. v. i. Dostupné z: http://vokabular.ujc.cas.cz. Dostupné také z: http://vokabular.ujc.cas.cz/moduly/edicni/edice/29d51acd-9825474b-98b2-c300c7f82d01/plny-text/s-aparatem/folio/1r 11 Dostupné také z: http://vokabular.ujc.cas.cz/moduly/edicni/edice/bb208921-fe774dbf-a8e0-f6bb6af9eb3b/plny-text/s-aparatem/folio/1r 10
Podobné dokumenty
funkční rozpětí neologických zkratek v češtině
i Jankovského ministerstvo. LIDEMáci se rozčilují, že ODSka je
potřebovala pouze na schválení těch 3 zákonů, a teď je posílá do kopru.
(http://zpravy.idnes.cz; diskuse k článku Pekárkovi hrozí vyl...
Jazykovědné aktuality 2015/1–2 - Jazykovědné sdružení České
Zejména z hlediska své kulturní orientace má antropologická lingvistika předobraz i paralelu v polské etnolingvistice (nebo přesněji kognitivní etnolingvistice, neboť stejně jako lingvistika americ...
Semin´are o digit´alnıch zdrojıch a sluzb´ach ve spolecensk´ych a
v oblasti humanitních a společenských věd a informatiky, a to zejména těm zejména z České
republiky, používat moderní technologie a současné (state-of-the-art) výsledky v oblasti
analýzy a syntézy ...
fond otakara motejla víte, co jsou otevřená data?
Univerzity Karlovy vzniklo Fórum pro otevřená data. Na konci roku už ale
byla poptávka tak vysoká, že nebylo v našich kapacitách ji uspokojit.
Vydali jsme proto tuto příručku.
Cvičebnice z morfologie
a) funkci reprezentativní, slovníkovou – tvar nom. sg. zastupuje celé substantivní paradigma a slouží
jako tvar slovníkový
b) funkci rodově rozlišovací – každé substantivum je zařazeno k jednomu ze...