Instructions for ACL-2013 Proceedings

Transkript

Využití elektronických zdrojů historické češtiny pro formální popis
deklinace apelativních substantiv
Boris Lehečka
Ústav pro jazyk český AV ČR
Valentinská 1
116 46 Praha 1
[email protected]
Pavlína Jínová
Filozofická fakulta UK
nám. Jana Palacha 2
116 38 Praha 1
[email protected]
Abstrakt
Cílem příspěvku je představit způsoby, jakým byly využity zdroje, kterými disponuje oddělení
vývoje jazyka Ústavu pro jazyk český AV ČR, v. v. i., a které jsou přístupné ve Vokabuláři
webovém, pro popis deklinace apelativ v nejstarším období vývoje českého jazyka, tj. pro období
od počátku doložení souvislých zápisů zhruba do roku 1500. Těmito zdroji jsou jednak staročeské texty interní textové banky, jednak elektronicky zpřístupněné novodobé historické slovníky. Uvedené texty slouží k ověření a doplnění popisu deklinace staročeských apelativ, přejatého z gramatických příruček: pomocí nástroje Analýza tokenů v programu Microsoft Excel je
v nich možné na rozdíl od korpusových manažerů vyhledat najednou velké množství tvarů a získat údaje o jejich frekvenci v textech, čímž lze docílit komplexnější představy o tvarech apelativ
v tomto období. Staročeské slovníky slouží k získání seznamů lemmat a jejich poloautomatickému přiřazení k jednotlivým deklinačním vzorům. Popsané postupy získání těchto informací
jsou využitelné i pro jiné výzkumy s jinými daty.
1
Formální popis deklinace apelativních substantiv
Formální popis deklinace apelativ (obecných jmen) v nejstarším období vývoje českého jazyka, tj. v období od počátku doložení souvislých zápisů zhruba do roku 1500, má 1) systematizovat a prohloubit
poznání formálního tvarosloví ve zmíněném období pro všechna apelativní substantiva a 2) vytvořit
základ pro automatickou morfologickou analýzu a lemmatizaci staročeských textů. 1
Východiskem pro popis deklinace apelativních substantiv ve zkoumaném období jsou vedle Gebauerovy Historické mluvnice jazyka českého (1960) a dalších gramatických příruček hlavně primární texty,
přístupné prostřednictvím staročeské, resp. interní textové banky, a údaje obsažené v novodobých historických slovnících, zveřejněných na stránkách Vokabuláře webového.
Deklinační vzor chápeme jako jedinečný repertoár koncovek, popis je uspořádán hierarchicky na základě rodového a kmenového principu: společný repertoár koncovek nazýváme substrát (ukázku zpracování přibližuje obrázek 1), jednotlivé vzory a podvzory se odlišují od nadřazené úrovně specifickou
kombinací koncovek v konkrétních pádech. Kromě repertoáru koncovek je součástí popisu deklinace
také analýza hláskoslovných variací v tvarotvorném základu (krácení samohlásky, elize vokálu ap.).
Hláskoslovná podoba lemmat i koncovek se uvádí v podobě, kterou předpokládáme k roku 1300 (např.
cěsta, INS.SG -ú). Nástupnické hláskoslovné podoby (např. cestou) se generují automaticky na základě
formálního popisu staročeských hláskoslovných změn.
Po technické stránce je formální popis tvořen sadou XML souborů, které je možné kombinovat
a podle potřeby zahrnout jednotlivé komponenty: vzory, lemmata2 (L), hláskoslovné změny, alternace
kmene ap. Software pro automatické generování staročeských tvarů, respektive rozpoznávání staročes-
Tato práce podléhá licenci Creative Commons Attribution 4.0 International Licence. Zápatí a čísla stránek připojili organizátoři. Licenční podmínky zde: http://creativecommons.org/licenses/by/4.0/.
2
Lemma je zde pojímáno jako jednoslovná lexikální jednotka s jedinou formou: např. formy zpósob a zpósoba
jsou tedy pojímány jako dvě lemmata stejně jako např. hora a hóra.
kých tvarů v textu využívá připravená data, která usouvztažňují jednotlivé komponenty formálního popisu (schematicky je znázorňuje obrázek 2): popis vzoru (seznam koncovek), popis alternací kmene,
lemmata, přiřazení lemmat ke vzoru, přiřazení alternace kmene k lemmatu, staročeské a pračeské hláskové změny.
Obrázek 1: Definice vzoru ve formátu XML s využitím editoru oXygen XML Author
Obrázek 2: Jednotlivé komponenty formálního popisu deklinace apelativních substantiv
2
Elektronické zdroje pro historickou češtinu
Staročeská textová banka zahrnuje texty z období od počátků historické češtiny přibližně do konce 15.
století. Texty jsou do banky zařazovány výhradně v transkripci do novočeského pravopisu. Drtivá většina textů vznikla prací členů oddělení vývoje jazyka Ústavu pro jazyk český3. Badatelé mohou s texty
pracovat prostřednictvím aplikace Corpus Manager4 dostupné na adrese http://vokabular.ujc.cas.cz/banka.aspx?idz=STB. Vstupní data pro korpusový manažer mají podobu
tzv. vertikálního textu (viz dokument Jak vytvořit korpus, 2001–2015), přičemž jednotlivé tokeny jsou
doplněny příznakem, který např. označuje, zda se jedná o cizojazyčný výraz, defektní slovo ap. (podrobněji viz Lehečka 2015). Tokeny nejsou morfologicky značkované ani lemmatizované. Současná
verze staročeské textové banky (prozatím poslední rozšíření proběhlo 9. 6. 2015) zpřístupňuje 172 textů,
které obsahují 4 501 513 tokenů.
Pro analýzu doložených tvarů, která vede ke stanovení deklinačních vzorů, se jako přínosnější ukázal
rozsáhlejší soubor textů, označovaný jako tzv. interní textová banka. Ta obsahuje kromě zveřejněných
textů také rozpracované, edičně dosud nehotové edice pramenů. Veřejně publikované a nepublikované
prameny jsou rozlišeny v rámci metadat. Pro výzkum apelativní deklinace byl z interní textové banky
vytvořen subkorpus 235 relevantních staročeských textů (7,6 milionů tokenů). Doklady pocházející
z rozpracovaných edic je přitom třeba vždy nejdříve podrobit kontrole přímo ve zdrojích (v dostupných
tištěných edicích, ale nejlépe přímo v pramenech), než je možné s nimi v popisu deklinace pracovat.
Druhým elektronickým zdrojem pro popis deklinace staročeských apelativ jsou novodobé historické
slovníky dostupné prostřednictvím Vokabuláře webového na adrese http://vokabular.
ujc.cas.cz/hledani.aspx. Staročeskou slovní zásobu popisují v různé míře i rozsahu, přehled
děl, která sloužila pro zpracování formálního popisu staročeských substantivních apelativ, zachycuje
tabulka 1.
Všechny slovníky mají podobu dokumentů XML s individuálním, nestandardním formátem, který
z velké části zachycuje formální podobu tištěné předlohy, v menší míře pak zachycuje sémantickou
strukturu lexikografického díla. Jednotlivé slovníky používají odlišné lexikologické i lexikografické
koncepce, takže je obtížné získat z nich identické informace a ještě obtížnější je získat tyto informace
v jednotném formátu. Webové rozhraní Vokabuláře webového, jehož prostřednictvím jsou slovníky pro
badatele přístupné, navíc neumožňuje uvedené informace jednoduchým způsobem (počítačovými prostředky) extrahovat.
Slovník
Zpracovaná
část abecedy
Staročeský slovník (1968–2008)
na–při
J. Gebauer, Slovník staročeský (1903 a 1916) a–netbánlivý
Malý staročeský slovník (1978)
A–Ž
Elektronický slovník staré češtiny (2006–)
při–Ž, A–J
Počet heslových statí
19 345
16 814
20 390
75 097
Počet
lemmat
26 441
23 686
28 016
81 552
Zkratka
StčS
GbSlov
MSS
ESSČ
Tabulka 1: Historické slovníky staré češtiny využité pro formální popis deklinace apelativních
substantiv
3
Využití elektronických zdrojů pro popis apelativní deklinace
Staročeské texty interní textové banky slouží k ověření a doplnění gramatického popisu deklinace apelativních substantiv z dostupných příruček. Vzhledem k tomu, že popis bude sloužit jako podklad pro
automatickou morfologickou analýzu a lemmatizaci, musí zachytit apelativní deklinaci systematicky
a co nejobsáhleji. Dosud nejrozsáhlejší gramatický popis deklinace sledovaného období (Gebauerova
Historická mluvnice jazyka českého) může přitom být východiskem jen zčásti, protože vedle údajů relevantních obsahuje i množství výjimek a nářečních variant a mnoho míst nechává bez specifikace, která
je však pro automatickou morfologickou analýzu nezbytná, např.:
Údaje o pramenech, včetně jejich editorů, zahrnutých do staročeské textové banky jsou k dispozici na adrese
http://vokabular.ujc.cas.cz/texty.aspx?id=STB.
4
Zdrojové kódy aplikace jsou k dispozici na adrese http://sourceforge.net/projects/corpman/.
3
 deklinace je rozdělena do velkých typů, ale není už zřejmé, pro které zástupce musí být kvůli
odchylkám založen vzor nebo podvzor vlastní;
 u některých specifických deklinací (např. u-kmenů, tedy jmen jako syn, vól, dóm) jsou sice
popsány koncovky typické pro tuto deklinaci, stranou však zůstávají koncovky přejaté z deklinací
s více zástupci (v tomto případě o-kmenové koncovky), které jsou v některých pádech běžnější;
 u jmen s alternací v tvarotvorném základu se alternace popisuje vždy pouze pro jednotlivá apelativa, rozsah jevu z popisu zřejmý není (např. u jmen s -ó- v kořeni jsou doloženy také tvary jako
vuozu (vedle tvaru vozu, který je z dnešního hlediska pravidelný), ale není popsáno, zda se alternace týká pouze některých pádů nebo všech, ani zda se týká pouze některých jmen s touto stavbou, nebo všech);
 u jmen se vznikovou alternací v GEN.PL jako např. zrnko – zrnek, jehla – jehel jsou vyjmenováni
někteří zástupci s touto alternací i bez ní (např. město – měst), ale na tvary všech zástupců daného
vzoru se z těchto příkladů usoudit nedá.
Zjišťování výskytu tvarů ve staročeských textech interní textové banky prostřednictvím korpusového
manažeru se ukázalo být neefektivní – systematické vyhledávání kombinací desítek lemmat s desítkami
koncovek, často navíc komplikované alternacemi v tvarotvorném základu, které mnohdy podléhají jiným zákonitostem než v češtině moderní (např. apelativum játry/játra má GEN jatr, játr, jater i játer),
je velice časově náročné a pravděpodobnost chyby při zadávání jednotlivých dotazů je při počtu možných tvarů velmi vysoká.
Proto byl vytvořen nástroj Analýza tokenů (v Excelu), s nímž lze analyzovat velké objemy dat bez
přístupu k internetu a korpusovému manažeru. Nástroj využívá tabulkový kalkulátor Microsoft Excel
a jeho doplňky PowerPivot a Power Query. Na vstupu jsou jednak metadata o textových pramenech,
zejména období jejich vzniku, a dále informace o jednotlivých tokenech a jejich výskytu v konkrétních
pramenech.5 Tato vstupní data, která mají formát TSV souborů,6 využívá doplněk PowerPivot, který
umožňuje zpracovat v relativně krátkém čase velké množství dat. Doplněk Power Query se využívá ke
generování tvarů slov na základě zadaných koncovek a tvarotvorných základů (koncovky i tvarotvorné
základy musí být uvedeny ve všech možných hláskoslovných variantách). Doplněk je také unikátní tím,
že zpracovává údaje o více tvarech, popř. koncovkách určitého vzoru najednou. Další předností je možnost vytvářet kontingenční tabulky a přehledy ad hoc podle potřeb badatele (obrázek 4 např. ukazuje
přehled zastoupení koncovek vzoru žena (a-kmenových feminin) u lemmat dievka, dívka, ruka a žena).
Navržená architektura umožňuje měnit zdrojová data (z aktualizovaného nebo ze zcela odlišného korpusu textů), takže je tento nástroj obecně použitelný pro analýzu zastoupení tokenů v libovolných korpusech. Zároveň s tímto nástrojem vznikl program, který na základě vertikálního textu a metadat generuje potřebné vstupní soubory ve formátu TSV.
Nevýhoda Analýzy tokenů (v Excelu) ve srovnání s korpusovými manažery spočívá v tom, že jednotlivé tvary jsou zbaveny svého kontextu, takže slovnědruhová i tvarová homonyma jsou zde reprezentovaná pouze jedním tvarem. Bez studia tokenů v kontextu tedy např. nelze rozhodnout, kolik z výskytů
tvaru ženu připadá na tvar substantiva žena a kolik na tvar slovesa hnáti.
5
6
Jejich strukturu přibližuje obrázek 3.
Textový soubor s hodnotami oddělenými tabulátorem.
Obrázek 3: Relační schéma tabulek s informacemi o tokenech v doplňku PowerPivot
Pomocí nástroje pro generování tvarů jsou pro jednotlivé deklinace hledány zejména tvary v mluvnicích
označované jako řídké/zvláštní a výběrově též tvary systematické, ale nikde nezmiňované – kontext
těchto tvarů je kontrolován v dokladech staročeské textové banky, případně v edicích či přímo pramenech, pokud se jedná o tvary z neveřejných elektronických edic. Tímto způsobem jsou gramatické popisy ověřovány a doplňovány přímo s využitím dochovaných textů. Díky této analýze se např. ukázalo,
že vzory kost (ženské i-kmeny) a dušě (ženské ja-kmeny) konvergují nesystematickým způsobem a pro
obě deklinace je třeba počítat ve většině rozdílně zakončených pádů i s koncovkami druhé deklinace,
než ke které náleží kořen (tedy i s formami jako věcěmi (i-kmenový kořen, ja-kmenová koncovka) nebo
zemech (ja-kmenový kořen, i-kmenová koncovka), podrobněji viz Jínová et al. 2014). Jako další příklad
nového zjištění můžeme uvést doložení koncovky -ě v LOC.SG mužských n-kmenů ([m]odrý kámen
u prsteně menší radost i moc znamená BřezSnářM), kterou Gebauer (1960, 409) pro dané období neuvádí, nebo tvaru matery v GEN.SG jména máti (mnoho dětí urodí se pojednú z jedné matery LékŽen),
o kterém se Gebauer (1960, 430) také nezmiňuje.
Obrázek 4: Zastoupení koncovek vzoru žena u vybraných lemmat v interní textové bance
Novodobé historické slovníky zpřístupněné ve Vokabuláři webovém umožnily vytvořit seznamy
lemmat patřících k jednotlivým deklinačním vzorům. Pro tuto fázi formálního popisu deklinace substantivních apelativ bylo nutné extrahovat z jednotlivých slovníků veškerá substantiva, přesněji řečeno
lemmata, které mají v rámci heslové stati uvedenu zkratku označující substantivum (obvykle označení
jmenného rodu). Zároveň s tím bylo potřeba převést odlišné zkratky na jednu společnou zkratku (např.
s., n., neutr. pro střední rod). Pokud se v jedné heslové stati nacházelo více lexikálních jednotek i označení slovního druhu, u nichž nebylo možné jednoznačně určit jejich vzájemný vztah, tyto výrazy se do
zpracování nedostaly.7 Vzhledem k překrývání abeced jednotlivých slovníků bylo rovněž stanoveno
pořadí slovníků podle kvality zpracování, na jehož základě se převzaly údaje pouze ze slovníku s kvalitnějším zpracováním: ESSČ > StčS > GbSlov > MSS. Pro další zpracování lexikálních jednotek byl
kromě základních údajů o hesle extrahován do textového souboru ve formátu TSV také výchozí význam
lexikální jednotky.
Výchozí automatické přiřazování lemmatu ke vzoru probíhalo na základě formalizovaných pravidel,
která vycházela z kombinace podmínek pro slovní druh, zakončení nominativu a opěrný pád. Pro tyto
potřeby opět vznikl samostatný program, který na základě vstupních dat (seznamu lemmatu se slovníkovými údaji a pravidel přiřazení vzoru na základě zakončení kmene a genitivní koncovky) přiřadil
jednotlivým lemmatům jeden či více deklinačních vzorů (ukázku formalizovaných pravidel přiřazování
přináší obrázek 5). U vzorů s málo početnou skupinou reprezentantů se jako výhodnější ukázalo vyjmenování jednotlivých lemmat v rámci vzoru, protože ve slovnících nejsou tato substantiva mnohdy zpracována jednotně.8 Pro snazší přiřazení lemmatu ke vzoru při rozřazování mužských apelativ na názvy
osob, zvířat a neživých entit se stal vodítkem popis jeho významu. Např. na základě vytipování často se
opakujících výrazů člověk, kdo, výrobce, řemeslník, správce, obchodník ap. v popisu výchozího významu bylo možné přiřadit daná lemmata s větší mírou pravděpodobnosti ke vzoru pro názvy osob
mužského rodu (u výrazů uvedených výše jde o vzor muž mužských jo-kmenů).
Např. u hesla děsět je v ESSČ uvedena následující morfologická charakteristika: „num., arch. subst. f.“ (num. =
číslovka, arch. = archaický).
8
Např. ke vzoru řebří (ijo-kmen maskulin) patří pouze následující hesla: řebří, hřěbí, třěví, střeví, črěví, řěpí,
klí, úlí, pondělí, ponjelí, ve slovnících jsou u nich uvedené různé tvary v opěrném pádu, a seznam tak nebylo
možné získat automaticky.
7
Obrázek 5: Ukázka formalizovaných pravidel pro přiřazení lemmatu ke vzoru
Většina lemmat byla k deklinačnímu vzoru přiřazena na základě tohoto formalismu správně, nejčastější
výjimku tvořila lemmata, u nichž slovníky uvádějí variantní zakončení opěrného pádu (např. popel, a/u, -e), případně i variantní rod (např. koráb, -a, -u, -ě m. i -i, -ě f.), a dále jména, u kterých slovníky
opěrný pád neuvádějí (MSS pokrývá v poslední třetině abecedy slovní zásobu jako jediný zdroj a často
tuto specifikaci vynechává). U všech těchto lemmat byla zapotřebí ruční analýza, k níž byl využit bezplatný program OpenRefine9. Celkově bylo k apelativním substantivním vzorům zařazeno asi 21 500
lemmat, u zhruba 6 000 z nich byl třeba ruční zásah, protože nedošlo k přiřazení žádného vzoru, bylo
jich přiřazeno více, nebo byl vzor přiřazen na základě jiných kritérií než jen kombinace rodu a koncovky
(např. podle podobnosti lemmatu a lemmatu již někam přiřazeného), a nebyl proto zcela spolehlivý.
4
Shrnutí
Cílem příspěvku bylo ukázat využití elektronických zdrojů, kterými disponuje oddělení vývoje jazyka
Ústavu pro jazyk český AV ČR, v. v. i., pro popis deklinace apelativ v nejstarším období vývoje českého
jazyka. Staročeské texty zpřístupněné v novočeské transkripci v interní textové bance jsou využívány
k ověření a zpřesnění popisu deklinace v historických mluvnicích (tedy k popisu seznamu koncovek
i alternací doprovázejících deklinaci), novodobé historické slovníky na druhou stranu umožňují získat
seznamy lemmat patřících k jednotlivým vzorům. Pro výzkum deklinace byly díky spolupráci badatele
a programátora s přístupem ke zdrojovým datům vytvořeny nástroje, které umožnily zrychlit postup
náročného badatelského úkolu a zpřesnit jeho výsledky. Nástroje pro přístup k datům, jež bývají součástí
výzkumné infrastruktury (korpusové manažery, vyhledávací lexikografické nástroje ap.) nemohou ze
své podstaty vyhovět potřebám všech výzkumů. Přístup ke zdrojovým datům a spolupráce počítačových
a lingvistických odborníků představují vhodnou cestu, jak tento hendikep odstranit. Vedle využívání
existujících nástrojů, jako je OpenRefine, mohou i ad hoc vytvářené aplikace pro řešení konkrétního
badatelského problému být dostatečně univerzální, aby mohly sloužit i pro jiné výzkumy s odlišnými
daty, jak ukazuje nástroj Analýza tokenů (v Excelu).
Program OpenRefine pracuje podobně jako PowerPivot a Microsoft Excel s velkým množstvím dat v tabulkovém formátu. Jeho výhoda spočívá v tom, že na rozdíl od PowerPivotu umožňuje editovat jednotlivé záznamy.
9
Grantová podpora
Vznik příspěvku byl podpořen projektem Ministerstva kultury ČR č. DF12P01OVV028 Informační
technologie ve službách jazykového kulturního bohatství (IT JAKUB).
Poděkování
Děkujeme kolegům z oddělení vývoje jazyka za pomoc při přípravě příspěvku, recenzentům za podněty
k jeho vylepšení a Martině Přibylákové za překlad textu do angličtiny.
Seznam zkratek (v textu nerozepsaných)
BřezSnářM
f.
GEN
INS
LékŽen
LOC
m.
PL
SG
Snář Vavřince z Březové, rukopis M10
femininum
genitiv
instrumentál
Sbírka pojednání z oboru ženského a dětského lékařství11
lokál
maskulinum
plurál
singulár
Reference
Analýza tokenů (v Excelu). [cit. 2015-08-01]. Dostupné z: http://vokabular.ujc.cas.cz/moduly/
nastroje/analyza-tokenu/o-aplikaci.
Corpus Manager. [cit. 2015-08-01]. Dostupné z: http://sourceforge.net/projects/corpman/.
GEBAUER, Jan. 1960. Historická mluvnice jazyka českého. Díl III. Tvarosloví. I. Skloňování. Praha: Nakladatelství československé akademie věd.
JÍNOVÁ, Pavlína, Boris LEHEČKA and Karel OLIVA. 2014. Describing Old Czech declension patterns for automatic text analysis. Mundo Eslavo: revista de cultura y estudios eslavos. 13(1): 7–17. ISSN 1579-8372. Dostupné z: http://mundoeslavo.com/index.php/meslav/article/view/161/144.
Jak vytvořit korpus. 2001–2015. CENTRUM ZPRACOVÁNÍ PŘIROZENÉHO JAZYKA FAKULTA INFORMATIKY MASARYKOVY UNIVERZITY. Centrum zpracování přirozeného jazyka [online]. [cit. 2015-08-01]. Dostupné z: http://nlp.fi.muni.cz/cs/JakVytvoritKorpus1.
LEHEČKA, Boris. 2015. Obsah a značkování diachronního korpusu češtiny. Časopis pro moderní filologii. Praha:
Československá akademie věd, 97(1): 70–77. Dostupné z: http://cmf.ff.cuni.cz/sites/default/files/Boris_Lehecka_70-77.pdf.
OpenRefine. [cit. 2015-08-01]. Dostupné z: http://openrefine.org.
Staročeská textová banka [online]. Verze z 9. 6. 2015 [cit. 2015-08-01]. Oddělení vývoje jazyka Ústavu pro jazyk
český AV ČR, v. v. i. Dostupné z: http://vokabular.ujc.cas.cz/banka.aspx.
Vokabulář webový [online]. Verze 1.0.0. [cit. 2015-08-01]. Oddělení vývoje jazyka Ústavu pro jazyk český AV
ČR, v. v. i. Dostupné z: http://vokabular.ujc.cas.cz.
Dostupné také z: http://vokabular.ujc.cas.cz/moduly/edicni/edice/29d51acd-9825474b-98b2-c300c7f82d01/plny-text/s-aparatem/folio/1r
11
Dostupné také z: http://vokabular.ujc.cas.cz/moduly/edicni/edice/bb208921-fe774dbf-a8e0-f6bb6af9eb3b/plny-text/s-aparatem/folio/1r
10

Instructions for ACL-2013 Proceedings

Transkript

Podobné dokumenty

funkční rozpětí neologických zkratek v češtině

Jazykovědné aktuality 2015/1–2 - Jazykovědné sdružení České

Semináre o digitálnıch zdrojıch a sluzbách ve spolecenských a

fond otakara motejla víte, co jsou otevřená data?

Cvičebnice z morfologie