Slovenčina a čeština v počítačovom spracovaní
Transkript
Slovenčina a čeština v počítačovom spracovaní
VEDA VYDAVATEĽSTVO SLOVENSKEJ AKADÉMIE VIED JAZYKOVEDNÝ ÚSTAV ĽUDOVÍTA ŠTÚRA SLOVENSKEJ AKADÉMIE VIED PEDAGOGICKÁ FAKULTA UNIVERZITY KOMENSKÉHO RECENZENTI Ing. Vladimír Benko PhDr. Mária Šimková SLOVENČINA A ČEŠTINA V PO ČÍ TA ČO V O M SP R A C O VAN Í Zborník referátov zo seminára Bratislava 26. – 27. októbra 2001 EDITORKA VEDA vydavateľstvo Slovenskej akadémie vied Bratislava 2001 ALEXANDRA JAROŠOVÁ © Vladimír Benko, František Čermák, Sachia Daržágín, Peter Ďurčo, Karol Furdík, Jan Hajič, Jana Hašanová, Jozef Ivanecký, Alexandra Jarošová, Eduard Kostolanský, Ľubomír Kralčák, Vlasta Křečková, Michal Křen, Karel Pala, Milan Rusko, Pavel Smrž, Marián Trnka 2001. Tento zborník je jedným z výsledkov účasti Jazykovedného ústavu Ľudovíta Štúra Slovenskej akadémie vied a Pedagogickej fakulty Univerzity Komenského v mnohonárodnom projekte Transeurópska infraštruktúra jazykových zdrojov II (Trans--European Language Resources Infrastructure II – TELRI II, PL 977085), ktorý sa ako súbor koordinovaných podujatí (coordinated action) uskutočnil v rámci programu Európskej komisie INCO-COPERNICUS v rokoch 1999 – 2001. Aktivity slovenských partnerov v tomto projekte boli čiastočne financované z prostriedkov štátneho rozpočtu Slovenskej republiky (grant SAV pridelený na riešenie projektu medzinárodnej vedecko-technickej spolupráce č. 51-98-9205-00/1999 a grant Ministerstva školstva Slovenskej republiky č. PL 97-7085) ISBN 80-224-0692-9 OBSAH OBSAH.............................................................................................................5 Malá inventúra pred hľadaním spoločného jazyka..........................................7 Statistické modelování a automatická analýza přirozeného jazyka (morfologie, syntax, překlad)..........................................................................11 Jan Hajič: Ústav formální a aplikované lingvistiky a Centrum komputační lingvistiky, Matematicko-fyzikální fakulta Univerzity Karlovy ([email protected])..............................................................................................................11 Identifikácia paradigmatických a syntagmatických vzťahov v texte.................................................................35 Karol Furdík: Juvier, s.r.o., Košice.....................................................................35 Spracovanie morfologickej roviny slovenčiny počítačom..........................................................................51 Eduard Kostolanský – Jana Hašanová: Laboratórium počítačovej lingvistiky, Pedagogicka fakulta Univerzity Komenského, Bratislava.................................51 Databases for Speech Recognition and Synthesis in Slovak..........................92 Milan Rusko – Sachia Daržágín – Marián Trnka: Institute of Informatics, Slovak Academy of Sciences, Bratislava............................................................92 SAMPA V SLOVENČINE A JEJ VÝZNAM Z POHĽADU VIACJAZYČNÝCH SYSTÉMOV NA ROZPOZNÁVANIE REČI .............................................102 Jozef Ivanecký: IBM Voice Systems, European Speech Research; Katedra kybernetiky a umelej inteligencie, Fakulta elektrotechniky a informatiky Technickej univerzity Košice ([email protected])................................................102 AUTOMATICKÁ TRANSKRIPCIA SLOVENČINY V POČÍTAČOVOM ROZPOZNÁVANÍ REČI .............................................................................114 Jozef Ivanecký: IBM Voice Systems, European Speech Research; Katedra kybernetiky a umelej inteligencie, Fakulta elektrotechniky a informatiky Technickej univerzity Košice ([email protected])...........................................114 viacjazyčný výslovnostný slovník vlastných mien a názvov lokalít......................................................122 Peter Ďurčo: Akadémia Policajného zboru, Bratislava (durco@ minv.sk)......122 ČESKÝ NÁRODNÍ KORPUS: Stav v roce 2001............................................................................................126 František Čermák: Ústav Českého národního korpusu, Filozofická fakulta University Karlovy, Praha ([email protected])...................................126 Český národní korpus – počítačová demonstrace................................................................................142 Michal Křen: Ústav Českého národního korpusu, Filozofická fakulta University Karlovy, Praha..................................................................................................142 Informácie v terminologických databázach a ich využívanie pri preklade odborných textov...............................................................................................148 Vlasta Křečková: Fakulta humanitných vied Univerzity Mateja Bela, Banská Bystrica.............................................................................................................148 Projekt slovníka štúrovskej slovenčiny a jeho počítačová podpora..........................................................156 Ľubomír Kralčák: Katedra slovenského jazyka, Filozofická fakulta Univerzity Konštantína Filozofa, Nitra..............................................................................156 Návrh české lexikální databáze....................................................................161 Karel Pala: Katedra informačních technologií, Fakulta informatiky Masarykovy university, Brno ([email protected])..................................................................161 Slovníková data ve formátu XML................................................................175 Pavel Smrž: Fakulta informatiky Masarykovy univerzity, Brno......................175 počítačová podpora SLOVENSKÝCH lexikografických projektov – retrospektívny pohľad............................................................................................188 Vladimír Benko: Laboratórium počítačovej lingvistiky Pedagogickej fakulty Univerzity Komenského; Jazykovedný ústav Ľudovíta Štúra Slovenskej akadémie vied, Bratislava (Vladimir.Benko@fedu. uniba.sk)..................................188 MALÁ INVENTÚRA PRED HĽADANÍM SPOLOČNÉHO JAZYKA Seminár Slovenčina a čeština v počítačovom spracovaní sme organizovali so zámerom zlepšiť vzájomnú informovanosť ľudí zaoberajúcich sa na Slovensku problematikou počítačov vo vzťahu k jazyku a naopak, jazyka vo vzťahu k počítačom. V tejto oblasti sú u nás značne izolované ostrovčeky aktivít prebiehajúcich v odlišných vedných odboroch a teoreticko-aplikačných kontextoch. Tieto sa zameriavajú len na neveľké úseky a komponenty odboru počítačová lingvistika, pod ktorým možno chápať spolu s automatizovaným spracovaním jazykových dát (vývoj a použitie príslušných programových nástrojov) aj teoretickú výstavbu jazykovedy v podobe modelov založených na využívaní jazykových znalostí v procedurálnej aj deklaratívnej podobe (gramatické pravidlá a počítačové lexikóny vybavené vysoko štruktúrovanou explicitnou informáciou, ako aj procedúry túto informáciu využívajúce), alebo v podobe modelov založených na pravdepodobnosti (stochastické gramatiky). V tomto zmysle môžu byť pre nás relevantné aj aktivity v oblasti umelej inteligencie a niektoré komponenty kognitívnej lingvistiky (scenáre, rámce a prototypy). Rozšírenie záberu má svoje opodstatnenie, pretože v pozadí formalizovaných a explicitných modelov stojí zreteľ k možným aplikáciám a naopak, technické aplikácie implementujú modely a výrazne stimulujú pohyb v teoretickej jazykovede vo všeobecnosti. Na rozdiel od Slovenska je situácia v Českej republike diametrálne odlišná. Keďže česká počítačová lingvistika je cieľavedome budovaná ako samostatný odbor už viac ako tridsať rokov, predstavuje dnes široké spektrum bádateľských a aplikovaných aktivít od formálnej (matematickej) lingvistiky cez počítačovú lexikografiu, strojový preklad, spracovanie rečového signálu až po korpusovú lingvistiku. Druhým cieľom nášho seminára je preto poskytnúť slovenskej odbornej verejnosti a študentom z lingvistických aj nelingvistických odborov ucelenejší pohľad na výsledky práce v oblasti počítačového spracovania češtiny, ktorá patrí v tomto smere medzi európsku a vo viacerých parametroch aj medzi svetovú špičku. Tento prehľad nám sprostredkujú vedúce osobnosti v danom teoretickom alebo aplikovanom úseku. Naším seminárom by sme chceli nadviazať na vedeckú, pedagogickú a organizačnú prácu Jána Horeckého, ktorý sa od začiatku šesťdesiatych rokov 20. storočia usiloval uplatňovať princípy a metódy matematickej lingvistiky na 7 materiáli slovenského jazyka (v jeho bibliografii možno nájsť vyše päťdesiat štúdií a článkov s danou problematikou). Tieto poznatky sprostredkoval aj svojim študentom a ašpirantom v prednáškach z matematickej lingvistiky a základov jazykovedy (skriptum Úvod do matematickej lingvistiky, Bratislava 1969 a učebnica Základy jazykovedy, Bratislava 1978). J. Horecký sa usiloval zakotviť matematickú jazykovedu aj inštitucionálne, keď v roku 1962 založil oddelenie matematickej lingvistiky a fonetiky v bývalom Ústave slovenského jazyka SAV. V oddelení, ktoré viedol do roku 1970, pripravovali mladí adepti vedy K. Buzássyová, J. Bosák a R. Gedeon pomocou diernoštítkového stroja slovník tvarov a morfém a publikovali rad štúdií z oblasti štatistickej lingvistiky. V roku 1970 sa z iniciatívy J. Horeckého v uskutočnilo v Smoleniciach medzinárodné sympózium o algebraickej lingvistike, na ktorom sa zúčastnili vedúce osobností pôsobiace v tomto odbore (materiály zo sympózia boli uverejnené v Recueil Linguistique de Bratislava, vol. IV, Bratislava 1973). Matematická jazykoveda v tom čase zahŕňala aj staršiu kvantitatívnu (štatistickú) lingvistiku, zaoberajúcu sa najmä skúmaním frekvencie jazykových jednotiek v textoch, a algebraickú jazykovedu ako súhrn teórií vypracovaných s použitím matematickej logiky, teórie množín, teórie grafov a iných súčastí teoretického aparátu matematiky. Ak sme vyššie spomínali kvantitatívnu analýzu textov vyúsťujúcu do tvorby abecedných a konkordančných indexov a frekvenčných slovníkov, nemôžeme nespomenúť priekopníka kvantitatívnych metód v jazykovede a literárnej vede na Slovensku G. Altmanna a tiež autora frekvenčného slovníka slovenčiny (Frekvencia slov a tvarov, Bratislava 1969) a publikácie Frekvencia tvarov a konštrukcií v slovenčine (Bratislava 1985) J. Mistríka. Počítačovú lingvistiku chápanú podľa J. Horeckého ako aplikovaná matematická lingvistika, predstavovali v tom čase vlastne len zahraničné práce na strojovom preklade. Začiatkom sedemdesiatych rokov viaceré administratívne rozhodnutia sčasti externé (vo vzťahu k odboru), sčasti vnútorné (súvisiace s organizačnými zmenami v Jazykovednom ústave Ľudovíta Štúra) spôsobili, že sa matematická lingvistika nemohla na Slovensku rozvíjať ako samostatný odbor. J. Horecký v nasledujúcich rokoch spolupracoval na niektorých problémoch automatizovanej morfologickej analýzy slovenčiny s českými kolegami z Ústavu formální a aplikované lingvistiky na Matematicko-fyzikálnej fakulte Karlovej univerzity v Prahe. Vybrané lingvistické problémy (napr. lematizácia, tvorba sémantických sietí, rozpoznávací slovník) boli v osemdesiatych rokoch súčasťou riešenia úlohy 8 spracovania textu pre potreby informačných (najmä knižničných) systémov (M. Cigánik, A. Appelová). Absencia inštitucionálnej a personálnej základne počítačovej lingvistiky sa odrazila na malej pripravenosti slovenskej jazykovedy vyrovnať sa s búrlivým zahraničným vývojom v oblasti automatizovaného spracovania prirodzeného jazyka (Natural Language Processing – NLP). Tento typ výskumu nahradil koncom šesťdesiatych rokov problematiku strojového prekladu (stiahnutú z agendy administratívnym zásahom). Bádanie sa začalo orientovať na dostatočne presný opis základných prvkov a vzťahov jazykovej štruktúry vhodný na spracovanie do podoby počítačového programu. Mohlo preto slúžiť ako vhodná základňa na etablovanie počítačovej lingvistiky ako samostatnej vednej disciplíny a nie ako aplikácie matematickej lingvistiky. Trocha lepšie je slovenská jazykoveda pripravená na novú empirickú orientáciu jazykovedy, ktorá sa prejavuje v budovaní reprezentatívnej materiálovej základne jazykovedného výskumu. Tieto rozsiahle zdroje autentického materiálu majú podobu textových databáz – korpusov. Korpusová lingvistika, ktorá sa zaoberá problematikou budovania a využívania textových korpusov, nie je len súborom progresívnych metód zhromažďovania a spracúvania materiálu, ale predstavuje v zásade iný pohľad na jazyk a jeho jednotky. Tu treba opäť spomenúť osobnosť J. Horeckého, ktorý stál aj pri revitalizácii počítačovej lingvistiky v Jazykovednom ústave, keď v rokoch 1988 – 1989 pripravil projekt bázy dát slovenského jazyka, v rámci ktorej sa začalo uvažovať aj o budovaní korpusu. Vďaka ústretovému prístupu riaditeľa Informačného centra SAV E. Kostolanského a jeho spolupracovníkov V. Benka a C. Belicu sa uskutočnilo niekoľko pracovných stretnutí, na ktorých sa prerokúvali možnosti vytvorenia spoločnej pracovnej skupiny počítačovej lingvistiky. V roku 1990 táto skupina (J. Horecký, V. Benko, A. Jarošová, E. Páleš) vznikla v Jazykovednom ústave Ľ. Štúra SAV a začala koncepčne pripravovať korpus a lexikálnu bázu dát. Tento zámer sa začal v roku 1992 realizovať ako grantový projekt, bol však natoľko finančne a personálne poddimenzovaný (V. Benko, A. Jarošová, M. Šimková; všetci traja s polovičnou a menšou časovou kapacitou), že sa podarilo vybudovať len interný korpus Jazykovedného ústavu Ľ. Štúra. Ide zatiaľ o pomerne nevyvážený súbor textov (bez anotácií), rozdelený na niekoľko fragmentov, ktoré doteraz nie sú spojené do jedného celku najmä preto, že používaný vyhľadávací program nedokáže naraz spracovať väčší objem textu. Začiatkom deväťdesiatych rokov E. Páleš teoreticky a aplikačne dopracúval počítačový model slovenčiny, ktorý v roku 1994 publikoval v monografii 9 SAPFO – parafrázovač slovenčiny – počítačový nástroj na modelovanie v jazykovede. Začiatok deväťdesiatych rokov priniesol aj založenie Laboratória počítačovej lingvistiky na Pedagogickej fakulte Univerzity Komenského, kde sa pripravuje morfologická databáza slovenčiny (E. Kostolanský, J. Hašanová, V. Benko) a budúci učitelia a prekladatelia dostávajú v kurze prednášok informáciu o počítačovej podpore prekladu, o jazykových zdrojoch a počítačovej podpore výučby cudzieho jazyka. Nemáme presnú predstavu o mieste lingvistickej problematiky v štruktúre učebných predmetov v našich vzdelávacích inštitúciách prírodovedného a technického smeru, ale aktívna účasť študentov Technickej univerzity v Košiciach na medzinárodných kolokviách mladých jazykovedcov, ktoré už desať rokov organizuje pracovníčka Jazykovedného ústavu Ľ. Štúra M. Nábělková, svedčia o dobrých výsledkoch košických kolegov pracujúcich v odbore umelá inteligencia. Témy viacerých diplomových prác a tímových projektov študentov Matematicko-fyzikálnej fakulty a Fakulty elektrotechniky a informatiky Univerzity Komenského nás presviečajú o tom, že na týchto pracoviskách nám vyrastajú partneri pre efektívny dialóg. V roku 1999 sa v Bratislave uskutočnil medzinárodný seminár o inovačných prístupoch k viacjazyčným zdrojom a jazykovým technológiám Text Corpora and Multilingual Lexicography (Textové korpusy a viacjazyčná lexikografia). Toto podujatie, ktoré v spolupráci s Inštitútom nemeckého jazyka v Mannheime (W. Teubert, A. Lawson) organizovali Jazykovedný ústav Ľ. Štúra (A. Jarošová) a Pedagogická fakulta fakulta Univerzity Komenského (V. Benko), bolo súčasťou medzinárodného projektu Európskej komisie Trans-European Language Resources Infrastructure – COPERNICUS (Transeurópska štruktúra jazykových zdrojov). V týchto dňoch vrcholia organizačno-legislatívne aktivity smerujúce k založeniu korpusového pracoviska v rámci Jazykovedného ústavu Ľ. Štúra. Veľmi si vážime záujem všetkých, ktorí sem prišli prednášať aj počúvať, diskutovať a hľadať riešenia. Vitajte! Alexandra Jarošová 10 STATISTICKÉ MODELOVÁNÍ A AUTOMATICKÁ ANALÝZA PŘIROZENÉHO JAZYKA (MORFOLOGIE, SYNTAX, PŘEKLAD) Jan Hajič: Ústav formální a aplikované lingvistiky a Centrum komputační lingvistiky, Matematicko-fyzikální fakulta Univerzity Karlovy ([email protected]) Abstract: Statistical modeling is now the prevailing method used in automatic procedures of analysis of a natural language. Such an analysis can be performed at various levels, from phonetics to semantics. Two levels of representation are described: a morphological one and a syntactic one that is further subdivided into surface syntax and deep syntax (tectogrammatics). The role of linguistically annotated corpora will be stressed as a necessary prerequisite for any supervised machine learning algorithms, showing examples from the Prague Dependency Treebank (PDT) being developed at Charles University, Prague. A possible application of some of the tools created during (and thanks to) the development of the PDT will be shown, namely, a machine translation system translating from Czech to Slovak. 1. Úvod Automatická analýza přirozeného jazyka1 počítačem vyžaduje – koneckonců jako každý problém, který řešíme – rozdělit práci na několik menších, dobře definovaných podproblémů, které pak řešíme (pokud možno) nezávisle. V oblasti zpracování přirozeného jazyka se mluví o tzv. rovinách popisu (a zpracování) jazyka. Tyto roviny jsou uspořádány zdola nahoru (pro účely analýzy jazyka), od roviny nejjednodušší (zabývající se ortografií či akustickou stránkou věci) po rovinu nejsložitější, rovinu významu. Každá rovina má své jednotky popisu, definice vztahů na této rovině, a navazuje bezprostředně na rovinu nižší a vyšší. Obvykle se hovoří o pěti až šesti rovinách (akustika/ortografie, fonetika, fonologie, morfologie, syntax, sémantika), ale často se (například z praktických důvodů) některé roviny slučují dohromady 1 V tomto příspěvku se omezíme na zpracování textu. Rozpoznávání (a syntéza) mluvené řeči je sice ve smyslu „porozumění“ jazyku podobný problém, avšak tradičně se soustředí zejména na zpracování akustického signálu, a v jistém smyslu – aspoň z dnešního pohledu, s existujícími aplikacemi a systémy v ruce – se na něj lze dívat jako na přídavný krok, ve kterém nejprve převedeme řečené na text, který dále zpracováváme. 11 JAN HAJIČ (např. při zpracování textu je rovina ortografická a fonetická téměř vždy sloučena, často i s rovinou fonologickou). Syntax a sémantika rovněž úzce souvisí a ne náhodou se analýza na strukturní úrovni často nazývá syntakticko-sémantická, přičemž se zde opět slučují dvě roviny. Naopak, někdy je výhodné (nebo technicky lépe proveditelné) vložit mezi morfologii a syntax ještě jednu rovinu, a to rovinu tzv. povrchové syntaxe. V zahraničních pojetích se obvykle setkáváme jen se dvěma rovinami, a to rovinou morfologickou a povrchově-syntaktickou. V tomto příspěvku budeme mluvit jednak o rovině morfologické, která v našem případě zahrnuje všechny roviny nižší, s výjimkou té části roviny ortografické, která se zabývá identifikací slov a interpunkce, a jednak o rovině syntaktické, a to jak o její povrchové podobě, tak i o tzv. hloubkové syntaxi, která se zabývá reprezentací jazykového významu. Nebudeme však zde tyto roviny popisu jazyka rozebírat z lingvistického pohledu, nýbrž se zaměříme na to, jak se tyto roviny promítají do práce s textovými korpusy, zejména pro účely jejich anotování a následného automatického zpracování. V poslední části příspěvku popíšeme jednu zajímavou aplikaci, systém automatického překladu z češtiny do slovenštiny, který (trochu překvapivě) funguje velmi dobře i přesto, že analýza jazyka je v něm omezena vlastně jen na rovinu morfologickou. 2. Morfologická analýza a značkování textu V úvodu jsme řekli, že v našem pojetí morfologická (tvaroslovná) analýza spojuje všechny nižší roviny až k rovině tradičně nazývané morfématická. Nezabývá se však prvotním zpracováním textu, kterému se v počítačové analýze nemůžeme vyhnout, a to tzv. tokenizací. Morfologická analýza tedy vstupuje do hry až v okamžiku, kdy ve vstupním textu jsou identifikována slova, mezery, interpunkce, a pokud možno i začátky a konce vět. Jakkoli triviální se tento úvodní problém může zdát, není tomu tak; již jen definice toho, co to je „slovo“2 je někdy nejasná: je byl-li, pracovals, technicko-hospodářský nebo naň jedno slovo, nebo dvě? Je New York nebo Kostelec n./Č. lesy jedno slovo, nebo dvě (resp. pět slov)? Obvykle se volí nějaký relativně dobře definovatelný kompromis. Zdá se, že z hlediska dalšího zpracování je vhodné v nejasných 2 „Slovem“ se zde myslí slovo v tom tvaru, ve kterém se v textu vyskytuje, takže korunou a korunami jsou dvě různá slova. 12 STATISTICKÉ MODELOVÁNÍ A AUTOMATICKÁ ANALÝZA PŘIROZENÉHO JAZYKA (MORFOLOGIE, SYNTAX, PŘEKLAD) případech za slovo brát jednotku co nejkratší. V každém případě ale tokenizace není vlastní součástí morfologické analýzy, v této kapitole tedy předpokládáme, že tokenizace je již dokončena a jednotka zpracování pro morfologickou analýzu je tedy již jednoznačně určena3. Tento předpoklad je i z praktického hlediska nepříliš omezující, neboť většina existujících textových korpusů je tokenizována, jako např. pro nás důležitý Český národní korpus (Čermák 2001). 2.1 Co je to morfologická analýza? Na střední škole se učí, že úkolem morfologické analýzy slova2 je určit morfologické kategorie danému slovu v textu příslušné. Pro člověka je tato definice přijatelná, a koneckonců každý z nás na oné střední škole nakonec nějak uspěl. Při počítačovém zpracování je však situaci třeba definovat a popsat mnohem přesněji. Především je třeba jasně rozlišovat mezi morfologickou kategorií a její hodnotou. Číslo je morfologickou kategorií, singulár (jednotné číslo) její hodnotou. V češtině a slovenštině je možno rozlišovat mnoho kategorií, v našem systému jich používáme celkem 13: slovní druh, slovní „poddruh“, rod, číslo, pád, přivlastňovací rod, přivlastňovací číslo, osobu, čas, slovesný rod, negaci, stupeň a variantu. Hodnotami jsou např. čísla 1 až 7 pro české pády, „aktivní“ a „pasívní“ pro slovesný rod, atd. Nejbohatší kategorií je slovní poddruh, který má celkem 75 možných hodnot, nejvíce z nich pro zájmena. Pozornému čtenáři jistě neunikne, že v seznamu kategorií není nejen kategorie vzoru (vzor má v systému pouze pomocnou úlohu, a je zcela nepotřebný pro navazující analýzu jazyka), ale ani např. kategorie způsobu; důvod je však prostý: morfologická analýza v našem systému pracuje bez ohledu na kontext, tj. zpracovává izolovaně vždy jen jedno slovo (slovní tvar). Tím „odsouvá“ řešení některých problémů na pozdější dobu, a jakkoli je to z lingvistického pohledu bolestné, je tento přístup (vyplývající z dělení popisu a zpracování jazyka na jednotlivé roviny) jediný možný, neboť umožňuje nemíchat dohromady věci, 3 Mluvíme-li o jednoznačném určení (zde slovních jednotek, tokens), musíme zároveň říci, jak je toto určení realizováno v textu. K tomu se používají dnes už téměř výhradně tzv. markup jazyky, definované na základě standardu SGML, který je dnes nahrazován jednodušším a pro počítačové zpracování příhodnějším XML (jež je svým způsobem podmnožinou SGML). (Známý jazyk pro popis webových stránek, HTML, je rovněž specifikován pomocí SGML.) Zjednodušeně lze říci, že každá značka – zde samozřejmě mluvíme o značce v technickém smyslu, nikoli o značce morfologické – má své jméno, a pro účely rozlišení mezi textem a značkami je jednotně ohraničena symboly ‚<‚ a‘ >‘. 13 JAN HAJIČ které k sobě nepatří a byly by tudíž těžko formalizovatelné a zpracovatelné. Ze stejných důvodů je nutno brát kategorii slovesného času jako kategorii příslušnou k analyzovanému participiu (pracoval), nikoli k celému analytickému tvaru (který v uvedeném příkladu může být jak času minulého pracoval jsem, tak i času přítomného v podmiňovacím způsobu pracoval bych). Vzhledem k tomu, že morfologická analýza pracuje s jednotlivými slovy z textu izolovaně, bez ohledu na kontext, tak se na rozdíl od úloh řešených na střední škole nezabývá ani jednoznačnou identifikací hodnot morfologických kategorií. Pochopitelně, ani nemůže: bez větného kontextu není možno mezi jednotlivými možnostmi vůbec vybírat. Problémem jednoznačného určení hodnot morfologických kategorií se zabývá tzv. značkování, ke kterému se vrátíme za chvíli. Pro počítačové zpracování se zavádí tzv. množina morfologických značek (tagset). Každá značka shrnuje hodnoty morfologických kategorií pro jeden slovní tvar. Pro vlastní zpracování se používá několik typů notací, z nichž nejrozšířenější je notace tzv. poziční. V této notaci se každé kategorii přiřadí pozice ve značce, a každé hodnotě jeden znak, který se zapisuje na příslušnou pozici. Slovní druh je tedy např. na první pozici, a jeho hodnoty jsou reprezentovány např. znaky N (pro podstatné jméno, noun), A (pro adjektivum) atd. Hodnoty pro daný slovní tvar irelevantních kategorií jsou označeny speciálním znakem, obvykle pomlčkou. Např. tedy pro obyčejné podstatné jméno rodu mužského neživotného ve 4. pádě jednotného čísla v pozičním systému s 15 kategoriemi má příslušná značka tvar NNIS4-----A---- (první pozice je slovní druh (N), druhá slovní poddruh (zde N), třetí rod (I pro mužský neživotný, masc. inanim.), čtvrtá číslo (S pro singulár), pátá pád (4 pro akuzativ), atd. (A na jedenácté pozici specifikuje, že dané slovo není negováno příslušnou předponou). Co tedy (počítačová) morfologická analýza vlastně dělá? Po výše uvedeném výčtu toho, co nedělá, by se zdálo, že nedělá téměř nic; samozřejmě, že tak tomu není. Morfologická analýza pro každý slovní tvar určí všechny možnosti kombinací hodnot morfologických kategorií, které danému tvaru vůbec mohou příslušet. Že i to je obrovská pomoc pro další zpracování, je vidět z prostého číselného srovnání: zatímco všech možných značek (kombinací hodnot morfologických kategorií) je v našem systému pro češtinu přes 4400, průměrný počet značek po morfologické analýze je menší než 5 (na jedno slovo v běžném textu). Počítačová morfologická analýza však musí řešit ještě jeden problém, na zmiňované střední škole probíraný pouze okrajově: tzv. problém lematizace. Lematizace určuje pro každý slovní tvar jeho základní podobu (obvykle tvar, ve 14 STATISTICKÉ MODELOVÁNÍ A AUTOMATICKÁ ANALÝZA PŘIROZENÉHO JAZYKA (MORFOLOGIE, SYNTAX, PŘEKLAD) kterém slovo najdeme ve slovnících). Ani lematizace není obecně při zpracování izolovaného slova jednoznačná. Navíc je nutno rozlišovat mezi slovy, která jsou v základním tvaru homonymní – např. stát (jako státní útvar) a stát (jako sloveso). Počítačová lematizace proto ještě navíc tato slova rozlišuje a jednoznačně identifikuje (např. připojením číselného indexu k základnímu tvaru slova, např. stát-1, stát-2 atd.). Formálně tedy můžeme popsat morfologickou analýzu jako matematickou funkci, která posloupnosti znaků (písmen) jazyka přiřazuje množinu možných výsledků, složených vždy z dvojic <lema,značka>: Ma(f) → { <l,t>; l ∈ L, t ∈ T }, kde f ∈ A+ je slovní tvar složený z písmen abecedy A analyzovaného jazyka (např. stát), L je množina identifikací lemat (obvykle ve formě řetězce nějakých znaků, považovaného ovšem za nedělitelný) v daném případě bude jedním z možných výsledků např. stát-1), a T je množina značek používaná pro daný jazyk (jako např. NNIS4-----A----; opět jde o řetězec znaků, považovaný z hlediska definice za atomický). Prakticky morfologická analýza pracuje s (tokenizovaným) textem, v dohodnutém formátu, a na výstupu je tentýž text obohacený o lemata a morfologické značky (obr. 1 a 2). <f cap>Pekař <f>peče <f>housky <D> <d>. Obr. 1: Vstup do morfologické analýzy – tokenizovaný text <f cap>Pekař<MMl>pekař<MMt>NNMS1----A---<f>peče<MMl>péci<MMt>VeYS------A----<MMt>VB-S---3P-AA--<f>housky<MMl>houska<MMt>NNFP1-----A----<MMt>NNFP4-----A---<MMt>NNFS2-----A---<D> <d>.<MMl>.<MMt>Z:------------- Obr. 2: Výstup z morfologické analýzy (zjednodušeno) 15 JAN HAJIČ 2.2 Proces morfologické analýzy Morfologická analýza, jejíž definici jsme uvedli v předchozí sekci, je ovšem realizována v počítači nikoli jako matematická funkce, ale jako výpočetní procedura. Jako základní datová struktura slouží pro daný přirozený jazyk jeho morfologický slovník, který je používán vlastním algoritmem morfologické analýzy (v zásadě pak již na jazyce nezávislým). Způsobů, jak efektivně provádět morfologickou analýzu, se používá několik (Koskenniemi 1983, Mohri 1998), my zde popíšeme náš systém „přímé“ analýzy. Ten potřebuje ke své práci morfologický slovník a samozřejmě i příslušný algoritmus, který vlastní morfologickou analýzy na základě slovníku realizuje. Na základě stejného slovníku pak může probíhat i morfologická syntéza, o té se ale zmíníme až v sekci 4 o strojovém překladu. 2.2.1. Morfologický slovník Morfologický slovník obsahuje ke každému lematu informaci o kmeni slova (v našem případě, kvůli sloučení nejnižších rovin popisu jazyka do jedné, je za kmen slova považována ta část slova, která se při ohýbání nemění), a o přípustných koncovkách. Množina koncovek tvoří vzor. U každé koncovky je navíc informace o tom, které značky (kombinace hodnot morfologických kategorií) jí pro daný vzor odpovídají. Příkladem vzoru je např. následující množina koncovek a jejich značek: „„ NNIS1-----A----, NNIS4-----A---„u“ NNIS2-----A----, NNIS3-----A----, NNIS6-----A---1 „e“ NNIS5-----A---„ě“ NNIS6-----A---„em“ NNIS7-----A---„y“ NNIP1-----A----, NNIP4-----A----, NNIP5-----A----, NNIP7-----A---„ů“ NNIP2-----A---„ům“ NNIP3-----A---„ech“ NNIP6-----A---- Tento vzor je v našem systému označen hd2x. Tedy k lematu stát-1 bude v morfologickém slovníku uveden kmen „stát“ a vzor hd2x. 16 STATISTICKÉ MODELOVÁNÍ A AUTOMATICKÁ ANALÝZA PŘIROZENÉHO JAZYKA (MORFOLOGIE, SYNTAX, PŘEKLAD) Pro každý vzor je dále ve slovníku uvedeno, zda připouští negaci slova pomocí předpony „ne-“ (tj. negaci) a u každé koncovky dále informace o tom, zda připouští připojení předpony „nej-“ (stupňování). Pro velmi nepravidelná slova jsou pak ve slovníku uvedeny všechny jejich tvary i s příslušnými značkami. 2.2.2 Algoritmus morfologické analýzy Tzv. „přímá“ analýza slovních tvarů je založena na vyčerpávající analýze slova z hlediska možné segmentace na kmen a koncovku (případně i předpony ne- a nej-). Pro každou takto získanou dvojici kmene a koncovky je nutno ověřit, zda se ve slovníku vyskytuje jak kmen, tak i koncovka a zda kmen i koncovka náleží ke stejnému vzoru. Všechny dvojice lemat (příslušných ke kmeni/kmenům) a značek (nalezených ve slovníku u příslušných koncovek) jsou pak prohlášeny za výsledek morfologické analýzy. Podrobněji o v současnosti používané morfologické analýze češtiny viz Hajič (2001). Příkladem může být slovo (slovní tvar) housky. Toto slovo je možno rozdělit na kmen housky + nulovou koncovku, nebo na housk + y, nebo na hous + ky, atd. až k h + ousky (kmen nulové délky se nepřipouští). Z těchto možností nakonec bude správná jen možnost hous + ky, neboť ve slovníku je neměnná část základu (zde jen hous, neboť 2. p. mn. čísla je hous+ek). Koncovky y, sky a nulová koncovka jsou sice ve slovníku koncovek uvedeny také, ale kmen housk (hou) je nepřipouští (resp. nejsou uvedeny v seznamu koncovek pro vzor příslušný danému kmeni). Modernější systémy používají pro jádro systému morfologické analýzy aparát konečných automatů, resp. v kombinaci s fonologií aparát tzv. sekvenčních strojů (konečných převodníků)4. Prvním takovým systémem byla tzv. „Two-level morphology“ (Koskenniemi 1983), následovníky pak Xerox Language Tools (XLT, zpracována je i čeština, viz Skoumalová 1997), a v poslední době je volně k dispozici univerzální soubor nástrojů pro konečné automaty a převodníky (nejen pro morfologii) FSM od AT&T Research (Mohri et al. 1998). Je však nutno podotknout, že v dnešní době už vnitřní struktura (implementace) morfologického analyzátoru nehraje prvořadou roli – důležitá je spíše udržovatelnost a rozšiřitelnost systému. 4 Podrobněji o konečných automatech a sekvenčních strojích viz např. (Chytil 1984). 17 JAN HAJIČ 2.3 Značkování (zjednoznačňování morfologické analýzy) Značkování (anglicky poněkud nevhodně nazývané „Part-of-Speech tagging“) je v rámci popisu a zpracování jazyka pomocí rovin jakýsi „krok stranou“: snažíme se totiž na úrovni morfologické analýzy o něco, co alespoň teoreticky přísluší až rovině syntaktické (ať už povrchové nebo hloubkové). Nicméně je to problém velmi praktický, jehož výsledky jsou použitelné ve třech směrech: jednak jako (zatím) finální krok při značkování korpusů pro lexikografické účely, dále jako krok výrazně zrychlující syntaktickou analýzu (byť do ní vnáší jistou míru chyb, jak uvidíme dále), a v neposlední řadě i pro některé aplikace, které mohou s výhodou využít i jen částečnou jazykovou analýzu (např. pro vyhledávání v elektronických slovnících, pro vyhledávání informací obecně, a dokonce i pro strojový překlad pro blízké flektívní jazyky – viz dále sekce 4). Značkování již může využít pro zjednoznačnění výstupu morfologické analýzy (na rozdíl od ní samé) kontext, ve kterém se analyzované slovo nachází. Dnes se téměř výhradně používají pro značkování metody statistické, založené na strojovém učení. Počítač se tedy naučí, že po určitých předložkách následují jen některé pády, že na začátku věty nalezneme spíše pád první než jakýkoliv jiný, nebo že slovo při je téměř vždy předložka, jen velmi málokdy tvar slova pře, a téměř nikdy rozkazovací způsob od slovesa přít (a k tomu se, doufejme, naučí i to, kdy jde přeci jen o (soudní) při). Jak se však může počítač takovou věc naučit? Potřebuje k tomu (alespoň v dosud nejúspěšnějších metodách) předem ručně označkovaný korpus. Takový korpus je samozřejmě velmi pracnou záležitostí; pro spolehlivé naučení, kdy procento chyb klesá (pro češtinu) pod 5 %, bylo třeba označkovat přes 1.5 miliónu výskytů slov v textu (přitom každé zdvojnásobení tohoto počtu přinese jen několik desetin procenta zlepšení, a jistou hranici úspěšnosti zřejmě nelze překročit vůbec). Označkované korpusy jsou proto velmi cenným zdrojem lingvistických informací (nejen pro automatické strojové učení, ale samozřejmě i pro vyhodnocování jiných metod, použitých pro značkování). Příkladem takových korpusů jsou např. Brown Corpus (první značkovaný korpus na světě z konce 60. let), Penn Treebank (Marcus 1993) a pro češtinu čerstvě vydaný Pražský závislostní korpus (Hajič et al. 2001b). Učení z ručně označkovaného korpusu (takovému korpusu se říká trénovací data) může probíhat několika způsoby. Velmi jednoduchý a účinný (a dosud prakticky nepřekonaný) je postup, při kterém se spočítají relativní 18 STATISTICKÉ MODELOVÁNÍ A AUTOMATICKÁ ANALÝZA PŘIROZENÉHO JAZYKA (MORFOLOGIE, SYNTAX, PŘEKLAD) četnosti značek následujících po dvojici bezprostředně předcházejících značek v textu (takový způsob se nazývá HMM tagging: viz (Church 1992, Hladká 1994, Mírovský 1999, Hladká 2000, Hajič et al. 2001a). Pro každou dvojici značek (tzv. historii) se tak vytvoří menší či větší tabulka, ve které jsou uvedeny relativní četnosti značek po ní následujících v trénovacích datech. Jakkoli je tento systém lingvisticky jasně neadekvátní, značkování založené na efektivním algoritmu aplikace těchto tabulek (virtuálně rozšiřujícím délku historie (kontextu) na mnoho slov na obě strany od analyzovaného slova) na kontinuální text (Jelinek 1998) dává velmi dobré výsledky: pro angličtinu se dosahuje i méně než 3 % chyb na prakticky libovolném textu, pro češtinu pak okolo 5 %. Pro češtinu vyvíjíme při její bohatosti značek ještě jeden systém (Hajič 2001), který, jak doufáme, přiblíží úspěšnost značkování angličtině. Tento systém je založen na individuálním „předpovídání“ hodnot jednotlivých morfologických kategorií. Statisticky, automaticky vybraná vhodná „pravidla“ (features neboli rysy) se ohodnotí váhami (opět zcela automaticky v procesu učení z předem ručně označkovaných dat). Takto ohodnocená „pravidla“ se pak používají v procesu automatického značkování tak, že se pro každou hodnotu spočítá její pravděpodobnost v daném kontextu, a výsledná značka je pak „kompromisem“, neboť se pochopitelně vybírá pouze mezi značkami nabídnutými morfologickou analýzou. Tato metoda je nyní stejně úspěšná jako výše uvedená metoda HMM taggingu, potřebuje však méně statistických dat při vlastním značkování (avšak je velmi náročná v průběhu učení na čas výpočtu). Kromě čistě statistických přístupů uvažujeme rovněž o možné kombinaci s metodami „nestatistickými“, tj. tradičně lingvistickými, které především pracují s ručně vytvořenými pravidly s komplexními podmínkami. Tato pravidla použitá samostatně vykazují poměrně malou úspěšnost z hlediska počtu víceznačností, které jsou schopny řešit, avšak jsou poměrně přesná (v případech, které řešit umějí). Systém pak pracuje tak, že tato „lingvistická“ pravidla jsou aplikována nejdříve, čímž se víceznačnost zredukuje (aniž by byla ovšem odstraněna správná varianta), a pak „statistická“, tj. automaticky naučená „pravidla“ zjednoznačňování dokončí (Hajič et al. 2001a). Jako konkrétní příklad uveďme opět větu Pekař peče housky. Funguje-li disambiguace správně, na základě vstupu z obr. 2 obdržíme následující výstup (obr. 3), ve kterém je pro každé vstupní slovo už jen jedna značka a jedno lema: <f cap>Pekař<MDl>pekař<MDt>NNMS1----A---- 19 JAN HAJIČ <f>peče<MDl>péci<MDt>VB-S---3P-AA--<f>housky<MDl>houska<MDt>NNFP4-----A---<D> <d>.<MDl>.<MDt>Z:------------- Obr. 3: Zjednoznačněný výsledek morfologické analýzy U slova Pekař nebylo nutno rozhodovat o ničem, neboť již bylo jednoznačně určeno morfologickým analyzátorem5. Slovo peče je samozřejmě v této větě v přítomném čase a 3. osobě (nikoli jako přechodník!) a housky jsou zde ve 4. pádě množného čísla. 3. Syntaktická závislostní analýza Jakkoli jsou morfologická analýza a (morfologické) značkování zajímavé a užitečné, nedotýká se přímo struktury věty. Z hlediska skladby věty potřebujeme zjišťovat, která slova jsou ve vztahu gramatické závislosti: řídící slovo je „důležitější“, ve větě jej obvykle nelze vynechat bez narušení gramatické skladby věty, a obyčejně určuje většinu gramatických kategorií slova závislého (např. na základě shody). Přímo zjišťovat skladbu věty je však velmi obtížné: důvodem jsou kromě již známé nejednoznačnosti jazyka i např. elipsy (slova ve větě vynechaná, byť z hlediska významu a standardní definice syntaxe nezbytná), konstrukce bez slovesa, koordinace a apozice, parenteze (vsuvky) apod. Proto jsme se rozhodli vložit mezi rovinu morfologickou a syntaktickou tzv. rovinu analytickou, která zhruba odpovídá rovině povrchové syntaxe známé z jiných teoretických přístupů. Pracujeme tedy se dvěma syntaktickými rovinami: rovinou analytickou a rovinou vlastní syntaxe, tzv. rovinou tektogramatickou (Sgall et al. 1986). 3.1 Analytická rovina syntaxe Na analytické rovině se reprezentace věty zachycuje závislostním stromem6 s vrcholy, případně i hranami ohodnocenými jedním nebo několika atributy. Ke každému slovu z analyzované věty (token, tj. i interpunkce) příslu5 Lze ovšem oprávněně namítnout, že slovo Pekař mělo být morfologickým analyzátorem určeno též jako první pád jednotného čísla rodu mužského životného od vlastního jména Pekař. To je samozřejmě nedostatek slovníku, ovšem jen těžko řešitelný v plném rozsahu. 20 STATISTICKÉ MODELOVÁNÍ A AUTOMATICKÁ ANALÝZA PŘIROZENÉHO JAZYKA (MORFOLOGIE, SYNTAX, PŘEKLAD) ší právě jeden vrchol závislostního stromu. Závislostní vztahy jsou určeny hranami takového stromu a hodnoty příslušné k jednotlivým hranám určují (povrchově) syntaktickou funkci závislého uzlu vzhledem k uzlu řídícímu. Hodnotami u vrcholů jsou pak dva údaje: příslušné lema (pro interpunkci se definuje jako identické s původní formou interpunkce) a morfologická značka (soubor značek – tagset – se rovněž vhodně rozšiřuje kvůli interpunkci, podobně jako na rovině morfologické). Pro lepší čitelnost se u každého vrcholu zaznamenává i původní tvar daného slova (ačkoli jej lze jednoznačně vyvodit z lematu a morfologické značky) a je zde i řada dalších, technických a pomocných atributů. Z technických důvodů se rovněž hodnota hrany (tj. povrchově-syntaktická funkce závislého slova) uvádí u závislého uzlu. Jako příklad lze uvést jednoduchou větu Kominík vymetá komíny (obr. 4). Obr. 4: Analytická reprezentace věty Kominík vymetá komíny. Vidíme, že Kominík je podmětem věty (Sb), vymetá je predikát (řídící sloveso hlavní věty, Pred), a komíny je předmět (Obj). Závěrečná interpunkce podle zásady co slovo (token) to vrchol stromu je rovněž přítomna, a to s funkcí AuxK (speciální funkce pro koncovou interpunkci). Lze tedy říci, že analytická rovina je velmi podobná tomu, co jsme se všichni učili na základní a střední škole, snad s výjimkou postavení podmětu 6 Strom je matematicky definován jako souvislý acyklický orientovaný graf s jedním kořenem (tj. vrcholem, do kterého nevede žádná hrana). Obvykle se znázorňuje „vzhůru nohama“, tj. kořen se kreslí nahoře a orientace hran se zachycuje pomocí šipek, které vedou shora dolů, od řídícího k závislému vrcholu. Z technických důvodů se ovšem v elektronické podobě využívá s výhodou toho, že do každého vrcholu (někdy nazývaného podle angličtiny též „uzlem“) vede pouze jedna hrana, a směr závislosti se uchovává obráceně – to však nemá žádný vliv na skutečný směr závislosti. 21 JAN HAJIČ (podmět není na stejné úrovni jako predikát) a toho, že na analytické rovině jsou přítomna všechna slova z věty (to se týká nejen interpunkce, ale samozřejmě i předložek, spojek, pomocných a sponových sloves atd.). Účelem analytické anotace jako předstupně k rovině tektogramatické (sekce 3.2) je zachytit základní závislostní vztahy (tj. vybudovat kompletní závislostní strom s analytickými funkcemi), označit pomocná slova a jejich vztah k jiným jednotkám na této rovině (i když jistě nejde o skutečnou závislost v obvyklém smyslu), označit elipsu, pospojovat koordinované a aponované členy věty, označit vsuvky apod. Podmínka, že každému slovu ze vstupního textu odpovídá právě jeden vrchol závislostního stromu, není náhodná. Umožňuje totiž vytvořit relativně efektivní nástroj pro automatickou povrchově-syntaktickou analýzu vět přirozeného jazyka (tj. v našem případě češtiny). Obecný postup je zde podobný jako při morfologickém značkování (sekce 2.3): používají se primárně statistické metody založené na strojovém učení parametrů (pravděpodobností), používaný pravděpodobnostní model pro takovou analýzu je však mnohem komplikovanější. V našem případě používáme analyzátor (Collins 1997) adaptovaný pro češtinu na letním Workshopu na Johns Hopkins University v roce 1998 (Hajič 1998), který dokáže správně určit kolem 80 % všech závislostí v testovacím textu. Pochopitelně i pro učení syntaktického analyzátoru jsou třeba trénovací data (tj. ručně syntakticky anotovaný korpus). Práce na ručním syntaktickém anotování je mnohem náročnější než obdobná práce na zjednoznačňování morfologickém, a to jak z hlediska softwarové přípravy (anotovací nástroje musí pracovat s grafickým obrázkem analyzovaného stromu, tak, jak jsou na to lingvistéanotátoři zvyklí), z hlediska přípravy pokynů pro anotování (s trochou nadsázky lze říci, že jsme museli přepsat, či snad explicitně dopracovat povrchovou syntax češtiny, viz Hajič et al. 1997), i z hlediska vlastní anotovací práce. Pro češtinu jsou taková data obsažena na CDROM Pražský závislostní korpus (Hajič 1998, Hajič et al. 2001b), spolu se všemi potřebnými nástroji na (ruční) syntaktické anotování korpusu. Na tomto CD je anotováno téměř 1.5 miliónu slov (asi 90 tisíc vět) na analytické rovině. 3.2 Tektogramatická rovina syntaxe Naším cílem však není zastavit se na rovině povrchové syntaxe. Připravujeme proto anotaci na rovině tektogramatické, kde se používá jiný repertoár závislostních funkcí (které označují význam, nikoli jen povrchový vztah), kde 22 STATISTICKÉ MODELOVÁNÍ A AUTOMATICKÁ ANALÝZA PŘIROZENÉHO JAZYKA (MORFOLOGIE, SYNTAX, PŘEKLAD) odpadají vrcholy s pomocnými slovy a částečně i s interpunkcí, naproti tomu přibývají na povrchu vypuštěné, leč z významového hlediska přítomné elipsy. Navíc zde přibývá označení koreference a aktuální členění. Příklad věty anotované na této rovině je na obr. 5. Obr. 5: Anotace věty na tektogramatické rovině Bližší popis tektogramatické roviny je možné nalézt z teoretického hlediska v (Sgall et al. 1986, Petkevič 1995) a pak přímo ve formě příručky pro anotátory (Hajičová et al. 2000). Tektogramatická rovina je jakýmsi mezičlánkem mezi lingvistickou analýzou a další analýzou sémantickou, logickou, analýzou textu apod., vedoucí ke skutečnému porozumění přirozenému jazyku. Předpokládáme, že pro češtinu dokážeme na této rovině anotovat řádově obdobný počet vět jako na rovině analytické (cca 60 tisíc) do konce r. 2004. 4. Strojový překlad mezi blízkými jazyky 4.1 Základní idea a její zjednodušení 23 JAN HAJIČ Ačkoli reprezentaci věty na tektogramatické rovině, jak byla popsána v předchozí sekci, považujeme za hlavní formální nástroj k popisu lingvistického významu, který by měl být jádrem každé aplikace vyžadující porozumění přirozenému jazyku, někdy se obejdeme s prostředky mnohem jednoduššími. Takovou aplikací je například strojový překlad mezi velmi blízkými jazyky, jako je čeština a slovenština, a jistě by se našly další příklady (někdy nejde jen o blízké jazyky, ale může jít i o varianty jednoho jazyka, ať už pravopisné, nářeční apod.). Pro jazyky vzdálenější (jako např. čeština a ruština, viz Hajič et al. 1987) je otázka složitější: je jasné, že syntax je v jistých okamžicích potřebná, avšak není jasné, zda chyby, jichž se nutně v syntaktické analýze dopustíme, vyváží tuto výhodu. I při zjednodušené analýze ve strojovém překladu mezi češtinou a slovenštinou (podrobněji viz Hajič et al. 2000) zachováváme tradiční scénář strojového překladu (obr. 6). Analýza Transfer Syntéza Zdrojový jazyk Cílový jazyk Obr. 6: Obecné schéma strojového překladu 4.2 Tři fáze překladu: analýza, transfer, syntéza Při analýze zdrojového jazyka se jednotlivé věty analyzují bez ohledu na to, do kterého jazyka se překládá. Buduje se reprezentace věty vhodná pro fázi transferu („vlastního překladu“). Ve složitých systémech touto reprezentací může být hloubková syntaktická reprezentace, nebo dokonce logická struktura užité věty, avšak v našem zjednodušeném případě bude touto analýzou pouze analýza morfologická, zjednoznačněná pomocí statistického modulu (taggeru, viz sekce 2). Transfer pak bude zcela deterministický proces, který nahradí každé zdrojové (české) slovo (resp. jeho lemma) jeho cílovým (slovenským) ekvivalentem, a českou morfologickou značku značkou slovenskou (ve většině případů bude tato značka zcela stejná, nebo jen formálně odlišná). V některých případech však musíme slovenskou značku poněkud zobecnit, neboť se výji24 STATISTICKÉ MODELOVÁNÍ A AUTOMATICKÁ ANALÝZA PŘIROZENÉHO JAZYKA (MORFOLOGIE, SYNTAX, PŘEKLAD) mečně mění rod substantiva, zvláštní varianta koncovky v určitém pádě se překládá standardně, apod. Ve fázi syntézy (generování) se pak ze slovenských lemat a slovenských morfologických značek vytvoří výsledná forma slovenského slova. Na závěr se pak doplní velká písmena podle pravidel pravopisu a věta se zformátuje, případně se do textu vloží zpět původní formátování české věty, bylo-li v ní přítomno. 4.3 Analýza Ve fázi analýzy proběhne tokenizace textu (pokud již vstupní text není takto zpracován, což obvykle není), uchování formátovací informace (to je důležité např. tehdy, je-li původní text např. v HTML, RTF a chceme původní formátování pokud možno zachovat) a převedení do jednotného formátu pro další zpracování, což je SGML formát obdobný formátu uchovávání textů v ČNK, neboť se pochopitelně používají podobné nástroje (morfologie, tagger, atd.). Proběhne i identifikace hranic vět, a speciálně se označí úseky, které je třeba překládat (na rozdíl od např. formátovacích značek). Příklad: Věta Transakce slouží k zobrazení zamčených záznamů v databázi. bude po tokenizaci a převodu do SGML vypadat takto: <s id=„/disk1/home/hajic/f/projects/data/SMALL.tmq-p1s37“> <f>Transakce <f>slouží <f>k <f>zobrazení <f>zamčených <f>záznamů <f>v <f>databázi <D> <d>. Obr. 7: Tokenizovaný vstup do systému překladu SGML značkou <s> jsou označeny hranice vět, <f> označuje slova, <d> interpunkci, a <D> je značka pro nepřítomnost mezery. 25 JAN HAJIČ Po tokenizaci se text zpracuje morfologickou analýzou a značkovačem (taggerem) (viz sekce 2). Na výstupu bude u každého slova uvedeno lemma a tag po zjednoznačnění (jen připomínáme, že zjednoznačnění probíhá na základě kontextu, a to kontextu v české větě). Tato část systému je posledním krokem ve zjednodušeném systému překladu, neboť další analýza (syntaktická) již v systému není. Je tedy možné říci, že morfologické zjednoznačnění je jádrem lingvistické analýzy celého systému překladu. Tato fáze je zároveň zcela nezbytná, neboť i když čeština a slovenština mají prakticky shodnou syntax, liší se výrazně právě ve slovníku a morfologii (v paradigmatech), a ve z toho vyplývajících typech homonymie. Např. české slovo zobrazení z výše uvedené věty může být použito ve 12 různých morfologických interpretacích, řada z nich pak má různý slovenský překlad: zobrazení, zobrazenia, zobrazenie, zobrazeniu atd. Překlad „(slovní) tvar za tvar“ tedy evidentně není možný (i kdybychom vyřešili technické obtíže s milióny slovních tvarů, které by musely být ve slovníku takového systému). Příklad: Výsledek po morfologické analýze a jejím zjednoznačnění je na obr. 8. <f>Transakce<MDl>transakce<MDt>NNFS1-----A---<f>slouží<MDl>sloužit<MDt>VB-S---3P-AA--<f>k<MDl>k-1<MDt>RR--3---------<f>zobrazení<MDl>zobrazení<MDt>NNNS3-----A---<f>zamčených<MDl>zamčený<MDt>AAIP2----1A------1A---<f>záznamů<MDl>záznam<MDt>NNIP2-----A---<f>v<MDl>v-1<MDt>RR--6----------<D> <f>databázi<MDl>databáze<MDt>NNFS6-----A---<D> <d>.<MDl>.<MDt>Z:------------- Obr. 8: Zjednoznačněný výsledek morfologické analýzy SGML značky <MDl> slouží k označení lematu, <MDt> uvádí morfologickou značku. Slovo zobrazení se zde tedy jednoznačně určilo (velmi pravděpodobně díky předcházející předložce k, která vyžaduje třetí pád) jako neutrum v dativu; jeho určení jako singuláru pak plyne spíše z faktu, že v obdobných konstrukcích se používá spíše singulár (kontext nic takového nevyžaduje). 26 STATISTICKÉ MODELOVÁNÍ A AUTOMATICKÁ ANALÝZA PŘIROZENÉHO JAZYKA (MORFOLOGIE, SYNTAX, PŘEKLAD) Věta je nyní připravena pro vlastní překlad, který nazýváme tradičně transferem. 4.4 Transfer Ve fázi transferu se nahradí česká lemata slovenskými a značky se rovněž „přeloží“ do zobecněné formy, vyhovující slovenskému systému morfologických značek. V této fázi tedy teprve do hry vstupuje slovenština (dosud se systém zabýval pouze zpracováním češtiny jako zdrojového jazyka). Podobně teprve zde by se zapojila např. polština, pokud bychom chtěli překládat právě do ní. Překlad značek lze zařídit poměrně snadno. Překlad je řízen tabulkou, ve které je ke každé české morfologické značce přiřazena jedna nebo více zobecněných slovenských morfologických značek, v prioritním pořadí. Zobecněnou morfologickou značkou se myslí morfologická značka, která není plně specifikována. Modul generování (viz dále sekce 4.5) je přizpůsoben tak, že za nespecifikovanou hodnotu určité morfologické kategorie (např. rodu) dosadí všechny možnosti, které přicházejí pro dané slovo v úvahu. (V případě více možností vybere první, která zpracováním projde.) V námi používaném pozičním systému se pro nespecifikovanou hodnotu používá znak tečka (‚.‘). Tedy například morfologická značka pro třetí pád (dativ) jednotného čísla (sg.) obyčejných substantiv s nespecifikovaným rodem vypadá takto: NN.S3-----A---- Prioritní seznam cílových morfologických značek pak ve spolupráci s modulem generování zajistí, že na výstupu se objeví první vytvořený slovní tvar (za použití morfologické značky s nejvyšší prioritou). Tím se ošetřují jednotně jak případy změny rodu u substantiv, tak i případy, kdy rod je nejednoznačný a je třeba dát přednost rodu použitému v češtině. Příkladem takového seznamu je např. posloupnost dvou značek: NNNS3-----A---- NN.S3-----A---- která říká, že nejprve je třeba zkusit rod střední, ale pokud taková značka s daným lematem nic nevygeneruje, má se použít libovolný rod. Prioritní systém spolu s ideou zobecněných morfologických značek umožňuje elegantně a bez dalších zásahů do slovníku řešit i případy, kdy některé gramatické charakteristiky slovenštiny neodpovídají češtině. 27 JAN HAJIČ Vlastní slovník (tj. překladový slovník lemat) je vytvořen tak, že může zpracovávat i víceslovnou terminologii. Pomocí pravidla „delší vyhraje“ pak umožňuje řešit i nejednoznačné případy, kdy ve slovníku je zvlášť uveden jak několikaslovný termín, tak i jeho počátek. Terminologický slovník však znamená jednu nevyhnutelnou komplikaci: ve flektívních jazycích může být část termínu skloňovaná spolu s řídícím slovem termínu, ale část může být fixní a tedy i ve slovníku uvedená v příslušném pádě (nebo i čísle). Při analýze češtiny však ještě nevíme, a ani nemůžeme vědět, zda určité slovo je součástí nějakého termínu nebo ne, a proto všechna slova jsou lematizována jednotlivě. Potřebujeme proto, aby slovník obsahoval ve formě lemat i ty části termínů, které nepodléhají ohýbání. Například termín daň z příjmů je třeba ve slovníku uvést jako daň z příjem, jinak by se v textu nemohlo najít poslední slovo termínu (příjmů). Abychom vyloučili pracné ruční zpracování slovníku, používáme naprosto stejný morfologický analyzátor a značkovač i pro předzpracování slovníku, a to na obou jeho stranách (české i slovenské). Tím je zaručena naprostá shoda lemat s morfologickými moduly, a to i tehdy, jestliže lemata obsahují nějakou vnější identifikaci, jako např. číslo významu (viz k-1, k jako předložka). Transfer tedy vydá posloupnost slovenských lemat s morfologickými značkami; v této posloupnosti už česká slova ani značky nemusí být (obr. 9). <Gil>transakcia<Git>NNFS1-----A----<Git>NN.S1-----A---<Gil>slúžiť<Git>VB-S---3P-AA--<Gil>k-1<Git>RR--3---------<Gil>zobrazenie<Git>NNNS3-----A----<Git>NN.S3-----A---<Gil>zamknutý<Git>AAIP2----1A---<Gil>záznam<Git>NNIP2-----A----<Git>NN.P2-----A---<Gil>v-1<Git>RR--6---------<Gil>databáza<Git>NNFS6-----A----<Git>NN.S6-----A---<D> <Gil>.<Git>Z:------------- Obr. 9: Výsledek transferu (vlastního překladu lemat a morf. značek) SGML značky <Gil> označují slovenské lema, <Git> pak každou slovenskou morfologickou značku, a to jak v případě, že je uvedena značka jediná, tak i v prioritním seznamu. 28 STATISTICKÉ MODELOVÁNÍ A AUTOMATICKÁ ANALÝZA PŘIROZENÉHO JAZYKA (MORFOLOGIE, SYNTAX, PŘEKLAD) 4.5 Syntéza (Generování) Vzhledem k tomu, že na české straně je analýza ukončena po morfologické analýze a značkování, je i syntéza na slovenské straně výlučně morfologickou (a formátovací) záležitostí. Morfologický generátor (program, jehož funkce je inverzní k funkci morfologického analyzátoru) pak z každého lematu a prioritního seznamu zobecněných značek vytvoří posloupnost slovenských slov v odpovídajících formách. Morfologický generátor slovenštiny používá stejná data jako morfologický analyzátor slovenštiny použitý pro předzpracování slovníku pro transfer (viz sekce 4.4), automaticky zkonvertovaný pro efektivní vyhledávání mezi kmeny, vzory a koncovkami pro účely morfologické syntézy. V našem příkladu je tedy výsledkem věta na obr. 10. <Gef>transakcia <Gef>slúži <Gef>k <Gef>zobrazeniu <Gef>zamknutých <Gef>záznamov <Gef>v <Gef>databáze <D> <Gef>. Obr. 10: Výsledek překladu do slovenštiny Po závěrečném formátování pak dostaneme konečný výsledek Transakcia slúži k zobrazeniu zamknutých záznamov v databáze. 4.6 Použití v praktických systémech Strojový překlad sám o sobě nemá valnou praktickou hodnotu, není-li použit ve vhodně koncipovaném softwarovém systému, ať už pro malé „domácí“ nebo on-line použití, nebo pro profesionální překlad ve velkém. 4.6.1 Systémy s překladovou pamětí 29 JAN HAJIČ Nejefektivnější systémy pro profesionální strojový překlad jsou založeny na využití tzv. překladových pamětí. Překladová paměť si pamatuje veškerý již jednou přeložený text (ukládá si vždy dvojici zdrojová věta → její překlad) a při překladu dalšího, nového textu je schopna porovnat nově překládanou větu s touto pamětí, a nabídnout překladateli překlad, který je u příslušné zdrojové věty uložen. Přitom tyto věty nemusí být zcela identické, mohou se lišit v jednom nebo několika slovech, v číselné hodnotě, interpunkci apod. Efektivnost systémů strojového překladu založených na překladových pamětech pak plyne z faktu, že většina „průmyslově“ prováděných překladů se týká jen málo změněných verzí toho, co již jednou bylo přeloženo (např. příručka k textovému editoru se jistě změní od verze k verzi jen málo, zvlášť při vysoké frekvenci „upgradů“ takových softwarových produktů). Do tohoto systému je velmi jednoduché zapojit strojový překlad tak, že vytvoříme „překladovou paměť“ a naplníme ji všemi překládanými větami spolu se strojově vytvořeným překladem. Překladatel pak ke každé jím překládané větě dostane pro něj obvyklým způsobem návrh překladu, jako kdyby daná věta byla již někým v minulosti přeložena. Je samozřejmé, že překladatel musí být varován, že se jedná o strojový překlad, a ne o překlad „lidský“. Navíc je třeba zajistit (technickými prostředky), aby tatáž věta, byla-li dříve již přeložena člověkem, dostala při výběru z překladové paměti přednost před větou přeloženou strojově. 4.6.2 Vícejazyčný překlad Jednoduchý, rychlý a relativně kvalitní překlad mezi blízkými jazyky pomocí popsané metody vede i k návrhu organizace překladu v případech, kdy z textu v jednom jazyce je třeba vytvořit překlad v mnoha dalších jazycích. To je případ návodů k domácím spotřebičům, příruček k softwarovým systémům, a vůbec všech příruček, které doprovázejí výrobky nebo služby exportované do mnoha různých jazykových oblastí. Základní schéma je na obr. 11. Z původního jazyka se text přeloží ve vysoké kvalitě (tj. profesionálními překladateli) jen do několika „centrálních“ jazyků („bridge languages“), a z těch se při překladu do jazyků jim blízkých použije automatický překlad (jen s manuální postredakcí). 30 STATISTICKÉ MODELOVÁNÍ A AUTOMATICKÁ ANALÝZA PŘIROZENÉHO JAZYKA (MORFOLOGIE, SYNTAX, PŘEKLAD) Obr. 11: Využití „centrálního“ jazyka při vícejazyčném překladu 4.7 Výsledky experimentů s překladem do slovenštiny a polštiny, další výhled Experimenty s úplným systémem překladu z češtiny do slovenštiny jsme prováděli s technickými příručkami pro použití databázového software. Úspěšnost jsme měřili s použitím software pro podporu překladu TRADOS, resp. jeho části, která počítá tzv. „match“ (souhlas) mezi ručně „dopřeloženou větou“ a její předchozí variantou (v našem příkladě touž větou přeloženou automaticky). Systém evaluace systému TRADOS je velmi přísný, neboť evaluační systém se v tomto systému používá k určení obtížnosti překladu (obecně platí, že překladatelské firmy účtují podstatně více, je-li shoda s předcházející verzí (tj. v našem případě s výsledkem automatického překladu) menší než 90 %). Shoda se počítá na základě modifikované Loewensteinovy vzdálenosti (zhruba řečeno, jde o počet editačních zásahů, které je nutno udělat, aby věta byla v „definitivně správné“ podobě). Pro slovenštinu jsme tohoto cíle dosáhli (shoda se pohybovala těsně nad hranicí 90 %, pro polštinu jsme však zůstávali na úrovni 75 % (na tomtéž textu). Texty použité pro testování byly texty, z nichž byl částečně zapracován slovník, ale např. česká morfologická analýza a český značkovač (coby jádro systému) pracovaly na nich nezávisle, tj. testy byly dostatečně realistické a „férové“. Předpokládáme, že systém budeme dále vyvíjet (zejména systém překladu do slovenštiny) jak zvětšováním slovníku, tak i zlepšováním českého značkovače (a morfologie, pochopitelně). Polský systém bude nutno zdokonalit podstatněji, zejména s ohledem na jisté rozdíly v syntaxi – zdá se, že alespoň základní analýza jmenných frází bude nutná pro podstatnější zlepšení. Pak by ovšem bylo možno uvažovat i o ruštině, ukrajinštině a dalších jazycích podobně „vzdálených“ od češtiny. 5. Závěr V tomto příspěvku jsme se snažili popsat metody počítačového zpracování dvou klíčových rovin (morfologie a syntaxe) přirozeného jazyka, a také přiblížit možnou aplikaci těchto metod na reálný problém. Ukazuje se, že ač v některých aplikacích je možné použít i analýzu jen částečnou (a to nemluvíme o takových 31 JAN HAJIČ z jazykového hlediska velmi jednoduchých aplikacích, jako je vyhledávání nebo extrakce informací z textu), je jasné, že úplné porozumění vyžaduje analýzu jazyka dost hlubokou. Právě pro tyto účely budujeme jazykové zdroje, jako jsou morfologicky a důkladně syntakticky anotované texty. Podrobnější informace o budování anotovaných korpusů je možno nalézt na webových stránkách Ústavu aplikované a komputační lingvistiky a Centra komputační lingvistiky na MFFUK v Praze (http://ufal.mff.cuni.cz a http://ckl. mff.cuni.cz). Pro hlubší studium statistických a pravděpodobnostních metod v lingvistice, které jsou s danou problematikou úzce svázány, lze doporučit zejména publikace Manning a Schuetze (2001), Jurafsky a Martin (2000), Charniak (1998) a Jelinek (1998). Kompletní materiály k vlastnímu studiu této problematiky jsou umístěny na volně dostupné adrese http://ufal.mff.cuni.cz/ ~hajic/courses/pfl043/0102/syllabus.html. Téměř kompletní bibliografie jak k problematice tvorby anotovaných korpusů, tak jejich zpracování a využití, je pak na již zmíněném CD „Prague Dependency Treebank 1.0“ (Hajič et al. 2001b), ve většině případů s plnými texty článků, příruček a manuálů (a samozřejmě i s kompletními českými korpusy!); kopii dokumentace k tomuto CD je pak možné nalézt i na webu na http://ufal.mff.cuni.cz/pdt. Literatura COLLINS, Michael. 1997. Three Generative, Lexicalised Models for Statistical Parsing. In: Proceedings of the 35th ACL/EACL. Madrid, s. 16-23. COLLINS, Michael – HAJIČ, Jan – BRILL, Eric – RAMSHAW, Lance – TILLMANN, Christopher. 1998. A Statistical Parser for Czech. In: Proceedings of the 37th ACL. College Park, MD, USA, s. 505 – 512. ČERMÁK, František. 2001. Český národní korpus. In: Alexandra Jarošová (ed.). Slovenčina a čeština v počítačovom spracovaní. Bratislava: Veda, s.168. HAJIČ, Jan. 1998. Building a Syntactically Annotated Corpus: The Prague Dependency Treebank. In: Eva Hajičová (ed.): Issues of Valency and Meaning. Studies in Honor of Jarmila Panevová. Praha: Karolinum, Charles University Press, s. 12 – 19. HAJIČ, Jan. 2001. Disambiguation of Rich Inflection (Computational Morphology of Czech). Praha: Karolinum, Charles University Press. HAJIČ, Jan – ROSEN, Alexandr – SKOUMALOVÁ, Hana. 1987. RUSLAN – systém strojového překladu z češtiny do ruštiny. Výzkumná zpráva. Praha: Výzkumný ústav matematických strojů. HAJIČ, Jan – PANEVOVÁ, Jarmila – BURÁŇOVÁ, Eva – UREŠOVÁ, Zdeňka – BÉMOVÁ, Alla- ŠTĚPÁNEK, Jan – PAJAS, Petr – KÁRNÍK, Jiří. 1997. Anotace na analytické rovině (manuál pro anotátory). Technická zpráva TR-1997-03. Praha: ÚFAL MFF UK. 32 STATISTICKÉ MODELOVÁNÍ A AUTOMATICKÁ ANALÝZA PŘIROZENÉHO JAZYKA (MORFOLOGIE, SYNTAX, PŘEKLAD) HAJIČ, Jan – BRILL, Eric – COLLINS, Michael – HLADKÁ, Barbora – JONES, Douglas – KUO, Cynthia – RAMSHAW, Lance – SCHWARTZ, Oren – TILLMANN, Christopher – ZEMAN, Daniel. 1998. Core Natural Language Processing Technology Applicable to Multiple Languages. Research Note 37. Center for Language and Speech Processing, Johns Hopkins University, Baltimore, MD, USA. http://www.clsp.jhu.edu. HAJIČ, Jan – HRIC, Jan – KUBOŇ, Vladislav. 2000. Česílko: Machine Translation Between Closely Related Languages. In: Proceedings of the 6th Applied NLP, Seattle, WA, USA. ACL / MIT Press, s. 7 – 12. HAJIČ, Jan – KRBEC, Pavel – KVĚTOŇ, Pavel – OLIVA, Karel – PETKEVIČ, Vladimir. 2001a. Serial Combination of Rules and Statistics: A Case Study in Czech Tagging. In: Proceedings of ACL'01, Toulouse, France, s. 160 – 167. HAJIČ, Jan – HAJIČOVÁ, Eva – PAJAS, Petr – PANEVOVÁ, Jarmila – SGALL, Petr – VIDOVÁ HLADKÁ, Barbora. 2001b. The Prague Dependency Treebank 1.0. CDROM. Philadelphia: Linguistic Data Consortium LDC2001T10. ISBN 1-58563-212-0. HAJIČOVÁ, Eva – PANEVOVÁ, Jarmila – SGALL, Petr. 2000. Anotace na tektogramatické rovině (manuál pro anotátory). Technická zpráva TR-2000-09. Praha: ÚFAL MFF UK. HLADKÁ, Barbora. 2000. Czech Language Tagging. PhD thesis, Praha: ÚFAL MFF UK. CHARNIAK, Eugene. 1996. Statistical Language Learning. Cambridge: The MIT Press. CHURCH, Kenneth. 1992. Current Practice in Part of Speech Tagging and Suggestions for the Future. In: Simmons (ed.), Studies in Slavic Philology and Computational Linguistics: In Honour of Henry Kučera. Michigan Slavic Publications, s. 13 – 48. CHYTIL, Michal. 1984. Automaty a gramatiky. Praha: SNTL. Matematický seminář, roč. 19. JELINEK, Frederick. 1998. Statistical Methods for Speech Recognition. Cambridge: The MIT Press. JURAFSKY, Daniel – MARTIN, James. 2000. Speech and Language Processing. PrenticeHall. KOSKENNIEMI, Kimmo. 1983. Two-level morphology. PhD thesis. Technical reports No. 11. Helsinki: Dept. of Linguistics, University of Helsinki. MANNING, Christopher – SCHUETZE, Heinrich. 1999. Foundations of Statistical Natural Language Processing. Cambridge: The MIT Press. MARCUS, Mitch – SANTORINI, Beatrice – Marcinkiewicz M. 1993. Building a Large Annotated Corpus of English: the Penn Treebank. Computational Linguistics, 19 (2), s. 313 – 330. MÍROVSKÝ, Jiří. 1999. Morfologické značkování textu: automatická disambiguace. Mgr. Thesis. Praha: MFF UK. MOHRI, Mehryar – RILEY, Michael – PEREIRA, Fernando C. N. 1998. A Rational Design for a Weighted Finite-State Transducer Library. Lecture Notes in Computer Science 1436. Berlin: Springer Verlag. PETKEVIČ, Vladimír. 1995. A New Formal Specification of Underlying Representations. In: Theoretical Linguistics, Vol. 21. s. 7 – 61 SGALL, Petr – HAJIČOVÁ, Eva – PANEVOVÁ, Jarmila. 1986. The Meaning of the Sentence and Its Semantic and Pragmatic Aspects. Prague/Netherlands: Academia/Reidel Publishing Company. SKOUMALOVÁ, Hana. 1997. Czech lexicon by two-level morphology. In:R. Marcinkevičiene – N. Volz (eds.), Proceeedings of the 2nd European Seminar of TELRI -- Language Applications for a Multilingual Europe. Mannheim/Kaunas: IDS/VSU. s. 123 – 145. 33 JAN HAJIČ 34 IDENTIFIKÁCIA PARADIGMATICKÝCH A SYNTAGMATICKÝCH VZŤAHOV V TEXTE Karol Furdík: Juvier, s.r.o., Košice Abstract: Paper describes the algorithm of inductive incremental learning for identification and representation of paradigmatic and syntagmatic relationships in written texts. Probabilistic methods are used for determination of structural similarities on morphological, syntactical, and semantic level. 1. Problematika analýzy textu Analýza textu, čiže identifikácia jazykových jednotiek (znakov) a vzťahov medzi nimi, je kľúčovým problémom azda všetkých súčasných systémov na spracovanie prirodzeného jazyka. Dôvodov, prečo sa tento problém stále vymyká úspešnému a vyčerpávajúcemu riešeniu, je niekoľko. Predovšetkým je to zložitosť samotného jazyka: „Jazyk je nesporně nejsložitější a nejbohatší známý systém (mimo přírodní vědy) mající mnoho stránek, a tedy i možností přístupu k jeho chápání, popisu, popř. i třídění; v důsledku toho je právě komplexní pohled na něj, jakkoliv žádoucí, také neobyčejně obtížný.“ (Čermák 1994, s. 13). Alebo, formálnejšie, prirodzený jazyk v celej svojej šírke nemôže byť generovaný menej výkonnou gramatikou, ako je gramatika typu 0 (všeobecná) podľa delenia N. Chomského (Csontó – Sabol 1991, s. 42). Dôsledkom toho je, že prirodzený jazyk môže byť bez dodatočných ohraničení akceptovaný iba programom s výkonnosťou Turingovho stroja, čo znamená, že takýto program si bude vyžadovať neobmedzený prístup k dynamickej pamäti. Druhým dôvodom, pre ktorý analýza textu v prirodzenom jazyku naďalej ostáva výzvou, je tesná prepojenosť jazyka a myslenia. Pri pokuse analyzovať text ako jazykový prejav nie je dosť dobre možné oddeliť to, ako jazyk funguje (v zmysle formálneho systému), od toho, o čom vypovedá (v rovine sémantickej a pragmatickej, v rovine vedomostí a ich reprezentácie, v konečnom dôsledku v rovine vedomia a myslenia). Vzájomná podmienenosť jazyka a myslenia naznačuje, že tieto dva fenomény nemožno skúmať oddelene, že ide skôr o dve strany jednej mince (dôkazom toho môže byť aj tzv. Linguistic Turn, posledný veľký obrat vo filozofii – pozri napr. v Michalovič – Minár (1997, s. 12). Sú35 KAROL FURDÍK vislosť je vari až taká, že vyriešenie problému analýzy jazyka predpokladá objavenie mechanizmov a prípadnú formalizáciu myslenia (a vice versa). Posledným, možno trochu diskutabilným dôvodom, avšak rozhodne so silným vplyvom na skúmanie analýzy jazykového prejavu, je metodológia. Donedávna sa prakticky všetky prístupy k skúmaniu jazyka vyznačovali snahou o explicitný popis jednotiek, z ktorých jazykový systém pozostáva, vrátane vzťahov, pravidiel, zásad a noriem ich vzájomného kombinovania. Tento prístup predpokladá, že existuje všeobecný, spoločný, a relatívne stály abstraktný systém jazyka – langue (Čermák 1994, s. 18). Percepcia jazyka sa v takomto prípade dá modelovať ako „postupná identifikace povrchových (vnějškových) struktur slyšené / čtené promluvy srovnáváním se známým, t. j. jednotkami a pravidly v langue“ (tamže, s. 19). Hrubá schéma systému analyzujúceho text na základe porovnávania s vopred známou a nemennou štruktúrou langue je na obrázku 1. Problémom tohto prístupu však je otázka, či je vôbec možné vyčerpávajúco explicitne a formálne vyjadriť všetky jednotky a pravidlá v langue tak, aby sa analyzovaný text (resp. jazykový prejav) dal s nimi porovnávať. Zrejme to možné nie je, pretože, ako bolo spomenuté vyššie, takýto formalizmus by musel byť vyjadrený gramatikou typu 0 a zodpovedajúci porovnávací mechanizmus by musel dosahovať potenciálne nekonečnú zložitosť a výkonnosť Turingovho stroja. Vstupný text Porovnávací modul Výstup (parole) Identifikácia Znalostná báza (Explicitné jednotky a pravidlá langue) Obrázok 1. Známa a nemenná štruktúra langue. 2. Intencionalita, inkrementálne učenie Aký prístup k analýze textu teda zvoliť, aby sa prekonali naznačené problémy? Musí to byť prístup, ktorý je dynamický, ktorý sa blíži k predpokladaným modelom myslenia, a ktorého formalizmus sa výkonnosťou blíži k výkonnosti Turingovho stroja. Jedným z možných riešení je napríklad subjektivizá36 IDENTIFIKÁCIA PARADIGMATICKÝCH A SYNTAGMATICKÝCH VZŤAHOV V TEXTE cia jazykovej percepcie (Furdík 1999, s. 276). Do popredia tu vystupuje mentálna (kognitívna) funkcia jazyka, zameraná najmä na predikciu budúcich interakcií subjektu s prostredím na základe vedomých subjektívnych skúseností. Komunikačná funkcia jazyka, všeobecne považovaná za základnú a dominantnú funkciu langue (Michalovič – Minár 1997, s. 19), sa pri subjektívnom prístupe stáva sekundárnou. Langue (ako abstraktný systém, model jazyka) vzniká a modifikuje sa pre každý subjekt zvlášť, a to na základe vstupov (zmyslovo vnímaných ako parole) v interakcii s okamžitým stavom tohto „subjektívneho langue“ (azda presnejší je v tomto prípade Chomského termín competence, čiže „systém pravidel k produkování promluv a jejich rozumění, pojatý jako znalost mluvčích; odpovídá langue“ (Čermák 1994, s. 62, 208)). Subjektivizácia však sama osebe nie je dostatočná na konštrukciu systému schopného vnímať jazyk a analyzovať text. Naopak, je iba nevyhnutným predpokladom cieľavedomého budovania štruktúry vedomých subjektívnych skúseností, ktoré sa zvykne označovať ako intencionalita. Ako uvádza van Gulick (1992, s. 86), zhŕňajúc tvrdenia Searla a Nagela: „Schopnosť mať vedomé subjektívne skúsenosti je nevyhnutnou podmienkou akýchkoľvek stavov s vlastným intencionálnym obsahom.“ Intencionalita v tomto zmysle nie je samoúčelná, jej cieľom je už spomínaná predikcia možných budúcich stavov prostredia na základe už rozpoznaných stavov a ich porovnávania s okamžitými vnemami – subjekt si vytvára vnútorný model prostredia, konfrontuje ho so svojimi vstupmi, a pokúša sa jednak interpretovať aktuálne vstupy na základe existujúceho modelu prostredia, a jednak meniť tento vnútorný model tak, aby čo najviac zodpovedal vnímanému prostrediu. Tento proces „vedomej“ zmeny vnútornej reprezentácie (samočinnej optimalizácie), ktorý je cieľovo zameraný na predikciu možných a pravdepodobných budúcich stavov prostredia ako dôsledku „zmyslových“ vnemov (ukážkových príkladov), sa nazýva učenie (Furdík 1999, s. 277, pozri aj Csontó – Sabol 1991, s. 83). Realizovaný jazykový prejav (parole, resp. text), ktorý je vstupom pre subjektívny intencionálny systém, sa vyznačuje vlastnosťou sekvenčnosti – jednotlivé jazykové znaky sú zoradené a následne aj rozpoznávané sekvenčne, za sebou, pričom ich poradie je relevantným štruktúrotvorným prvkom. Sekvenčný prísun vstupnej informácie spolu s obmedzením pamäti systému implikuje inkrementálnosť učenia – učenie nie je jednorázový akt, ale skôr proces „permanentného doučovania“. Samozrejme, množina vstupných príkladov nemôže byť nikdy úplná – systém musí mať schopnosť učiť sa induktívne, t. j. zovšeobecňovať. Pre takýto charakter vstupných príkladov sa dá použiť induktívne 37 KAROL FURDÍK inkrementálne učenie (Csontó – Sabol 1991, s. 83), ktoré môže byť buď kontrolované, alebo nekontrolované. Pri nekontrolovanom učení (bez učiteľa) systém odvodzuje informáciu o správnosti svojho rozhodnutia pomocou spätnej väzby; pri kontrolovanom učení (s učiteľom) je informácia o rozhodnutí a jeho správnosti priamo súčasťou vstupu (pozri schému na obrázku 2). Vstupný text Výstup Porovnávací modul (parole) Identifikácia Adaptabilná znalostná báza (Subjektívny abstraktný model jazyka) Spätná väzba systému Modifikácia znalostnej bázy Zásah učiteľa Obrázok 2. Analyzátor textu ako učiaci sa systém. 3. Algoritmus inkrementálneho učenia Ďalšou úlohou je špecifikovať vlastný algoritmus induktívneho inkrementálneho učenia. Je potrebné nájsť a identifikovať také javy v analyzovanom texte, ktoré dovoľujú inkrementálne vytvárať subjektívny abstraktný model jazyka vo vnútri systému. Vstupný text v prirodzenom jazyku je realizáciou predpokladanej všeobecnej abstraktnej štruktúry langue. Preto jazykové jednotky v ňom sú dozaista vzájomne prepojené syntagmatickými a paradigmatickými vzťahmi. Tieto vzťahy možno považovať za vzájomne komplementárne, pričom syntagmatické vzťahy majú v zásade lineárnu povahu, kým paradigmatické zasa povahu asociačnú. Existencia oboch týchto vzťahov je však spôsobená tým istým princípom, ktorý je vlastný jazykovému znaku – princípom différence. Odlišnosť, diferencia voči iným znakom systému je práve to, čo znak tvorí, čo určuje jeho miesto v systéme. Prípadne, ak je to z praktických dôvodov výhodnejšie, dá sa vzťah rozdielnosti dvoch objektov jednoduchou inverziou zmeniť na vzťah vzájomnej podobnosti (porov. Michalovič – Minár 1997, s. 35, 36). Algoritmus učiaceho sa systému na analýzu textov by mal byť schopný abstrahovať, identifikovať, a následne explicitne vyjadriť vzájomné podobnosti jazykových jednotiek. Explicitná reprezentácia identifikovaných podobností je abstrakciou spoločných čŕt jazykových jednotiek, ktoré spôsobili jej vznik. 38 IDENTIFIKÁCIA PARADIGMATICKÝCH A SYNTAGMATICKÝCH VZŤAHOV V TEXTE Naviac, ak sa zvolí vhodný formálny jazyk na vyjadrenie explicitných reprezentácií podobností, je možné postulovať, že získané explicitné relácie sú meta-jazykovými znakmi. Dajú sa vzájomne porovnávať, dá sa vyjadriť ich vzájomná podobnosť, čím môžu vzniknúť ďalšie meta-meta-jazykové znaky. Vzniká tým štruktúra, zodpovedajúca subjektívnemu abstraktnému modelu jazyka – „subjektívnemu langue“. V ďalšom sa pokúsime presnejšie popísať jednotlivé moduly a kroky navrhovaného algoritmu, ktorého schéma je zobrazená na obrázku 3. Vstup Text, reťazec znakov Predspracovanie vstupn ého reťazca Sekvencia elementárnych jazykových jednotiek Adaptabilná znalostná báza (Subjektívny abstraktný model jazyka) Štruktúra tried podobností jazykových jednotiek: morfologický modul • syntaktický modul • sémantický modul • Výstup Porovnávací modul Spätná väzba systému Identifikácia Zásah učiteľa Zásahy na zmenu štruktúry znalostnej bázy Vznik novej triedy Zánik existujúcej triedy Zmena pravdepod. váh Obrázok 3. Schéma algoritmu inkrementálneho učenia. 3.1 Predspracovanie vstupu Vstupný analyzovaný text je pre počítačový systém sekvenciou, reťazcom znakov. Úlohou modulu predspracovania vstupu je rozdeliť vstupný reťazec na postupnosť jazykových jednotiek, t. j. rozpoznať jednotlivé jazykové jednotky v tomto reťazci. Avšak identifikácia takých jazykových jednotiek, ako sú slová, frazémy, vety a pod., je v učiacom sa systéme možná iba na základe konzultácie so znalostnou bázou, teda s aktuálnym subjektívnym modelom jazyka. Inými slovami, systém sa musí najprv naučiť, čo je slovo, veta, frazéma a podobne, a až potom je schopný tieto jednotky vo vstupnom reťazci identifikovať. Tento „dôsledný“ prístup však nie je veľmi výhodný, pretože na začiatku predpokladáme prázdnu znalostnú bázu. V takomto prípade by systém nemal žiadne „vedomosti“ o tom, čo považovať za jazykovú jednotku, a je otázkou, či a za aký dlhý čas by tieto vedomosti získal. 39 KAROL FURDÍK Tu je zrejme vhodné spomenúť miesto a vplyv apriórnych vedomostí na činnosť učiaceho sa systému. Apriórne vedomosti sú také fakty, ktoré systém nezíska sám v procese učenia, ale ktoré dodáme systému zvonka (kontrolované učenie, pozri vyššie). Potom platí, že sa zrejme (ak sú učiteľom dodané fakty „správne“, t. j. ak sa potvrdia v budúcich vstupoch) zvýši efektívnosť a rýchlosť systému, skráti sa čas prehľadávania znalostnej bázy. Na druhej strane však klesne univerzálnosť, systém sa bude snažiť aplikovať dodané fakty namiesto toho, aby sa pokúšal prispôsobovať svoju znalostnú bázu aktuálnemu vstupu vytváraním „svojich“ znalostí v procese učenia sa.1 Tento princíp, ktorý nazveme ako princíp apriórnych vedomostí, platí aj pri ďalších etápách algoritmu všade tam, kde sa uplatňuje inkrementálne učenie. Zrejme je potrebné modul predspracovania vstupu vybaviť istými apriórnymi vedomosťami o tom, čo je tzv. elementárny jazykový znak. Modul potom bude schopný transformovať vstupný reťazec na sekvenciu takýchto elementárnych jazykových znakov, ktoré sa v ďalších etapách algoritmu budú môcť spájať do vyšších štruktúr. Rozdelíme všetky znaky, ktoré sa môžu vyskytovať vo vstupnom reťazci, do nasledujúcich kategórií: a) alfanumerické znaky (pre slovenskú abecedu sú to znaky a – ž, A - Ž) , b) prázdne znaky (Space, Tab, EndOfLine, EndOfFile, ...), c) špeciálne znaky (ostatné, t. j. 0 – 9, _, ?, „, :, ...). Potom elementárnym jazykovým znakom bude každý reťazec: a) zložený iba z alfanumerických znakov alebo b) tvorený jedným špeciálnym znakom. Na identifikáciu elementárneho jazykového znaku sa dajú použiť aj iné metodiky, iné rozdelenia do kategórií, napríklad špeciálne kategórie pre číselné reťazce, pre dátum, čas a podobne. Dá sa dokonca postulovať, že elementárnym jazykovým znakom je každý jednotlivý znak zo vstupu. Pri každom z týchto delení však platí princíp apriórnych vedomostí, teda čím „presnejšie“ určíme, čo je elementárny jazykový znak, tým menej flexibilný bude systém. 3.2 Morfologické štruktúry 1 Určitým kompromisom môže byť kontrolované učenie s nedokonalým učiteľom (Csontó – Sabol 1991, s. 83), pri ktorom fakty dodané zvonka nemajú absolútnu platnosť, ale sú ohodnotené istou pravdivostnou (alebo pravdepodobnostnou) váhou. Ak sa zmení charakter vstupu, systém môže po istom čase takéto fakty „zabudnúť“, čím sa adaptuje na novú situáciu. 40 IDENTIFIKÁCIA PARADIGMATICKÝCH A SYNTAGMATICKÝCH VZŤAHOV V TEXTE Úlohou modulu morfológie je zoskupovať rozpoznané jazykové jednotky do tried podľa podobnosti ich formálnej reprezentácie. Týmto procesom vzniká abstraktná štruktúra popisujúca paradigmatické vzťahy jazykových jednotiek. Paradigmatický vzťah morfologickej úrovne asociuje jazykové jednotky na základe ich tvarovej, formálnej podobnosti. Z dvoch alebo viacerých jazykových jednotiek vznikajú triedy (kategórie), ktoré abstrahujú spoločné formálne vlastnosti týchto jednotiek. Vzniknuté triedy však majú zároveň charakter (abstraktných) jazykových jednotiek, vyjadrujú, ktoré formálne vlastnosti sú pre systém v danom okamihu relevantné. Abstraktná jazyková jednotka má charakter triedy (kategórie) v tom zmysle, že vieme povedať, ktoré jazykové jednotky do tejto triedy patria (spĺňajú formálne vlastnosti vyjadrené abstraktnou jazykovou jednotkou), a ktoré do triedy nepatria. Zároveň má abstraktná jazyková jednotka charakter atribútu pre tie jazykové jednotky, ktoré spĺňajú formálne vlastnosti abstraktnou jednotkou vyjadrené (Furdík 1999, s. 280). Dvojica atribút – trieda je komplementárna, t. j. ak nejaká jednotka patrí do určitej abstraktnej triedy, zároveň má aj atribút (príznak, vlastnosť) príslušnosti k tejto triede. Relácia Patriť_do_triedy(Ji , Tx) vytvára štruktúru v priestore jazykových jednotiek. Triedy sa dajú explicitne vyjadriť napríklad pomocou vhodného formálneho jazyka. Formálny jazyk na explicitné vyjadrenie tried treba voliť tak, aby: a) jazykové jednotky a triedy boli vyjadrené kvalitatívne rovnakým spôsobom, aby sa dali vzájomne porovnávať, zoskupovať a triediť, b) triedy mohli byť použité ako klasifikačné pravidlá, t. j. aby bolo možné rozhodnúť, či ľubovoľná jazyková jednotka do danej triedy patrí alebo nie, c) triedy boli generické v tom zmysle, aby bolo možné z danej triedy rekonštruovať jazykové jednotky, ktoré spôsobili vznik tejto triedy. Samozrejme najdôležitejšou vlastnosťou formálnej reprezentácie abstraktných morfologických tried je schopnosť vyjadriť formálne, tvarové podobnosti (resp. rozdiely) jazykových jednotiek. Explicitné vyjadrenie triedy sa dá realizovať formálnym jazykom generovaným buď bezkontextovou, alebo kontextovou gramatikou. Bezkontextová gramatika má síce menšiu vyjadrovaciu schopnosť, môže sa stať, že isté morfologické podobnosti sa pomocou nej nedajú vyjadriť, je však jednoduchšia a rýchlejšia. Kontextová gramatika má kapacitu vyjadriť azda všetky relevantné morfologické podobnosti, je tu však reálne riziko veľkej, až exponenciálnej výpočtovej zložitosti. 41 KAROL FURDÍK V práci P. Kostelníka (2000, s. 33) bola navrhnutá a použitá metóda troch operátorov prepisu, zodpovedajúca zložitosti bezkontextovej gramatiky. Táto metóda vychádza z predpokladu, že pre každé dve rôzne jazykové jednotky existujú transformácie, pomocou ktorých možno prepísať jednu jednotku na druhú. Práve tieto transformácie sa definujú ako tzv. operátory prepisu. Rozlišujú sa tri typy týchto operátorov: 1. operátor doplnenia zľava OL; napríklad reťazec ník je operátorom doplnenia zľava pre jazykové jednotky podvod a podvodník: OL(podvod, podvodník)=ník. 2. operátor doplnenia sprava OP; napríklad reťazec ne je operátorom doplnenia sprava pre jazykové jednotky šťastie a nešťastie: OP(šťastie, nešťastie)=ne. 3. operátor zmeny OZ; napríklad dvojica reťazcov {imista, ímia} je operátorom zmeny pre jazykové jednotky alchimista a alchímia: OZ(alchimista, alchímia)= {imista, ímia}. Metóda sa aplikuje postupne na každú dvojicu elementárnych jazykových jednotiek identifikovaných na vstupe. Získava sa množina operátorov, ohodnotená pravdepodobnostnou váhou podľa toho, ako často sa ten-ktorý operátor uplatnil pri transformácii. Operátory, ktorých pravdepodobnostná hodnota presiahne určitý prah, vytvoria tzv. priestor typických reťazcov, ktoré zodpovedajú abstraktným morfologickým triedam. Táto metóda pracuje iteračne, využíva princíp inkrementálneho učenia. Modifikáciou metódy operátorov prepisu môže byť napríklad tzv. metóda podreťazcov. Okrem operátorov sa zo vstupných jazykových jednotiek získavajú aj kontextové vyjadrenia zhodných podreťazcov. Napríklad vstupné jednotky kniha a knihe generujú operátor zmeny {a, e}, a zároveň podreťazec knih*, kde znak ‘*’ označuje ľubovoľný podreťazec. Nasledujúci príklad ukazuje použitie tejto metódy na získanie štruktúry abstraktných morfologických tried: Nech vstupom sú nasledujúce elementárne jazykové jednotky: {kniha, knihe, knihou, mačka, mačke, mačkou} Potom aplikáciou metódy podreťazcov dostávame nasledujúce abstraktné morfologické triedy: {a, e}; {a, ou}; {e, ou}; {knih*}; {mačk*} Ďalej platí: {kniha} patrí do tried {a, e}, {a, ou}, a {knih*}, {knihe} patrí do tried {a, e}, {e, ou}, a {knih*}, 42 IDENTIFIKÁCIA PARADIGMATICKÝCH A SYNTAGMATICKÝCH VZŤAHOV V TEXTE {mačka} patrí do tried {a, e}, {a, ou}, a {mačk*}, {mačkou} patrí do tried {e, ou}, {a, ou}, a {mačk*} atď. Ďalej: do triedy {knih*} patria jednotky: {kniha}, {knihe}, {knihou}, do triedy {mačk*} patria jednotky: {mačka}, {mačke}, {mačkou} Je zrejmé, že obe triedy podreťazcov zodpovedajú štruktúre, ktorá sa zvykne označovať ako morfologické (resp. slovotvorné) hniezdo. Trieda podreťazcov obsahuje v tomto prípade niečo ako abstrahovaný koreň tých slov (jazykových jednotiek), ktoré túto triedu vytvorili. Teraz ak porovnáme operátory zmien členov oboch tried podreťazcov, zistíme, že sú rovnaké – tvoria ich operátory {a, e}; {a, ou}; {e, ou}. Tieto operátory možno považovať za abstraktné, pritom však explicitné, vyjadrenie skloňovacieho vzoru (resp. jeho časti). Samozrejme, v skutočnosti sa pomocou tejto metódy generuje aj množstvo chybných abstraktných tried. Tomuto javu sa nedá dosť dobre zabrániť, systém nevie sám rozhodnúť, ktorá trieda je generovaná správne, a ktorá chybne. Jednou z možností, ako sa dá eliminovať chybovosť, je zohľadnenie pravdepodobnosti výskytu jednotlivých abstraktných tried na základe ich rozpoznávania v sekvenčnom vstupnom texte (pozri Furdík 1999, Kostelník 2000). Abstraktné triedy sa generujú spolu s určitou počiatočnou hodnotou pravdepodobnosti P0. Formalizmus ich explicitného vyjadrenia dovoľuje testovať ďalšie jazykové jednotky na ich príslušnosť k tej-ktorej abstraktnej triede. Ak sa rozpozná taká jednotka, ktorá vyhovuje vyjadreniu triedy, zvýši sa pravdepodobnostná hodnota tejto triedy o prírastok ΔP. Napríklad, nech trieda {knih*} z nášho príkladu vznikla z jednotiek {kniha} a {knihe}. V tom okamihu jej pravdepodobnosť bola P0. Po rozpoznaní jednotky {knihou} sa zdvihla hodnota pravdepodobnosti o ΔP na hodnotu P({knih*}) = P0 + ΔP, keďže táto jednotka spĺňa kontextové vyjadrenie triedy {knih*}. Ďalšou možnosťou zníženia chybovosti je kontrolovanie učenia zvonka. Tento algoritmus je citlivý na poradie, v akom sa jazykové jednotky objavujú na vstupe. Napríklad chybovosť a efektivita sa dajú zvýšiť vstupom textu, ktorý obsahuje vyskloňované vzory substantív a podobne. Tiež možno zvonka doplniť niektoré triedy, ktoré systém „neobjavil“, avšak používateľ „vie“, že sú relevantné (viac o tom v časti 3.5). Dôležitým predpokladom úspešnej činnosti algoritmu je pevná veľkosť pamäti generovaných tried. Poradie abstraktných tried (a jazykových jednotiek 43 KAROL FURDÍK vôbec) v pamäti je dané pravdepodobnosťou ich výskytu. Systém, ak má byť schopný adaptovať sa na zmenené podmienky (t. j. na zmenený vstupný text), musí „zabúdať“ to, čo je chybné, nepotrebné, teda málo pravdepodobné. Ak sa pamäť zaplní, systém zmaže, zabudne triedy a jazykové jednotky s najmenšou pravdepodobnosťou, aby mohol generovať nové triedy podľa nového vstupu. 3.3 Syntaktické štruktúry Identifikácia syntagmatických (najmä syntaktických) štruktúr sa kvalitatívne líši od činnosti morfologického modulu. Syntaktický modul má za úlohu hľadať štruktúry, ktoré popisujú lineárne vzťahy medzi jazykovými jednotkami, pravidlá, ako za sebou jazykové jednotky nasledujú v texte. Činnosť modulu je znova založená na princípe différence, avšak tentokrát sa skúmajú podobnosti a rozdiely v poradí a zoskupení jednotiek. Triedy, ktoré sa identifikovali na úrovni morfologického modulu, slúžia pre identifikáciu syntagmatických štruktúr ako vstup. Na výstupe modulu očakávame explicitnú reprezentáciu abstraktných štruktúr popisujúcich najfrekventovanejšie syntagmatické celky. Je zrejmé, že pre potreby syntaktického modulu musia už elementárne jazykové jednotky rozpoznávané vo fáze predspracovania niesť so sebou aspoň minimálnu informáciu o svojej pozícii vo vstupnom texte. Stačí, ak touto informáciou bude údaj o tom, ktorá elementárna jednotka bola identifikovaná ako predchodca práve rozpoznávanej elementárnej jednotky. Tieto smerníky spolu s morfologickými charakteristikami by mali byť dostatočnou vstupnou informáciou pre činnosť syntaktického modulu. Kľúčovým problémom pri identifikácii syntagmatických štruktúr je voľba vhodného formalizmu na vyjadrenie ich explicitnej reprezentácie. Jednou z možností je použiť algoritmus podmienených pravdepodobností, prípadne jeho zjednodušenie – trigramový model (pozri napr. Furdík 1999, s. 286). Tento algoritmus však poskytuje iba implicitnú (pravdepodobnostnú), a nie explicitnú reprezentáciu, a naviac, n-gramový model dovoľuje identifikovať iba syntagmatické štruktúry dĺžky maximálne n. Druhou možnosťou je zotrvať pri symbolickej reprezentácii pomocou formálnych jazykov – touto možnosťou sú rozšírené prechodové siete (ATN – Augmented Transition Networks), založené na bezkontextovej gramatike s n-ticou argumentov (tzv. DCG gramatika, Definite Clause Grammar; Páleš 1993, s. 77). ATN sieť je syntaktický analyzátor pozostávajúci z orientovaného grafu, zoznamu podmienok a zoznamu akcií. Každá hrana grafu je samostatným pravidlom bezkontextovej gramatiky a zod44 IDENTIFIKÁCIA PARADIGMATICKÝCH A SYNTAGMATICKÝCH VZŤAHOV V TEXTE povedá podmienke vyjadrenej nutnosťou zhody argumentov ľavej a pravej časti pravidla. Toto pravidlo zodpovedá podmienke, pri ktorej možno cez hranu prejsť, a akcii, ktorú treba pri tom vykonať. Zvyčajne sú podmienky na hranách označené slovným druhom s požadovanými gramatickými kategóriami, akcie sú označenia zodpovedajúcich syntaktických kategórií (obrázok 4). adj NF (nominálna fráza) subst Hrana adj subst Podmienky adj(_, P1, C1, R1, Z1) subst(_, P1, C1, R1, Z1) Akcie DETERMINANT Podmienky k hranám adj a subst požadujú zhodu vetných členov v rode, čísle, páde a životnosti. Ak sú podmienky splnené, potom akcie priraďujú syntaktické roly, ktoré sú výsledkom analýzy. Obrázok 4. Príklad fragmentu ATN siete pre nominálnu frázu. Vstupom pre syntaktický analyzátor využívajúci ATN siete sú úplne morfologicky ohodnotené slová vety. Výstupom sú identifikované vetné členy – syntaktické kategórie. Samozrejme, predpokladá sa, že existuje nemenný a úplný zoznam všetkých ATN sietí pre daný jazyk. Tento prístup nezodpovedá princípom systému založeného na inkrementálnom induktívnom učení, preto je nevyhnutné formalizmus ATN sietí prispôsobiť potrebám učiaceho sa algoritmu analýzy textu. Analogicky s morfologickým modulom, syntaktické štruktúry nesmú byť pevné a vopred určené, ale musia vznikať ako abstrakcie v procese učenia. Ich platnosť nie je absolútna, ale je daná pravdepodobnosťou, ktorá sa počas činnosti algoritmu môže meniť. Syntaktické štruktúry, ktoré sú pod určeným minimálnym prahom, zanikajú, zabúdajú sa. Vstupom pre učiaci sa syntaktický analyzátor nie sú vety, pretože systém apriórne nie je schopný členiť vstupný text na vety. Zároveň vstupom nemôžu byť ani slová ohodnotené tradičnými gramatickými kategóriami, pretože učiaci sa systém si vytvára svoje vnútorné kvázi-morfologické kategórie. Dokonca apriórne morfologický modul nie je schopný určiť ani slovný druh jazykovej jednotky. Vstupom pre učiaci sa syntaktický modul sú elementárne jazykové jednotky rozpoznané vo fáze predspracovania, kontextovo pospájané smerníkmi na svojich predchodcov. Súčasťou tohto vstupu je aj celá štruktúra abstraktných tried, identifikovaných morfologickým modulom. Čiže syntaktické štruktúry nemôžu byť pevné a dopredu určené, pretože gramatické kategórie, ktoré sú ich súčasťou, sú premenlivé. 45 KAROL FURDÍK Výstupom učiaceho sa syntaktického analyzátora nie sú syntaktické kategórie, ale vlastné pravdepodobnosťou ohodnotené ATN siete, ktoré sú explicitnou reprezentáciou abstraktných štruktúr popisujúcich najfrekventovanejšie syntagmatické celky. Sú to vlastne abstraktné a elementárne jazykové jednotky, ktoré sa spolu, v určitých syntagmatických vzťahoch, najčastejšie vyskytujú. Nasledujúci príklad demonštruje, aké syntaktické štruktúry možno očakávať na výstupe syntaktického modulu: Nech na vstupe boli rozpoznané nasledujúce fragmenty textu: – Jano číta knihu – bol by som čítal tento zaujímavý časopis, keby... – Keby som to bol vedel, nebol by som sa začal venovať spracovaniu prirodzeného jazyka na počítači. Potom syntaktický modul generuje napríklad takéto fragmenty ATN siete: Jano zaujímavý časopis číta* som bol sa by knih* začal som čítal kde každý z elementov je zároveň začlenený do paradigmatických štruktúr morfologického modulu. Chybovosť sa rieši, podobne ako pri morfologickom module, pravdepodobnostným ohodnotením generovaných syntaktických štruktúr. Tu sa však, azda viac ako pri morfologických abstraktných štruktúrach, stáva aktuálnou otázka „rozumného“ riadenia procesu učenia zvonka. Ako upozorňuje Páleš (1993, s. 76), počet pravidiel DCG gramatiky pre slovenskú syntax je neúmerne veľký, a aj keď použitie ATN sietí reprezentáciu zjednodušuje, výpočet alternatív v procese učenia môže dosahovať exponenciálnu zložitosť. Do určitej miery sa dá toto riziko eliminovať tým, že učiteľ vopred vloží „známe“ ATN fragmenty do systému a priradí im vhodné pravdepodobnostné hodnoty. 3.4 Sémantické štruktúry 46 IDENTIFIKÁCIA PARADIGMATICKÝCH A SYNTAGMATICKÝCH VZŤAHOV V TEXTE Sémantický modul sa svojím charakterom odlišuje od oboch predchádzajúcich modulov. Na rozdiel od morfologických a syntaktických štruktúr, ktoré sa viac či menej dajú abstrahovať z formy jazykového prejavu, sémantické štruktúry sú primárne založené aj na iných než na jazykových skúsenostiach. Riešením by azda bolo, ak by sme systému simulovali aj iné „zmysly“, teda aj iné vstupy, ako len vstup písaného textu – napríklad vstupy zvukovej a obrazovej informácie. Takéto komplexné riešenie však zameraním aj zložitosťou presahuje problematiku analýzy textu. Čiastočne sa isté sémantické podobnosti a vzťahy dajú abstrahovať aj zo štruktúr identifikovaných predchádzajúcimi dvoma modulmi, napríklad: • do triedy {knih*} patria slová ako kniha, knihár, knihovníčka a podobne, ktoré rozhodne vzájomne sémanticky súvisia (patria do toho istého slovotvorného hniezda), • do triedy OL={ár} patria slová ako rybár, knihár, stolár, vinár a podobne, ktoré patria k tomu istému slovotvornému typu – k typu „pracovať s ...“, • z textov číta knihu a čítal tento zaujímavý časopis vzniká fragment ATN siete, ktorá sa dá interpretovať ako časť valenčného rámca slovesa čítať. Zároveň sa dá dedukovať, že {knih*} (ako abstrakcia tvaru knihu) a časopis spolu sémanticky súvisia, a to tak, že sú v pravom valenčnom okolí jazykovej jednotky číta (respektíve jej abstrakcie {číta*}). Avšak prisudzovať sémantickú blízkosť slovám podľa ich pozície vo vete je veľmi problematické, a to aj v jazykoch s oveľa prísnejšími pravidlami slovosledu, ako má slovenčina. Zdá sa byť nevyhnutnosťou doplniť do systému niečo, čo by pomohlo spoľahlivejšie identifikovať vzťahy sémantickej podobnosti medzi rozpoznanými jazykovými jednotkami. Zároveň vzniká problém, akú formálnu reprezentáciu zvoliť na explicitné vyjadrenie štruktúr sémantickej podobnosti. Povaha týchto štruktúr je totiž „zmesou“ paradigmatických a syntagmatických vzťahov, preto sa na ich reprezentáciu zvyknú používať špeciálne formalizmy, vyznačujúce sa sieťovou štruktúrou. Patria medzi ne napríklad rámce a skripty, sémantické siete, ontológie a podobne (Csontó – Sabol 1991, s. 113, pozri tiež Furdík 2000). Tieto formalizmy umožňujú definovať tzv. znalosti pomocou pojmov a relácií medzi nimi, pritom poskytujú aj isté možnosti odvodzovania, transformácií a vyhľadávania. Znalosti, explicitne vyjadrené zvoleným formalizmom, sú však doménovo závislé – opisujú iba určitý ohraničený „výsek“ reality, a aj to zväčša subjektívnym spôsobom. Ak by však intencionálny učiaci sa systém mal schopnosť efektívne vytvárať a modifikovať na základe svojich vstupov a vnútorných 47 KAROL FURDÍK stavov svoju subjektívnu štruktúru znalostí, formálne reprezentovaných napríklad ontológiou, potom by táto štruktúra znalostí mala pre systém absolútnu platnosť. Ibaže, ako sme ukázali vyššie, samotná morfologická a syntaktická analýza na budovanie subjektívnej štruktúry znalostí zrejme nestačí. Je potrebné doplniť ju o informácie „zvonka“, z reálneho sveta. Podmienkou je, aby formát napĺňaných externých znalostí zodpovedal formalizmu implementovanému v systéme. Využiť sa pritom nemusia iba ontológie, sémantické siete a rôzne iné sofistikované metódy reprezentácie znalostí. Cenným zdrojom externých znalostí môže byť napríklad výkladový slovník, prípadne sémanticky anotovaný korpus jazyka – v týchto prípadoch však bude zrejme potrebná transformácia do formalizmu použitého v systéme. Systém by potom mohol v procese učenia svoju reprezentáciu znalostí modifikovať na základe svojich nových vstupov, a spätnou transformáciou by sa azda získal cenný materiál pre slovníky alebo pre jazykový korpus. 3.5 Riadenie algoritmu Ak sa má zachovať intencionálny charakter navrhovaného učiaceho sa systému, je potrebné minimalizovať riadiace zásahy zvonka. Na druhej strane, pri analýze textu hrozí neustále nebezpečenstvo príliš veľkej zložitosti, prílišného množstva alternatív. V takomto prípade je vhodné zvýšiť efektívnosť metódou kontrolovaného učenia, dodaním vzorky „správnych“ údajov na vstup. Tento prístup je najmenej „deštruktívny“, nemení samotný algoritmus ani jeho parametre, aj tak však čiastočne znižuje „samostatnosť“ systému – platí tu princíp apriórnych vedomostí, definovaný v časti 3.1. Metóda kontrolovaného učenia sa používa pri všetkých troch stupňoch analýzy textu. V morfologickom module je ňou napríklad vstup vyskloňovaných vzory substantív, v syntaktickom naplnenie známych fragmentov ATN sietí, a v sémantickom doplnenie externých sémantických znalostí. Ďalšou z možností, ako efektívne obmedziť priestor prehľadávania a zrýchliť činnosť systému, je riadenie zabúdania nastavením vhodných pravdepodobnostných prahových hodnôt. Na rozdiel od kontrolovaného učenia, prahové hodnoty ovplyvňujú vlastný spôsob učenia, sú súčasťou kódu algoritmu. Zmenou pravdepodobnostných prahových hodnôt sa vlastne menia kľúčové konštanty algoritmu, aj keď samotná činnosť algoritmu ostáva nezmenená. Je možné implementovať aj taký spôsob učenia, že rozhodovanie a činnosť algoritmu (napríklad porovnávacieho modulu) je funkciou vstupu a 48 IDENTIFIKÁCIA PARADIGMATICKÝCH A SYNTAGMATICKÝCH VZŤAHOV V TEXTE vnútorného stavu systému – tento spôsob sa zvykne nazývať ako výpočet riadený údajmi. V takomto prípade sa nemení iba vnútorná štruktúra údajov v znalostnej báze, ale mení sa samotný spôsob spracovania vstupného textu. Algoritmus však v takomto prípade stráca determinickosť v tom zmysle, že ak nevieme presne, v akom stave sa systém práve nachádza, nedokážeme predpovedať, aké zmeny daný vstup v systéme spôsobí. Napokon sa principiálne dá uvažovať nad riadením systému pomocou metavedomostí. Systém v takomto prípade chápe vstupné údaje ako pokyny, a mal by byť schopný adekvátne reagovať. To však už zrejme predpokladá, aby bol systém schopný text nielen analyzovať, ale aj pochopiť jeho zmysel vo vzťahu k sebe ako k subjektu, a na základe rozpoznaného zmyslu aj vykonávať príslušné akcie. 4. Záver Analýza písaného textu realizovaná pomocou algoritmu induktívneho inkrementálneho učenia transcenduje problém zložitosti jazyka a metodologický problém jeho explicitného popisu tým, že buduje subjektívnu a v tomto zmysle úplnú štruktúru abstraktných pravidiel a vzťahov, ktorá predstavuje subjektívny model jazyka. Učenie je založené na porovnávaní podobností a rozdielov vo vstupnom texte. Tieto podobnosti a rozdiely systém identifikuje a abstrahuje z nich štruktúry na morfologickej, syntaktickej, a čiastočnej aj na sémantickej úrovni. Navrhnuté formalizmy symbolickej reprezentácie týchto štruktúr dovoľujú jednak efektívne riadiť algoritmus pomocou vstupov, jednak zohľadňujú prípadné využitie vytvoreného modelu jazyka v iných aplikáciách, napríklad pri vyhľadávaní textov, v systémoch na spracovanie prirodzeného jazyka, v textových korpusoch a podobne. Literatúra CSONTÓ, Július – SABOL, Tomáš. 1991. Umelá inteligencia. Košice: Edičné stredisko TU v Košiciach. ČERMÁK, František. 1994. Jazyk a jazykověda. Praha: Pražská imaginace. FURDÍK, Karol. 2000. Pojmové modelovanie. In: M. Nábělková (ed.), Varia IX. Zborník materiálov z IX. kolokvia mladých jazykovedcov. Bratislava: SJS pri SAV (v tlači). FURDÍK, Karol. 1999. Pravdepodobnostné modelovanie vzniku a vývoja jazykových štruktúr. In: M. Nábělková – Ľ. Králik (ed.), Varia VIII. Zborník materiálov z VIII. kolokvia mladých jazykovedcov. Bratislava: SJS pri SAV, s. 276 – 289. van GULICK, Robert. 1992. Vedomie, vlastná intencionalita a stroje, ktoré rozumejú samy sebe. In: E.Gál – J.Kelemen (eds.), Myseľ / telo / stroj. Bratislava: Bradlo, s. 80 – 100. 49 KAROL FURDÍK KOSTELNÍK, Peter. 2000. Získavanie informácií s využitím algoritmov zhlukovej analýzy. Diplomová práca. Košice: Katedra kybernetiky a umelej inteligencie. MICHALOVIČ, Peter – MINÁR, Pavol. 1997. Úvod do štrukturalizmu a postštrukturalizmu. Bratislava: Vydavateľstvo Iris. PÁLEŠ, Emil. 1993. SAPFO – Parafrázovač slovenčiny. Doktorská dizertačná práca. Bratislava: JÚĽŠ SAV. 50 SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM Eduard Kostolanský – Jana Hašanová: Laboratórium počítačovej lingvistiky, Pedagogicka fakulta Univerzity Komenského, Bratislava 1. Úvod Lingvistický výskum, ktorého hlavným cieľom je tvorba adekvátnych lingvistických teórií umožňujúcich „vypočítať“ všetky slovné tvary daného slova, resp. identifikovať príslušný slovný tvar, je v jazykoch európskeho typu, či už s jednoduchou alebo rozsiahlou flektívnou morfológiou, zavŕšený. Pre väčšinu týchto jazykov je algoritmicky spracovaná flektívna i derivačná morfologická rovina. Základná schéma a automatizovaný postup rozpoznania/generovania flektívnej morfológie jednotlivých ohybných slovných druhov sú spracované aj pre slovenčinu. Algoritmické spracovanie flektívnej slovenskej morfológie sa budovalo na báze existencie virtuálneho slovníka. Tento slovník obsahuje iba vybrané údaje o ohýbaných slovách a vzoroch ohýbania. Keď vznikne potreba sformovať ktorýkoľvek tvar k ľubovoľnému slovu, vygeneruje sa s využitím virtuálneho slovníka, ktorý obsahuje komplexné údaje o vzoroch ohýbania a vybrané údaje o konkrétnych ohýbaných slovách. Pri každom vzore sú komplexné údaje o zmenách v tvarotvornom základe (TZ), súbor ohýbacích prípon a výpočtové pravidlá formovania jednotlivých slovných tvarov. Systémy, ktoré vykonávajú algoritmickú analýzu textov, sú opatrené poznatkami o morfológii, syntaxi a sémantike príslušného jazyka. Potrebné informácie sa umiestňujú vo vhodne štruktúrovanej databáze. 2. Vývoj referenčnej morfologickej databázy V tejto práci predstavíme opis morfologickej roviny lexikálnej databázy. Príspevok sa delí na dve hlavné časti. V prvej časti sa sústreďujeme na opis slovenskej flektívnej morfológie. Ukážeme, ako sa formujú skupiny údajov a pravidiel potrebných na vytváranie slovných tvarov jednotlivých slov. Napr. skupiny údajov predstavujú pádové 51 EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ prípony skloňovacieho vzoru chlap: -ø, -a, -ovi, -a, -ovi, -om atď. alebo tvarotvorné základy pri vzore mráz: mráz-, mraz-. Príkladom pravidla je napr. alternácia spoluhlások ch/s v nominatíve plurálu pri vzore černoch: černoch – černosi. Poznatky a skúsenosti z práce s rozsiahlou množinou podstatných mien, ktoré sú obsiahnuté v Krátkom slovníku slovenského jazyka (1997), sme zhrnuli vo viacerých prácach (Benko – Hašanová – Kostolanský 1996, 1997, 1998). V tomto príspevku podáme iba základnú informáciu o podstatných menách a uvedieme údaje o ostatných ohybných slovných druhoch. Všetky poznatky plánujeme uverejniť v širšej knižnej forme. Možno povedať, že explicitnosť opisu morfológie odstraňuje výnimky, zvláštne prípady, varianty a stanovuje transformačné pravidlá, vzory a skupiny prípon na presný opis formovania a analýzy slovných tvarov. Hlavným cieľom je dosiahnuť, aby formovanie/analýza slovných tvarov boli mechanické postupy, t. j. vykonateľné aj strojom a aplikovateľné ku každému slovu. Prvá časť sa teda sústreďuje na paradigmy vzorov. Skloňovací vzor chápeme v zmysle definície: „Skloňovací vzor je jednak množina slov s rovnakým skloňovaním, jednak jedno vzorové slovo, ktoré danú množinu slov ako typický príklad vhodne reprezentuje svojimi (formálnymi i významovými) vlastnosťami“ (Oravec – Bajzíková – Furdík 1984). V druhej časti nášho príspevku opisujeme modelovanie referenčnej morfologickej databázy pomocou relačného dátového modelu. Ide o morfologické údaje – primerane štruktúrované a detailizované – o najpoužívanejších slovách v súčasnej spisovnej slovenčine (Krátky slovník slovenského jazyka 1997). Ku každému slovu je priradený údaj o jeho slovnodruhovej príslušnosti a v závislosti od toho ďalšie údaje, napr. pri jednotlivých podstatných menách vzor skloňovania a tvarotvorný základ (základy). Predpokladá sa, že vo všeobecnosti sa bude môcť počet atribútov slov zvyšovať, takže morfologická databáza bude postupne prerastať na databázu, ktorá sa využije aj pri analýze textu v iných smeroch (syntaktická rovina, sémantická rovina, kvantitatívna analýza a pod.) a pri tvorbe iných, už spomenutých aplikácií. Ďalej stručne opíšeme virtuálne slovníky patriace k jednotlivým ohybným slovným druhom. Základnými zdrojmi morfologických údajov sú práce Morfológia slovenského jazyka (1966), Oravec – Bajzíková – Furdík (1984), Páleš (1994), Pauliny – Ružička – Štolc (1968). Opis morfológie slovného druhu má gramatickú časť, ktorá obsahuje gramatické údaje, prípadne výsledky podrobnejšieho štúdia, potrebné pri algo52 SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM ritmickom spracovaní morfologickej roviny. Potom nasledujú vzory ohýbania. Informácie o každom slovnom druhu sú zhrnuté v prehľadných tabuľkách. Zhromaždené morfologické údaje o vzoroch považujeme za vhodné predstaviť v dvoch rovinách. V prvej rovine je základom, okolo ktorého sa zhromažďujú ďalšie údaje, tvarotvorný základ (TZ) a zmeny v ňom, ktoré spôsobujú alternácie, ako aj zmeny v sústave ohýbacích prípon. TZ chápeme ako bazálnu časť slova po oddelení tvarotvornej prípony – formantu. Pri každej zmene v týchto dvoch zložkách zavádzame nový vzor. Napr. pri stupňovaní prídavných mien majú slová biely, blízky, krátky samostatné vzory, pretože pri ohýbaní má ich TZ rôznu podobu – bel-ší, bliž-ší, krat-ší. Slovo čierny má iný vzor preto, že okrem zmeny TZ má inú ohýbaciu príponu – čern-ejší. Túto rovinu voláme prvá rovina – lingvistická, pretože pri práci na nej bolo nahromadených mnoho údajov zaujímavých práve z lingvistického hľadiska. Údaje sú prezentované, pokiaľ možno, v takej podobe, aby boli zrozumiteľné čo najširšiemu okruhu používateľov. V druhej rovine hrá podstatnú úlohu sústava ohýbacích prípon. TZ boli vytvorené v rámci prvej roviny a na to, aby počítač správne generoval/stanovil príslušnú morfologickú podobu, potrebuje zodpovedajúcu skupinu prípon. Teda za predpokladu existencie TZ a ich uvažovania ako doplňujúcich údajov pri analýze/generovaní slovných tvarov sa redukuje počet ohýbacích vzorov, pretože vzory sa charakterizujú predovšetkým sústavou prípon. TZ vstupujú do procesu analýzy/generovania ako konštanty. TZ1, TZ2 sú podoby TZ pri ohýbaní. Dokumentovať to môžeme znovu na vzoroch stupňovania prídavných mien. Napr. adjektíva biely, blízky, krátky majú v druhej rovine len jeden vzor, pretože majú rovnakú ohýbaciu príponu komparatívu a príslušný TZ je k dispozícii ako konštanta: biely – belší (TZ1-y, TZ2-ší), blízky – bližší (TZ1-y, TZ2-ší), krátky – kratší (TZ1-y, TZ2-ší) atď. Na počítačové spracovanie morfologickej roviny je určená vlastne len druhá rovina. Ale kvôli zachovaniu výsledkov analýzy a vzhľadom na možnosti využívania zhromaždených a štruktúrovaných údajov aj pre ďalšie výskumné práce, budeme pri každom slovnom druhu špecifikovať obe tieto roviny. Prvá rovina je pritom prezentovaná formou základných informácií, na ktorých možno stavať ďalší špeciálny jazykovedný výskum. Podrobnejšie informácie o prvej rovine podstatných mien sú obsiahnuté v už spomínanej publikácii Benko – Hašanová – Kostolanský (1998). Úplný gramatický opis vzorov všetkých ohybných slovných druhov je mimo rámca tohto príspevku, 53 EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ preto pri každom slovnom druhu uvádzame len niekoľko príkladových opisov vzorov prvej i druhej roviny. 3. Morfológia podstatných mien Pri spracúvaní morfológie substantív a ostatných slovných druhov na účely počítačového spracovania slovenských textov vychádzame zo všeobecných základných pojmov (Morfológia slovenského jazyka 1966). Základnou jednotkou morfologickej roviny je slovný tvar, ktorý tvorí tvarotvorný základ (TZ) a relačná časť. Pri substantívach relačnú časť predstavuje sústava pádových prípon, pomocou ktorých sa tvoria jednotlivé slovné tvary. 3.1 Podstatné mená – prvá morfologická informačná rovina Skloňovací vzor chápeme, ako sme už uviedli, v zmysle definície podľa Oravec – Bajzíková – Furdík (1984). Určenie formálnych vlastností vzoru je v našej práci prísnejšie, podrobnejšie. Formovanie nových vzorov sa riadi pravidlom, že každá zmena v sústave ohýbacích prípon alebo zmena v TZ spôsobí zavedenie nového vzoru. Podľa toho napr. rôzne zakončenia substantív mužského rodu v nominatíve plurálu (-i, -ia, -ovia), ktoré sa pri klasických vzoroch uvádzajú ako variantné prípony (tamže), v našom chápaní vzoru vyžadujú nové vzory: chlap – chlapi, kresťan – kresťania, sok – sokovia. Rozbor robíme pre potreby písaného textu, preto berieme do úvahy grafickú podobu slovných tvarov, nie fonetickú (napr. kosť--ø/kost-i – dva TZ: kosť-, kost-). Vzory rozdeľujeme do okruhov, ktoré majú názvy klasických vzorov (napr. „chlap“, „dub“), ale aj nové názvy („mláďa“). Pri určovaní členov týchto okruhov sa vychádza zo sústavy prípon vzorového slova – reprezentanta okruhu, prípadne zmeny v TZ. Reprezentant potom slúži ako porovnávací vzor pre nové vzory patriace do jeho okruhu. Vzorové slová nemajú variantné prípony. Výnimkou sú vzory, ktoré majú pri svojom názve číslice 0, 1, 2, 3. „Zvieracie“ vzory mužského rodu sú zaradené do osobitnej podskupiny, pretože majú osobitné sústavy ohýbacích prípon: v singulári podľa vzorov mužských substantív životných a v pluráli podľa vzorov mužských substantív neživotných (had – hady, mravec – mravce). Slová, ktoré nemajú úplnú paradigmu – hromadné a pomnožné – nemajú samostatné vzory. Je im pridelený vzor zo skupiny substantív s úplnou paradigmou, ktorý má rovnaké skloňovanie v singulári alebo v pluráli ako príslušné 54 SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM substantíva s neúplnou paradigmou (nožnice – vzor ulica). Pri jednotlivých slovách je v databáze uvedený údaj v stĺpci SA (t. j. špecifické atribúty), ktorý „upozorňuje“, že pomnožné podstatné mená treba skloňovať len v pluráli a hromadné len v singulári. V stĺpci SA sú zoskupené aj príznakové tvary oslovenia v pôvodnom vokatíve (Bože, synu). Odlíšenie vzorov v rámci jedného okruhu sa vykonáva už spomenutým porovnávaním s reprezentantom, pričom si najprv všímame zmeny v TZ a potom zmeny v sústave prípon. Pod A sa uvádzajú typy alternácií, ktoré spôsobujú zmeny v TZ slova (k/c: vodník-, vodníc-). Pod B sa uvádzajú odlišnosti v sústave ohýbacích prípon (chlap-i, sok-ovia). Niektoré skupiny slov s dubletnými príponami majú také sústavy ohýbacích prípon, ktoré zodpovedajú niektorému zo vzorov v zozname len v jednom variante. V druhom variante sa skloňujú podľa osobitného vzoru, ktorý má pri svojom názve číslicu 0. Napr. slovo tvár sa skloňuje podľa vzoru dlaň. V genitíve singuláru má aj príponu -i, preto sa skloňuje aj podľa vzoru tvár-ø. Niektoré skupiny slov s dubletnými príponami sa skloňujú podľa osobitného vzoru v jednom aj v druhom variante. Vtedy majú pri svojom názve číslice 1, 2. Napr. oko-1 (očí), oko-2 (očú). Číslicu 3 majú pri svojom názve vzory zveličených substantív, ktoré majú dva rody. (Číslica 3 je pri názve vzoru v inom ako strednom rode, napr. skalisko3 – ženský rod.) Výsledkom takéhoto prístupu je podstatné rozšírenie počtu vzorov podstatných mien v porovnaní s doterajšími prácami (Morfológia slovenského jazyka 1966, Pauliny – Ružička – Štolc 1968). V súčasnosti má náš systém 199 vzorov podstatných mien. Homonymá sú do počtu substantív zarátané len jedenkrát, pretože sa berie do úvahy len ich rovnaký morfologický tvar, nie rozdiel vo význame. Ak majú v niektorých tvaroch rozdiely, sú uvedené dvakrát (napr. ucho – uši, ucho – uchá). Každý okruh je označený menom jeho vzoru – reprezentanta (napr. „chlap“). Pri podstatných menách sú to tieto okruhy: „chlap“, „hrdina“, „dub“, „stroj“, „nesklonné“ – mužský rod; „žena“, „ulica“, „dlaň“, „kosť“, „gazdiná“, „nepravidelné“, „nesklonné“ – ženský rod; „mesto“, „srdce“, „vysvedčenie“, „mláďa“, „nesklonné“ – stredný rod. Samostatný okruh majú aj pod55 EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ statné mená s nepravidelným skloňovaním, pričom žiaden zo vzorov okruhu nie je reprezentant. Napr. okruh vzorov „ulica“ obsahuje tieto vzory: ulica, fakľa, dyňa, funkcia, hrádza, jedľa, míľa, nedeľa, ovca, pomyje-ø, ruža, svieca, víchrica, vládkyňa, vôňa. Morfologická databáza obsahuje v súčasnosti asi 22 500 podstatných mien. Podobný postup ako pri podstatných menách využívame aj pri ostatných ohybných slovných druhoch. Ako ukážku opisu vzorov uvedieme niekoľko príkladov ohýbacích typov prvej roviny. Okruh „chlap“ a jeho vybrané vzory. Vzor chlap je vzor reprezentant, podľa ktorého sa skloňuje skupina životných podstatných mien mužského rodu zakončených v N sg. na nulovú morfému. V TZ u nich nedochádza k zmenám. Majú túto sústavu ohýbacích prípon: N G D A L I chlap-ø chlap-a chlap-ovi chlap-a chlap-ovi chlap-om chlap-i chlap-ov chlap-om chlap-ov chlap-och chlap-mi Vzor vodník je príkladom vzoru, ktorý patrí do okruhu „chlap“ a od reprezentanta sa odlišuje takto: N G D A L I A: alternácia spoluhlások k/c v N pl. B: – vodník-ø vodníc-i vodník-a vodník-ov vodník-ovi vodník-om vodník-a vodník-ov vodník-ovi vodník-och vodník-om vodník-mi Vzor černoch je príkladom vzoru, ktorý patrí do okruhu „chlap“ a od reprezentanta sa odlišuje takto: A: alternácia spoluhlások ch/s v N pl. 56 SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM B: – N černoch-ø černos-i G černoch-a černoch-ov D černoch-ovi černoch-om A černoch-a černoch-ov L černoch-ovi černoch-och I černoch-om černoch-mi 3.2 Podstatné mená – druhá morfologická informačná rovina Ako sme už vyššie zdôraznili, vzor druhej roviny sa formuje zo sústavy ohýbacích prípon a príslušných variantov TZ, ktoré vystupujú ako konštanty. Napr. substantíva mesto, laso, gazdovstvo majú v prvej rovine každé osobitný vzor, pretože pri ohýbaní dochádza v každom z ich TZ k inej zmene (miest, lás, gazdovstiev). V druhej rovine je vzorec vyjadrujúci ich ohýbanie vždy rovnaký: TZ1, TZ2 (použité na rovnakom mieste) + rovnaká sústava ohýbacích prípon, t. j. jeden vzor. Aj keď sa počet vzorov v druhej rovine zredukuje, zostáva ich škála pomerne veľká, pretože je veľa odlišností v sústavách ohýbacích prípon aj v počtoch TZ. Nasledujúce príklady ilustrujú opis vzorov druhej roviny. N G D A L I Vzor 2chlap TZ1-ø TZ1-a TZ1-ovi TZ1-a TZ1-ov TZ1-om TZ1-i TZ1-ov TZ1-om TZ1-ov TZ1-och TZ1-mi TZ1: chlapVzor 2vodník využíva oproti vzoru chlap dva druhy TZ na rovnakom mieste. N TZ1-ø TZ2-i G TZ1-a TZ1-ov D TZ1-ov TZ1-om 57 EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ A L I TZ1-a TZ1-ovi TZ1-om TZ1-ov TZ1-och TZ1-mi TZ1: vodník-, TZ2: vodnícVzor černoch je „pohltený“ vzorom 2vodník. Počítač vyberá zložky týchto dvoch vzorov podľa rovnakej schémy. 4. Morfológia slovies Požiadavka presnosti počiatočných údajov pri počítačovom spracovaní morfológie slovies si vyžadovala dôslednú inventarizáciu informácií o morfologickej stavbe slovesa a poskytnutie základných informácií v jednoduchej podobe. Najprv bolo nevyhnutné skompletizovať potrebné údaje o časovacích vzoroch. Postupovalo sa ako pri podstatných menách. Nepripúšťali sa žiadne výnimky a sledovala sa homogenita informácií o vzoroch. Dôsledkom akceptovania výnimiek a alternácií bol nárast počtu vzorov slovies prvej roviny na 79. Pri každom druhu alternácie a každej zmene v sústave ohýbacích prípon je zavedený nový vzor. Aj časovacie vzory sú rozdelené do okruhov. Koreň a tematická morféma dohromady tvoria slovesný kmeň: robi-. Pri slovesách sa najvýraznejšie prejaví rozdiel pri prezentovaní nazhromaždených morfologických údajov o vzoroch časovania (a o slovesách vôbec) v dvoch rovinách. V prvej rovine je základom, okolo ktorého sa zhromažďujú ďalšie údaje, slovesný koreň. Presnejšie, koreňom tu nazývame časť slovesa bez ohýbacej prípony a tematickej morfémy (rob-). V druhej rovine je týmto základom kmeň (robi-), teda koreň a tematická morféma spolu a najmä sústava ohýbacích prípon. Keďže predmetom nášho záujmu v tejto práci je flektívna morfológia, pri strojovom spracovaní tejto morfologickej roviny je jednotkou spracovania slovo, t. j. reťazec znakov vymedzený dvoma medzerami. Z toho vyplýva, že súčasťou vzoru sú len jednoduché slovesné tvary: indikatív prézenta, imperatív, prechodník, činné príčastie prítomné, neurčitok, l-ové príčastie, činné príčastie minulé, n/t-ové príčastie, slovesné podstatné meno. Zložené slovesné tvary sú viacslovné výrazy. Pri nepravidelných slovesách vzhľadom na zložitosť zmien v často sa meniacej báze neuvádzame typy alternácií v prvej rovine. Neuvádzame tiež tvary, ktoré sa pri nepravidelných slovesách nevyskytujú. Opierame sa pritom o údaje uvedené v práci J. Mistríka (1988). 58 SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM Neosobné slovesá nemajú osobitné vzory. Teoreticky je možné utvoriť pri nich všetky jednoduché slovesné tvary. Majú pri sebe znak – 3. os. n., napr. vyčasiť sa. Pri slovesách, ktoré sa používajú len v 3. os. sg., je označenie – iba 3. os., napr. bolieť. Údaje sú v databáze slov pod atribútom SA. 4.1 Slovesá – prvá morfologická informačná rovina Prvá rovina poskytuje v rámci jednotlivých vzorov údaje formou opisu koreňov, tematických morfém, sústavy ohýbacích prípon a alternácií. Pre každý druh zmeny je iný vzor. Pri opise alternácií, ktoré sa vyskytujú v jednotlivých vzoroch, vychádzame z prác Morfológia slovenského jazyka (1966), Oravec – Bajzíková – Furdík (1984), Pauliny – Ružička – Štolc (1968). Pri slovesách je problematika alternácií v prvej rovine riešená menej podrobne ako pri podstatných menách. Napr. alternácia A1 zahŕňa spoločne zmeny spoluhlások pred tematickou morfémou -e-: t/c, d/dz, s/š, z/ž... Každý druh spoluhláskovej zmeny nie je prezentovaný ako nová alternácia. Sústredili sme sa na správne vytváranie jednotlivých TZ a nie na presné pravidlá alternovania. Časovacie vzory prvej roviny – zásady formovania Do okruhu patrí vzor – reprezentant, ktorý je vo všetkých ukazovateľoch zhodný s klasickým vzorom, resp. so vzorovým slovom, a skupina vzorov, ktoré majú určité odchýlky. Napr. do okruhu vzorov „chytať“ patrí vzor – reprezentant chytať (chytá) a tiež vzor čítať (číta), ktorý má krátku prézentnú tematickú morfému v dôsledku rytmického krátenia. Za každým vzorom, v ktorom dochádza k zmenám v koreni, je uvedený príslušný typ alternácie (napr. hynúť A4 – hyň!). Okruhy vzorov prvej roviny sú tieto: „brať“, „chudnúť“, „chytať“, „hynúť“, „kričať“, „niesť“, „pracovať“, „robiť“, „rozumieť“, „trieť“, „vidieť“, „česať“, „žať“, „žuť“, „nepravidelné“. Napr. okruh vzorov „robiť“ obsahuje tieto vzory: robiť, hájiť, krášliť, kresliť, kúpiť, tajiť. Kompletný súbor morfologických informácií prvej roviny dokumentujeme na dvoch príkladoch z okruhu „robiť“. Vzor kresliť sloveso v neurčitku: kresl-i-ť 59 EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ tematická morféma prítomníková TMPA1: tematická morféma prítomníková TMPB1: 1. podoba prítomníkového koreňa RPA1: 2. podoba prítomníkového koreňa RPB1: prítomník (okrem 3. os. pl.): -í-økresl-(í-) kresl-(0-) RPA1 + -í-m, -í-š, -í-ø; -íme, -í-te prítomník (3. os. pl.): RPB1 + -ia imperatív: RPB1 + -ø!, -me!, -te! prechodník: RPB1 + -iac činné príčastie prítomné: RPB1 + -iaci, -iaca, -iace; -iaci, -iace, -iace, -iace vzor pre činné príčastie prítomné: rýdzi tematická morféma neurčitková TMIA1: -itematická morféma neurčitková TMIB1: -i1. podoba neurčitkového koreňa RIA1: kresl-(i-) 2. podoba neurčitkového koreňa RIB1: kresl-(i-) minulý čas: RIB1 + -i-l, -i-la, -i-lo; -ili činné príčastie minulé: RIB1 + -i-vší, -i-všia, -ivšie; -i-vší, -i-všie, -i-všie, -i-všie vzor pre činné príčastie minulé: cudzí trpné príčastie: RPB1 + -ený, -ená, -ené; -ení, -ené, -ené, -ené vzor pre trpné príčastie: pekný slovesné podstatné meno: RIB1 + -enie vzor pre slovesné podstatné meno: vysvedčenie A: A26 – IZ s morfémou -i Aa: zmena tematickej morfémy oproti vzoru – reprezentantu B: – Vzor kúpiť sloveso v neurčitku: tematická morféma prítomníková TMPA1: tematická morféma prítomníková TMPB1: 60 kúp-i-ť -i-ø- SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM 1. podoba prítomníkového koreňa RPA1: 2. podoba prítomníkového koreňa RPB1: prítomník (okrem 3. os. pl.): prítomník (3. os. pl.): imperatív: prechodník: činné príčastie prítomné: vzor pre činné príčastie prítomné: tematická morféma neurčitková TMIA1: tematická morféma neurčitková TMIB1: 1. podoba neurčitkového koreňa RIA1: 2. podoba neurčitkového koreňa RIB1: minulý čas: činné príčastie minulé: vzor pre činné príčastie minulé: trpné príčastie: vzor pre trpné príčastie: slovesné podstatné meno: vzor pre slovesné podstatné meno: A: Aa: B: kúp-(i-) kúp-(0-) RPA1 + -i-m, -i-š, -i-ø; -ime, -i-te RPB1 + -ia RPB1 + -ø!, -me!, -te! RPB1 + -iac RPB1 + -iaci, -iaca, -iace; -iaci, -iace, -iace, -iace rýdzi -i-ikúp-(i-) kúp-(i-) RIB1 + -i-l, -i-la, -i-lo; -ili RIB1 + -i-vší, -i-všia, -ivšie; -i-vší, -i-všie, -i-všie, -i-všie cudzí RPB1 + -ený, -ená, -ené; -ení, -ené, -ené, -ené pekný RIB1 + -enie vysvedčenie – TMPA1 -i- kúp-i-m – 4.2 Slovesá – druhá morfologická informačná rovina Druhá morfologická rovina, ktorá je hlavným predmetom nášho záujmu v spojitosti s algoritmickým spracovaním morfológie slovies, je predstavená prostredníctvom kmeňov a prípon. Časovacie vzory druhej roviny – zásady formovania 61 EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ Časovací vzor v našom ponímaní je sloveso alebo množina slovies s rovnakým súborom osobných, tvarových a menných prípon, príslušných variácií podôb neurčitkových a prítomníkových kmeňov a imperatívneho základu. Základným dištinktívnym prvkom nie sú ani tematické morfémy, pretože počítač pracuje s celým kmeňom, ktorého súčasťou je aj tematická morféma (chytá-m). Opis vzorov časovania slovies druhej roviny obsahuje všetky jednoduché tvary. Pri každom vzore sú uvedené podoby neurčitkových kmeňov, podoby prítomníkových kmeňov a príslušná sústava ohýbacích prípon. Pre tvary, ktoré sa skloňujú (činné príč. prít., činné príč. min., trpné príč., slovesné pods. meno), je uvedená sústava ohýbacích prípon v základnom tvare a skloňovací vzor. V druhej rovine sú tieto okruhy vzorov: „2chudnúť“, „2kričať“, „2niesť“, „2česať“, „2robiť“, „2nepravidelné“. Ako príklad opisu slovesných vzorov druhej roviny uvádzame vzor 2robiť. Vzor 2robiť je vzor reprezentant. Charakterizuje ho príslušná množina kmeňov a ohýbacích prípon. neurčitok: prítomníkový kmeň – 1. podoba KPA1: 2. podoba KPB1: imperatívny základ IZ: prítomník (okrem 3. os. pl.): prítomník (3. os. pl.): imperatív: prechodník: činné príčastie prítomné: ohýbací vzor pre činné príčastie prítomné: neurčitkový kmeň – 1. podoba KIA1: 2. podoba KIB1: minulý čas: činné príčastie minulé: ohýbací vzor pre činné príčastie minulé: trpné príčastie: ohýbací vzor pre trpné príčastie: 62 KIA1 + -ť robírobrobKPA1 + -m, -š, -ø; -me, -te, KPB1 + -ia IZ + -ø; -me, -te KPB1 + -iac KPB1 + -iaci, -iaca, -iace; -iaci, -iace, -iace, -iace rýdzi robirobiKIB1 + -l, -la, -lo; -li KIB1 + -vší, -všia, -všie; -vší, -všie, -všie, -všie cudzí KIB1 + -ený, -ená, -ené; -ení, -ené, -ené, -ené pekný SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM slovesné podstatné meno: ohýbací vzor pre slovesné podstatné meno: KIB1 + -nie vysvedčenie Aj pri slovesných vzoroch vidíme, ako sa v druhej rovine redukuje počet vzorov. Na ukážke môžeme sledovať, ako sa slová, ktoré sa v prvej rovine časovali podľa troch rôznych vzorov (robiť, kresliť, kúpiť), ohýbajú v druhej rovine podľa jedného vzoru (2robiť). V ďalšej časti sa budeme zaoberať zostávajúcimi ohybnými slovnými druhmi, ktorými sú prídavné mená, príslovky, zámená a číslovky. Výsledkom morfologickej analýzy sú aj v tomto prípade zoznamy a opisy vzorov, predstaviteľov ohýbacích typov. Ako príklad uvedieme pri každom z týchto slovných druhov niekoľko vzorov. Kladieme si týmto za cieľ objasniť rozdiely medzi prvou a druhou rovinou prezentácie morfologických údajov. 5. Morfológia prídavných mien Skloňovací vzor prídavných mien má 38 tvarov. Oproti podstatným menám je zmena v tom, že prídavné mená všetkých troch rodov sú reprezentované jedným heslovým slovom (pekný – N sg., mužský rod). Všetky majú v N sg. rovnaký TZ. V mužskom rode pristupuje osobitná skupina ohýbacích prípon pre mužskú osobu prídavných mien. Súčasťou vzoru je uvedenie prípadných alternácií v TZ a zmeny v sústave ohýbacích prípon. Stupňovací vzor, pomocou ktorého sa určuje miera vlastnosti, je charakterizovaný použitím prípony -ší alebo -ejší v komparatíve (star-ší, jasn-ejší). Mnohé prídavné mená nadobúdajú kategóriu stupňovania v prenesenom význame. Preto sme stupňovací vzor pridelili každému stupňovateľnému prídavnému menu. Delenie na stupňovateľné a nestupňovateľné prídavné mená sme robili ručne na základe vlastného jazykového vedomia. Superlatív – 3. stupeň – tvoríme pridaním predpony naj- k tvaru komparatívu (naj-starší, naj-jasnejší). Stupňovací vzor prvej roviny teda obsahuje informáciu o stupňovacej prípone a údaje o alternáciách v TZ. 5.1 Prídavné mená – prvá morfologická informačná rovina 63 EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ Pri prídavných menách závisí sformovanie nového vzoru skloňovania od zakončenia slova a zachovania rytmického krátenia v TZ. To má potom vplyv aj na súbor ohýbacích prípon. Pri stupňovaní dochádza k väčším zmenám v TZ a pri niektorých prídavných menách sa prejavuje aj supletívnosť bázy. Postup rozširovania skupiny vzorov prídavných mien – prvá rovina Okruhy vzorov skloňovania prídavných mien – prvá rovina: „pekný“, „cudzí“, „extra“. Okruhy vzorov stupňovania prídavných mien – prvá rovina: „nový“, „belasý“, „bosý“. Ako príklad opisu vzorov skloňovania prídavných mien prvej roviny je uvedený vzor pekný ako reprezentant a vzor krásny ako člen okruhu. Napriek tomu, že ide o všeobecne známe informácie, z dôvodu komplexnosti uvedieme aj tieto údaje. Okruh vzorov „pekný“: pekný, krásny, hoden. Vzor pekný je vzor reprezentant. Skloňujú sa podľa neho prídavné mená zakončené v N sg. mužského rodu na -ý. V TZ nie je alternácia. Sg. Pl. M živ. M neživ. F N M živ. M neživ. FN N pekn-ý pekn-ý pekn-á pekn-é pekn-í pekn-é G pekn-ého pekn-ého pekn-ej pekn-ého pekn-ých pekn-ých D pekn-ému pekn-ému pekn-ej pekn-ému pekn-ým pekn-ým A pekn-ého pekn-ý pekn-ú pekn-é pekn-ých pekn-é L pekn-om pekn-om pekn-ej pekn-om pekn-ých pekn-ých I pekn-ým pekn-ým pekn-ou pekn-ým pekn-ými pekn-ými A: – B: – Vzor krásny Sg. M živ. M neživ. N krásn-y krásn-y G krásn-eho krásn-eho D krásn-emu krásn-emu 64 F krásn-a krásn-ej krásn-ej N krásn-e krásn-eho krásn-emu Pl. M živ. krásn-i krásn-ych krásn-ym M neživ. F N krásn-e krásn-ych krásn-ym SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM A krásn-eho krásn-y krásn-u L krásn-om krásn-om krásn-ej I krásn-ym krásn-ym krásn-ou A: – B: krátke ohýbacie prípony krásn-e krásn-om krásn-ym krásn-ych krásn-e krásn-ych krásn-ych krásn-ymi krásn-ymi Príklady vzorov stupňovania prídavných mien. Okruh vzorov „nový“: nový, tenký, vysoký, hlboký, pekný-s (stupňovací), dobrý, malý, veľký, zlý, biely, blízky, krátky. Vzor nový sa v N sg. mužského rodu v pozitíve končí na -ý. Stupňuje sa pomocou prípony -ší. Pri stupňovaní nedochádza k alternáciám. rod M F N M živ. M neživ., F, N A: – B: – číslo Sg. Sg. Sg. Pl. Pl. 1. stupeň nov-ý nov-á nov-é nov-í nov-é 2. stupeň nov-ší nov-šia nov-šie nov-ší nov-šie 3. stupeň naj-novší naj-novšia naj-novšie naj-novší naj-novšie Vzor biely sa v N sg. mužského rodu v pozitíve končí na -y. TZ sa končí na jednu spoluhlásku, pred ktorou je dlhá samohláska, ktorá sa skracuje (A1). Stupňuje sa pomocou prípony -ší. rod číslo 1. stupeň 2. stupeň 3. stupeň M Sg. biel-y bel-ší naj-belší F Sg. biel-a bel-šia naj-belšia N Sg. biel-e bel-šie naj-belšie M živ. Pl. biel-i bel-ší naj-belší M neživ., F, N Pl. biel-e bel-šie naj-belšie A: A1 B: krátke ohýbacie prípony Vzor vysoký sa v N sg. mužského rodu v pozitíve končí na -ý. TZ sa končí na -ok-, pred ktorým je sykavka. Pri stupňovaní -ok- vypadáva (A4) a sykavka sa zmäkčuje (A5). Stupňuje sa pomocou prípony -ší. rod číslo 1. stupeň 2. stupeň 3. stupeň M Sg. vysok-ý vyš-ší naj-vyšší F Sg. vysok-á vyš-šia naj-vyššia 65 EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ N Sg. M živ. Pl. M neživ., F, N Pl. A: A4, A5 B: – vysok-é vysok-í vysok-é vyš-šie vyš-ší vyš-šie naj-vyššie naj-vyšší naj-vyššie 5.2 Prídavné mená – druhá morfologická informačná rovina Okruhy vzorov skloňovania prídavných mien – druhá rovina: „2pekný“, „2cudzí“, „2extra“. Okruhy vzorov stupňovania prídavných mien – druhá rovina: „2nový“, „2belasý“, „2bosý“. Príklady na skloňovanie prídavných mien druhej roviny neuvádzame, pretože postup je jednoduchý. Vzory prvej roviny (pekný, krásny), ktoré sme uviedli ako príklady, majú v druhej rovine rovnaký TZ a rozdiel v dĺžke prípon: TZ1-ý (pekn-ý), TZ1-y (krásn-y). Príklady vzorov stupňovania prídavných mien. Okruh vzorov „2nový“: 2nový, 2vysoký, 2biely. Vzor 2nový – stupňujú sa podľa neho prídavné mená zakončené na -ý, u ktorých pri stupňovaní nedochádza k zmenám v báze a komparatív sa tvorí pomocou prípony -ší. rod číslo 1. stupeň 2. stupeň 3. stupeň M Sg. TZ1-ý TZ1-ší naj-TZ1-ší F Sg. TZ1-á TZ1-šia naj-TZ1-šia N Sg. TZ1-é TZ1-šie naj-TZ1-šie M živ. Pl. TZ1-í TZ1-ší naj-TZ1-ší M neživ., F, N Pl. TZ1-é TZ1-šie naj-TZ1-ie TZ1: novVzor 2vysoký – stupňujú sa podľa neho prídavné mená zakončené na -ý, u ktorých pri stupňovaní dochádza k zmenám v báze a komparatív sa tvorí pomocou prípony -ší. rod číslo 1. stupeň 2. stupeň 3. stupeň M Sg. TZ1-ý TZ2-ší naj-TZ2-ší F Sg. TZ1-a TZ2-šia naj-TZ2-šia N Sg. TZ1-e TZ2-šie naj-TZ2-šie 66 SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM M živ. Pl. TZ1-i M neživ., F, N Pl. TZ1-e TZ1: vysok-, TZ2: vyš- TZ2-ší TZ2-šie naj-TZ2-ší naj-TZ2-šie Pod vzor 2vysoký patria prídavné mená viacerých vzorov prvej roviny, napr. vysoký, hlboký, tenký, dobrý, malý, zlý a pod. Vzor 2biely – stupňujú sa podľa neho prídavné mená zakončené na -y, u ktorých pri stupňovaní dochádza k zmenám v báze a komparatív sa tvorí pomocou prípony -ší. rod číslo 1. stupeň M Sg. TZ1-y F Sg. TZ1-a N Sg. TZ1-e M živ. Pl. TZ1-i M neživ., F, N Pl. TZ1-e TZ1: biel-, TZ2: bel- 2. stupeň TZ2-ší TZ2-šia TZ2-šie TZ2-ší TZ2-šie 3. stupeň naj-TZ2-ší naj-TZ2-šia naj-TZ2-šie naj-TZ2-ší naj-TZ2-šie 6. Morfológia prísloviek Gramatická forma prísloviek – vzťah príslovky k nadradenému slovu je nediferencovaný. Pri niektorých príslovkách sa uplatňuje kategória stupňovateľnosti, ktorou sa vyjadruje miera vlastnosti deja. 6.1 Príslovky – prvá morfologická informačná rovina Prvý stupeň je zhodný so základným tvarom príslovky, t. j. s heslovým slovom. Druhý stupeň sa tvorí spravidla pomocou prípon -šie alebo -ejšie, zriedka aj inými príponami. Tieto prípony sa pripájajú k TZ po odtrhnutí prípon pozitívu: -o, -e, -y. Pri tvorení druhého stupňa dochádza často k spoluhláskovým, samohláskovým a supletívnym zmenám v báze. Tretí stupeň sa tvorí pripojením predpony naj- k druhému stupňu príslovky. 67 EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ Stupňovateľnosť prísloviek sme zisťovali sčasti pomocou počítača, porovnaním stupňovateľných prídavných mien a im zodpovedajúcich deadjektívnych prísloviek. Zároveň sme názvy stupňovacích vzorov prísloviek odvodili od príslušných vzorov prídavných mien (novo, bielo, zle...). Stupňovacie vzory prvej roviny sa delia podľa toho, aká stupňovacia prípona sa v nich využíva a aký druh alternácie sa v jednotlivých príslovkách pri ohýbaní prejavuje. Okruhy vzorov stupňovania prísloviek – prvá rovina: „novo“, „belaso“, „mocne“, „ľudsky“, „nepravidelné“, „boso“. Napr. okruh vzorov „novo“: novo, bielo, tenko, hlboko, vysoko, krátko, blízko, malo. Vzor novo – stupňujú sa podľa neho príslovky zakončené v pozitíve na -o, ktoré pri ohýbaní nemenia TZ. Stupňuje sa pomocou prípony -šie. 1. stupeň 2. stupeň 3. stupeň nov-o nov-šie naj-novšie A: – B: – Vzor bielo je vzorom pre stupňovanie prísloviek zakončených v pozitíve na -o, ktoré majú v TZ dvojhlásku alebo dlhú samohlásku, ktorá sa skracuje (A4). Stupňuje sa pomocou prípony -šie. 1. stupeň 2. stupeň 3. stupeň biel-o bel-šie naj-bel-šie A: A1 B: – 6.2 Príslovky – druhá morfologická informačná rovina Okruhy vzorov stupňovania prísloviek – druhá rovina: „2novo“, „2belaso“, „2mocne“, „2ľudsky“, „2nepravidelné“, „2boso“. Napr. okruh „2novo“: 2novo, 2bielo. Vzor 2novo 1. stupeň 2. stupeň TZ1-o TZ1-šie TZ1: novVzor 2bielo 1. stupeň 2. stupeň 68 3. stupeň naj-TZ1-šie 3. stupeň SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM TZ1-o TZ2-šie naj-TZ2-šie TZ1: biel, TZ2: belVzor 2bielo zahŕňa v druhej rovine aj príslovky, ktoré v prvej rovine patria pod vzory krátko, blízko, hlboko, vysoko, tenko... a pod. Ich zložité zmeny v TZ počas ohýbania sú k dispozícii vždy v rovnakom stĺpci pod rovnakým atribútom. Vzorec stupňovania je, ako vidíme vyššie, vždy rovnaký. 7. Morfológia zámen Zámená sú slová so všeobecným významom, vyjadrujú však gramatické významy konkrétnych názvov (Morfológia slovenského jazyka 1966, s. 233). Výsledkom analýzy morfológie sú aj v tomto prípade zoznamy a opisy vzorov, predstaviteľov ohýbacích typov. 7.1 Zámená – prvá morfologická informačná rovina Z hľadiska morfologického delíme zámená na zámená typu „ja“, „kto“, „on“, „sám“, „môj“, „akýsi“, „čísi“, ktoré plnia úlohu reprezentantov jednotlivých okruhov. Pri spracovaní zámen vychádzame sčasti z monografie J. Horeckého (1964). Všímame si odlišnosti v sústave relačných morfém. Slovám, ktoré majú niektoré tvary variantné, prideľujeme dva vzory. Pri osobných zámenách sú slová, ktoré majú viac ako dva variantné tvary. Napr. genitív singuláru zámena on (jeho, neho, ho). V takom prípade pridelíme vzory pre dva tvary a ostatné uvedieme v databáze v stĺpci SA. Napr. okruh vzorov „ja“: ja1, ja2, ty1, ty2, my, vy, sa1, sa2. Vzory zodpovedajú (v zásade) svojím súborom ohýbacích prípon tomuto typu: Sg. Pl. N G D A L I N G D A L I -ø -a -e -a -e -ou -ø -ás -ám -ás -ás -ami Vzor ja1 vyjadruje kategóriu 1. osoby, nerozlišuje rod, číslo – len singulár. číslo N G D A L I Sg. ja-ø mň-a mn-e mň-a mn-e mn-ou A: ZB (zložité zmeny v báze) B: – Vzor vy vyjadruje kategóriu 2. osoby, nerozlišuje rod, číslo – len plurál. číslo N G D A L I 69 EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ Pl. vy-ø v-ás A: A6 (vy-/v-) B: – v-ám v-ás v-ás v-ami 7.2 Zámená – druhá morfologická informačná rovina Vzory pre zámená druhej roviny v podstate zodpovedajú svojím obsahom vzorom prvej roviny, odlišná je len forma opisu. Napr. okruh vzorov „2ja“: 2ja1, 2ja2, 2ty1, 2ty2, 2vy, 2sa. Vzor 2ja1 číslo N G D Sg. TZ1-ø TZ4-a TZ2-e TZ1: ja-, TZ2: mn-, TZ4: mňVzor 2vy číslo N G D Pl. TZ1-ø TZ2-ás TZ2-ám TZ1: vy-, TZ2: v- A TZ4-a L TZ2-e I TZ2-ou A TZ2-ás L TZ2-ás I TZ2-ami 8. Morfológia čísloviek Číslovky nemajú osobitné gramatické vlastnosti, ale s mnohými obmedzeniami sa pri nich uplatňujú gramatické kategórie podstatných mien, prídavných mien a prísloviek. V jazykovedných prácach nájdeme rôzne charakteristiky čísloviek a ich rozdelenia na jednotlivé skupiny. Pri našom spracovaní morfologických vlastností čísloviek sa budeme pridŕžať morfologických informácií uvedených v Krátkom slovníku slovenského jazyka (1997): 1. ohybné podľa vzorov podstatných mien (sto, milión), 2. ohybné podľa vzorov prídavných mien (prvý, tretí), 3. nesklonné (tristo), 4. osobitné skloňovanie – so znakmi charakteristickými len pre číslovky (šesť, dvanásť). Prvé tri skupiny skloňovania sme riešili pri iných slovných druhoch, preto sa budeme venovať najmä poslednej skupine. 8.1 Číslovky – prvá morfologická informačná rovina 70 SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM Pri číslovkách, rovnako ako pri zámenách, neuvádzajú príručky slovenskej gramatiky žiadne pevné „klasické“ vzory. Opierame sa preto aj tu o už citovanú prácu J. Horeckého (1964) a zoskupujeme jednotlivé číslovkové vzory okolo autorom uvedených typických súborov relačných morfém. Z morfologického hľadiska je pri číslovkách charakteristická kategória mužského osobného rodu (napr. tri – traja). Okruhy vzorov: „jeden“, „dva“, „tri“, „štyri“, „päť“, „dvesto“. Napr. okruh vzorov „päť“ obsahuje vzory: päť, sedem, jedenásť. V sústave relačných morfém zodpovedá nasledujúcej schéme: Pl. N G D A L I -ø -ich -im -ø -ich -imi -i -ich -im -ich -ich -imi Vzor päť – dochádza k alternácii A1 (zmena samohlásky na dvojhlásku) a A21 (zmena ď/d, ť/t, ň/n, ľ/l) v TZ. M, F, N M živ. N päť-ø piat-i G piat-ich piat-ich D piat-im piat-im A päť-ø piat-ich L piat-ich piat-ich I piat-imi piat-imi A: A1, A21 B: – Vzor sedem – dochádza v TZ. M, F, N N sedem-ø G siedm-ich D siedm-im A sedem-ø L siedm-ich I siedm-imi A: A1, A2 B: – k alternáciám A1, A2 (vypustenie samohlásky) M živ. siedm-i siedm-ich siedm-im siedm-ich siedm-ich siedm-imi 71 EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ 8.2 Číslovky – druhá morfologická informačná rovina Okruhy vzorov: „2dva“, „2tri“, „2štyri“, „2päť“, „2dvesto“. Napr. okruh vzorov „2päť“: 2päť. Vzor 2päť M, F, N M živ. N TZ1-ø TZ2-i G TZ2-ich TZ2-ich D TZ2-im TZ2-im A TZ1-ø TZ2-ich L TZ2-ich TZ2-ich I TZ2-imi TZ2-imi TZ1: päť-, TZ2: piatČíslovky vzoru sedem sa stávajú v druhej rovine súčasťou vzoru 2päť. 9. Dátový model referenčnej morfologickej databázy slovenského jazyka Pripomeňme, že v tejto práci sa zaoberáme lingvistickými informáciami, ktoré sú potrebné na vykonanie automatickej analýzy/generovania slovných tvarov ohybných slov slovenského jazyka. Potrebné informácie sú umiestnené v referenčnej morfologickej databáze slovenského jazyka (RMDSJ). Databáza obsahuje všetky morfologické informácie o najpoužívanejších slovách súčasnej slovenčiny (okrem vlastných mien a pomenovaní) v rozsahu stanovenom v predchádzajúcich častiach, primerane štruktúrované a detailizované. Dynamika jazyka vyžaduje databázu vyvíjať tak, aby ju bolo možné rozširovať a použiť v pôvodnej podobe, s určitými modifikáciami alebo v transformovanej podobe ako prvok komplexnejších systémov spracovania textov. Preto musí byť možnosť ku každému slovu priradiť údaje, ktoré sú potrebné pri analýze textu v rôznych smeroch (morfologická rovina, syntaktická rovina, sémantická rovina, kvantitatívna analýza a pod.). Takými údajmi sú napr. štylistická charakteristika, frekvencia a pod. Typickú skupinu údajov, ktorá sa využíva v kvantitatívnej lingvistike, uvádza Koehler – Schmied (1992). Ďalej budeme špecifikovať konceptuálnu schému referenčnej morfologickej databázy. Opisujeme konceptuálnu schému morfologickej databázy, ktorá pozostáva z konceptuálnych schém vzorov a z konceptuálnych schém k jednotlivým slovným druhom. Pri algoritmickom spracovaní morfológie slovných tvarov využívame údaje obsiahnuté v databázach druhej roviny. 72 SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM 9.1 Modelovanie RMDSJ pomocou relačného dátového modelu Na základe vykonanej analýzy slovenskej lexiky, vlastností morfologických údajov, očakávaného rozširovania databázy a vlastností relačného modelu dát považujeme za výhodné využiť na modelovanie morfologických údajov relačný dátový model. Pripomeňme, že v relačnom modeli skupina príbuzných dát, nazývaných relačné n-tice, tvorí reláciu. Reláciu si možno predstaviť ako tabuľku, v ktorej každý riadok predstavuje jeden člen – (n-ticu) relácie – a každý stĺpec zodpovedá zložke relácie, nazývanej atribút relácie. Každý stĺpec relácie obsahuje údaje toho istého typu, napr. koncovka skloňovania v datíve singuláru. Teda napr. každá ntica relácie (riadok tabuľky) obsahuje všetky uvažované informácie o danom slove. Meno relácie a množina atribútov tvoria relačnú schému. Naplnenie (výskyt) relačnej schémy R sa volá relácia (Lanka – Pal 1993). Na zápis výskytu relácie sa obyčajne využíva len meno relácie, čo realizujeme aj my. Vzhľadom na rôznorodosť morfologických údajov pri jednotlivých slovných druhoch v slovenčine sme k jednotlivým slovným druhom definovali samostatné relácie, t. j. samostatné tabuľky. Uvádzame opisy relačných schém k týmto skupinám slov: podstatné mená, slovesá, prídavné mená, zámená, príslovky, číslovky. 9.1.1 Relačné schémy a relácie k podstatným menám Pri podstatných menách, podobne ako pri ostatných ohybných slovných druhoch, budeme uvažovať dva typy relačných schém a relácií. Prvý typ zahŕňa relačné schémy a relácie k vzorom skloňovania a druhý typ relačné schémy a relácie k samotným podstatným menám ako heslovým slovám. Relácie skloňovacích vzorov budú obsahovať údaje o vzorových podstatných menách – vzoroch skloňovania. Relácie k podstatným menám budú obsahovať údaje o jednotlivých heslových slovách, ktoré sú potrebné na morfologické spracovanie podstatných mien. Pri stanovení relačnej schémy sa za menom relačnej schémy v jednoduchých zátvorkách vymenujú mená atribútov relácie. Relačné schémy a relácie vzorov skloňovania podstatných mien Konkrétne relačné schémy vzorov skloňovania podstatných mien a príslušné relácie k týmto schémam sú uvedené v tvare tabuliek. Záhlavie tabuľky – pomenovanie tabuľky a mená stĺpcov – formujú príslušnú relačnú schému a samotná tabuľka je zodpovedajúcou reláciou k tejto schéme. Špecifikovanie 73 EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ atribútov – stĺpcov tabuliek je uvedené za každou tabuľkou. Ukážky tabuliek relácií vzorov skloňovania pre podstatné mená sú tieto: 1. rovina – okruh vzorov „ulica“ PODSP1: SK ALTER R VZOR SN SG SD SA SL SI PN PG PD PA PL PI -NÁCIA i dyň dyňa a e i u i ou e ø iame ach ami A1 A21 i fak fakľa a e i u i ou e ø iame ach ami A10 A21 fun funkcia a e i u i ou e í ám e ách ami – hrá hrádza a e i u i ou e í am e ach ami – i jea jedľa a e i u i ou e í iame ach ami A21 míľ míľa a e i u i ou e ø am e ach ami A21 i ned nedeľa a e i u i ou e ø iame ach ami A2 A21 i ovc ovca a e i u i ou e ø iame ach ami A10 pomypo0 je-0 – – – – – – e – am e ach ami A1 i ruž ruža a e i u i ou e í iame ach ami – sva svieca a e i u i ou e ø am e ach ami – i ia ac am uli ulica a e i u i ou e ø m e h i A1 víchrii víc ca a e i u i ou e ø iame ach ami – vládkyi vlá ňa a e i u i ou e ø iame ach ami A21 vôň vôňa a e i u i ou e í am e ach ami A21 Relačná schéma má meno PODSP1 a obsahuje tieto atribúty: (SKR, VZOR, SN, SG, SD, SA, SL, SI, PN, PG, PD, PA, PL,PI ALTERNÁCIA). Špecifikácia atribútov: 74 SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM SKR – skratka vzoru VZOR – vzor skloňovania SN, SG ... SI – 6 pádov singuláru PN, PG ... PI – 6 pádov plurálu ALTERNÁCIA – pravidlá zmien v TZ (s hodnotou reťazca) 2. rovina – okruh vzorov „2ulica“ PODSP2: SKR VZOR SN SG SD SA SL SI PN PG PD PA PL PI Druhy TZ 2dyň 2dyňa a e i u i ou e ø iam e iach ami 1,2,4 2fun 2funkcia a e i u i ou e í ám e ách ami 1 2hrá 2hrádza a e i u i ou e í am e ach ami 1 2jea 2jedľa a e i u i ou e í iam e iach ami 1,4 2míľ 2míľa a e i u i ou e ø am e ach ami 1,4 2po0 2pomyje-0 – – – – – – e ø am e ach ami 1,2 2ruž 2ruža a e i u i ou e í iam e iach ami 1 2sva 2svieca a e i u i ou e ø am e ach ami 1 2uli 2ulica a e i u i ou e ø iam e iach ami 1,2 2víc 2víchrica a e i u i ou e ø iam e iach ami 1 2vlá 2vládkyňa a e i u i ou e ø iam e iach ami 1,4 2vôň 2vôňa a e i u i ou e í am e ach ami 1,4 Špecifikácia atribútov je totožná s predchádzajúcou tabuľkou prvej roviny. Namiesto atribútu ALTERNÁCIA je atribút Druhy TZ. Druhy TZ – použité druhy TZ (TZ1, TZ2...). Predpokladáme, že princíp relačnej schémy a relácie vzorov je dostatočne vysvetlený a ďalej môžeme prezentovať len meno a záhlavie tabuľky ako relačnú schému vzorov. Relačné schémy a relácie k jednotlivým podstatným menám: Relačná schéma podstatných mien mužského rodu má 11 atribútov. Tie isté atribúty má aj relačná schéma podstatných mien ženského rodu a stredného rodu. Mená relačných schém sú: PMM – pre mužský rod, PMF – pre ženský rod, PMN – pre stredný rod a PMD – pre podstatné mená dvojrodové. Relačná schéma mužských podstatných mien: 75 EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ PMM(PARA, PAR1, LEMMA, MORPH, TZ1, TZ2, TZ3, TZ4, SA, PARA2, PAR2_1) Špecifikácia atribútov: PARA je skratka pre vzor ohýbania (paradigmy) – ok1 (oko1) PAR1 je skratka pre druhý vzor, ak má podstatné meno variantné tvary – ok2 (oko2) LEMMA základný tvar slova, heslové slovo – oko MORPH výber morfologických tvarov, ako ich ponúka KSSJ – -a s. 1. mn. oči, očí/ arch. očú -iam –iach TZ1,TZ2 obmeny tvarotvorného základu, ktoré sa vyskytnú pri ohýbaní TZ3,TZ4 podstatného mena: TZ1 – ok-, TZ2 – očSA špecifické atribúty, ktoré sa vyskytnú nad rámec štandardných informácií (napr. uvedenie vokatívu pri niektorých podstatných menách) PARA2 je skratka pre vzor ohýbania v 2. rovine – 2ok1 (2oko-1) PAR2_1 je skratka pre druhý vzor v 2. rovine, keď má podstatné meno variantné tvary – 2ok2 /(2oko-2) Všetky atribúty nadobúdajú reťazcové hodnoty. 9.1.2 Relačné schémy a relácie k slovesám Relačné schémy a relácie vzorov skloňovania slovies Relačné schémy a relácie k vzorom časovania slovies sú obsiahnuté v tabuľkách. Relácia obsahuje vzorové slová a ich atribúty. Z dôvodu väčšej efektívnosti a úspory tlače je tabuľka – relácia predstavená tak, že jej stĺpce (nie riadky) tvoria n-ticu relácie, t. j. obsahujú príslušné údaje k vzoru. Mená atribútov sú uvedené na začiatku riadkov. Špecifikácia atribútov a význam značiek (TMPA1, RPB1... pre prvú rovinu, KPA1, KPB2... pre druhú rovinu) je vysvetlený v prvej časti pri opise vzorov slovies. 1. rovina – ukážka z okruhu vzorov „chudnúť“: chudnúť, vládnuť, ľnúť, KVITNÚŤ. SLOVP1: 76 SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM skratka vzor TMPA1 TMPB1 RPA1 RPB1 RPA2 RPB2 1.os.pr.č.j.č. 2.os.pr.č.j.č. 3.os.pr.č.j.č. 1.os.pr.č.mn.č. 2.os.pr.č.mn.č. 3.os pr.č.mn.č. imper.2.os.j.č. imper.1.os.mn.č. imper.2.os.mn.č. prechodník čin.príč.prít.j.č.m.r. čin.príč.prít.j.č.ž.r. čin.príč.prít.j.č.s.r. čin.príč.prít.mn.č.m.r. čin.príč.prít.mn.č.ž.r. čin.príč.prít.mn.č.s.r. č.pr.prít.mn.č.m.r.živ. vzor pre čin.príč. TMIA1 TMIB1 RIA1 RIB1 min.čas m.r.j.č. min.čas ž.r.j.č. min.čas s.r.j.č. min.čas.mn.číslo čin.príč.min.j.č.m.r. chu chudnúť e ø chudn chudn – – m š ø me te ú ø me te úc úci úca úce úci úce úce úce rýdzi ú ø chudn chud ol la lo li vší vlá vládnuť e ø vládn vládn – – m š ø me te u ø me te uc uci uca uce uci uce uce uce rýdzi u ø vládn vlád ol la lo li vší ľnú ľnúť e ø ľn ľn – – m š ø me te ú ø me te úc úci úca úce úci úce úce úce rýdzi ú u ľn ľn l la lo li vší KVI KVITNÚŤ e ø kvitn kvitn pokvitn pokvitn m š ø me te ú ø me te úc úci úca úce úci úce úce úce rýdzi ú ø kvitn kvitn ol la lo li vší 77 EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ 2. rovina – ukážka z okruhu vzorov „2chudnúť“: 2chudnúť, núť, 2KVITNÚŤ, 2HRNÚŤ, 2objať. Tabuľka – relácia je riešená ako relácie pre 1. rovinu. SLOVP2: skratka 2chu 2vlá 2ľnú vzor 2chudnúť 2vládnuť 2ľnúť KPA1 chudne vládne ľne KPB1 chudn vládn ľn 1.os.j.č. m m m 2.os.j.č. š š š 3.os.j.č. ø ø ø 1.os.mn.č. me me me 2.os.mn.č. te te te 3.os..mn.č. ú u ú imperatív 2.os.j.č. ø ø ø imperatív 1.os.mn.č. me me me imperatív 2.os.mn.č. te te te prechodník úc uc úc čin.príč.prít.j.č.m.r. úci uci úci čin.príč.prít.j.č.ž.r. úca uca úca čin.príč.prít.j.č.s.r. úce uce úce čin.príč.prít.mn.č.m.r.živ úci uci úci . čin.príč.prít.mn.č.ž.r. úce uce úce čin.príč.prít.mn.č.s.r. úce uce úce čin.príč.prít.mn.č.m.r. úce uce úce oh.vzor pre čin.príč.prít. rýdzi rýdzi rýdzi KIA1 chudnú vládnu ľnú KIB1 chud vlád ľnu KIB2 chudnu vládnu – IZ chudni vládni ľni min.čas j.č.m.r. ol ol l min.čas j.č.ž.r la la la min.čas j.č.s.r. lo lo lo 78 2vládnuť, 2ľ- 2objať 2objať objíme objím m š ø me te u ø me te uc uci uca uce uci uce uce uce rýdzi obja obja – objím l la lo SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM min.čas mn.č. čin.pr.m.čas j.č.m.r.živ. čin.pr.m.čas j.č.ž.r. čin.pr.m.čas j.č.s.r. čin.pr.m.čas mn.č.m.r. čin.pr.m.čas mn.č.ž.r. čin.pr.m.čas mn.č.s.r. čin.pr.m.čas m.r. ohýb.vz.pre čin.pr.min. trp.príč.j.č.m.r. trp.príč.j.č.ž.r. trp.príč.j.č.s.r. trp.príč.mn.č.m.r. trp.príč.mn.č.ž.r. trp.príč.mn.č.s.r. trp.príč.mn.č.iné ohýb.vzor pre trp.príč. slov.podstatné meno ohýb.vzor pre sl.pod.m. li vší všia všie vší všie všie všie cudzí tý tá té tí té té té pekný tie vysvedčenie li vší všia všie vší všie všie všie cudzí tý tá té tí té té té pekný tie vysvedčenie li vší všia všie vší všie všie všie cudzí tý tá té tí té té té pekný tie vysvedčenie li vší všia všie vší všie všie všie cudzí tý tá té tí té té té pekný tie vysvedčenie Relačné schémy a relácie k jednotlivým slovesám VER(PARA, LEMMA, V, MORPH, RAD_INF_A, TM_INF_A, RAD_INF_B1, TM_INF_B1, RAD_INF_B2, TM_INF_B2, RAD_PRZ_A1, TM_PRZ_A1, RAD_PRZ_A2, TM_PRZ_A2, RAD_PRZ_B1, TM_PRZ_B1, RAD_PRZ_B2, TM_PRZ_B2, IZ, SA, PARA_2, KME_INF_A, KME_INF_B1, KME_INF_B2, KME_PRZ_A1, KME_PRZ_A2, KME_PRZ_B1, KME_PRZ_B2) Meno schémy je VER, má 28 atribútov, ktoré sú špecifikované takto: PARA je skratka pre vzor ohýbania (paradigmy) – dža (džavotať) LEMMA základný tvar slova, heslové slovo – džavotať V informácia o poradí variantov MORPH výber morfologických tvarov, ako ich ponúka KSSJ – -ce -cú -tajúc ndk 79 EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ RAD_INF_A TM_INF_A RAD_INF_B1 TM_INF_B1 RAD_INF_B2 TM_INF_B2 RAD_PRZ_A1 TM_PRZ_A1 RAD_PRZ_A2 TM_PRZ_A2 RAD_PRZ_B1 TM_PRZ_B1 RAD_PRZ_B2 TM_PRZ_B2 IZ SA PARA_2 KME_INF_A 1. podoba neurčitkového koreňa – džavot1. podoba infinitívnej tematickej morfémy – -a1. variant 2. podoby neurčitkového koreňa – džavot1. variant 2. podoby infinitívnej tematickej morfémy – -a2. variant 2. podoby neurčitkového koreňa 2. variant 2. podoby infinitívnej tematickej morfémy 1. variant 1. podoby prítomníkového koreňa – džavoc1. variant 1. podoby prézentnej tematickej morfémy – -e2. variant 1. podoby prítomníkového koreňa 2. variant 1. podoby prézentnej tematickej morfémy 1. variant 2. podoby prítomníkového koreňa 1. variant 2. podoby prézentnej tematickej morfémy 2. variant 2. podoby prítomníkového koreňa – džavot2. variant 2. podoby prézentnej tematickej morfémy – -ajimperatívny základ – džavotajšpecifické atribúty nad rámec štandardných informácií je skratka pre vzor ohýbania v 2. rovine – 2dža (2džavotať) 1. podoba neurčitkového kmeňa – základ neurčitku – džavotaKME_INF_B1 1. variant 2. podoby neurčitkového kmeňa – džavotaKME_INF_B2 2. variant 2. podoby neurčitkového kmeňa KME_PRZ_A1 1. variant 1. podoby prítomníkového kmeňa – džavocKME_PRZ_A2 2. variant 1. podoby prítomníkového kmeňa KME_PRZ_B1 1. variant 2. podoby prítomníkového kmeňa – džavocKME_PRZ_B2 2. variant 2. podoby prítomníkového kmeňa – džavotajVšetky atribúty majú ako hodnoty reťazce znakov. 9.1.3 Relačné schémy a relácie k prídavným menám Relačné schémy a relácie vzorov skloňovania prídavných mien Ukážka relačnej schémy a relácie k vzorom skloňovania prídavných mien. (Ide o jednu tabuľku, ktorá je z tlačových dôvodov umiestnená v častiach pod sebou.) 1. rovina PRIDP1: 80 SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM S S S S S N_Ž_ G_Ž_ D_Ž A_Ž_ L_Ž M M _M M _M ém ý ého u ého om em y eho u eho om i cud cudzí í ieho emuieho om em rýd rýdzi i eho u eho om SK V R ZOR pekpek ný kráskry ny ⇒ SN _F á a S SD G_F _F ej ej ej ej SA _F ú u S S L_F I_F ej ou ej ou ia a ej ej iu u ej ej ej ej S S I_Ž_ SN SG D_ SA M _M _M M _M ém ým ý ého u ý em ym y eho u y i i ím í eho emuí em im i eho u i S S N_N G_N é ého e eho ou ie ou e S S D_N A_N ému é emu e i ieho emu ie eho emu e S L_ S M I_M om ým om ym om ím om im S L_N om om S I_N ým ym om ím om im PN PG PD PA P P _Ž_ _Ž_ _Ž_ _Ž_ L_Ž I_Ž P P P P P P ⇒ M M M M _M _M N_X G_X D_X A_X L_X I_X í ých ým ých ých ými é ých ým é ých ými i ych ym ych ych ymi e ych ym e ych ymi í ích ím ích ích ími ie ích ím ie ích ími i ich im ich ich imi e ich im e ich imi Špecifikácia atribútov: SKR – skratka vzoru VZOR – vzor skloňovania SN_Ž_M, SG_Ž_M ... SI_Ž_M – 6 pádov singuláru pre mužský rod – životný SN_M, SG_M ... SI_M – 6 pádov singuláru pre mužský rod – neživotný SN_F, SG_F ... SI_F – 6 pádov singuláru pre ženský rod SN_N, SG_N ... SI_N – 6 pádov singuláru pre stredný rod 81 EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ PN_Ž_M, PG_Ž_M ... PI_Ž_M – 6 pádov plurálu pre mužský rod – životný PN_X, PG_X ... PI_X – 6 pádov plurálu pre mužský rod – neživotný, ženský rod, stredný rod Druhá rovina obsahuje rovnaké vzory ako prvá rovina, preto ukážku neuvádzame. Relačná schéma k jednotlivým prídavným menám PRIDME(PARA, PRG, PRG1, LEMMA, MORPH, TZ1, TZ2, TZ_G1, TZ_G2, SA, GR, PARA2, PRG2, PRG2_1) Schéma má meno PRIDME a jej 12 atribútov je špecifikovaných nasledovne: PARA skratka pre vzor skloňovania prídavného mena – pek (pekný) PRG skratka pre vzor stupňovania prídavného mena – dob (dobrý) PRG1 skratka pre 2. vzor stupňovania, ak má prídavné meno variantné tvary LEMMA základný tvar slova, heslo – dobrý MORPH výber morfologických tvarov, ako ich ponúka KSSJ – lepší príd. TZ1,TZ2 obmeny TZ, ktoré sa vyskytnú pri skloňovaní prídavného mena – dobrTZ_G1,TZ_G2 obmeny TZ, ktoré sa vyskytnú pri stupňovaní prídavného mena – dobr- lepšSA špecifické atribúty, ktoré sú nad rámec štandardných informácií GR údaj o stupňovateľnosti PARA2 skratka pre vzor skloňovania prídavného mena v 2. rovine – 2pek (2pekný) PRG2 skratka pre vzor stupňovania v druhej rovine – 2bie (2biely) PRG2_1 skratka pre vzor stupňovania v druhej rovine ak má slovo varianty 82 SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM Hodnoty všetkých atribútov sú reťazcové hodnoty. 83 EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ 9.1.4 Relačné schémy a relácie k príslovkám, zámenám a číslovkám Relačné schémy a relácie k vzorom stupňovania prísloviek 1. rovina PRÍSLP1: SKR VZOR F_POZIT F_KOMP ALTERNÁCIA noo novo o šie – bio bielo o šie A1 kro krátko o šie A1 A3 beo belaso o ejšie – čio čierno o ejšie A1 ľud ľudsky y ejšie – moc mocne e ejšie – Špecifikácia atribútov: SKR – skratka vzoru VZOR – vzor stupňovania F_KOMP – formant komparatívu F_POZIT – formant pozitívu ALTERNÁCIA – pravidlá zmien v TZ (s hodnotou reťazca) 2. rovina PRÍSLP2: SKR VZOR 2noo 2novo 2beo 2belaso 2čie 2čierno 2ľud ľudsky 2moc mocne F_POZIT o o o y e F_KOMP šie ejšie ejšie ejšie ejšie Špecifikácia atribútov: SKR – skratka vzoru VZOR – vzor stupňovania F_KOMP – formant komparatívu F_POZIT – formant pozitívu 84 DRUHY TZ_G 1 1 1,2 SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM DRUHY TZ_G – počet použitých TZ pri stupňovaní (TZ_G1, TZ_G2) Relačné schémy a relácie k vzorom skloňovania zámen 1. rovina ZÁMP1: S V N_Ž SG_Ž SD_Ž_ SA_Ž_ SL_Ž_ SI_Ž_ SKR ZOR _M _M M M M M on2 on-2 ø eho emu eho om ím tvo tvoj ø ho mu ho om ím žiade žia n ø eho emu eho om ym ého- émuaže akýže ýže že že éhože omže ýmže ieho- iemučže číže íže že že iehožeomže ímže ⇒ ⇒ S S N_M G_M SD_M ø eho emu ø ho mu ø eho emu ého- émuýže že že ieho- iemuíže že že S N_F a a a áže iaže SG_F SD_F ej ej ej ej ej ej ejže ejže ejže ejže SA_M ho ø ø SL_M om om om SI_M ím ím ym ýže omže ýmže íže omže ímže SA_F u u u úže iuže SL_F ej ej ej ejže ejže SI_F ou ou ou ouže ouže 85 EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ ⇒ ⇒ S N_N o e e S G_N SD_N SA_N SL_N SI_N eho emu ho om ím ho mu e om ím eho emu e om ym ého- émuéže že že éže omže ýmže ieho- iemuieže že že ieže omže ímže P N_Ž PG_Ž PD_Ž_ PA_Ž_ PL_Ž_ PI_Ž_ _M _M M M M M i ich i i ich im ych ym ýchže ýmže íchže ímže íže íže ⇒ P N_X y e e im PG_XPD_X ich im ich im ych ym ýchéže že ýmže ieže íchže ímže ich ich imi ich ych ich ych imi ymi ýchže ýchže ýmiže íchže íchže ímiže PI_X PA_X e e e éže ieže ALTERNÁCIA ZB – A2 PL_X ich imi ich imi ych ymi ýmiže ýchže – íchže ímiže – Špecifikácia atribútov: SKR – skratka vzoru VZOR – vzor skloňovania SN_Ž_M, SG_Ž_M ... SI_Ž_M – 6 pádov singuláru pre mužský rod – životný 86 SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM SN_M, SG_M ... SI_M – 6 pádov singuláru pre mužský rod – neživotný SN_F, SG_F ... SI_F – 6 pádov singuláru pre ženský rod SN_N, SG_N ... SI_N – 6 pádov singuláru pre stredný rod PN_Ž_M, PG_Ž_M ... PI_Ž_M – 6 pádov plurálu pre mužský rod – životný PN_X, PG_X ... PI_X – 6 pádov plurálu pre mužský rod – neživotný, ženský rod, stredný rod ALTERNÁCIA – pravidlá zmien v TZ (s hodnotou reťazca) Druhá rovina zámen obsahuje rovnaké vzory, len namiesto atribútu ALTERNÁCIA je atribút DRUHY TZ. Relačné schémy a relácie k vzorom skloňovania čísloviek 1. rovina ČÍSLP1: P P P V P G_ D_ A_ P P SKR ZOR N_M M M M L_M I_M dva dva a och om a och oma päť päť ø ich im ø ich imi sede sed m ø ich im ø ich imi ⇒ ⇒ P N_Ž _M aja i i P P P P G_Ž D_Ž A_Ž L_Ž _M _M _M _M och om och och ich im ich ich ich im ich ich PI_Ž _M oma imi imi P P P P P P ALTERNÁCIA N_F G_F D_F A_F L_F I_F 87 EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ N e ø ø N och ich ich N om im im N e ø ø N och ich ich N oma– imi A1 imi A1, A2 Špecifikácia atribútov: SKR – skratka vzoru VZOR – vzor skloňovania PN_M, PG_M ... PI_M – 6 pádov plurálu pre mužský rod – neživotný PN_Ž_M, PG_Ž_M ... PI_Ž_M – 6 pádov plurálu pre mužský rod – životný PN_FN, PG_FN ... PI_FN – 6 pádov plurálu pre ženský a stredný rod ALTERNÁCIA – pravidlá zmien v TZ (s hodnotou reťazca) 88 SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM 2. rovina ČÍSLP2: V P P P P P SKR ZOR N_M G_M D_M A_M L_M 2 dva 2dva a och om a och 2päť 2päť ø ich im ø ich ⇒ ⇒ P N_Ž _M aja i P P G_Ž_D_Ž M _M och om ich im P N_F N e ø P G_F N och ich P I_M oma imi P P A_Ž_ L_Ž_ PI_Ž M M _M och och oma ich ich imi P D_F N om im P A_F N e ø P L_F N och ich PI_F N DRUHY TZ oma 1 imi 1, 2 Špecifikácia atribútov: SKR – skratka vzoru VZOR – vzor skloňovania PN_M, PG_M ... PI_M – 6 pádov plurálu pre mužský rod – neživotný PN_Ž_M, PG_Ž_M ... PI_Ž_M – 6 pádov plurálu pre mužský rod – životný PN_FN, PG_FN ... PI_FN – 6 pádov plurálu pre ženský a stredný rod DRUHY_ TZ – druhy použitých TZ (TZ1, TZ2, ...) Relačné schémy a relácie k jednotlivým príslovkám, zámenám a číslovkám, ak sú ohybné, sú tvorené podľa vyššie uvedených relačných schém pre podstatné mená, slovesá a prídavné mená, preto ich nebudeme opakovať. 89 EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ 9.2 Fyzická referenčná morfologická databáza slovenčiny Cieľom nášho snaženia bolo zhromaždiť morfologické údaje o každom slove súčasnej slovenskej lexiky, ako ju zachytáva Krátky slovník slovenského jazyka (1997), a dať ich k dispozícii v štruktúrovanej podobe a usporiadané napr. podľa slovných druhov a paradigiem. To sme dosiahli vytvorením relácií – počítačových súborov. Samostatný súbor tvoria vzory ohýbania slovných druhov. Ku každému slovnému druhu existuje dátový súbor, ktorý obsahuje najpoužívanejšie slová z daného slovného druhu v súčasnej spisovnej slovenčine. Tieto súbory sú k dispozícii na ďalší výskum alebo tvorbu jazykových aplikácií. 10. Poznámky k realizácii (implementácii) referenčnej morfologickej databázy Prvým krokom na ceste tvorby referenčnej morfologickej databázy slovenčiny bolo získanie elektronickej podoby KSSJ ako základného lexikálneho zdroja, obsahujúceho tiež veľa gramatických údajov. Poznatky z práce na KSSJ je možné aplikovať aj na iné informačné zdroje. Literatúra ALLÉN, Sture. 1981. The Lemma-Lexeme Model of the Swedish Lexical Data Base. In: Progress in Empirical Semantics. Bochum: Brockmeyer. BENKO, Vladimír – HAŠANOVÁ, Jana – KOSTOLANSKÝ, Eduard. 1996. Počítačové spracovanie slovenčiny – výskumná správa. Bratislava: Pedagogická fakulta UK. BENKO, Vladimír – HAŠANOVÁ, Jana – KOSTOLANSKÝ, Eduard. 1997. Morfologické údaje o slovenských substantívach na účely algoritmickej analýzy textov. Slovenský jazyk a literatúra v škole, č. 5, s. 154 – 166. BENKO, Vladimír – HAŠANOVÁ, Jana – KOSTOLANSKÝ, Eduard. 1998. Počítačové spracovanie slovenského jazyka – časť: Morfológia podstatných mien. Bratislava: Pedagogická fakulta Univerzity Komenského. HORECKÝ, Ján. 1964. Morfematická štruktúra slovenčiny. Bratislava: Vydavateľstvo SAV. KAČALA, Ján – PISÁRČIKOVÁ, Mária (eds.). 1997. Krátky slovník slovenského jazyka. (3. vydanie) Bratislava: Veda. KOEHLER, R. – SCHMIED, P. 1992. Lexikondateien fuer Quantitative Lexikologie. FB II, Universitaet Trier. LANKA, S. – PAL, S. 1993. Database Systems. New York: Elsevier Science Pub. 90 SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM MISTRÍK, Jozef. 1988. Moderná slovenčina. Bratislava: Slovenské pedagogické nakladateľstvo. ORAVEC Ján – BAJZÍKOVÁ, Eugénia – FURDÍK, Juraj. 1984. Súčasný slovenský spisovný jazyk. Morfológia. Bratislava: Slovenské pedagogické nakladateľstvo. PÁLEŠ, Emil. 1994. SAPFO – parafrázovač slovenčiny, počítačový nástroj na modelovanie v jazykovede. Bratislava: Veda. PAULINY, Eugen – RUŽIČKA, Jozef – ŠTOLC, Jozef. 1968. Slovenská gramatika. Bratislava: Slovenské pedagogické nakladateľstvo. PECIAR, Štefan. (ed.). 1959 – 1968. Slovník slovenského jazyka. (6 zväzkov). Bratislava: Vydavateľstvo SAV. Projekt „Referenčná morfologická báza dát slovenského jazyka“. Záverečná správa. Bratislava: Laboratórium počítačovej lingvistiky PdF UK 1998. RUŽIČKA, Jozef. (ed.). 1966. Morfológia slovenského jazyka. Bratislava: Vydavateľstvo SAV. 91 DATABASES FOR SPEECH RECOGNITION AND SYNTHESIS IN SLOVAK Milan Rusko – Sachia Daržágín – Marián Trnka: Institute of Informatics, Slovak Academy of Sciences, Bratislava 1. Introduction An effort of the scientists and developers to change the approach to automated speech processing systems building has become evident in recent years. The older methods based on a set of human-expert defined rules has been replaced by systems with new architecture. In these systems the needed information on the properties and behavior of the speech signal is obtained automatically from large speech databases. This paper reflects an effort to apply the data driven approach in the telephone-speech recognizer and speech synthesizer in Slovak, at the Department of the Speech Synthesis and Speech Analysis of the Institute of Informatics. The automatic speech processing technology has reached such a high degree, that it is being implemented in various applications in different areas of life. More and more voice driven teleservices (Rusko 1998) are offered by companies to allow the customer easier access to information (e.g. traintable information), to transaction services (e.g. teleshopping or telebanking), or more comfortable way of communication (call processing services, e.g. voice mail handling). The American companies having a benefit of a large and rich monolingual market are in a much better position than companies of the multilingual Europe. Not to loose the market, the European companies have to create an effective infrastructure to deal successfully with their multilingual environment. While the mathematical principles and algorithms of the speech recognition and speaker identification systems (based usually on Hidden Markov Models and Neural Nets) are more or less language independent, the training databases must include native speakers recordings. Their preparation as well as postprocessing needs a skilled team of local scientists and engineers capable of solving problems concerning computer linguistics, speech acoustics, phonetics, programming and management. Very similar situation is that in the field of the modern speech synthesis. 92 DATABASES FOR SPEECH RECOGNITION AND SYNTHESIS IN SLOVAK 2. Speech Recognition – The need of the speech database After the era of rule-based speech recognition systems the Dynamic Time Warping (DTW) algorithm has become most popular and many of the functional applications with a vocabulary up to several tenths of words use it also today (e.g. voice dialed telephone). The idea of the data driven approach is not to force the recognition system to follow the predefined rules, but rather to let the system extract the knowledge on the properties and behavior of the speech signal automatically from the information stored in huge speech databases. This process of extracting information and setting own rules for further recognition is called training. Such a recognizer based generally on Hidden Markov Models (HMMs) and/or Artificial Neural Nets (ANNs) can be considered as a selflearning system. The problem was, that no speech database had been built for Slovak speech, that would be large enough for training before we started to build our database. Database signal interface X Feature extraction Y Recognition Speech samples Databases Prob. density functions P(Yt|St) W* HMMs Transition probabilities P(St|St-1) Phonetic training Word statistics P(Wt|Wt-1) Word class training Strings of words: W Fig. 1: Functional scheme of a data driven speech recognizer based on HMM For HMM based speaker independent recognizer, a database containing 5000 recorded telephone calls (of different speakers) is considered a reasonable volume. The database must have predefined structure and content (which can 93 MILAN RUSKO – SACHIA DARŽÁGÍN – MARIÁN TRNKA be application-dependent), and must reflect all the phonetical and phonological phenomena which the recognizer should be capable to employ in its work. The most time-consuming phase of the database-building is that of annotation and labelling. In this process an orthographic (written text) and orthoepic (phonetic representation) information is linked to all the recorded speech files. Instead of the fact, that there are some possibilities to do the annotation automatically, one comes to a paradox: a) an annotated training database is needed for the speech recognizer building, b) a reliable speech recognizer is needed for the automatic speech-database annotation. Fig. 2: Display of the program Label 1.0, used for manual annotation of the database records and running check of the signal quality and some other database features. This simply means, that the first speech database must be annotated manually by human expert. After it is finished, it can be used for the first recognizer training, and this recognizer can possibly be included in a system for automatic annotation of future databases. 94 DATABASES FOR SPEECH RECOGNITION AND SYNTHESIS IN SLOVAK For illustration we present on Fig. 2 a typical display of the program used for manual annotation (program Label 1.0 developed at our Department of Speech Analysis and Synthesis). 3. SpeechDat-e, the first Telephone speech database in Slovak SpeechDat-E is a set of databases following the standard defined with SpeechDat II (Winski 1997). The collection is performed automatically telephone via the ISDN connection (on the recording side). As a compromise between the need and the economical possibilities, it was decided to build a 1000 speakers database for Czech, Polish, Slovak and Hungarian and a 2500 speakers database for Russian. After the preliminary statistical research a set of the so called promptsheets had to be generated. The promptsheet is a list of sentences and words to be read by the caller and a set of questions to be answered. The promptsheets were formed according to the possible areas of the speech recognizer applications (computers, banking, shopping, marketing, travelling and tourist information, telecommunication etc.). Every of them include: – isolated digits and its sequences – digit / number strings – natural number – money amounts in Slovak crowns, Dollars and Euro and their smaller units – yes/no questions (spontaneous answer) – dates, prompted phrases with date, relative and general date expression – time and time-phrases – application words / keyphrases – word spotting phrase using embedded application word – directory assistance names: city of birth (spontaneous), company, agency, surname, forename plus surname, own forename (spontaneous) – spellings: artificial sequence, city name, own forename (spontaneous) – phonetically rich words – phonetically rich sentences. To reflex the real-life features the database has to be statistically balanced according to: 95 MILAN RUSKO – SACHIA DARŽÁGÍN – MARIÁN TRNKA a) regional coverage – representation of the main phonetic groups. The repartition of speakers should be proportional to the population in regions with 5 % tolerance and with a minimum 5 % speakers per region; b) age of the callers; c) sex of the callers. It is the first large telephone speech corpus collected in Slovakia. SpeechDat-E Slovak is available for the users now. It is being used in our experiments for training of several types of recognizers. The companies which are members of the SpeechDat-E Consortium has already started to develop commercial recognizers using this database. We also hope that the database will be useful not only for the universities and academic institutions, but primarily for companies in the telecommunications and teleservices. The liberalization of the Slovak telecommunication market, hand in hand with recent boom in speech processing technology, will lead to a competition among operators and also other companies in the field of voice-driven teleservices. The created database can be the first step to the professional design of such services. A new database intended for building the speech synthesis systems in Slovak is under development . 4. Data driven approach to speech synthesis Speech synthesis has been considered to be less complex problem than that of speech recognition. This statement is true only up to a certain level of quality of the synthesis systems. Fig. 3: Schematic diagram of the recent version of the Slovak speech synthesizer 96 DATABASES FOR SPEECH RECOGNITION AND SYNTHESIS IN SLOVAK Modern approaches aim at reaching high naturalness of speech. One of the ways how to incorporate the difficult phenomena of the natural speech prosody and rhythm, is to use a large training database of the speech of one speaker, optimized for text-to-speech applications. The content of the database must allow for the extraction of the following synthesis elements: – the basic elements of the signal waveform used for concatenative synthesis (e.g. diphones), these must be available in accented an unaccented form, in different contexts, and positions in the word and sentence. Advanced systems allow for the concatenation from the non-uniform speech units. The choose of these units is optimized regarding the actual text and the speech material in the database; – the pitch and energy contours of the syllables, words and sentences; – rhythmical rules (e.g. phone and syllable durations) for different speech rates and speaking styles. Annotation of such a training database is extremely difficult task. The information which should be linked to the recorded speech is of several levels: Level Sentence level Annotated information orthographic and sentence type orthoepic (syntax) representations Word level orthoepic grammatical type representation (syntax) Syllable level orthoepic consonant-vocal representation structure Phoneme level orthoepic representation Microsegment level F0 energy accent sentence boundary pointers (BP) word BP accent syllable BP syllable nuclei BP BP to phonemes and pauses BP to microsegments Tab. 1: Level structure of the information annotated in the speech database for speech synthesis purposes For the automatic annotation we have developed a set of tools analyzing the signal in the time and frequency domains, measuring energy, pitch, and the 97 MILAN RUSKO – SACHIA DARŽÁGÍN – MARIÁN TRNKA position of important instants (boundaries) in the speech signal. The signal analysis system (developed at the Department of Speech Analysis and Synthesis) is Called SOUNDY 4.0. Fig. 4.: Typical appearance of the screen of the SOUNDY 4. 0. signal analysis system 5. The automatic phonetic labeller Text to phoneme conversion is performed by an automatic orthographicto-orthoepic converter. Many of modern speech synthesis and speech recognition systems require phonetic information to be incorporated in the training database – namely pointers to the phoneme boundaries and orthoepic transcription of the recorded utterances. The architecture of our automatic phonetic labeller is shown in Fig. 5. 98 DATABASES FOR SPEECH RECOGNITION AND SYNTHESIS IN SLOVAK Fig. 5: The architecture of the automatic phonetic labelling system 5.1 Pitch synchronous analysis on the microsegmental level The microsegment recognition process itself can be divided into several steps: a) Microsegmentation b) Time domain acoustic feature extraction c) Filter-bank based frequency domain analysis d) Assignment to one of the main phonetic groups e) Identification of the microsegments (assignment to one of the phonemes). 5.2 Microsegmentation of the speech signal 99 MILAN RUSKO – SACHIA DARŽÁGÍN – MARIÁN TRNKA For this purpose we use our rule-based microsegmentation procedure developed for the speaker-independent speech recognizer (Daržágín – Trnka 1995). In the first step the voiced/unvoiced/pause decision must be taken for the analyzed frame of the signal. In the next step of the acoustic pre-processing, the speech signal is pitch-synchronously divided into frames of the length corresponding to one period of the fundamental on the voiced portion of the signal and into frames of a constant length on the unvoiced part. These frames, called microsegments, are the elementary analysis time-intervals in our system. Every microsegment is then analyzed and a hypothesis on its correspondence to some of the phonemes of the Slovak phoneme-inventory is created. 5.3 Text input and orthographical to orthoepical form conversion The text of the utterance which was read by the speaker is sent to the input of the text processing branch in an ASCII-coded form. The automatic orthographic to orthoepic form conversion is made by a rule based routine that was originally written for the Slovak speech synthesizer. This orthoepical transcription gives a sequence of the phonemes that should theoretically be pronounced when reading the source text. Thus the system can send the information on the expected actual phoneme and the succeeding one too. 5.4 Comparing logic and phoneme labelling The comparison process of the expected phonemes and the sequence of the microsegments has two levels: a) a coarse phonetic labelling based on the automatically recognized phonetic structure of the utterance; b) phoneme-boundary label position refining using the information from the text processing branch. The acoustic characteristics of the microsegment are compared to the typical acoustic characteristics of both of the phonemes at the actual boundary. The pointer to the refined position of the phoneme-boundary in the wavesignal (the label) is then included into the output file. 5.5 Output – linked database files 100 DATABASES FOR SPEECH RECOGNITION AND SYNTHESIS IN SLOVAK The whole automatic labelling is finished by creating two types of linked database-files, one of them containing the PCM coded wave-data, and the second one containing the text, the phonetical (orthoepical) transcription of the given utterance as well as the pointers to the phoneme boundaries in the wave-file. 6. Conclusion The important part of the datadriven speech recognizer – Slovak speech database for training purposes is available now. This makes the development of the HMM based recognition systems possible. The main areas of application can be found for instance in telephone services. The developed speech signal analysis system and the database labelling tool can be used for further database building and speech research. The recent version of the speech synthesizer in Slovak works rather well, but a new, data driven version, is under development. The described phonetic labelling tool executes its task in acceptable quality but the operator's assistance is needed. Most problems occur if the signal is of poor quality, or if there are severe mistakes in the pronunciation of the speaker. The tool is suitable for the speech-database building purposes and it is now being used in the process of the "synthesis database" development. The authors are members of the Department of Speech Analysis and Synthesis, Institute of Informatics of the Slovak Academy of Sciences. This work is supported by the Slovak Grant Agency VEGA project number 47/0214/99. References DARŽÁGÍN, Sachia – TRNKA, Marian. 1995. Speaker independent speech recognition system in Slovak. In: Proceedings of the international conference Telecommunications '95. Bratislava: Dom techniky ZSVTS. s. 118 – 123. RUSKO, Milan. 1998. Voice Driven Teleservices in Slovak. In: Proceedings of the 2nd international conference Where are You Going ATM? Bratislava: ADAPT. s. 45 – 49. WINSKI, R. 1997. Definition of corpus, scripts and standards for fixed networks. Technical report. SpeechDat-II, January 1997, Deliverable SD 1.1.1., workpackage WP1, http://www.speechdat.org. 101 SAMPA V SLOVENČINE A JEJ VÝZNAM Z POHĽADU VIACJAZYČNÝCH SYSTÉMOV NA ROZPOZNÁVANIE REČI Jozef Ivanecký: IBM Voice Systems, European Speech Research; Katedra kybernetiky a umelej inteligencie, Fakulta elektrotechniky a informatiky Technickej univerzity Košice ([email protected]) Abstract: The paper deals with the phonetic alphabet SAMPA. In a brief survey of the development of the SAMPA transcription we are indicating possible problems in the formation of the SAMPA transcription for new languages and the significance of the SAMPA transcription for computer speech recognition from the multilingual systems’ view. The core of the paper is the procedure used in the formation of the SAMPA transcription for Slovak as well as for a current status of the Slovak version of the SAMPA transcription. 1. Úvod Význam fonetickej transkripcie v počítačovom rozpoznávaní reči nie je potrebné zdôrazňovať. Transkripcia je použitie príslušných znakov abecedy na reprezentáciu zvukov reči. Systém na počítačové rozpoznávanie reči rozpoznáva na najnižšej úrovni jednotlivé zvuky, ktoré sú označované znakmi fonetickej abecedy zvolenej pre danú fonetickú transkripciu. Keďže ide o počítačové spracovanie, znakmi sú vo väčšine prípadov kvôli jednoduchosti a prenositeľnosti 7 bitové ASCII znaky. Priradenie ASCII znakov jednotlivým zvukom – t. j. kódovanie – je záležitosť tvorcu daného systému, pričom medzi konkrétnymi transkripčnými systémami sú – aj vzhľadom na fonetické rozdiely v spracúvaných jazykoch – väčšie či menšie rozdiely. Tento stav viac-menej pretrváva dodnes, aj keď potreba jednotného kódovania v poslednom desaťročí narastá. Dôvodom je nielen potreba vzájomnej kompatibility (transkripčné systémy) a uľahčenie komunikácie pri výmene skúseností, no v poslednom čase aj nárast viacjazyčných systémov na rozpoznávanie reči. Na tento účel sa dnes takmer výhradne používa kódovanie SAMPA (Speech Assestment Methods – Phonetic Alphabet). 2. SAMPA – vývoj a súčasnosť 102 SAMPA V SLOVENČINE A JEJ VÝZNAMZ POHĽADU VIACJAZYČNÝCH SYSTÉMOV NA ROZPOZNÁVANIE REČI Transkripcia SAMPA vznikla na základe kódovania použitého v niekoľkých projektoch na rozpoznávanie reči na konci deväťdesiatych rokov. Každý z týchto projektov sa zaoberal jednojazyčným systémom, no pre rôzne jazyky. Kódovanie použité v týchto projektoch zobrazuje tabuľka 1. Výsledkom dohôd v rámci SAM – European collaborative speech technology assessment research – boli odporúčania pre štandardný transkripčný systém aplikovateľný na mnohé európske jazyky. Pojem transkripčný systém má v tomto prípade oveľa širší význam. Problematika bola riešená v júni 1987 na University College v Londýne v rámci práce na Labelling, Transcription a Management Methods for speech databases (Fourcin – Harland – Barry – Hazan 1989). Súčasťou týchto prác bolo aj vytvorenie jednotného kódovania, dnes známeho ako SAMPA abeceda. Z tabuľky č. 1 je evidentné, že kódovacie tabuľky COST 209, Esprit 291 a Alvey majú veľa spoločného. Na základe toho boli postavené základy pre európsky štandard. Z princípov formulovaných v projekte Esprit 291 vyplýva nasledujúce: ASCII znaky v IPA tabuľke ostávajú nezmenené. Nie ASCII znakom – do tej miery, do akej je to možné – sú priradené veľké ASCII znaky. Použitím týchto pravidiel na tabuľku č. 1 dostaneme ASCII reprezentáciu pre nasledujúce znaky z fonetickej abecedy IPA: IPA znaky kódované ako ASCII A O D E @ G I N T S U Y Z ? : Na základe tohto a ďalších pravidiel bola formovaná SAM-PA fonetická abeceda, prvýkrát publikovaná v práci J. C. Wellsa (1987). Táto fonetická abeceda, predstavujúca prvý – počítačovo jednoducho reprezentovateľný – kódovací systém dohodnutý medzi predstaviteľmi ôsmich európskych krajín spolupracujúcich na projekte SAM, je v tabuľke č. 2 a č. 3. Prvá verzia SAMPA pokrývala tieto jazyky: angličtina, dánčina, francúzština, nemčina, španielčina a taliančina. V čase vzniku projektu SAMPA nebol doň zahrnutý žiaden zo slovanských jazykov, z čoho vyplýva značná limitácia použitia SAMPA abecedy pre slovanské jazyky. Napriek týmto obmedzeniam sme v roku 1995 vytvorili prvú neoficiálnu verziu SAMPA abecedy pre slovenčinu (Krokavec – Filasová – Ivanecký 1996). 103 JOZEF IVANECKÝ V posledných piatich rokoch bola v rámci niekoľkých projektov SAMPA značne rozšírená a dnes už pokrýva mnohé – nie len indoeurópske – jazyky. 104 SAMPA V SLOVENČINE A JEJ VÝZNAMZ POHĽADU VIACJAZYČNÝCH SYSTÉMOV NA ROZPOZNÁVANIE REČI Tab. 1: Prehľad počítačovo reprezentovateľných fonetických transkripcií. 105 JOZEF IVANECKÝ (Znak ’!’ v treťom stĺpci poukazuje na dohodu medzi COST 209, Esprit 291 a Alvey tabuľkami. Kódovanie v DIN a ISO stĺpci sú v hexa formáte.) 106 SAMPA V SLOVENČINE A JEJ VÝZNAMZ POHĽADU VIACJAZYČNÝCH SYSTÉMOV NA ROZPOZNÁVANIE REČI Z priestorových dôvodov nie je možné, aby súčasná verzia SAMPA abecedy bola súčasťou tohto príspevku. Aktuálny stav SAMPA abecedy je možné nájsť na adrese http://www.phon.ucl.ac.uk/home/sampa/home.htm. Napriek tomu, že zo slovanských jazykov dnes existujú oficiálne verzie SAMPA abecedy pre bulharčinu, chorvátčinu, poľštinu, ruštinu a slovinčinu, oficiálna verzia pre slovenčinu a rovnako ani pre češtinu dodnes nie je k dispozícii. 3. SAMPA a slovenčina Slovenskú fonetickú transkripciu ovplyvnili najmä dva činitele: • úzus v zapisovaní slovenských nárečových textov, • technické vybavenie tlačiarní. Vývin našej fonetickej transkripcie súvisí aj s inými okolnosťami: s užším využívaním transkripcie IPA u nás a s ťažkosťami pri jej používaní na zápis prejavov v slovanských jazykoch podobne ako aj v mnohých orientálnych jazykoch (Isačenko – Romportl 1966). Zostavovatelia transkripcie IPA sa totiž opierali predovšetkým o poznanie neslovanských jazykov. Vývin slovenskej transkripcie závisel ďalej od toho, že staršie výskumné ciele nevyžadovali takú techniku (podrobnosť) zápisu, akú umožňuje IPA. Zápisy slovenských textov boli určené predovšetkým domácim bádateľom. Z tohto dôvodu sa vystačilo s jednoduchým systémom založeným na gramatickej sústave jazyka, v ktorom sa na prepis hlásky volí to písmeno, ktoré je v ortografickej forme jeho základným ekvivalentom. V tabuľke č. 4 je uvedený zoznam fónov spisovnej slovenčiny kódovaných znakmi používanými v slovenskej fonetickej transkripcii podľa A. Kráľa (1983). Takáto fonetická abeceda je síce plne vyhovujúca domácemu použitiu, avšak v žiadnom prípade nevyhovuje pri použití na medzinárodnom poli, na čo upozorňujú už A. V. Isačenko a M. Romportl (1966). Tento stav v oblasti slovenskej fonetickej transkripcie pretrváva dodnes. Pri pokuse vytvoriť inventár slovenských fónov kódovaných pomocou SAMPA fonetickej abecedy sme narazili na dva základné problémy: • Nekompatibilita slovenskej fonetickej transkripcie s tranksripciou IPA. Riešenie tohto problému malo pre nás veľký význam z toho dôvodu, že SAMPA je popisovaná práve na základe znakov IPA. Predpokladá sa roz107 JOZEF IVANECKÝ šírenosť IPA systému a na základe toho jednoduchá konverzia zo znakov IPA na znaky SAMPA. • SAMPA abeceda v čase svojho vzniku pokrývala len dosť malú časť repertoáru IPA. S určitými obmedzeniami a zavedením dvoch nových znakov ju bolo možné použiť na vytvorenie fonematickej abecedy slovenčiny (Ivanecký 1996), avšak na vytvorenie jej fonetickej abecedy nebola vhodná vôbec. Tento stav bolo možné zovšeobecniť pre väčšinu slovanských jazykov. Pri vytváraní IPA verzie slovenskej transkripcie sme okrem deficitu zdrojov zaoberajúcich sa možnosťami aplikácie IPA systému na slovenčinu narazili aj na isté malé rozdiely u A. Kráľa (1983) a J. Sabola (1988) v opise transkripčného systému používaného pre slovenčinu Na naše účely sme ako východiskový zdroj použili prácu A. Kráľa (1983). Z vyššie uvedených problémov vyplýva, že naším prvým logickým krokom malo byť vytvorenie IPA systému, na základe ktorého by sme mohli vytvoriť SAMPA systém. Nakoniec ale vzhľadom na problémy so získavaním informácií 108 SAMPA V SLOVENČINE A JEJ VÝZNAMZ POHĽADU VIACJAZYČNÝCH SYSTÉMOV NA ROZPOZNÁVANIE REČI Tab. 4: Tabuľka znakov slovenskej fonetickej transkripcie o IPA systéme – získať informácie o SAMPA systéme bolo pre nás nepomerne jednoduchšie – sme v mnohých prípadoch použili opačný postup. Najprv sme vytvorili prepis zo slovenského transkripčného systému do systému SAMPA. Znak IPA pre daný prepis sme na základe tohto prepisu už len vyhľadali v príslušnej tabuľke. Napriek nekompatibilite slovenskej transkripcie s IPA systémom sa určité percento znakov prekrýva. Medzi zhodné znaky patria: a, p, b, m, t, d, n, k 109 JOZEF IVANECKÝ Týmto znakom sme mohli priamo priradiť aj rovnaké SAMPA znaky, čo vyplýva z princípov definovaných pre vytváranie transkripčného systému SAMPA. Ďalšie znaky, ktorých prepis bol relatívne bezproblémový napriek tomu, že sú pre ne použité v IPA systéme odlišné symboly, boli: , l, ľ, ň, v, f, g, x, s, z, š, ž, j, c, č, Z tohto zoznamu sa môže zdať, že prepis prebiehal bez ťažkostí. Musíme však poznamenať, že prvú verziu SAMPA pre slovenčinu sme vytvárali na fonologickej úrovni, čo značne zjednodušovalo riešenie. Dôvodom na to bola hlavne skutočnosť, že s prvou verziou SAMPA už táto úloha bola neriešiteľná bez pridania vlastných znakov. Hlavným problémom boli v tomto prípade palatálne konsonanty ť a ď. Pre ne sme v prvej verzii používali náhradné znaky. Znaky pre ť a ď boli do SAMPA zavedené až pri rozšírení SAMPA o gréčtinu, keďže žiaden z jazykov, na základe ktorých bola vytváraná prvá verzia SAMPA, tieto palatálne konsonanty nemá. Znak pre palatalizáciu, ktorý bol zavedený skôr ako rozšírenie pre gréčtinu, je nevyhovujúci napriek tomu, že sa používa v slovenskom aj v českom transkripčnom systéme. Pretože slovenčina, rovnako ako čeština, obsahuje len palatálne a nie palatalizované konsonanty (na rozdiel napr. od ruštiny), je používanie uvedeného znaku v našich jazykoch zavádzajúce. Ďalším problémom pre nás boli samohlásky. V tomto prípade nešlo o nezrelosť SAMPA systému na opis samohlások. Problémom bol nejednotný prístup rôznych zdrojov k prepisu slovenských samohlások do IPA systému. Nakoniec sme sa rozhodli použiť informácie zo zborníka IPA z roku 1999, v ktorom bola publikovaná aj IPA pre češtinu (Dankovičová 1999). Problém dvojhlások bol vyriešený po zavedení znaku pre neslabičnosť. Na základe aktualizovanej verzie SAMPA, ktorá už pokrývala podstatne väčšiu jazykovú skupinu ako na začiatku, sme sa v roku 2000 rozhodli zrevidovať našu verziu SAMPA pre slovenčinu a previesť ju z fonologickej do fonetickej roviny. V tomto procese rozširovania sme narazili na jeden vážnejší problém, ktorý sa nám doteraz nepodarilo celkom uspokojivo vyriešiť. Je to prepis nazály n. Náš predpoklad je, že v rámci SAMPA, rovnako ako aj IPA, nie je možné pre tento prípad také podrobné rozlíšenie, a preto sa nazálne n prepisuje vždy ako n. Túto skutočnosť je však potrebné overiť. 110 SAMPA V SLOVENČINE A JEJ VÝZNAMZ POHĽADU VIACJAZYČNÝCH SYSTÉMOV NA ROZPOZNÁVANIE REČI Tab. 5: Porovnanie slovenskej transkripcie, IPA a SAMPA systému Tabuľka č. 5 obsahuje našu aktuálnu verziu SAMPA pre slovenčinu. Okrem toho sú v nej uvedené aj príslušné IPA znaky. Problematické znaky sú označené otáznikom. Keďže stále ide o pracovnú verziu, budeme vďační za akékoľvek pripomienky a návrhy, ktoré nám pomôžu ku konečnej realizácii SAMPA pre slovenčinu. 4. Viacjazyčné systémy Prečo má fonetická abeceda použiteľná pre viaceré jazyky taký veľký význam? Niektoré odpovede sme naznačili už na začiatku. Ak sa na problematiku pozrieme z pohľadu počítačového rozpoznávania reči, najväčší prínos vidíme práve pri tvorbe viacjazyčných systémov. Systém, ktorý je schopný rozpoznávať viaceré jazyky, môže pracovať dvoma spôsobmi: • paralelne pracujúce systémy – každý systém vie rozpoznávať práve jeden jazyk; 111 JOZEF IVANECKÝ • jeden systém schopný rozpoznávať viaceré jazyky. V prípade prvého systému s počtom jazykov neúmerne narastá požiadavka na výkon. Výhodou je, že takéto systémy dosahujú vyššiu úspešnosť rozpoznávania, avšak v prípade zlej začiatočnej identifikácie jazyka je celé rozpoznávanie chybné. Pozrime sa teraz bližšie na druhú možnosť. V tomto prípade máme systém, ktorý zvláda rozpoznávanie celého fonetického repertoáru niekoľkých rôznych jazykov. Výkonovo je menej náročný ako paralelne pracujúce systémy a aj v prípade chyby na začiatku môže správne pokračovať. Nevýhodou takýchto systémov je menšia úspešnosť rozpoznávania ako v predchádzajúcom prípade. Napriek tomu podľa nášho názoru patrí budúcnosť práve týmto systémom. Dôvodom je to, že vytvorenie kvalitného systému je časovo aj finančne značne náročné, z čoho vyplýva, že pre jazyky, ktorými hovorí len malá skupina ľudí, je to neefektívne. Použiť v takomto prípade systém natrénovaný na iný jazyk a obsahujúci potrebný fonetický inventár môže byť oveľa schodnejšie. Z tohto dôvodu je podľa nášho názoru podpora a polupráca pri vytváraní počítačovo jednoducho kódovateľnej medzinárodnej fonetickej abecedy viac než potrebná. 5. Záver V príspevku sme sa zamerali na prezentáciu aktuálneho stavu pri vytváraní SAMPA abecedy pre slovenčinu a poukázali sme na dôležitosť tohto transkripčného systému z pohľadu viacjazyčných systémov na počítačové rozpoznávanie reči. V blízkej budúcnosti sa chceme zamerať na potvrdenie správnosti nami navrhovanej verzie SAMPA pre slovenčinu a doplnenie kódovania pre poslednú chýbajúcu hlásku, poprípade jej vyradenie. V poslednom kroku chceme zaradiť slovenčinu do oficiálneho zoznamu jazykov opísaných systémom SAMPA. Literatúra FOURCIN, A. – HARLAND, G. – BARRY, W. – HAZAN, V. 1989. Speech input and output assestment–multilingual methods and standards. Ellis Horwood Limited. DANKOVIČOVÁ, D. 1999. Czech IPA, Handbook of the International Phonetic Assocation. Cambridge University Press. ISAČENKO, A. V. – ROMPORTL M. 1966. Návrh fonetické a fonologické transkripce češtiny a slovenštiny. Slovo a slovesnosť, roč. 27. 112 SAMPA V SLOVENČINE A JEJ VÝZNAMZ POHĽADU VIACJAZYČNÝCH SYSTÉMOV NA ROZPOZNÁVANIE REČI IVANECKÝ, J. 1996. Automatizácia fonematickej transkripcie slovenčiny. In: Varia VII. Bratislava: SJS pri SAV. KRÁĽ, Á. 1983. Pravidlá slovenskej výslovnosti. Bratislava: Slovenské pedagogické nakladateľstvo. KROKAVEC, D. – FILASOVÁ, A. – IVANECKÝ, J. 1996. Basic Properties of the Phonetic Transcription and the Sentence Description in Slovak Language. In: COST-249 Meeting. Košice: FEI Technical University. SABOL, J. 1988. Syntetická fonologická teória. Bratislava: Jazykovedný ústav Ľ. Štúra SAV. WELLS, J. C. 1987. Computer-coded phonetic transcription. Journal of the International Phonetic Association 17, č. 2, s. 94 – 114. 113 AUTOMATICKÁ TRANSKRIPCIA SLOVENČINY V POČÍTAČOVOM ROZPOZNÁVANÍ REČI Jozef Ivanecký: IBM Voice Systems, European Speech Research; Katedra kybernetiky a umelej inteligencie, Fakulta elektrotechniky a informatiky Technickej univerzity Košice ([email protected]) Abstract: The paper reacts on one of the important tasks in the computer speech recognition - phonetic transcription - whose successful management has a significant impact on the process of both training and the recognition itself. We present the problems of the automatic transcription, procedures used in the formation of the system capable to transcribe a common text from an orthographic to orthoepical form. Furthermore we deal with the need to cope with a various (not only standard) pronunciation in the automatic transcription. 1. Úvod Medzi najrozšírenejšie techniky na počítačové rozpoznávanie reči patria v dnešnej dobe skryté markovovské modely (HMM) a neurónové siete (NN). V oboch prípadoch je na vytvorenie systému potrebné väčšie množstvo dát (niekoľko tisíc viet). V prípade kvalitnejších systémov ide o niekoľko desiatok až stoviek tisíc viet. Vstupom na trénovanie takýchto systémov je okrem nahratých viet aj ich fonetická transkripcia. Od jej kvality značne závisí kvalita výsledného systému. Transkripciu môžeme vytvoriť manuálne, čo je v prípade väčšieho množstva viet značne prácne a môže viesť k väčšiemu množstvu chýb. V prípade použitia takýchto údajov pri trénovaní sa znižuje úspešnosť rozpoznávania. Ešte väčší vplyv má na druhej strane nepoužitie takýchto údajov v procese samotného rozpoznávania. Druhý prístup je automatická transkripcia. Na rozdiel od prvej je pri nej možné vylúčiť mnohé chyby. Na druhej strane je vytvorenie systému na automatickú transkripciu značne zložitá záležitosť. V niektorých jazykoch natoľko zložitá, že sa od nej celkom upúšťa. Automatickej transkripcii slovenčiny, určenej však na syntézu, sa venujú Daržágín – Franeková – Rusko (1994). Na automatickú transkripciu je potrebné nájsť všeobecné pravidlá, pomocou ktorých by bolo možné fonetický, resp. fonematický prepis automaticky vytvárať. Tieto 114 AUTOMATICKÁ TRANSKRIPCIA SLOVENČINY V POČÍTAČOVOM ROZPOZNÁVANÍ REČI pravidlá môžu byť formulované ako produkčné pravidlá a nazývajú sa transkripčné pravidlá. Ďalším problémom, ktorým sa zaoberáme v tomto príspevku, je problematika spisovnej výslovnosti v rozpoznávaní reči. Použitie fonologických pravidiel zadefinovaných na základe práce Á. Kráľa (1983) síce bude vytvárať spisovný prepis, ale ten nemusí, a pravdepodobne ani nebude, presne zodpovedať skutočnej výslovnosti. O to výraznejšie to bude v prípade, keď nahrávky pokrývajú všetky nárečové skupiny. 2. Transkripcia všeobecne Úlohy obsiahnuté v systéme na automatickú fonetickú transkripciu môžeme rozdeliť na dve základné podskupiny: • jazykovo nezávislé úlohy • jazykovo závislé úlohy. V tejto časti sa budeme venovať prvej skupine. Zjednodušene môžeme povedať, že sem patria všetky úlohy, ktoré sú na vstupnom texte vykonané predtým, než sú aplikované vlastné jazykovo závislé transkripčné pravidlá. Segmentácia: Prvým krokom je konverzia všetkých veľkých písmen na malé a rozdelenie vstupného textu na segmenty vhodné na transkripciu. Na tomto mieste si musíme uvedomiť, čo je minimálny segment. V prípade, že počas transkripcie nechceme brať do úvahy ortoepické javy vznikajúce na hranici slov, realizujeme segmentáciu textu na jednotlivé slová. V opačnom prípade musíme vstupný text rozdeliť na jednoduché vety s vyznačením hraníc slov. Filtrácia: V tomto kroku odstraňujeme všetky nepotrebné znaky z textu. Kódovanie: Vstupný text môže byť v jednom z N rôznych kódovaní. V prípade slovenčiny je N= . V našom prípade je kódovanie vstupného textu zmenené do interného kódovania, ktoré obsahuje len 7 bitové ASCII znaky. Dôvodom pre toto riešenie bola požiadavka na ľahkú prenositeľnosť medzi jednotlivými operačnými systémami pri zaručenej čitateľnosti kódu. Celý systém je napísaný v jazyku Perl a vytváraný pod operačným systémom Linux. Z hľadiska internej štruktúry údajov bolo potrebné zaručiť jednoznačnú identifikáciu už prepísaných a ešte neprepísaných častí, keďže výstupná abeceda pozostáva taktiež zo 7 bitových ASCII znakov, vzhľadom na to, že pre výstup zo systému bola zvolená SAMPA abeceda. Na tomto mieste je dôležité poznamenať, že SAMPA abeceda použitá ako výstupná 115 JOZEF IVANECKÝ abeceda v našom systéme zatiaľ nie je oficiálnou SAMPA abecedou pre slovenčinu. Použitie všetkých vyššie opísaných krokov demonštrujeme na nasledujúcej vete: Keby som bol vedel, ako je tam zle, nikam by som nešiel... Po aplikovaní prvého kroku sa dopracujeme k nasledujúcemu tvaru vstupnej vety: keby som bol vedel; ako je tam zle; nikam by som nešiel Bodkočiarka v tomto prípade oddeľuje jednotlivé segmenty. Ak by najmenším segmentom bolo slovo, nachádzala by sa za každým slovom. Ďalšími krokmi prechádza každý segment samostatne. Po aplikovaní filtrácie na tretí segment dostaneme: nikam–by–som–nešiel Výsledkom záverečného prekódovania je: !n! !i! !k! !a! !m! – !b! !y! – !s! !o! !m! – !n! !e! !S! !i! !e! !l! Znak ! slúži na jasnú identifikáciu znakov patriacich k vstupnej abecede. Znak – označuje hranicu slov. Všetky ďalšie kroky spadajú do kategórie jazykovo závislých. 3. Transkripcia slovenčiny Pri vytváraní transkripčných pravidiel pre slovenčinu sme čerpali hlavne z práce Á. Kráľa (1983). Na každý segment sú postupne aplikované všetky pravidlá. Súbor pravidiel môžeme rozdeliť do skupín podľa rôznych kritérií, napríklad fonetických, ale z nášho pohľadu sa pravidlá delia na dve základné skupiny: • jednoznačné transkripčné pravidlá • nejednoznačné transkripčné pravidlá. Medzi jednoznačné transkripčné pravidlá zaraďujeme také pravidlá, pri ktorých je jednoznačný vzťah medzi ortografickou a ortoepickou reprezentáci116 AUTOMATICKÁ TRANSKRIPCIA SLOVENČINY V POČÍTAČOVOM ROZPOZNÁVANÍ REČI ou, a teda transkripcia je možná bez akýchkoľvek ďalších znalostí. Typickým príkladom tejto skupiny pravidiel sú pravidlá pre samohlásky. Pre samohlásky sme preto zadefinovali nasledujúce transkripčné pravidlá: Krátke samohlásky: Dlhé samohlásky: a → a á → a: e → E é → e: i → I í → i: y → i ý → i: o → o ó → o: u → u ú → u: ä → E Vyššie uvedené pravidlá sú na samohlásku aplikované vtedy, ak sa samohláska nachádza medzi dvoma spoluhláskami alebo ak sa nachádza na hranici slova. Znak ä prepisujeme v našom systéme ako E z nasledujúcich dôvodov: • Výskyt spisovnej výslovnosti znaku ä je v súčasnosti minimálny. Len tento dôvod by však bol v rozpore s našimi ďalšími tvrdeniami uvedenými v nasledujúcom texte. • V slovenčine vieme len o jednom prípade, kde znak ä má význam pri rozlíšení významu dvoch slov. Ak však aj v tomto jedinom prípade berieme do úvahy predchádzajúce tvrdenie, domnievame sa, že prepis znaku ä ako E je viac než opodstatnený. Pre tretí segment z vyššie uvedeného príkladu dostaneme po aplikácii pravidiel pre samohlásky tento výsledok: !n! I !k! a !m! – !b! I – !s! o !m! – !n! E !S! !i! !e! !l! Na poslednom slove si môžeme všimnúť, že dvojhlásky ostali nezmenené. Podobné jednoznačné pravidlá, ako sme zadefinovali pre samohlásky, môžeme zadefinovať aj pre niektoré spoluhlásky, napríklad p, r, l, m a iné. Na tomto mieste je potrebné zdôrazniť, že jednoznačnosť pravidiel neznamená aj ich jednoduchosť. Pre mnohé spoluhlásky existuje viacero transkripčných pravidiel. Výber pravidla závisí od okolia znaku, na ktorý aplikujeme dané transkripčné pravidlo. Ako jednoduchý príklad nám môže poslúžiť spoluhláska m. Á. Kráľ (1983) o výslovnosti znaku m uvádza: „pred spoluhláskami v, f sa vyslovuje namiesto pernoperného [m] pernozubné [m] ... Spoluhláska [m] sa v 117 JOZEF IVANECKÝ spisovnej slovenčine vyslovuje vtedy, keď po m vnútri slova bezprostredne nasleduje v, f ako v slovách domvedúca, komfort...“ (s. 153, 155). Pre znak m sme preto zadefinovali nasledujúce pravidlá: !m! !v! → Fv !m! !f ! → Ff !m! → m Znak F je SAMPA znakom pre nosové m. Ak dodržíme pri aplikovaní transkripčných pravidiel pre m vyššie uvedené poradie, dosiahneme presné aplikovanie pravidiel uvedených v citovanej konštatácii (Kráľ 1983). V tomto prípade sme pravidlá uviedli v internom kódovaní, aby sme ukázali princíp činnosti transkripčného algoritmu. Z uvedeného príkladu vyplýva aj to, že pravidlá pre v a f musia nasledovať za pravidlom pre m. V prípade nejednoznačných pravidiel nie je možné zadefinovať jednoduché transkripčné pravidlá, pomocou ktorých by bolo možné zaistiť správny prepis jednoduchým algoritmom len na základe okolia. V takomto prípade sú na správnu transkripciu potrebné ďalšie informácie. Ako jednoduchý príklad nám tentokrát poslúžia dvojhlásky. V spisovnej slovenčine sú štyri dvojhlásky: ia, ie, iu, ô. V prípade, že po samohláske i bezprostredne nasleduje ďalšia samohláska, nemusí ísť o dvojhlásku. Príkladom sú predponové slová (priučiť, vyučiť) a prevzaté slová (Ázia). Prepis dvojhlásky ô a slov tvorených predponou vy- a základom začínajúcim samohláskou je jednoznačný, preto sa ním nebudeme zaoberať. Problémy vznikajú až pri slovách vytvorených predponou pri- a slovným základom začínajúcim samohláskou. V tomto prípade už nie je možné len na základe jednoduchých pravidiel určiť, či dvojice samohlások ia, ie, iu tvoria samohláskovú postupnosť alebo dvojhlásku. Prístup k riešeniu tohto problému rozoberieme pre každú dvojicu samostatne: ia: Ak sa na začiatku slova nachádza postupnosť znakov pria, na určenie toho, či ide o dvojhlásku alebo samohláskovú skupinu, sme využili skutočnosť, že slovenčina má len 23 slov (pozri Kráľ 1983), v ktorých základnom tvare sa na začiatku vyskytuje postupnosť znakov pria a znaky ia tvoria dvojhlásku. V prípade, že slovo patrí do tejto skupiny slov, je použité pravidlo ^!p! !r! !i! !a! v opačnom prípade 118 → p r i ^a AUTOMATICKÁ TRANSKRIPCIA SLOVENČINY V POČÍTAČOVOM ROZPOZNÁVANÍ REČI ^!p! !r! !i! !a! → prIa Zoznam slov bez ohýbacej prípony bol vytvorený podľa počítačového korpusu slovenčiny a údajov z literatúry (Kráľ 1983) a začlenený do pomocnej databázy. Databáza obsahuje výnimky vzťahujúce sa na konkrétne pravidlá, v tomto prípade všetky slová začínajúce na pria, kde ia tvorí dvojhlásku a nie samohláskovú skupinu. ie: V prípade postupnosti znakov prie sme zvolili opačný prístup, keďže slov, v ktorých postupnosť pri netvorí predponu ako v predchádzajúcom prípade, je podstatne viac. V sledovanom korpuse sme našli 593 rôznych slov začínajúcich sa na prie, pričom vo všetkých prípadoch išlo o dvojhlásku a nie o spoluhláskovú postupnosť. Ani Á. Kráľ (1983) neuvádza slová, v ktorých by prie obsahovalo spoluhláskovú postupnosť, teoreticky však môžu takéto slová vzniknúť spojením prevzatého, resp. cudzieho slova začínajúceho na e a predpony pri- ako napríklad prielegantný. Pre tento prípad je, za predpokladu, že dané slovo sa nachádza v pomocnom slovníku, použité nasledujúce pravidlo: V prípade, že v slovníku existuje výnimka pre predponu prie-, ktorá je aplikovateľná na dané slovo, použije sa pravidlo ^!p! !r! !i! !e! → prIE v opačnom prípade ^!p! !r! !i! !e! → p r i ^E iu: Posledná z trojice je postupnosť iu. Keďže slovenčina nemá bezpredponové slovo začínajúce na priu, kde iu predstavuje dvojhlásku, je možné na každé slovo aplikovať nasledujúce pravidlo ^!p! !r! !i! !u! → prIu V sledovanom korpuse boli jedinými slovami s postupnosťou priu slová odvodené od slova priučiť. Celkový výskyt dvojhlásky iu je v slovenčine veľmi nízky, podľa J. Mistríka (1985) je to len okolo 0,016 %. 119 JOZEF IVANECKÝ Postupy uvedené pre prípad nejednoznačnosti pravidiel pri dvojhláskach používame aj pre spoluhlásky, rovnako je to pri jednoznačných pravidlách. Po aplikovaní všetkých pravidiel v systéme na náš tretí segment uvedený na začiatku, získame nasledujúci prepis: J I k a m – b I – s o m – J E S i ^E l 4. Správne verzus spisovne V predchádzajúcej časti sme predpokladali, že text, ku ktorému potrebujeme vygenerovať fonetickú transkripciu, je vyslovovaný spisovne a zodpovedá pravidlám, ktoré uvádza Á. Kráľ (1983), a teda rovnako aj nášmu výstupu, ktorý bol podľa týchto pravidiel vytvorený. Hovorená forma jazyka sa v rôznych oblastiach viac či menej líši od formy spisovnej a zanedbanie tejto skutočnosti v prípade počítačového rozpoznávania reči môže viesť k chybnému označeniu niektorých segmentov reči v prípade, že je tento proces vykonávaný automaticky a v zozname možných výslovností sa výslovnosť, ktorá presne zodpovedá nahovorenému textu, nevyskytuje. Na získanie správneho prepisu výslovnosti sme museli do nášho systému pridať možnosť generovať aj takzvanú „nespisovnú“ výslovnosť. Pri tvorbe tohto druhu pravidiel sme čerpali z vlastných skúseností v oblasti rozpoznávania reči, ako aj z literatúry (Kráľ 1983). Na základe vlastných skúseností sme vyrobili pravidlá na prepis dlhých samohlások na krátke, čo sa nám osvedčilo v prípade hovoriacich z východných oblastí Slovenska. Z práce Á. Kráľa sme napr. čerpali informáciu o hláske m: „V neutrálnom a vyššom štýle výslovnosti sa v slovenčine nepripúšťa výslovnosť pernozubnej spoluhlásky m namiesto n, ň v slovách ako dezinfekcia, fanfáry, infekcia, informácia, kanva, konfekcia, konferencia, konflikt, konvergencia, konvoj, panvica, panvička, skonfiškovať a v slovných spojeniach ako ten váš, len volaj, jeleň vyskočil“ (Kráľ 1983, s. 155). Pre nás bolo toto pravidlo indikáciou, že takáto výslovnosť sa môže vyskytnúť, a pridali sme ho medzi pravidlá na generovanie nespisovnej výslovnosti. 5. Záver Cieľom tohto príspevku bolo poukázať na problematiku automatizácie fonetickej transkripcie a prezentovať nami zvolený spôsob riešenia tohto problému. Doterajšie výsledky dosiahnuté v budovaní systému sú porovnateľné s vý120 AUTOMATICKÁ TRANSKRIPCIA SLOVENČINY V POČÍTAČOVOM ROZPOZNÁVANÍ REČI sledkami podobných systémov v iných jazykoch. Naším ďalším cieľom je zvýšenie robustnosti systému zameraním sa na frekventované prevzaté slová v slovenčine, a tým aj rozšírenie databázy výnimiek. Z dlhodobejšieho hľadiska sa chceme zamerať na kvalitu generovania nespisovnej výslovnosti, čo je však už podmienené analýzou výsledkov reálnych systémov. Poďakovanie. Chceli by sme na tomto mieste poďakovať pracovníkom Jazykovedného ústavu Ľudovíta Štúra v Bratislave za ústretový prístup a možnosť použitia korpusu slovenčiny, bez ktorého by sme neboli schopní dopracovať sa k mnohým z našich záverov. Literatúra DARŽÁGÍN, Sachia – FRANEKOVÁ, Ľudmila – RUSKO, Milan. 1994. Konverzia a rečová syntéza slovenčiny. Jazykovedný časopis, roč. 45, č. 1. s. 31 – 43. KRÁĽ, Ábel. 1983. Pravidlá slovenskej výslovnosti. Bratislava: Slovenské pedagogické nakladateľstvo. MISTRÍK, Jozef. 1985. Frekvencia tvarov a konštrukcií v slovenčine. Bratislava: Vydavateľstvo VEDA. 121 VIACJAZYČNÝ VÝSLOVNOSTNÝ SLOVNÍK VLASTNÝCH MIEN A NÁZVOV LOKALÍT Peter Ďurčo: Akadémia Policajného zboru, Bratislava (durco@ minv.sk) Abstract: The ONOMASTICA project has successfully produced an important European linguistic resource in the form of a pronunciation lexicon containing 1.8 million European names in 7 languages, together with their pronunciations, namely Czech, Slovak, Slovenian, Polish, Estonian, Latvian and Ukrainian. The orthographic data is displayed using a True-Type font which matches the MS-DOS code page of the PC which produced the original data. For most Copernicus languages, this is CP852, but for Ukrainian, using Cyrillic alphabet, CP866 was used. Transcription data is mapped onto IPA from the original language-specific ASCII phonemic alphabets developed by each Copernicus partner, and displayed using the freely available IPAKiel font. The transcription display may be switched between the ASCII and IPA versions. Letter-to-sound (grapheme-to-phoneme) correspondences can be difficult to specify, even in text which does not contain names. The central observation here is that grapheme-to-phoneme correspondences are different for names with different languages of origin and that the general phonological systems of languages are only partially reflected in the names of those languages. Their anomalous pronunciations then often 'fossilise', and even when the names themselves become long-established, their phonemic form causes problems for grapheme-to-phoneme conversion rules. The ONOMASTICA lexicon will form the foundation of a range of products in the telematics sector and its emergent use in speech recognition and speech synthesis systems. Full coverage of names for Europe will be an on-going task for the language industry in Europe. The ONOMASTICA lexicon provides a very good research tool to enable to develop new services which require pronunciation of names. The ONOMASTICA lexicon provides a resource for evaluating multi-lingual systems. Cieľom projektu COP-58 ONOMASTICA, ktorý bol financovaný Európskou komisiou v rámci programu COPERNICUS, bolo vytvorenie výslovnostného slovníka priezvisk, krstných mien, názvov lokalít a ulíc. Projekt viedol prof. Mervyn Jack1 z Univerzity v Edinburgu. Do projektu bolo zapojených sedem stredo- a východoeurópskych krajín.2 Projekt sa začal realizovať v janu1 Kontakt: Prof. Mervyn Jack, Centre for Communication Interface Research, The University of Edinburgh, 80 South Bridge, Edinburgh EH1 1HN, UK, e-mail: Mervyn [email protected] 2 Zúčastnené inštitúcie a riešitelia: Pavel Kolár, Language Institute, Silesian University, Opava, Czech Republic, e-mail: [email protected]; Peeter Päll, Inst. of Estonian Language, Estonian Academy of Sciences, Tallinn, Estonia, e-mail: [email protected]; Andrejs Spektors, Inst. of Mathematics 122 VIACJAZYČNÝ VÝSLOVNOSTNÝ SLOVNÍK VLASTNÝCH MIEN A NÁZVOV LOKALÍT ári 1995 a bol ukončený v marci 1997. Informácie o výsledkoch projektu za slovenčinu som predstavil na rôznych fórach a boli aj publikované. 3 Zatiaľ však nedošlo k ich širšiemu využitiu. Hlavný problém spočíva v (ne)dostupnosti dát. Vzhľadom na rozsah dát nie je možné ich publikovať v tlačenej podobe a všetky výsledky existujú len v elektronickej verzii. Právo voľne poskytovať údaje má každý spoluriešiteľ len v rámci svojej časti.4 Hlavnou úlohou riešiteľov bolo spracovanie pravidiel výslovnosti vlastných mien pre automatický výslovnostný transkriptor. Vypracovanie transkripčných pravidiel výslovnosti vlastných mien bolo o to zložitejšie, že pri menách nefungujú štandardné výslovnostné pravidlá a mechanizmy, typické pre daný jazyk. Jednou z príčin týchto výslovnostných „anomálií“ je veľká mobilita mena spojená s vrstvením výslovnostných podôb v závislosti od miery jeho ustálenia a adaptovanosti. Pomenovania sú pritom veľmi často nositeľmi rôznych „fosilizovaných“ prvkov. Veľmi zaujímavým sprievodným produktom z hľadiska korpusovej lingvistiky však bolo zhromaždenie prakticky úplných zoznamov krstných mien, priezvisk, názvov lokalít, názvov ulíc, v niektorých prípadoch aj názvov firiem v siedmich jazykoch. Vo väčšine prípadov sa to podarilo vďaka využitiu databáz registrov obyvateľov v jednotlivých krajinách. Aj v prípade slovenčiny boli využité dáta bývalého Centrálneho registra pobytu obyvateľov. Takýmto spôsobom boli získané prakticky úplné údaje k uvedeným kategóriám mien5, čo otváand Computer Science, University of Latvia, Riga, Latvia: e-mail: [email protected]; Peter Ďurčo, Dept. of Foreign Languages, Police Academy, Bratislava, Slovakia, e-mail: durco@ minv.sk; Zdravko Kačic, Faculty of Technical Sciences, University of Maribor, Maribor, Slovenia, e-mail: [email protected]; Jevgenyj Ludovik, Institute of Cybernetics, Ukraine Academy of Sciences, Kiev, Ukraine, e-mail: [email protected]; Prof. Wiktor Jassem, Inst. of Fundamental Technologogical Research, Polish Academy of Sciences, Poznań, Poland, e-mail: [email protected] 3 ĎURČO, Peter. 1996. Vlastné mená na Slovensku. In: Jozef Mlacek (ed.), Studia Academica Slovaca, roč. 25. Bratislava: Stimul. s. 54 – 60; ĎURČO, Peter. 1997. Počítačové spracovanie vlastných mien na Slovensku. In: Slavomír Ondrejovič (ed.), Slovenčina na konci 20. storočia, jej normy a perspektívy. Sociolinguistica Slovaca, roč. 3. Bratislava: Veda. s. 312 – 325; ĎURČO, Peter – MEDĽA, Milan – KOŠA, Jozef. 1996. Onomastica. Copernicus. Kop.exe. Users’ Guide. Dept. of Foreign Languages, Police Academy of the Slovak Republic and Central Residence Register of the Inhabitants of the Slovak Republic. Bratislava.; ĎURČO, Peter. 1996. Names in Slovakia: Occurrence, pronuntiation, transcription in computer compilation. In: Keith Edwards (ed.), Onomastica Research Colloquium digest, No. 1, 23. February, University of Edinburgh. s. 1 – 15. 4 CD s dátami možno získať na adrese: ELRA - [email protected] 5 Kvantitatívne údaje pre jednotlivé kategórie: krstné mená – 8433; priezviská – 208011; ulice – 8142; lokality – 4060. 123 PETER ĎURČO ra novú perspektívu pre onomastické výskumy na Slovensku, pretože všetky mená obsahujú kvantitatívny údaj (počet nositeľov daného krstného mena, resp. priezviska) s priradením ku všetkým lokalitám jeho výskytu, resp. je možné zistiť výskyt všetkých priezvisk v príslušnej lokalite. V tabuľke je uvedená veľkosť korpusov mien za jednotlivé krajiny: Krajina Česká republika Estónsko Lotyšsko Poľsko Slovensko Slovinsko Ukrajina Spolu Počet 244025 208380 245331 244632 228646 283449 251579 1 705256 Pred spustením aplikácie a prezeraním dát je nevyhnutné nainštalovať príslušné fonty, ktoré používa program a nie je možné ich nainštalovať automaticky. Ide o štyri skupiny fontov: fonty IPAKiel na zobrazovanie výslovnosti znakmi medzinárodnej fonetickej abecedy, ďalej tzv. fonty MRPA (Machine Readable Phonetic Alphabet) na zobrazenie pomocou ASCII, font NRB CP852 na korektné ortografické zobrazenie znakov pre MS-DOS s kódovou stránkou 852. Špeciálne fonty existujú pre ukrajinskú databázu s kódovou stránkou 866. Pre každý jazyk sú dáta uložené v dvoch ASCII textových formátoch. Prvá tabuľka obsahuje východiskovú grafickú podobu každej jednotky, druhá tabuľka obsahuje priradené výslovnostné polia, ktoré môžu obsahovať aj viac riadkov, ak existujú dva alebo viaceré výslovnostné varianty. Aj keď možno prezerať dáta v ktoromkoľvek bežnom databázovom programe, dochádza k ťažkostiam pri čítaní ortografických znakov v jednotlivých jazykoch alebo pri zobrazovaní transkripčných symbolov v IPA štandarde. Aby bolo možné zobraziť dáta korektne, bol vytvorený špeciálny prehliadač COPDB, ktorý tento problém rieši. Používateľská obrazovka má nasledujúci tvar: 124 VIACJAZYČNÝ VÝSLOVNOSTNÝ SLOVNÍK VLASTNÝCH MIEN A NÁZVOV LOKALÍT V prvej položke je zobrazená grafická podoba. Druhá položka zobrazuje výslovnosť, pričom tento nástroj umožňuje aj prepínanie medzi transkripciou pomocou znakov ASCII a IPA. Položka „Etymology“ označuje krajinu výskytu mena, ďalej je zobrazený kód mena v databáze. Položka „Quality“ označuje stupeň presnosti transkripčného prepisu v zmysle výslovnostnej normy, pričom I. stupeň znamená expertne overenú výslovnosť, II. stupeň výslovnosť skontrolovanú a upravenú po automatickej transkripcii, III. stupeň označuje výslovnosť, ktorá bola vykonaná automaticky len pomocou automatického transkriptora na základe predprogramovaných pravidiel. Položka „Comments“ označuje kategóriu pomenovania. Myslím si, že výsledky tohto projektu možno využiť na ďalší výskum v oblasti fonetiky, onomastiky a počítačovej lingvistiky. 125 ČESKÝ NÁRODNÍ KORPUS: STAV V ROCE 2001 František Čermák: Ústav Českého národního korpusu, Filozofická fakulta University Karlovy, Praha ([email protected]) Abstract: In a broad context, the contributions surveys the curreny state of preparation, build-up and perspectives of the Czech National Corpus and its various subcorpora. The corpus grew up out of real need of better linguistic data and its relevance for various fields of linguistics and outside is paid some attention. Some of the basic corpus-linguistics terms are revisited and redefined as well as a survey of current needs is outlined. Finally, various subcorpora, especially the 100-million contemporary corpus of written Czech are described and various criteria for its build-up discussed and given. 1. Úvod Současný svět si stále více uvědomuje cenu informace, a to nejen jako pouhého zboží, ale především jako nezbytného předpokladu pro celkový rozvoj společnosti. Zvláštní místo tu zaujímá informace jazyková, o jazyku a z jazyka. Jazyk není jen nejcennější kulturní statek a dědictví společenství, které už dávno není jednonárodní, který podmiňuje a umožňuje existenci veškeré slovesné kultury od literatury přes divadlo a žurnalistiku až po osobní korespondenci i ústní komunikaci. Jazyk nám umožňuje své myšlenky a názory přenášet překladem jazykovým do jiné společnosti a nazpátek a překladem kulturním nahlížet do vlastní minulosti a udržovat kontinuitu toho, co stojí za to. Vedle své úlohy nástroje všeobecné komunikace společnosti je však jazyk i médiem vědeckého styku, nástrojem techniky a obchodu a všech dalších oblastí společenského života zrovna tak jako nástrojem sebereflexe a poznání dění kolem nás, a bez něj by tento život prostě nebyl. Jazyk je však přitom takovou samozřejmostí, jakkoliv nezbytnou, že se na něj prostě zapomíná, zapomíná se – především investičně – na to, že je o něj jako o výsostný statek kulturní třeba pečovat co nejlépe (a nejen o statky hmotné, průmyslové apod.), a tedy co nejlépe ho poznávat, toto poznání využívat a zpřístupňovat ho všem. Dnes je už zřejmé, že až dotud nevídanou, epochální možnost jeho poznání tu nabízejí komputery, které hloubkou, šíří, kvalitou i objevností své nabídky předčí cokoliv, co tu bylo až dosud. 126 ČESKÝ NÁRODNÍ KORPUS: STAV V ROCE 2001 Mluví-li jeden z dokumentů Evropských společenství v r. 1991 (Commission 1991, s. 20) o tom, že „Technologie mluvy a jazyka vyžadují rozsáhlé databázové korpusy... pro výzkum a rozvoj, účely testování a k podpoře spisovatelů a překladatelů“, a odpovídá tak na otázku Proč korpus?, pak o dva roky později člen téže komise ES DG XIII J. Soler (Soler 1993) si už tuto otázku vůbec neklade a uvažuje spíše o způsobech jeho využití: „...rozvoj standardizovaných korpusů a metod a nástrojů jejich správy i aplikace je dlouhodobý podnik přesahující možnosti projektu individuálního. Nesmírnost úkolu, jehož má být dosaženo, i jeho náklady naznačují, že standardizované korpusy mají být budovány spoluprací skrze evropskou koordinaci národních snah, která je otevřená mezinárodním výměnám, i to, že výsledné korpusy mají být veřejné a orientované tak, aby uspokojovaly různé potřeby uživatelů.“ 2. Pojem jazykového korpusu Jazykovým korpusem lze rozumět vnitřně strukturovaný, unifikovaný a obvykle i oindexovaný a ucelený rozsáhlý soubor elektronicky uložených a zpracovávaných jazykových dat většinou v textové podobě, organizovaný se zřetelem k využití pro určitý cíl, vůči němuž pak je také považován za reprezentativní. Existence a smysl tvorby korpusu vycházejí především ze dvou základních teoretických předpokladů a jazykových faktů zároveň: 1) data nejrůznějšího druhu se v korpusu nacházejí ve své přirozené kontextové podobě a užití, což umožňuje jejich všestranné a objektivní studium a indukci závěrů; 2) velký rozsah plánovitě vybudovaného korpusu minimalizuje to, že čistou náhodou – k níž u malých rozsahů dat dochází – převládnou zvláštní a okrajová užití jazykových jednotek nad základními a typickými; minimalizuje se tak však i problematická indukce opřená o nedostatečnou analogii. Vedle primárně sledované reprezentativnosti korpusu v různém smyslu a míře (včetně škály typický–zvláštní/výjimečný) se u tvorby korpusu též obvykle zdůrazňuje i nutnost zachytit v něm variabilitu jazyka v různém smyslu, obojí výhodně i v kvantifikované podobě. Možnost správy hromadných jazykových dat a práce s nimi na počítači vedou ve svých důsledcích nejen k nesmírnému zrychlení a usnadnění lingvistovy práce, ale i k jejímu dotud nevídanému zkvalitnění. Data takto získaná, která lze průběžně snadno modernizovat a doplňovat, tak představují dnes absolutně nejbohatší a nejrealističtější zdroj poznání jazyka vůbec. Možnostmi 127 FRANTIŠEK ČERMÁK kvalitativními i kvantitativními tento zdroj vysoko předčí všechny lingvistovy pracně budované kartotéky a archivy minulosti a nabízí se tak proti dosavadní a tradiční individuální lingvistově introspekci a elicitaci informace od rodilých mluvčích. Proto také je jazykový korpus předpokladem ke skutečné revoluci v práci s jazykem a i proto se zcela právem o posledním desetiletí tohoto století mluví také jako o dekádě korpusové lingvistiky. Mluví-li se v přírodních a dalších vědách zcela samozřejmě o základním výzkumu, na který navazuje veškerý další výzkum a aplikace, pak v jazykovědě se právě takovým zdrojem a předpokladem základního výzkumu stává elektronický korpus. Docenění jeho prvotního významu vede pak i k pochopení toho, že jeho budoucí studium a široké využívání znamená skutečně novou epochu v lingvistice, nový způsob výzkumu jak co do kvality a povahy dosahovaných výsledků (zahrnující do značné míry poprvé i ve vědě obecně nutnou možnost verifikace), tak ovšem i podoby a povahy metodologie práce s ním; své důsledky bude mít i pro filozofii přístupu k jazyku vůbec. Už na samotném začátku tu těsně spolupracují lingvisté s matematiky a odborníky v komputerové vědě a nové problémy a cíle, které se vynořují v průběhu práce, si vyžadují a budou vyžadovat zcela nové způsoby řešení a exaktnější metodologie, užité techniky a nástroje. Rostoucí význam tu nabývá lingvistické modelování a statistické metody, propojované do probabilitních modelů, ale i fuzzy logika apod. Lingvistika se právě až v této fázi stává i prakticky plně interdisciplinární. 3. Korpusová data Je třeba lišit mezi povahou jazykových dat (data vnější a hrubá) ještě před jejich vstupem do korpusu a po jejich vstupu do něj (data vnitřní a strojově čitelná, resp. zpracovatelná), kdy nabývají především unifikovanou podobu. Zdrojem korpusových dat (vnějších) jsou obě manifestace jazyka, psaná i mluvená, resp. psané i mluvené texty, ne však zatím ve stejné míře, protože záznam mluveného jazyka a jeho převod do počítačově čitelné podoby (vlastní magnetofonová nahrávka a následný přepis) je dosud velmi nákladný; s ohledem na zlepšující se možnosti počítačového rozpoznávání mluvy a jejího přímého záznamu komputerem se však situace může dramaticky změnit. Dosavadní zdroje dat se podle dostupných prostředků člení v zásadě na tři druhy. Nejlevnější a nejsnadněji využitelná jsou data v podobě elektronické sazby textů, kterou dnes užívá už většina centrálních novin a časopisů a některá nakladatelství. Druhou možností, různě úspěšnou v souvislosti s mírou typo128 ČESKÝ NÁRODNÍ KORPUS: STAV V ROCE 2001 grafické náročnosti textu, je načítání textů, resp. jejich skenování do počítače pomocí scannerů; na rozdíl od snímání obrázků je snímání písma v jeho různorodosti a různé velikosti (jen typografických sad jsou stovky), a tedy i optické rozpoznávání znaků (OCR, Optical Character Recognition) spíše složitější a vyžaduje velmi výkonný a specializovaný software. Zvlášť složité texty, např. slovníkové, však přesto při tom vykazují mnoho chyb a vynucují si mnoho oprav. Třetí možností je konečně manuální přepisování potřebných textů do počítače písařkou (prostřednictvím některého z běžných editorů). Žádný z těchto způsobů tedy nevede k potřebným datům přímo a snadno, vždy je zapotřebí kontroly a oprav, většinou bohužel i odborných (nejjednodušší je paradoxně způsob třetí, který jazykového odborníka průběžně nepotřebuje), každý z nich však navíc vyžaduje řadu větších či menších programátorských a odborných zásahů v podobě preeditace či posteditace, různých konverzí, sjednocení aj. (viz 4., korpusová data interní), často v podobě zvláštních dalších programů. Ať už je elektronický text pořízen tím či oním způsobem (převádí se napřed většinou do neutrálního mezinárodního ASCII formátu), má pak v zásadě trvalou, neomezenou platnost a lze ho opakovaně využít při různých dalších příležitostech, což ho dělá zvlášť cenným. Doprovodnými faktory bývají i některé aspekty další, zvláště právní. Protože počet korpusů i jejich rozsah rychle roste, je dnes už zřejmá jak potřeba standardizace sběru a označování textů, tak možnost jejich vícenásobného, sdíleného použití (reusability, znovupoužitelnost). Tomu prvnímu je věnovaná mezinárodní iniciativa TEI (Text Encoding Initiative), sponzorovaná mj. Evropskými společenstvími a americkou vládou; TEI v několika dokumentech doporučuje společný výměnný formát textů, zásad kódování nových a způsoby převodu mezi formáty existujícími. Její různé subkomise už mj. specifikovaly a doporučily i vhodné znakové sady, zásady textové analýzy v návaznosti na různé obory i kódovací metajazyk. Za ten byl pro deskriptivní rámec syntaktické analýzy zvolen SGML (Standard Generalized Markup Language), uznávaný od r. 1986 jako mezinárodní standard (ISO 8879). Opakovaná, obecná znovupoužitelnost textů, aktuální zvl. ve světle nákladů na pořízení a přípravu elektronických textů i jejich mezinárodní výměny, vyžaduje ke své realizaci vyřešení především otázek polyfunkčnosti korpusu, jeho polyteoretičnosti (tj. nepoplatnosti jedné úzké teorii), dostupnosti, intelektuálních vlastnických práv, reprezentativnosti, standardizace aj. 129 FRANTIŠEK ČERMÁK 4. Český národní korpus Pro češtinu vznikl r. 1994 z inciativy interdisciplinární skupiny Počítačového fondu češtiny a spojením sil více univerzitních pracovišť a Ústavu pro jazyk český Akademie věd České republiky Ústav českého národního korpusu, jehož cílem bylo a je vybudovat rozsáhlý a víceúčelový korpus češtiny obecné povahy na půdě Filosofické fakulty University Karlovy, korpus, který se nazývá Český národní korpus. Svou povahou jde o projekt akademický, a tedy nekomerční, i když jedním ze sponzorů je jedno české nakladatelství. I když je nedostatek novějších jazykových dat, která by měla být v lexikálním archívu Akademie věd České republiky, ale bohužel nejsou, jednou z prvotních motivací ke tvorbě ČNK, promítly se do snah o jeho vytvoření i motivace další a záhy začalo být jasné, že o takovou informační základnu můžou mít zájem vlastně všichni synchronní lingvisté, i když si to zatím ne všichni připouštějí a postupný růst ČNK se vždy nesetkává s obecným porozuměním; nevraživost či lhostejnost zvláště některých starších lingvistů je však jen přirozeným průvodním jevem, známým odleckud. Typově projekt Českého národního korpusu předpokládá především vznik korpusu současných českých textů a klasické slovníkové databáze, které se můžou každá skládat z více částí. Vedle vlastního korpusu, u kterého se sleduje naplňovaná struktura složení, vzniká však i volněji pojatý elektronický archív. Všechny texty se mimoto evidují ve zvláštní evidenční databázi. Korpus současných českých textů, základní část ČNK, sloužící mj. i jako vydatný zdroj pro další dvě obecné složky, byl pro první fázi práce uvažován jako stomiliónový. tj. o rozsahu 100 milónu textových slov (pro srovnání uveďme, že zahraniční zkušenosti i konkrétní projekty, např. uvedený Britský národní korpus, dnes ukazují na potřebu 100 a více miliónů výskytů). Tento první korpus je dokončený a byl uvolněn pro odbornou veřejnost r. 2000. Je nesporné, že v souvislosti s jeho výstavbou a využíváním se hledala a hledá odpověď na řadu otázek, především: – reprezentativní a vyvážené zdroje konkrétních textů, získaných v elektronicky hotové podobě či optickým scannováním, – způsobů převodu/konverze textů do jednotného formátu, kompatibilního mj. i podle mezinárodních standardů (zvl. TEI), – jejich sloučení v organický celek, popř. propojení s dalšími složkami, – lingvistického označkování a utřídění i 130 ČESKÝ NÁRODNÍ KORPUS: STAV V ROCE 2001 – efektivního softwarového mapování a analýzy, korelování jeho různých částí a především – rychlého prohlížení a vyhledávání podle dané potřeby, popř. shromáždění vybrané, ale roztroušené informace v ucelený souhrn, s nímž lze dál pracovat. Dodejme, že řada nakladatelství a redakcí je dnes už ochotná své texty, ukládané elektronicky, dávat k dispozici, i když ne však všechna; na druhé straně však řada typů textu není k dispozici a je třeba je skenovat. Konkordanční báze, tvořená abecedně uspořádanými tvary slov s jejich kontexty a jejich frekvencí ve formátu KWIC, je ideálním východiskem jak pro tvorbu slovníků tak studium syntaxe či analýzu mikrostylistickou, a tedy i pro poznání kombinatoriky jazyka obecně či zjištění tematizace textů. Mívá obvykle jen výběrovou ad hoc povahu vždy pro daný účel a může se pružně obměňovat. Hlavním důvodem této výběrovosti jsou neúnosně velké rozsahy potřebných konkordancí, které jakožto dvacateronásobky apod. délky původních textů jsou velkým břemenem pro počítačovou paměť. Lze proto počítat se základní a typologizovanou referenční konkordancí stálou, na jejímž základě bude možné se kvalifikovaně rozhodovat o potřebě tvorby dočasných konkordancí dílčích. I zde vyvstávají tytéž otázky a potřeba odpovědí na ně jako u textového korpusu; přibývá pak potřeba speciálního softwaru tvorby konkordancí a především programátorského zvládnutí úskalí obrovské záplavy jazykových dat, často pro sledovaný cíl redundantních. Vedle případných konkordancí se zakládají i slovníkové databáze. Budou široce pojaté tak, aby – mj. v propojení s textovým korpusem – mohly sloužit jako základní referenční zdroj pro autory budoucích slovníků nejrůznějšího druhu. Z těchto tří typů svou strukturací do mnoha polí budou bází nejpropracovanější. Jejich prvním obsahem se stanou největší slovníky současného českého jazyka a na jejich pozadí bude možné později pro nový slovník češtiny snadno ověřovat, za použití materiálu nabízeného z textových korpusů, co se v jazyce změnilo, co chybí, jaké jsou objektivní proporce jevů aj. Konkrétně budou tuto náplň tvořit především stávající slovníky: čtyřsvazkový Slovník spisovného jazyka českého (SSJČ) o rozsahu 192 000 hesel na 5600 stranách, který už byl opticky sejmut a dál se zpracovává; hotové 2. vydání jednosvazkového Slovníku spisovné češtiny o rozsahu asi 48 000 hesel vyšlo i v disketové podobě a je tedy počítačově k dispozici hned. Protože i tato databáze bude složena z několika dílčích, může do sebe zahrnout po příslušné konverzi i počítačově už dostupné slovníky další, zvl. retrográdní, popř. frekvenční apod.; přepsat by bylo 131 FRANTIŠEK ČERMÁK zřejmě vhodné pro tyto účely velkou část novodobých vrstev lexikografického archívu Ústavu pro jazyk český, které už do SSJČ vstoupit nemohly. Všechny formy či mody existence korpusu mj. závisejí na dobrém a rychlém vyhledávacím programu, resp. programech; většinou je přímo součástí základních databázových programů obou typů (viz výše), popř. i programu konkordančního. Některá členění uvnitř uvedených složek Českého národního korpusu byla naznačena už výše. Český národní korpus je střechový název pro několik entit a složek v různém stadiu rozpracovanosti a vývoje. Všechny složky jsou vytvářeny výhradně z elektronických textů různé povahy, zaměření a rozsahu. Základní dělení je na (1) synchronní korpus a (2) diachronní korpus. V rámci synchronního korpusu dominuje svou velikostí (1A) synchronní korpus psaný, patří sem však také (1B) synchronní korpus mluvený (zvl. Pražský mluvený korpus) a (1C) synchronní korpus nářeční. Zčásti obdobné je dělení diachronního korpusu na složku (2A) diachronního korpusu psaného a (2B) diachronního korpusu nářečního. Nářeční korpusy obojího typu však mají z praktických důvodů zatím jen výhledovou povahu. Postupně budovanou složkou, která má však především pomocný charakter, je lexikografická databáze složená z dostupných elektronických slovníků různého druhu. I když u nás vznikají specializované korpusy i jiné a jinde, je ČNK pro češtinu a Česko jediným zdrojem svého druhu a jako takový má i určitý mezinárodní význam. ČNK je bezprecedentně největší informační bází v ČR a patří dnes i k významným evropským projektům. V jazyce se nenabízejí žádná jasná a nepochybná kritéria pro stanovení časových rozmezí, a tedy ani pro stanovení hranic jednotlivých druhů korpusů. Časová parcelace ČNK je také proto do jisté míry arbitrární a závislá na činitelích vnějších, historických. Jistým vodítkem pro oddělení současného jazyka od jazyka staršího (resp. správněji řady jeho různých diachronních podob) je však vždy to, jak se dnešní mluvčí k jednotlivým formám jazyka stavějí a co vyciťují jako ještě živé a co už ne. V podstatě z těchto hledisek byly také vymezeny spodní časové hranice synchronního korpusu psaného. V oblasti pokrytí (1) novin a časopisů byl za základ a začátek textového mapování a zařazování do korpusu vzat rok 1990 se svým přelomovým charakterem (1990–); starší noviny, plné dobového ideologického newspeaku, můžou dnes už jen těžko představovat současný jazyk, který se právě v publicistické oblasti mění nejrychleji. Vzhledem k tomu, že knihy, zvláště beletristické, se nejen znovu a znovu někdy přetiskují i později, ale že se hojně čtou i někteří autoři 132 ČESKÝ NÁRODNÍ KORPUS: STAV V ROCE 2001 starší, kteří takto do současnosti patří, protože ji svým vlivem spoluvytvářejí, bylo pro ně stanoveno několik vzájemně se doplňujících kritérií dalších. Vedle (2a) knih (hlavně románů) poprvé vydaných po r. 1990 včetně (1990–, kritérium shodné s (1)) bylo rozhodnuto respektovat i (2b) čtené autory starší, jako je Jaroslav Hašek a Karel Čapek, a to ty, kteří se narodili r. 1880 nebo později (tj. v letech narození J. Haška a K. Čapka) a konečně (2c) knihy publikované od r. 1945, tj. od konce 2. sv. války (1945–); u tohoto posledního kritéria jde však o procentuálně řidší zastoupení než u (2a). Jazyk takto vymezených autorů totiž ještě žije. Jednotkou evidovanou, kterou lze v ČNK zvlášť identifikovat, je takto buď jednotlivá kniha, nebo číslo novin; vzorky se v tomto přístupu neuplatňují. Všechna ostatní díla, která těmto kritériím nevyhovují, jsou řazena do korpusu diachronního. Je však třeba připomenout, že k dispozici ani zdaleka ještě nejsou všichni vhodní kandidáti pro zařazení do ČNK (problém dostupnosti textů je trvalým problémem), a že i u dostupných a daným kritériím vyhovujících knih, textů bylo nutno přikročit k proporcionálnímu výběru (např. beletrie je v celku synchronního korpusu jen něco přes 11 %). Bylo by tudíž omylem domnívat se, že ČNK obsahuje celou českou literaturu daného období, popř. že v rámci projektu ČNK je převod tak rozsáhlého souboru dat proveditelný. Korpus obsahující všechny texty a autory nikde neexistuje a zřejmě ani existovat nebude. Jde však o to, mít ho co největší a pružně rozšiřovaný. Horní časovou hranicí pro zařazení textů do synchronního psaného korpusu bylo časové rozmezí let 1999, dané v podstatě dostupností textů, které lze získávat vždy jen s určitým časovým odstupem; nějaký čas si vždy ovšem vyžádá i jejich interní zpracování. Takto pokrytá časová etapa, tj. od roku 1990 (s naznačenými přesahy do minulosti do roku 1998/99), je zastoupena k r. 2000, tj. v době dokončení první etapy ČNK, synchronním korpusem v rozsahu cca 100 miliónů textových slov ve vyvážené reprezentativní podobě. Projekt ČNK ovšem pokračuje dále a na první etapu a verzi navážou verze další a rozsáhlejší. Těchto 100 miliónů slov je zároveň označkováno vnějším značkováním co do typu a původu textu i (pokusným) značkováním vnitřním. Takto je každý tvar určen co do své morfologické platnosti a zařazení včetně slovního druhu; přiřazena je lemmatizace. Jednotlivé typy anotace lze zároveň užít i pro vyhledávání, zadá-li si je uživatel. Uvedený rozsah jen samotných textů bez označkování je nevídaně velký, jaký dosud nikdy k dispozici nebyl; pohybuje se v rozmezí 1 – 2 gigabytů a jeho prosté manuální prohlížení přesahuje lidské možnosti. Máme-li si ho nějak přiblížit, pak toto číslo v podobě a velikosti průměrných tištěných knižních 133 FRANTIŠEK ČERMÁK stránek (při knize o cca 250 standardních stranách běžného tisku a tenkého papíru), odhadem představuje asi 10 zaplněných metrů místa na polici. Jen pouhé přečtení celého synchronního korpusu by pak při dost rychlém tempu (150 slov za minutu, 8 hodin denně a 365 dní ročně) zabralo přes 4 roky. Podstatné je, že příslušný software tento rozsah prohlédne a výsledek uživateli představí (podle složitosti dotazu) maximálně za pár sekund. Diachronní korpus je budován s cílem vytvořit elektronickou materiálovou základnu pro výzkum vývoje českého jazyka od prvních dochovaných souvislejších záznamů (2. polovina 13. stol.) do doby, kterou pokrývá synchronní korpus (zhruba do poloviny 20. stol., s přesahem do konce 80. let 20. stol. v případě novinových a časopiseckých textů). Do korpusu jsou zařazovány pouze dobové a útvarově autentické texty, tj. texty, u nichž lze s rozumnou mírou jistoty vyloučit, že do nich byly vneseny prvky pozdějšího jazykového stavu nebo jiného jazykového útvaru: jsou to především opisy a přetisky, které vznikly podstatně později než původní text (netýká se kritických edic), a ty, které původní text zjevně zkreslují nářečními a jinými prvky. Postup budování diachronního korpusu je pomalý a obtížný, neboť většinu textů je třeba manuálně přepisovat nebo (v případě spolehlivých novodobých edic) skenovat a manuálně korigovat. Vzhledem k tomu, že elektronické prohledávání různorodých paleografických podob textů z odlišných období vývoje českého pravopisu je prakticky nezvládnutelné, vstupují texty z doby před rokem 1849 do diachronního korpusu v transkribované podobě. V současné době není v možnostech ČNK standardně připojovat k transkribovaným starším textům jejich transliterované podoby, avšak pro budoucnost se počítá s podstatně užším spojením transkripce s originálem, a to ve formě elektronického propojení korpusových transkribovaných textů s digitalizovanými obrazy jednotlivých stránek původních předloh. Toto řešení by mělo nejen dát badatelům příležitost detailního ověřování jednotlivých případů transkripce, ale i podstatně rozšířit možnosti korpusového výzkumu na oblast vývoje grafiky a pravopisu. Jeho realizace je však velmi náročná. Diachronní korpus dosáhl v roce 2000 celkového objemu 1 750 000 textových slov. Jeho součástí je mj. banka transliterovaných textů (o celkovém rozsahu přibližně 100 000 textových slov) a jazyková databáze (v níž se shromažďují překlady starších českých slov, vysvětlivky jednotlivých obratů, míst v textech ap., obsažené v jednotlivých edicích). Mluvený korpus synchronní (Pražský mluvený korpus), který je samostatnou složkou ČNK, byl původně vytvářen z hlediska výzkumu frekvence 134 ČESKÝ NÁRODNÍ KORPUS: STAV V ROCE 2001 autentické mluvené, především obecné češtiny a jeho rozsah a povaha byly do vysoké míry dány pragmaticky, možnostmi, které byly k dispozici. Jeho dnešní rozsah činí přes 700 000 slov. Kvůli limitujícím faktorům je prozatím omezený na oblast Prahy a okolí, kde míra širší reprezentativnosti je nejvyšší (Praha ovlivňuje ostatní území nejen mediálně, ale i tím, že v ní pracují lidé z celé země); je však naděje na získání ještě obdobných korpusů dalších. Mluvený korpus časově pokrývá období let 1988 – 1996 a představuje zdaleka největší a nejreprezentativnější záznam autentického mluveného jazyka, který česká lingvistika ve svém uhranutí téměř výlučně jazykem psaným dosud tradičně ignorovala. Rozsah 700 000 textových slov je podle dnešních nároků a ve srovnání s psaným synchronním korpusem malý, ale je třeba vidět, že odpovídá reálným možnostem. Jde především o to, že získání takového korpusu je mnohonásobně pracnější a dražší než vybudování korpusu psaného a že dosud není k dispozici ani celková metodologie výzkumu mluveného jazyka, která – měla-li být převzata z jazyka psaného – například v oblasti syntaxe zcela selhává. Povaha mluveného jazyka je v mnohém jiná než jazyka psaného a jeho komplexní a systematický výzkum je dosud velkým úkolem. Projekt mluveného korpusu, složený z cca 300 magnetofonových nahrávek v upraveném přepisu, sledoval reprezentativní zastoupení 4 hlavních sociolingvistických proměnných: pohlaví mluvčích (muž – žena), věku (vyšší – nižší s hranicí kolem 35 let, ale s vyloučením jazyka nedospělé mládeže), vzdělání (nižší – vyšší) a typu textu, resp. nahrávky (formální, tj. podle předem připravených širokých otázek, nebo neformální, tj. neřízený dialog dvou mluvčích, kteří se znají). Tak vzniklo několik desítek kombinací těchto čtyř indexů, které se nahrávkami naplňovaly tak, aby se dosáhlo vyvážené, proporcionální podoby. Nahrávky se pak manuálně přepisovaly standardním způsobem do počítače a anotovaly. Vedle neoznačené, tj. prostě textové podoby, která je už veřejně dostupná, má být tento korpus po dokončení zpřístupněný včetně bohaté anotace textové a lingvistické zahrnující i víceslovné jednotky a vůbec poprvé i frazeologii; je to první korpus v Evropě vůbec obsahující mj. úplné značkování frazeologie. Jeho hlavní využitelnost je specificky v oblasti lexikonu a morfologie; méně vhodný je pro studium syntaxe (vzhledem k malému rozsahu) i ke zkoumání tématickému apod. Zvláště mluvený korpus představuje značný a specifický problém: v důsledku v minulosti pěstovaného přezírání a následného opomíjení výlučně ve prospěch spisovného jazyka tato část jazyka zůstává nemapovaná, a to je lin135 FRANTIŠEK ČERMÁK gvisticky situace jak neudržitelná, tak neopodstatnitelná, na druhé straně však i metodologicky náročná a nová. Kromě nového asi třičtvrtěmiliónového korpusu mluvené češtiny, jehož zpracování bude dokončeno v r. 2001, a to zvláště pro potřeby frekvenčního slovníku mluveného jazyka, k dispozici není nic, a musí se tudíž, spolu s vypracováváním metodologie sběru a zpracování, která je tu značně jiná, i začínat prakticky od nuly. Je třeba si uvědomit, že magnetofonové nahrávání, přepis do počítače a okódování každého slova složitým číselným kódem, který se realizuje, je jak pracné, tak nesmírně drahé. Dodejme, že právě vzhledem k nesmírné absurdnosti situace zde, tj. vzhledem k tomu, že většina naší komunikace je mluvená a přitom pro její výzkum a popis není v daném smyslu k dispozici nic, kdežto pro menšinovou komunikaci psanou disponujeme už teď miliónovými záznamy, je třeba tento stav urychleně a koncepčně řešit v širším měřítku. Výčet složek ČNK lze konečně uzavřít připomenutím toho, co bylo řečeno už výše: podle potřeby a cíle i možností vzniku různých dílčích databází specializovaných. K nim může nesporně patřit terminologická databáze lingvistická (zvlášť postrádaná mnohými) i z jiných oborů, databáze českých kořenů a kmenů, registr všech evidovaných forem i lemmat v různých databázích apod. 5. Aspekty práce a využití Složení korpusu se řídí řadou kritérií, stále dolaďovaných; jejich základ se opírá o podniknutý sociologický výzkum. Vedle vlastních obsahových kritérií, jako je podíl textů žurnalistických, beletristických či odborných, se výběr řídí podle vymezení statistické populace, a to především kritérii (A) recepce či (B) produkce, a tedy podle toho, jak jazyk lidé užívají (recepce, tj. jazyka ve skutečnosti jen několika málo spisovatelů, novinářů apod. pro velmi široké publikum různých médií), či toho, jak ho píšou a mluví (produkce, tj. jazyka velmi širokého vzorku aktivních uživatelů pro stejně široké spektrum příjemců). K primárně řešeným otázkám patřila tedy reprezentativnost, jejíž průzkum dospěl k několika stupňům poznání. Už první její výzkum, který byl svou podstatou sociologický a zabýval se průzkumem prosté recepce jazyka, tj. zjišťování proporcí, v nichž jsou lidé vystaveni různým druhům jazyka, přinesl některá zásadní překvapení. Tak např. bylo zjištěno, že celá třetina pokrytí patří textům odborným (33,5 %), zatímco nespecializované, neodborné texty tvoří zbývající dvě třetiny (66,5 %). Z toho noviny a časopisy pokrývají 56 %, zatím136 ČESKÝ NÁRODNÍ KORPUS: STAV V ROCE 2001 co próza a poezie 10 %; 0,5 % připadlo na jiné, tj. okrajové a zvláštní typy textů. Složité technické otázky značkování, resp. anotace či taggování korpusového materiálu a jeho automatizace přesahují možnosti této stručné informace, naznačme jen, že zahrnují stejně tak oblast lemmatizace, a to lexémů jednoslovných i později víceslovných, jako syntaktického parseru, řešení jednoznačnosti záznamu či způsoby jeho uložení do korpusu. V pozdějších fázích snad však zahrnou i propojení jednotlivých korpusů a databází dohromady i jejich automatické on-line doplňování o nové formy, prvky a lexémy. Dodejme, že ČNK je experimentálně morfologicky označkovaný a lemmatizovaný. V současnosti se značkování i lemmatizace pro přílišnou chybovost reviduje a předělává a výhledově bude nutné řešit i související problém víceslovnosti. První zkušenosti s korpusy v různých jazycích přinesly už i některé zásadní zkušenosti metodologické povahy. Jednak je zřejmé, že analýza většiny sémantické stránky jazyka (srov. mj. Atkins 1987), která je na rozdíl od diskrétní formy (tu lze opřít programově o binární volbu typu „ano – ne“) spíše většinou kontinuální a škálové, resp. splývavé povahy (a tedy v závislosti především na volbě typu „spíše toto než to, popř. ono“), bude mít jinou povahu (M. A. K. Halliday 1991: jazykový systém je inherentně probabilistický, jeho kontinuu s komplementárními perspektivami gramatiky a lexikonu lépe vyhovuje koncepce lexikogramatiky). Významným přístupem, založeným na předpokladu různé statistické pravděpodobnosti výskytu různých jevů formy, je vyhodnocování těchto aspektů na základě probabilistických odhadů, měření a různých indexů (o vztahu kvantitativních a kvalitativních aspektů viz mj. Itkonen 1980, srov. i Brunet 1986). Vždy však ke studiu této stránky bude možné přejít pouze skrze zřetelně a spolehlivě okódovanou stránku formální; jedno tu tudíž předpokládá druhé. I ve formální stránce jazykových dat lze však pozorovat, resp. předpokládat nejednoduchost a nejednoznačnost, především ve smyslu časté variabilnosti formy, která jako jazykový fakt stojí proti snahám některých ligvistů o zjednodušenou a násilně sjednocenou kodifikaci. Na druhé straně se jako odraz určité skepse k síle jednotlivých jazykových teorií také doporučuje (srov. Leech 1993), aby značkování bylo spíše jednodušší, široké a konsensuální (viz dál) a nevycházelo z jedné konkrétní teorie, protože se později nemusí osvědčit a označkovaná data by nebyla jinak použitelná ani v přístupech dalších. Obecně lze uvažovat o více typech zužitkování a třebaže konkrétní podoba bude dána také zájmem z té či oné strany, lze přesto zmínit především či aspoň 137 FRANTIŠEK ČERMÁK tři okruhy výstupů. Každý z nich bude mít ovšem různě přímou/nepřímou praktickou využitelnost a tudíž i různého příjemce. První okruh představují slovníky výkladové i překladové, gramatiky a učebnice i samotná data v databázích, na nichž budou stavět, tedy výstupy společensky a zřejmě i komerčně bezprostředně zajímavé. Není jistě žádným tajemstvím, že mnohá slova ve slovnících nejsou, ať stará či nová, že mnohá informace je v lepším případě pokřivená či zastaralá, či že mnohé otázky třeba našich mluvnic nemohly být pro nedostatek dat vůbec řešeny a není proto ani tak těžké si představit, co vše se může v této sféře nabídnout lepšího. A v horším případě nemá už cenu nijak zastírat, že mnohé z autoritativních soudů předchozích normotvůrců a autorů především gramatik stojí na hliněných nohách, jsou nepodložené, apriorní a, v tom lepším případě, minimálně problematické a skutečnému vědeckému výzkumu vzdálené. V zrcadle korpusu a jeho informací jsou pak především minulé soudy kodifikační povahy krajně problematické, jazykový svět, stejně tak jako ten reálný, prostě není černobílý. Hlavním úkolem však bude, což bude starostí některého z návazných pracovišť, nabídnout Čechům a bohemistům pořádný, objektivní a spolehlivý velký slovník současné češtiny. Český národní korpus se tak stává hlavním a vlastně jediným možným zdrojem poznání a dat pro tvorbu takového příštího slovníku. Není žádným tajemstvím, že náš dosud největší výkladový slovník (SSJČ), jehož poslední svazek vyšel už před 31 lety, tj. r. 1971, a první dokonce před více než 40 lety, už poněkud nutně zastarává, mnohé – zvláště v důsledku prudce se měnící češtiny dneška – v něm není a mnohé je nepříjemně poplatné komunistickým dobám, kdy vznikal. Jakkoliv nelze podceňovat lidskou intuici, bude to především korpus, odkud bude možné čerpat poznání o tom, co je v jazyce typické, co se nejčastěji a jak říká či píše a co je naproti tomu řídké a netypické. Na jeho obrovském podkladě pak bude taky mj. konečně možné zjistit ze skutečného úzu a způsobů používání jazyka, pokud jde o jeho varianty, kam se ubírá vývoj, a ověřit si tak objektivně např. i to, nakolik pravopisná pravidla odpovídají životu a nakolik nikoliv. Druhý okruh představují zkušenosti, podklady i realizované dílčí výstupy a programy ve sféře komputerizace jazyka. Půjde především o výstavbu dokonalejších spelling-, grammar- i style-checkerů, tedy korektorů pravopisu, mluvnice i stylu, o dělicí programy, automatické gramatiky a analyzátory pro dané účely i o moduly pro komunikaci s počítačem v přirozeném jazyce a možnosti další, především ve směru významového zkoumání jazyka. Významným momentem tu jsou desiderata, která se už teď kladou na kvality a povahu kor138 ČESKÝ NÁRODNÍ KORPUS: STAV V ROCE 2001 pusů ze strany Evropské unie především ve smyslu vzájemné kompatibility a možnosti paralelního zkoumání jazykových dat: členové ÚČNK jsou partnery dvou velkých evropských multinacionálních projektů v rámci iniciativy Copernicus, které jsou zaměřeny na otázky budování národních korpusů. Třetí, nejužší okruh bude polem pro realizaci a precizaci samotné lingvistické teorie, jejíž bezprostřední využití sice žádné neexistuje, jejíž vliv však může být zcela zásadní a všudypřítomný. Přestože korpus je pro lingvisty všeho druhu obecným a základním zdrojem, popř. testovacím prostředím (viz výše), lze s ohledem na jejich primární orientaci na něj rozlišit především následující typy profesionálních uživatelů: A – lexikografové/lexikologové (zdroj informací o skutečném úzu obecně či specifických slov apod.), B – komputační lingvisté (zdroj zjišťovaných statistických pravděpodobností jako klíč k analýze, prostředí k aplikaci teorií a modelů jazyka, automatické získávání lexikálně-sémantických znalostí, řešení vztahu gramatika – lexikon aj.), C – teoretičtí lingvisté (zdroj vzorků jazykových jevů i prostředí ověřování svých domněnek apod.), D – úzcí specialisté (zdroj specifických informací, paralelních řešení i úzu ap. pro překladatele, terminology, dialektology aj.), E – aplikovaní lingvisté (autoritativní a typický zdroj dat, zvl. pro výuku, tvorbu jazykových pomůcek. Mimolingvistické využití korpusu se nabízí vlastně všem oblastem a disciplínám, které pracují s jazykem, a to hlavně jako referenční zdroj informací o distribuci zjišťovaného jevu. Především tu jde však o specialisty různých oborů zaměřené na obsah textů (historikové, literární kritikové, tvůrčí autoři, sociologové, psychologové) či jejich formu (specialisté na média včetně např. reklamy, stejně jako právníci apod.). Do určité míry tu živnou půdu budou skýtat předchozí dva okruhy aplikací v podobě zatím, tj. stávajícími technikami a teoriemi neřešitelných problémů či prostých otázek; především však bude usilovat o posunutí hranice poznání vlastní disciplíny tam, kde jsme se dosud museli spokojovat s prozatímními závěry a předpoklady. Mám na mysli možnosti řešení, tj. na základě velkého rozsahu dat a exaktních technik, takových otázek, jako jsou sémantické zákonitosti kombinace slov, podstata a hranice ustálenosti nebo metafory. Je zřejmé, že na základě hlubšího poznání v první oblasti budeme pak schopni říct leccos navíc i o zákonitostech našeho myšlení; v druhé oblasti si nejenom například 139 FRANTIŠEK ČERMÁK lexikograficky ujasníme, při kolika výskytech dané formy v textu už lze místo posunu starého významu uvažovat význam nový, popř. samostatnou kombinaci slov, ale především budeme vědět víc o samotné hranici jazykové synchronie, a tedy jazyka současného a živého, a o povaze přechodů k diachronii a minulým stavům jazyka, s nimiž se lingvisté nejsou dnes schopni vyrovnat; konečně v třetí oblasti naše poznatky umožní nejen kvalifikovaně hodnotit metafory slovesného umění, jejich zpětný vliv na intelektuální vnímavost lidí, ale i jejich podíl na samotném vývoji jazyka a tím i kultury. Literatúra ATKINS, Sue – CLEAR, Jeremy – OSTLER, Nicholas. 1992. Corpus Design Criteria. Literary and Linguistic Computing, roč. 7, č. 1, s. 1 – 16. BIBER, Douglas. 1993. Representativeness in Corpus Design. Literary and Linguistic Computing, roč. 8, č. 4, s. 243 – 257. British National Corpus. Written Corpus Design Specification. 1991 (a handout information). BRUNET, É. (ed.). 1986. Méthodes quantitatives et informatiques dans l’étude des textes (hommage à Charles Mueller). Collogue international de CNRS. Paris: Université de Nice. ČERMÁK, František. 1995. Komputační lexikografie. In: F. Čermák – R. Blatná (eds.). Manuál lexikografie. H+H: Praha.1995, s. 50 – 71. ČERMÁK, František – BLATNÁ, Renata (eds.). 1995. Manuál lexikografie. H+H: Praha. ČERMÁK, František. 1997. Czech National Corpus: A Case in Many Contexts. International Journal of Corpus Linguistics, roč. 2, č. 2, s. 181 – 197. ČERMÁK, František – KRÁLÍK, Jan – KUČERA, Karel. 1997. Recepce současné češtiny a reprezentativnost korpusu. Slovo a Slovesnost, roč. 58, s. 117 – 124. ČERMÁK, František. 1995. Jazykový korpus: Prostředek a zdroj poznání. Slovo a slovesnost, roč. 56, s. 119 – 140 (revidovaná verze In: Studie z korpusové lingvistiky, 2000, s. 15 – 37). ČERMÁK, František. 1998. Czech National Corpus: Its Character, Goal and Background. In: P. Sojka – V. Matoušek – K. Pala – I. Kopeček (eds.). Text, Speech, Dialogue. (Proceedings of the First Workshop on Text, Speech, Dialogue-TSD '98, Brno, Czech Republic, September.). Brno: Masaryk University, s. 9 – 14. ČERMÁK, František. 2001. Language Corpora: The Czech Case. In: V. Matoušek et al. (eds.). Text, Speech and Dialogue, TSD 2001. Berlin – Heidelberg – New York: Springer, s. 21 – 30. HALLIDAY, M. A. K. 1991. Corpus studies and probabilistic grammar. In: K. Aijmer et al. (eds.). Corpus Linguistics. Studies in Honour of Jan Svartvik, s. 30 – 43. ITKONEN, E.: Qualitative vs quantitative analysis in linquistics. In: T. Perry (ed.). Evidence and Argumentation in Linguistics. Berlin 1980. LEECH. G. 1993. Corpus annonation schemes. Journal of Literary and Linguistic Computing, roč. 8, č. 4, s. 275 – 281. KOCEK, J. – KOPŘIVOVÁ, M. – KUČERA, K. (eds.). 2000. Český národní korpus: Úvod a příručka uživatele. Praha: Ústav Českého národního korpusu FFUK. (F. Čermák spoluautor. zvl. 1.1, 1.21-1.22 a předmluva.) 140 ČESKÝ NÁRODNÍ KORPUS: STAV V ROCE 2001 KRUYT, J. G. 1993. Design Criteria for Corpora Construction in the Framework of a European Corpora Network. Final Report. Leiden: Institute for Dutch Lexicology INL. NORLING-CHRISTENSEN, Ole. 1992. Preparing a Text Corpus. Computational Tools and Methods for Standardizing, Tagging and Structuring Text Data. In: R. Kiefer et al. (eds.), Papers in Computational Lexicography COMPLEX '92. Budapest: Research Institute for Linguistics, Hungarian Academy of Sciences, s. 251 – 259. SINCLAIR, John McH. 1991. Corpus, Concordance, Collocation. Oxford: Oxford University Press. ČERMÁK, F. et al. (eds.). 2000. Studie z korpusové lingvistiky. Praha: Karolinum. ŠULC, Michal. 1999. Korpusová lingvistika. První vstup. Praha: Karolinum. ŠULC, Michal. 2001. Tematická representativnost korpusů. Slovo a Slovesnost, roč. 62, s. 53 – 61. 141 ČESKÝ NÁRODNÍ KORPUS – POČÍTAČOVÁ DEMONSTRACE Michal Křen: Ústav Českého národního korpusu, Filozofická fakulta University Karlovy, Praha Abstract: This paper briefly describes the structure of the Czech National Corpus, the acquisition of texts and the whole process of their subsequent conversion into the final SGML format. It also deals with the architecture of the software tool that is provided to the registered users. The emphasis of the workshop presentation is put on practical computer demonstration of the tool and possibilities of its usage for data mining. 1. Složení Českého národního korpusu Český národní korpus je zastřešujícím názvem projektu, který v sobě zahrnuje vytvoření více různých korpusů, kromě synchronního jsou to zejména diachronní a mluvený korpus. Nadále se však budu věnovat výhradně korpusu SYN2000, což je reprezentativní synchronní korpus psaného jazyka, zachycující nejrůznější žánry a typy textů psané češtiny devadesátých let. Jeho rozsah činí 100 miliónů slovních tvarů. Na základě řady výzkumů, při kterých se brala v úvahu zejména recepce, bylo jeho složení stanoveno takto: 60 % tvoří publicistika, tedy především noviny, a to jak celostátní tak regionální, 25 % odborná literatura a 15 % beletrie. Těžištěm korpusu jsou texty vzniklé v letech 1990 – 1999. Výjimkou z tohoto vymezení jsou pouze významná beletristická díla, která se stále čtou a vydávají; podmínkou však je, že se jejich autor narodil po roce 1880. 2. Získávání textů a jejich konverze do SGML Nyní bych se chtěl ve stručnosti věnovat problematice získávání textů a zejména procesu jejich převodu do jednotného SGML formátu, ve kterém jsou nakonec uloženy a připraveny k využívání pomocí korpusových nástrojů. Protože tomuto tématu nebývá obvykle věnována dostatečná pozornost, chtěl bych celý tento proces shrnout a stručně popsat, jak probíhá v Ústavu Českého národního korpusu. 2.1 Získávání textů 142 ČESKÝ NÁRODNÍ KORPUS – POČÍTAČOVÁ DEMONSTRACE Texty do korpusu získáváme v zásadě třemi různými způsoby: nejvýhodnější je dostat texty v elektronické podobě přímo od vydavatele, a to na základě dohody o jejich nekomerčním využití. Bohužel ne všechna nakladatelství s poskytnutím textů souhlasí, v ideálním případě však lze takto získat celé archivy jednotlivých titulů novin a časopisů nebo velké množství knih v jednom formátu. Druhou možností je stahování z internetu. V této souvislosti bych chtěl vyvrátit poměrně častou domněnku, že získávání textů není žádná velká věda, stačí jich přeci pomocí automatických programů stáhnout z internetu co nejvíce. To sice na první pohled vypadá jako velice rychlé a elegantní řešení, je však použitelné jenom v omezené míře. Na internetu skutečně nalezneme velké množství textů, jsou však často nekvalitní, bez korektur, v některých případech dokonce chybí i diakritika. Také internetové archivy novin a časopisů jsou často neúplné, a je tedy třeba si texty před stažením pečlivě vybírat. Při jakémkoli získávání nových dat je navíc nutné vyjednat s vlastníky autorských práv podmínky použití jejich textů, což je časově nejnáročnější fáze, kterou nelze automatizovat. Při takovém jednání však již většinou není problém získat data kompletní a v kvalitnější podobě, než by se podařilo on-line. Konečně třetí možností získávání textů je jejich skenování a přepisování. Protože však jde o způsoby zdlouhavé, pracné, a tedy drahé, používáme je pouze u textů, které jsou z nějakého důvodu cenné a nelze je získat jinak. Každý text, který získáme některým z uvedených způsobů, je ještě evidován v databázi a nakonec zálohován na CD. 2.2 Konverze do jednotného formátu Cílem této konverze je dát všem textům jednotný tvar tak, aby další zpracování mohlo probíhat jednotně, bez ohledu na jejich původ. Texty jsou sice již v elektronické podobě, ale v různých formátech, někdy jde doslova o změť nejrůznějších typů souborů, v rámci dat od jednoho nakladatelství lze třeba najít jednu knihu v několika verzích nebo také nepotřebné soubory, ve kterých žádný text není, jako například obrázky, spustitelné programy a podobně. Nejprve je tedy třeba „oddělit zrno od plev“, a pak se pustit do převodu jednotlivých souborů s texty do meziformátu. Meziformátem rozumíme prostý ASCII text, který však může navíc obsahovat SGML entity, v nichž jsou kódovány informace, které by se převodem do ASCII ztratily: jde zejména o typografické značky (kurzíva, podtržení, horní a dolní index apod.) a o nečeské znaky s diakritickými znaménky, které se ne143 MICHAL KŘEN vyskytují v daném kódování češtiny. Postup konverze pochopitelně závisí na tom, v jakém formátu byly soubory s texty vytvořeny. Nejjednodušší je z prostého ASCII, HTML, RTF nebo z formátů jednoduchých textových editorů (T602, WordPerfect) – pro tyto případy již máme vyvinuty spolehlivé konverzní programy, které generují přímo meziformát bez nutnosti texty v těchto editorech otevírat a ukládat. U složitějších editorů (Word) nebo DTP programů (QuarkXPress, PageMaker) to již nutné je – pokud jde o Word, problém řešíme pomocí maker, která automaticky vyexportují všechny soubory v adresáři do RTF. V případě DTP programů, jejichž používání je bohužel stále častější, však není jednoduché text vůbec vyexportovat (zvlášť pokud jde o složitou sazbu), a je proto nutné každý soubor tímto programem otevřít a všechny textové rámce postupně uložit. Tato metoda je časově, a tedy i finančně náročná, snažíme se proto takové texty zpracovávat v co nejmenší míře a podobně jako například skenování ji používat pouze jako doplòkový zdroj textů. Přesto se však nedá říci, že v případě relativně jednoduchých veřejných formátů zmíněných výše stačí pouze spustit příslušný program a konverze do meziformátu je hotová. Vždy je totiž nutné výsledek zkontrolovat a většinou také ještě napsat danému textu „na míru“ jednoduchý program, který odstraní některé nevhodné jevy, jakými jsou například odkazy na literaturu, čísla stránek a obrázků a podobně. 2.3 Bibliografická anotace Kromě vlastní konverze do SGML je ještě nutné k jednotlivým textům doplnit základní bibliografické informace, aby bylo možné se při vytěžování korpusu na jednotlivé zdroje odkazovat. Bibliografickou anotací textů zde tedy rozumíme zjišťování informací o autorech, nakladatelství, roku vydání, typu textu, žánrovém zařazení aj. a jejich zapsání do databáze a zároveň také přímo do textů v meziformátu. Tuto část konverze samozřejmě nelze automatizovat a je tedy nutné ji dělat ručně. 2.4 Převod do SGML, tokenizace, morfologické značkování a lemmatizace Následuje poslední a také již plně automatická fáze konverze, a tou je převod do SGML (mezinárodně standardizovaný metajazyk vhodný pro ukládání strukturovaných textů) a tokenizace (tj. segmentace textu do slov a vět), následované několika čisticími a kontrolními programy. Zde je myslím třeba zdůraznit, že se snažíme zachovat v co největší míře autenticitu textu, to znamená, že do něj nezasahujeme, neopravujeme zjevné chyby ani překlepy, s vý144 ČESKÝ NÁRODNÍ KORPUS – POČÍTAČOVÁ DEMONSTRACE jimkou slov „natvrdo“ rozdělených pomlčkami. Odstraňujeme pouze některé součásti textů, které nemají pro studium jazyka valný význam a které by svou přítomností byly spíše na škodu. Jsou to především celky netextového charakteru (tabulky, vzorce, tiráž, seznamy literatury apod.) a celé odstavce psané cizími jazyky (nikoli tedy krátké citáty). U novin a časopisů se také poměrně často stává, že dostaneme v datech z nakladatelství několik verzí jednoho článku, a proto také kontrolujeme, zda mezi jednotlivými články nejsou dva stejné nebo velmi podobné, a případné duplicity odstraňujeme. Nyní je text již připraven k zařazení do korpusu, k jeho plnohodnotnému používání však ještě chybí morfologická analýza, desambiguace a lemmatizace. I tyto kroky je nutné vzhledem k obrovskému objemu dat dělat automaticky, v současné době používáme programy vyvinuté na Úsavu formální a aplikované lingvistiky Matematicko-fyzikální fakulty University Karlovy pod vedením Jana Hajiče. Na zlepšení výsledků desambiguace pracuje v současné době tým Vladimíra Petkeviče na Ústavu teoretické a komputační lingvistiky Filozofické Fakulty University Karlovy. Výsledkem všech těchto kroků je tedy nakonec anotovaný strukturovaný text ve formátu SGML, ve kterém je ke každému slovnímu tvaru přiřazeno jeho lemma (základní slovníkový tvar) a spolu s ním také morfologická značka, která vyjadřuje jednoznačnou morfologickou interpretaci daného slova, tedy údaj o slovním druhu a v závislosti na něm také například o osobě, čísle a času u sloves, stupni u přídavných jmen a příslovcí a podobně. 3. Programové nástroje pro práci s korpusem Běžný způsob práce s korpusem, který nabízíme všem našim registrovaným uživatelům, je pomocí programu GCQP. Jeho autorem je Pavel Rychlý z Fakulty informatiky Masarykovy university v Brně. Uživatelé si ho mohou stáhnout z internetových stránek Ústavu Českého náodního korpusu a podle návodu nainstalovat na svůj počítač. Jde o klientskou aplikaci napsanou v jazyce Tcl/Tk, a tedy přenositelnou mezi jednotlivými operačními systémy, která pracuje jak v systémech typu Unix/Linux, tak samozřejmě také pod Windows 95/98/NT/2000. Práce s korpusem tedy vypadá tak, že uživatel na svém počítači spustí program GCQP, který se přes internet připojí k našemu serveru, posílá mu požadavky a dostává zpět data, která zpracovává a zobrazuje. Server běží u nás v Ústavu Českého národního korpusu pod Linuxem, výkonným jádrem celého systému je program CQP (Corpus Query Processor), vyvinutý na univerzi145 MICHAL KŘEN tě ve Stuttgartu. Nad tímto jádrem, které zajišťuje vlastní vyhledávání, běží ještě program cqsd, který komunikuje s klientskými aplikacemi, předává jejich požadavky CQP a posílá zpět výsledky vyhledávání. Při práci s korpusem je možné používat bohatý dotazovací jazyk vycházející z regulárních výrazů, který umožňuje nejenom vyhledávat jednotlivá slova a slovní spojení, ale samozřejmě také při hledání využívat lemmata a morfologické značky. Při další práci s konkordančními řádky je možné používat všechny běžné funkce, jako jsou například možnost jednotlivé řádky označit a dále s nimi pracovat, třídit je, mazat, tisknout a ukládat na disk, dále lze také u každého konkordančního řádku zjistit zdrojový text. Velkou výhodou je možnost takřka neomezeně rozšiřovat kontext vyhledaného slova nebo slovního spojení a v neposlední řadě je třeba zmínit také statistické funkce GCQP – frekvenční distribuci a výpočet nejčetnějších kolokací. Program CQP byl v době svého vzniku bezesporu jedním z nejlepších korpusových nástrojů, které byly k dispozici. Přestože většinou svých parametrů stále ještě vyhovuje dnešním požadavkům, některá jeho omezení jsou takového charakteru, že je nelze obejít ani pomocí nadstavby, jakou je například GCQP nebo cqsd. Protože jsou navíc nejasnosti okolo dalšího vývoje CQP, nebylo by z dlouhodobého hlediska vhodné se na něj vázat. Vytvoření zcela nového korpusového nástroje se ujal Pavel Rychlý, autor GCQP. Tato nová aplikace, používající opět architekturu klient/server a nazvaná Bonito/Manatee, by měla v blízké budoucnosti nahradit celý současný systém, založený na CQP. Kromě zrychlení vyhledávání by měla odstranit také některá omezení současného systému a umožnit tak zejména vytváření virtuálních korpusů a používání strukturních značek při vyhledávání, tj. vyhledávání pouze v textech, splňujících určitá uživatelem zadaná kritéria. 4. Závěr Další informace o dostupných korpusech a možnostech jejich využívání, manuál ke GCQP, popis morfologických značek a jiné lze najít na adrese http://ucnk.ff.cuni.cz, kde je možné vyzkoušet také veřejný přístup ke korpusu, ovšem s několika poměrně významnými omezeními. Lze totiž vyhledávat jedině ve dvacetimiliónovém vyváženém korpusu PUBLIC (jde o menší obdobu korpusu SYN2000), a to pouze jednotlivá slova (nikoli tedy slovní spojení), dále nelze používat lemmata, morfologické značky ani statistické funkce, a konečně je omezen kontext i celkový počet zobrazených konkordančních řádků. V 146 ČESKÝ NÁRODNÍ KORPUS – POČÍTAČOVÁ DEMONSTRACE případě vážnějšího zájmu tedy rozhodně doporučuji stát se naším registrovaným uživatelem a získat tak bezplatně plný přístup ke korpusu SYN2000 bez jakýchkoli omezení. Jedinou podmínkou k jeho získání je podepsání prohlášení o nekomerčním využití textů, kromě akademické obce tedy korpus může plnohodnotně využívat i široká veřejnost. Literatura HAJIČ, Jan – HLADKÁ, Barbora. 1997. Probabilistic and Rule-Based Tagger of an Inflective Language – a Comparison. In: Proceedings of the Fifth Conference on Applied Natural Language Processing. Washington D. C. HAJIČ, Jan – HLADKÁ, Barbora. 1998. Tagging Inflective Languages: Prediction of Morphological Categories for a Rich, Structured Tagset. In: Proceedings of the Conference COLING – ACL ’98. Montreal. HLAVÁČOVÁ, Jaroslava. 1998. Technical Insight into Birth of a Corpus. In: P. Sojka – V. Matoušek – K. Pala – I. Kopeček (eds.), Proceedings of the First Workshop on Text, Speech and Dialogue. Berlin: Springer, s. 55 – 60. KOCEK, Jan – KOPŘIVOVÁ, Marie – KUČERA, Karel (eds.). 2000. Český národní korpus – úvod a příručka uživatele. Praha: ÚČNK FF UK. OLIVA, Karel – HNÁTKOVÁ, Milena – PETKEVIČ, Vladimír – KVĚTOŇ, Pavel. 2000. The Linguistic Basis of a Rule-Based Tagger of Czech. In: P. Sojka – I. Kopeček – K. Pala (eds.), Proceedings of the Third International Workshop on Text, Speech and Dialogue. Berlin: Springer, s. 3 – 8. RYCHLÝ, Pavel. 2000. Korpusové manažery a jejich efektivní implementace. Brno: disertační práce FI MU. RYCHLÝ, Pavel. 2000. GCQP – Multiplatform Graphical User Interface to the CQP Corpus Manager. In: Proceedings of the Ninth EURALEX International Congress. Stuttgart: Institut für Maschinelle Sprachverarbeitung, s. 149 – 154. 147 INFORMÁCIE V TERMINOLOGICKÝCH DATABÁZACH A ICH VYUŽÍVANIE PRI PREKLADE ODBORNÝCH TEXTOV Vlasta Křečková: Fakulta humanitných vied Univerzity Mateja Bela, Banská Bystrica Abstract: The basic unit of the terminological database is a terminological record, the structure of which is formed by three kinds of information. The first group contains information of linguistic nature related to the term: grammatical label, pronunciation, orthography, synonyms, abbreviations, context, equivalents of the term in different languages etc. The second group is constituted by information of encyclopaedical character related to the concept: definition, graphic representation of the concept, subject label etc. The third group includes „administrative“ information: term identifier, institution code, source identifier documenting the terminological data, as well as documeting the source of particular pieces of information etc. Different groups of users of terminological database make use of different terminological data, and that to a different extent. The analysis of the results of the translators’ terminological needs survey organised in Slovakia in the second half of 2000 by the Section of Terminology and Lexicography of the Translators and Interpreters Union in cooperation with the participants of the research project VEGA No. 1/7296/20 presents information searched for by the scientific texts translators in the terminological dictionaries and databases. 1. Terminologická databáza a terminologický slovník Terminologická databáza (TDB) má veľa spoločného s elektronickým terminologickým slovníkom, ale jej koncepcia a využitie sú rozdielne. Terminologická databáza predstavuje komplexný súbor informácií o termínoch z ľubovoľnej tematickej oblasti v jednom alebo vo viacerých jazykoch. Tento súbor je vytvorený a uložený na počítačových médiách vo forme terminologických záznamov, pričom jeden terminologický záznam zodpovedá jednému pojmu a je spracovaný v jednom jazyku (Machová 1995). Tvorbu terminologických databáz umožňujú špeciálne počítačové programy a viaceré programy na počítačovú podporu prekladu. Na rozdiel od „tradičných“ terminologických slovníkov v elektronickej forme majú terminologické databázy mnohé výhody: aktualizácia údajov je veľmi jednoduchá; TDB môže poskytnúť používateľom oveľa viac informácií ako terminologický slovník; TDB umožňuje identifikáciu všetkých autorov terminologických záznamov a identifikáciu všetkých použitých zdrojov; z jednej terminologickej databázy je možné generovať rôzne typy termi148 INFORMÁCIE V TERMINOLOGICKÝCH DATABÁZACH A ICH VYUŽÍVANIE PRI PREKLADE ODBORNÝCH TEXTOV nologických slovníkov publikovaných tlačou alebo na elektronických nosičoch s rôznou štruktúrou hesiel podľa potrieb cieľovej skupiny používateľov. Prístup k informáciám v terminologickej databáze je možný aj priamo z počítačovej siete. 1.1 Tvorba terminologických databáz na Slovensku Podľa výsledkov prieskumu terminologických aktivít na Slovensku a v Českej republike, ktorý spolu s prieskumom terminologických potrieb organizovala v druhej polovici roka 2000 Sekcia terminológie a lexikografie Jednoty tlmočníkov a prekladateľov v spolupráci s riešiteľmi projektu VEGA č. 1/7296/20 Manažment terminologických údajov a možnosti jeho uplatnenia v oblastiach poznania a praxe, existujú v súčasnosti na Slovensku viaceré terminologické projekty. Ich výstupmi sú najmä tradičné knižné terminologické slovníky, terminologické slovníky v elektronickej forme, ale aj terminologické databázy.1 Vo Výskumnom ústave práce, sociálnych vecí a rodiny v Bratislave vznikla v rámci európskeho programu Consensus II (Phare) databáza termínov z oblasti sociálnej ochrany s názvom Glossary and Dictionary of Social Protection Terms. Jedným z výstupov tejto TDB, ktorá je spracovaná v programe TRADOS, je dvojjazyčný Terminologický slovník z oblasti sociálnej ochrany: slovensko-anglický a anglicko-slovenský (European Commission, Consensus Program, 2000), ktorý obsahuje 1100 hesiel a nasledujúce informácie: termín vo východiskovom a v cieľovom jazyku, skratky, index, príklady a citácie, poznámky, definície. Ďalším výstupom projektu je viacjazyčný terminologický slovník z oblasti sociálnej ochrany Glossary of Social Protection Terms English-Bulgarian--Macedonian-Romanian-Slovakian (European Commission, Consensus Program, 2000).2 Terminológia vodohospodárstva a ochrany životného prostredia je obsiahnutá v TDB realizovanej inštitúciou CEIT Bratislava v databázovom počítačovom programe pre knižnice a terminológiu PROFLIB. Spracovaná terminoló1 KŘEČKOVÁ, Vlasta. 2001. Prieskum terminologických aktivít v SR (1. časť). ToP (tlumočení – překlad), roč. XII, č. 56, s. 29/1447; KŘEČKOVÁ, Vlasta. 2001. Prieskum terminologických aktivít v SR (2. časť). ToP (tlumočení – překlad), roč. XII, č. 58, s.10/1472 – 11/1473. 2 O projekte informoval v rámci Ankety o terminologických aktivitách v SR doc. PhDr. Rastislav Bednárik, CSc. Autori projektu: VEGHTE, Benjamin – SCHMITZ, Klaus Dirk – BEDNÁRIK, Rastislav - BUJNOVSKÁ, Daniela – BRUCHÁČOVÁ, Zora – KRIŽKOVÁ, Elena – JAROŠOVÁ, Alexandra – ŠEBESTOVÁ, Anna. 149 VLASTA KŘEČKOVÁ gia je publikovaná na CD disku, ktorý obsahuje terminológiu vodného hospodárstva (4 411 termínov s definíciami a obrázkami), vodohospodárske normy a štvorjazyčný slovník termínov vodného hospodárstva a životného prostredia.3 Terminologická databáza, ktorá obsahuje terminológiu z oblasti knižničnej a informačnej vedy, vznikla na základe viacročného terminologického výskumu na Katedre knižničnej a informačnej vedy Filozofickej fakulty Univerzity Komenského v Bratislave. Pri jej tvorbe boli akceptované niektoré zásady terminologickej práce obsiahnuté v norme STN ISO 10241 Medzinárodné terminologické normy – Tvorba a úprava. Na vytvorenie databázy bol použitý databázový systém MS ACCESS. Východiskom pre tvorbu databázy bola jedna z posledných počítačových verzií na katedre spracovaného terminologického a výkladového slovníka Informačná výchova. Publikovaným výstupom TDB je Terminologický slovník z knižničnej a informačnej vedy na CD disku.4 Všetky spracované termíny sú systematicky zaradené do tematických oblastí podľa čísla systematického triedenia. Štruktúra hesla (terminologického záznamu), ktoré je spracované v slovenčine, je nasledujúca: poradové číslo terminologického záznamu, heslový termín v základnom tvare, ekvivalent termínu v angličtine, synonymum, skratka, neodporúčaný termín, systematické triedenie, definícia, autor záznamu, zdroj a poznámka, ktorá objasňuje použitie termínu, ak je to potrebné. Elektronická podoba slovníka umožňuje rýchly prístup k termínom niekoľkými spôsobmi. Termíny možno prezerať v základnom súbore v abecednom usporiadaní. Ďalej sú vytvorené registre: systematický (termíny sú usporiadané podľa systematického triedenia do jednotlivých oblastí), abecedne usporiadaný register anglických ekvivalentov termínov a autorský register. Zo všetkých registrov sa dá pristúpiť priamo k celým terminologickým záznamom. Najrýchlejším prístupom k termínom je vyhľadávanie podľa začiatočného reťazca. Tento sa hľadá nielen v poli termín, ale aj v synonymách, neodporúčaných termínoch a v skratkách. Terminologická databáza sa v súčasnosti v rámci projektu VEGA č. 1/7296 /20 ďalej aktualizuje a rozširuje o ďalšie príbuzné tematické oblasti a o ďalšie terminologické informácie.5 3 STANČÍKOVÁ, Pavla – ŠMIHLA, Marek. 2000. Multilingual Vocabulary of Water Terms EN – SK – HU – RU (Viacjazyčný vodohospodársky slovník ang.-slov.-maď.-ruš.). Bratislava: CEIT. 4 KRIŠTOFIČOVÁ, Eva – JURČACKOVÁ, Zora – ONDRIŠOVÁ, Miriam. 1999. Terminologický slovník z knižničnej a informačnej vedy. Bratislava: Stimul. 5 Riešiteľmi projektu VEGA č. 1/7296/20 s názvom Manažment terminologických údajov a možnosti jeho uplatnenia v oblastiach poznania a praxe sú Eva KRIŠTOFIČOVÁ, Zora JURČACKOVÁ, Miriam ONDRIŠOVÁ a Vlasta KŘEČKOVÁ. 150 INFORMÁCIE V TERMINOLOGICKÝCH DATABÁZACH A ICH VYUŽÍVANIE PRI PREKLADE ODBORNÝCH TEXTOV 2. Informácie v terminologickom zázname Za základnú jednotku terminologickej databázy sa považuje terminologický záznam. Jeden terminologický záznam sa vzťahuje na jeden pojem a jeho pomenovanie (termín) a je vytvorený v jednom jazyku. Ak má jeden termín viac významov v jednom odbore, resp. v jednej tematickej oblasti, každý pojem ( ~ význam) je spracovaný na osobitnom zázname. Štruktúru terminologického záznamu tvoria tri základné skupiny informácií (Jurčacková 1999, Gouadec 1990). Do prvej skupiny patria informácie jazykového charakteru, ktoré sa vzťahujú na termín: termín (termíny) v základnej forme (synonymá, varianty termínu, skrátené alebo úplné formy termínu, symboly, inojazyčné ekvivalenty termínu), gramatické informácie, miera akceptovateľnosti termínu, kolokácie, antonymá, kontext, odvodené termíny a pod. Druhú skupinu tvoria informácie encyklopedického charakteru vzťahujúce sa na pojem: definícia, grafické reprezentácie pojmu, identifikátory tematickej oblasti, hyponymá, hyperonymá, encyklopedická poznámka a pod. Do tretej skupiny patria „administratívne“ informácie: identifikátor termínu, symbol jazyka, dátum vytvorenia terminologického záznamu, identifikátor tvorcu záznamu, kód inštitúcie, informácie o zdrojoch, z ktorých pochádzajú termíny, ale aj o zdrojoch, z ktorých pochádzajú jednotlivé informácie, identifikátor overovateľa správnosti a spoľahlivosti terminologického záznamu atď. 2.1 Informácie jazykového charakteru Základnou jazykovou informáciou v terminologickom zázname je heslový termín, ktorý sa uvádza vo svojej základnej gramatickej forme. Heslový termín býva zvyčajne dokumentovaný kontextom, v ktorom sa vyskytol. Kontext poukazuje na existenciu termínu a zároveň termín vysvetľuje (objasňuje). Zohráva významnú úlohu aj pri formulovaní definície termínu. V štruktúre terminologického záznamu sa k heslovému termínu vzťahujú všetky uvádzané informácie jazykového a encyklopedického charakteru. Pokiaľ ide o informácie jazykového charakteru, sú to v prvom rade gramatické informácie, ktoré sú rôzne podľa charakteru jednotlivých jazykov. V slovenčine sa zvyčajne uvádza informácia o slovnom druhu. Z menných charakteristík sa uvádza najmä informácia o rode a čísle, prípadne zvláštnosti týkajúce sa deklinácie. Gramatické informácie využívajú nielen prekladatelia odborných textov, ale aj používatelia databázy, ktorých cieľom je písanie odbor151 VLASTA KŘEČKOVÁ ných prác v materinskom alebo aj v cudzom jazyku. Nezanedbateľnou jazykovou informáciou sú informácie o variantoch termínu: zemepisné varianty (pri termínoch vo svetových jazykoch, ako sú angličtina, španielčina, francúzština a pod.; pravopisné varianty alebo morfologické a syntaktické varianty). Ak je výslovnosť termínu netypická, je vhodné uvádzať aj informáciu o výslovnosti, ktorú uvítajú najmä tlmočníci. Pri preklade odborných textov sa javí ako veľmi dôležitá informácia o kolokáciách termínu, čiže o spojeniach, v ktorých sa termín v textoch najčastejšie vyskytuje. Nedostatočná znalosť kolokácií znižuje vo veľkej miere kvalitu prekladu. Vyhľadávanie kolokácií je náročnou činnosťou, ale v súčasnosti ju uľahčujú počítačové programy na textovú analýzu a programy na preklad podporovaný počítačom. Užitočná môže byť informácia o odvodených termínoch a o synonymách. Medzi synonymiou vo všeobecnej slovnej zásobe a v terminológii je základný rozdiel. V terminológii sa považujú za synonymá len tie termíny, ktoré pomenúvajú ten istý pojem. Aj keď je synonymia v terminológii javom nežiaducim, v praxi sa s ňou prekladatelia často stretávajú, najmä pokiaľ ide o nové termíny. Preto je vhodné v terminologickom zázname uvádzať informáciu o spisovnosti, resp. „akceptovateľnosti“ termínu (termín spisovný, nespisovný, odporúčaný, neodporúčaný, zastaraný a pod.) a pokiaľ ide o tzv. „čiastočné“ synonymá, špecifikovať oblasť a spôsob ich použitia. Zaujímavá môže byť pre prekladateľov informácia o jazykovej štruktúre termínu. Cennými informáciami sú informácie o skrátených alebo úplných formách termínu a o inojazyčných ekvivalentoch. Pre kvalitu odborného prekladu je žiaduce, aby boli inojazyčné ekvivalenty doplnené explicitným vyjadrením miery ich ekvivalencie najmä vtedy, ak sa neuvádza pôvodná inojazyčná definícia. Ekvivalencia termínov sa realizuje na základe ekvivalencie pojmov, ktoré sú v jednojazyčných terminologických záznamoch vyjadrené definíciou. Medzi pojmom termínu v jazyku A a pojmom ekvivalentného termínu v jazyku B môžu nastať tri základné typy vzťahov. Ekvivalencia pojmov, a teda i termínov, môže byť úplná alebo čiastočná. Na čiastočnú ekvivalenciu je potrebné vo viacjazyčných terminologických súboroch upozorniť. Avšak môže nastať i situácia, že pojem pomenovaný v jednom jazyku nemá v druhom jazyku žiadne pomenovanie. V takom prípade môže terminológ utvoriť (navrhnúť) termín pomenúvajúci pojem v tom jazyku, v ktorom termín chýba, avšak je potrebné používateľov terminologickej databázy na tento fakt upozorniť. Jazykové zvláštnosti termínu, ktoré nemohli byť uvedené v rámci žiadnej zvolenej jazykovej charakteristiky, bývajú uvádzané v jazykovej poznámke. 152 INFORMÁCIE V TERMINOLOGICKÝCH DATABÁZACH A ICH VYUŽÍVANIE PRI PREKLADE ODBORNÝCH TEXTOV 2.2 Informácie encyklopedického charakteru V štruktúre terminologického záznamu je základnou encyklopedickou informáciou definícia. Definícia vyjadruje jazykovými prostriedkami znaky, ktorými je vymedzený príslušný pojem, ako aj jeho miesto v sústave pojmov tematickej oblasti. Je dôležité, aby sa opis pojmu realizoval pomocou známych pojmov a známych jazykových prostriedkov. Východiskom definície je logické spektrum pojmu. Podľa medzinárodnej normy ISO 704 je pre terminologickú prácu najvhodnejšia tzv. klasická definícia (obsahová, intenzionálna: genus proximum + differentiam specificam alebo enumeratívna definícia (rozsahová, extenzionálna). Veľká opisnosť pri formulovaní terminologickej definície, definovanie vzorcom, číselným údajom, prípadne synonymom, kruhové definície alebo tautologické definície sa nejavia byť vhodnými definíciami pre terminologickú prax. Okrem jazykového vyjadrenia pojmu definíciou môže byť pojem v terminologickom zázname vyjadrený ikonickou (nejazykovou) jednotkou, ktorá vyjadruje predstavu ľudí o reálnom objekte (obrázok, vzorec, graf). Ilustrácia pojmu by však nemala nahrádzať definíciu vyjadrenú jazykovými prostriedkami. Ďalšie informácie dôležité pre opis pojmu, ktoré neumožňuje vyjadriť štruktúra definície, sa zvyčajne uvádzajú v encyklopedickej (technickej) poznámke. Medzi informácie vzťahujúce sa na pojem patrí informácia o tematickej oblasti, do ktorej termín patrí. Informácie o antonymách, hyponymách alebo hyperonymách umožnia prekladateľovi správne situovať termín v štruktúre pojmov danej tematickej oblasti. 2.3 Administratívne informácie Základnými administratívnymi údajmi sú číslo terminologického záznamu, dátum tvorby terminologického záznamu a meno alebo kód autora (autorov) terminologického záznamu. V prípade potreby môžu byť tieto informácie doplnené kódom spoľahlivosti terminologického záznamu, bibliografickými údajmi o zdrojoch všetkých informácií uvedených v terminologickom zázname, informáciou o kontrole a potvrdení správnosti údajov v terminologickom zázname odborníkom, názvom inštitúcie, na ktorej bol terminologický záznam vypracovaný, prípadne i menami sponzorov, ktorí podporili tvorbu terminologickej databázy. 153 VLASTA KŘEČKOVÁ 3. Anketa o využívaní informácií v terminologických databázach a v terminologických slovníkoch pri preklade odborných textov Rôzne skupiny používateľov terminologickej databázy využívajú v rôznej miere jednotlivé terminologické informácie. Analýza výsledkov prieskumu terminologických potrieb prekladateľov, ktorý bol realizovaný na Slovensku v rámci Jednoty tlmočníkov a prekladateľov, uvádza informácie, ktoré hľadajú v terminologických slovníkoch a databázach prekladatelia odborných textov. Okrem termínov vo východiskovom a v cieľovom jazyku sú to najmä definície termínov, pričom pri dvojjazyčných alebo viacjazyčných terminologických súboroch sú žiaduce pôvodné definície v každom zo zastúpených jazykov. Na druhom mieste prekladatelia vyhľadávajú informácie o kolokáciách termínu a o synonymách. Väčšina prekladateľov dáva prednosť terminologickým slovníkom a databázam, v ktorých nájde informáciu o tematickej oblasti, do ktorej termín patrí, a informáciu o používaní terminologických skratiek. Prekladateľov zaujímajú aj gramatické informácie a informácie o spisovnosti termínu. Výsledky uskutočneného prieskumu ukazujú, že len málo prekladateľov sa zaujíma o to, z akých zdrojov pochádzajú jednotlivé termíny, prípadne z akých zdrojov pochádzajú jednotlivé informácie. Menej sú vyhľadávané informácie o výslovnosti termínu, o pôvode termínu, o antonymách, hyponymách a hyperonymách. Veľmi málo prekladateľov hľadá v terminologickom slovníku grafické reprezentácie pojmov, jazykové a encyklopedické poznámky, kontexty a informáciu o miere ekvivalencie inojazyčných termínov.6 V súvislosti s preberaním technických a iných noriem a ich prispôsobovaním európskym alebo svetovým normám, ako i v súvislosti s aproximáciou práva právu krajín Európskej únie a vzhľadom na stále intenzívnejšie kontakty slovenských inštitúcií a podnikov so zahraničím sa zvyšujú nároky na kvalitu prekladov odborných textov. Kvalitné pomôcky (terminologické slovníky alebo terminologické databázy) môžu v mnohom uľahčiť prekladateľom odborných textov ich náročnú a zodpovednú prácu. Tvorba veľkých terminologických databáz je činnosťou náročnou na materiálne a ľudské zdroje a vyžaduje si spoluprácu odborníkov z jednotlivých tematických oblastí s odborníkmi terminológmi a informatikmi. Možnosti využitia kvalitných terminologických databáz sú však veľké. Okrem odborného 6 KŘEČKOVÁ, Vlasta – DOVČIAKOVÁ, Anna. 2001. Analýza terminologických potrieb prekladateľov na Slovensku. ToP (tlumočení – překlad), roč. XII, č. 59, s. 12/1510 – 13/1511. 154 INFORMÁCIE V TERMINOLOGICKÝCH DATABÁZACH A ICH VYUŽÍVANIE PRI PREKLADE ODBORNÝCH TEXTOV prekladu zohrávajú terminologické databázy dôležitú úlohu pri normalizácii termínov, v dokumentácii, pri organizácii poznania. Viacjazyčná terminologická databáza je dôležitým nástrojom úspešnej komunikácie v rozvinutej viacjazyčnej informačnej spoločnosti. Literatúra BESSÉ, Bruno (de). 1992. Cours de terminologie. Genève: ETI Université de Genève. CABRÉ, Maria Teresa. 1998. La terminologie. Théorie, méthode et applications. Paris – Ottawa: Armand Colin – Les Presses de l´Université d´Ottawa. GOUADEC, Daniel. 1990. Terminologie. Constitution des données. Paris: Afnor Gestion. GOUADEC, Daniel. 1997. Terminologie et Phraséologie pour Traduire. Paris: La Maison du Dictionnaire. JURČACKOVÁ, Zora. 1999. Viacnásobné využitie terminologických údajov. In: Zborník Filozofickej fakulty Univerzity Komenského. Knižničná a informačná veda, roč. XVIII. Bratislava: Univerzita Komenského. MACHOVÁ, Svatava. 1995. Terminografie. In: František Čermák – Renata Blatná (eds.). 1995, Manuál lexikografie. Nakladatelství H&H, s. 137 – 157. MASÁR, Ivan. 1991. Príručka slovenskej terminológie. Bratislava: Veda SAV. Medzinárodné terminologické normy. Tvorba a úprava. STN ISO 102 41, január 2000. Principes et méthodes de la terminologie. ISO 704, 1997 (F). 155 PROJEKT SLOVNÍKA ŠTÚROVSKEJ SLOVENČINY A JEHO POČÍTAČOVÁ PODPORA Ľubomír Kralčák: Katedra slovenského jazyka, Filozofická fakulta Univerzity Konštantína Filozofa, Nitra Abstract: The specificity of the dictionary of the Slovak language from the Štúr period lies in the fact that it is a historical dictionary whose lexical basis is defined by the texts originated in a relatively exactly confined period, i.e. more or less in the first half of the nineteenth century. The conception of the project requires that the following problems are considered: the specification of the Štúr Slovak texts canon (for example, the question whether only the printed texts or also unpublished manuscripts will be included), then to what extent new words occurring in the work of only one author and displaying signs of being occasional words (which means that they have not occurred in any other periods of the existence of the Standard Slovak) can be included in the database, how to include the tautonyms (dialectical synonyms) reflecting a momentary state of the emerging Štúr Slovak, how to assess the words which, in spite of their occurrence in some texts, were linguistically refused by the contemporary criticism as inappropriate or un-Slovak, as well as some other specific problems. In the lexicographic work at this dictionary we expect to make a significant use of computer technology. The building of an electronic corpus of texts has already begun. So far the corpus has reached approximately half a million of verbal forms, although our aim is to reach the final size of 15 million verbal forms. As a significant contribution of the computer technology can be considered, among other things, also the fact that - having in mind the possibility of a relatively exact specification of the Štúr Slovak text inventory - within individual entries it will be possible to give a frequency index of the word as well. This would solve the problem of the occasional words, that is neologisms with low frequency rate. Je celkom prirodzené a samozrejmé, že lexikografia a informatika našli veľmi rýchlo spoločnú oblasť záujmu. Preto sa dnes stáva takmer nemysliteľné uvažovať o tvorbe akéhokoľvek slovníka bez využitia počítačovej technológie. Takéto využite sa dnes stáva bežnou praxou i v slovenskej lexikografii a uplatnilo sa pri zostavovaní Historického slovníka slovenského jazyka, Slovníka slovenských nárečí, Krátkeho slovníka slovenského jazyka, Synonymického slovníka slovenčiny i slovníkovej časti Pravidiel slovenského pravopisu. V niektorých prípadoch išlo, ako je známe, o konvertovanie tzv. papierovej podoby ručne spracovaných lexikografických údajov na elektronickú lexikálnu databázu (porov. napr. Benko 1992, Jarošová 1997). Posledné tri menované slovníky má možnosť využívať široká verejnosť aj v elektronickej podobe ako tzv. počítačové slovníky na kompaktnom disku. 156 PROJEKT SLOVNÍKA ŠTÚROVSKEJ SLOVENČINY A JEHO POČÍTAČOVÁ PODPORA Ak sa dnes pozrieme na celé dlhé obdobie fungovania slovenčiny ako spisovného alebo aspoň písaného (literárneho) jazyka, zreteľne sa ukazuje, že lexikograficky je najskromnejšie spracované obdobie štúrovskej spisovnej slovenčiny. Slovník štúrovskej slovenčiny (SŠS) je dávnejšie zamýšľaný projekt na nitrianskej Katedre slovenského jazyka. Pôvodné predstavy sa však predtým nepremietli do konkrétnej realizácie, neboli začaté práce na zhromažďovaní jazykového materiálu, ba nebol načrtnutý ani špecifikovanejší postup či rozsah lexikografických prác. V súčasnosti tu však projekt slovníka nadobúda zreteľnejšie kontúry, pričom podstatný vplyv na jeho oživenie malo to, že sa vyskytli nové možnosti, ktoré ponúka využitie počítačovej podpory pri zbieraní a lexikografickom štruktúrovaní jazykového materiálu. Projekt SŠS predpokladá tri okruhy prác: zhromažďovanie jazykového materiálu, lexikografická analýza textov a vytvorenie lexikálnej bázy dát. l. Zhromažďovanie jazykového materiálu Táto etapa lexikografickej práce má dva aspekty: lingvistický a informatický. Lingvistická stránka zahŕňa v prípade SŠS potrebu riešenia otázok periodizácie štúrovskej slovenčiny a vymedzenia pramennej základne slovníka. Informatická stránka sa týka predovšetkým problematiky elektronického zápisu textov. 1.1 Problém periodizácie štúrovskej slovenčiny a vymedzenia pramennej základne 1.1.1 Vertikálne vymedzenie inventára textov (periodizácia) Pri skúmaní vývinového úseku v dejinách slovenčiny, ktorý sa všeobecne nazýva štúrovská slovenčina, sa ukazuje ako jeden zo základných problémov presnejšie časové ohraničenie tohto úseku. Časové ohraničenie potom, samozrejme, rozhoduje o rozsahu textového materiálu zahrnutého pod takéto periodické vymedzenie. Z tohto hľadiska však vzniká aj ďalší problém, a to časový nesúlad pri vymedzovaní pojmov štúrovské obdobie a štúrovská slovenčina. Štúrovské obdobie vymedzuje E. Pauliny (1983, s. 175), a to v lingvistickom zmysle slova tridsiatymi a štyridsiatymi rokmi minulého storočia. Za spodnú hranicu pokladá rok 1834, resp. 1835, keď sa objavili prvé básne písané zámerne strednou slovenčinou (Chalupka 1834, Kuzmány 1835). Hornú hranicu pod157 ĽUBOMÍR KRALČÁK ľa neho udáva rok 1852, keď vyšla Hattalova Krátka mluvnica slovenská. Naproti tomu napr. J. Furdík (1971, s. 23) ohraničuje štúrovské obdobie štúrovskou kodifikáciou – podľa neho rok 1843 (ako spodná hranica) – a koncom päťdesiatych rokov, t. j. do r. 1860. Uvedené vymedzenia štúrovského obdobia sa teda rozchádzajú v stanovení hornej i dolnej hranice, pričom sa pracuje aj s takým výrazným periodizačným pojmom, akým je kodifikácia. Lingvistické vymedzenie štúrovského obdobia bude teda iné z hľadiska kodifikácie a iné z hľadiska výskytu textov písaných v štúrovskej (resp. strednej) slovenčine. Naše riešenie vertikálneho vymedzenia pramennej základne smeruje k maximalizácii, teda k vyčleneniu čo najširšieho inventára textov, aby sa nestratili niektoré vzácne jazykové prostriedky. To predpokladá posunúť predovšetkým dolnú časovú hranicu pred kodifikáciu štúrovskej slovenčiny. 1.1.2 Horizontálne vymedzenie inventára textov Pokiaľ ide o vymedzenie šírky pramennej základne, ani tu, ako sa ukazuje v predbežných diskusiách, sotva nastane všeobecná zhoda. Ak by aj bola zhoda v periodizačnom ohraničení štúrovčiny, zostáva zatiaľ nevyjasnená otázka, či do korpusu textov zaradiť aj rukopisné štúrovské texty, teda aj texty nepublikované. Vzhľadom na prirodzený dokumentačný charakter zamýšľaného slovníka predpokladáme do korpusu zaradiť aj niektoré významnejšie rukopisné pamiatky, napr. texty levočských štúrovcov. 1.2 Informatický aspekt (tvorba korpusu) Informatickú stránku zhromažďovania jazykového materiálu predstavuje proces, ktorý možno charakterizovať ako vytváranie textového korpusu štúrovskej slovenčiny. Ide o kroky, ktoré sme už začali realizovať. Z dvoch možností prepisovania textov do elektronickej podoby, a to pomocou textového editora alebo pomocou optického snímača znakov, sme zvolili prvý postup, pretože optické snímanie strácalo svoju efektivitu pre množstvo chýb, ktoré vznikali najmä v dôsledku menej kvalitnej tlače spracovávaného materiálu. Doteraz vytvorený elektronický korpus textov má zatiaľ rozsah približne pol milióna slovných tvarov, pričom náš plán je vytvorenie cieľového korpusu v rozsahu najmenej 15 miliónov slovných tvarov s takýmto členením textov: I. umelecký štýl 158 PROJEKT SLOVNÍKA ŠTÚROVSKEJ SLOVENČINY A JEHO POČÍTAČOVÁ PODPORA II. III. publicistický štýl odborný štýl. Tieto tri sféry predstavujú reálne funkčnoštýlové rozpätie štúrovskej spisovnej slovenčiny. Oproti stavu v dnešnej slovenčine je tu zreteľná najmä absencia administratívnej a právnej lexiky. 2. Lexikografická analýza V rámci lingvistického prístupu k zostavovaniu SŠS je potrebné riešiť viaceré špecifické lexikografické problémy: Do rámca špecifickej diskusie zatiaľ patrí otázka, či súčastou lexikálnej bázy slovníka majú byť aj také novotvary, ktoré vykazujú znaky okazionálnych jazykových prostriedkov. Ide nielen o slová s neprehľadnou slovotvornou štruktúrou, resp. s nejasným významom, ale aj o nové slová, ktoré sa objavia iba raz alebo iba u jedného autora. V tejto súvislosti ide predovšetkým o niektoré texty M. M. Hodžu (porov. napr. Větín o slovenčine, Dobruo slovo Slovákom súcim na slovo). Na ilustráciu možno uviesť napr. slová ako majeť (majetok), osobňivec (sebec), ťäžkulavať si (ponosovať sa), živoch (živočích) a pod. Sem patrí aj pokus M. Godru (porov. 1851, s. 95 – 103, 115 – 121) o zavedenie novej slovenskej odbornej terminológie z oblasti logiky, geometrie, matematiky a techniky, ale aj pomenovania z oblasti všeobecných abstraktných pojmov. Z týchto navrhnutých termínov (spolu okolo 700 odborných výrazov) sa v neskoršom vývine ujal iba zlomok, no Godrov „slovníček“ je pozoruhodný najmä preto, že sa v ňom nahrádzajú cudzie, zväčša latinské, ale aj české odborné termíny slovenskými novotvarmi (napr. rozväzba „analýza“, odlusk „odbor“, odsamnina „unikát“ a pod.). Ďalšou špecifickou otázkou je výskyt tautoným. Ľ. Štúr pripúšťal obohacovanie lexikálneho fondu spisovnej slovenčiny z viacerých slovenských nárečí, preto sa napr. v Slovenských národných novinách objavujú nárečové synonymá ako zemjaki, švábka, krumple. Iným špecifickým problémom je kritika jazykovej kultúry niektorých textov, ktorá odmieta už použité výrazy ako nesprávne, napr. Štúrova recenzia spisu S. Vozára Hlas od Tatjer (porov. Štúr, 1851, s. 182 – 185). Ľ. Štúr ostro odmieta v tomto spise použité cudzie slová ako napr. princíp (namiesto neho navrhuje už prijaté slovo zásada), charakter (navrhuje ráz), organizácia (odporúča ustrojenosť, ústrojnosť) a pod. 159 ĽUBOMÍR KRALČÁK Informatická stránka tejto etapy spracovania jazykového materiálu predpokladá využitie softvéru na vytvorenie kódovanej podoby korpusu textov. V rámci nášho projektu sme zatiaľ skúšobne použili program WordCruncher. Za významný prínos počítačovej podpory pokladáme napr. aj to, že vzhľadom na možnosť pomerne presného vymedzenia inventára textov štúrovskej slovenčiny (počet a rozsah textov dovoľuje ich takmer úplné elektronické spracovanie) bude možné v hesle uvádzať aj index frekvencie slova, čím by sa vyriešila napr. otázka okazionalizmov, resp. málo frekventovaných novotvarov. 3. Vytvorenie lexikálnej bázy dát Táto etapa predstavuje elektronické kódovanie informačných kategórií pri súčasnom uplatnení štandardnej lexikografickej analýzy. Na budovanie jednotlivých hesiel bude potrebné použiť aj taký špecifický počítačový program, ktorý bude umožňovať vstup do databázy cez viaceré parametre hesla, teda napr. cez gramatickú charakteristiku, štylistický kvalifikátor a pod., a zároveň bude slúžiť na výrazné zefektívnenie prípravy slovníka do tlače. Pri použití tohto programu predpokladáme nevyhnutnú spoluprácu s inými pracoviskami – predovšetkým s Laboratóriom počítačovej lingvistiky Pedagogickej fakulty UK, ale aj s Jazykovedným ústavom Ľ. Štúra SAV. Literatúra BENKO, Vladimír. 1992. (Neskorá) počítačová podpora lexikografického projektu: Slovník slovenských nárečí. In: Zápisník slovenského jazykovedca, roč.11, s. 25 – 26. FURDÍK, Juraj. 1971. Zo slovotvorného vývoja slovenčiny. In: Acta Facultatis Philosophicae Universitatis Šafarikanae Prešovensis. Spoločenský zošit 7. Bratislava: SPN. GODRA, Michal. 1851. Príňesok ku vedecko-slovenskjemu názvoslovú. Slovenskje Pohladi, roč. II, č. 3, s. 95 –103 a č. 4, s. 115 – 121. JAROŠOVÁ, Alexandra. 1997. Lexikografia a počítače – slovenský variant. In: S. Ondrejovič (ed.), Slovenčina na konci 20. storočia, jej normy a perspektívy. Sociolinguistica Slovaca 3. Bratislava: Veda, s. 304 – 311. PAULINY, Eugen. 1983. Dejiny spisovnej slovenčiny od začiatkov po súčasnosť. Bratislava: SPN. ŠTÚR, Ľudovít. 1851. Úvahy o spise Hlas od Taťjer. Slovenskje Pohladi, roč. I., č. 5, s. 182 – 185. 160 NÁVRH ČESKÉ LEXIKÁLNÍ DATABÁZE Karel Pala: Katedra informačních technologií, Fakulta informatiky Masarykovy university, Brno ([email protected]) Abstract: In the contribution we describe a framework in which we plan to build a representative Czech lexical database (CLD) that could serve as a base for the new representative Czech dictionary. It should be also used as a resource for the partial knowledge representation in various NLP applications. Within CLD the following basic units have to be considered: single lemmata: dům (house) as well as standard collocations like vysoká škola (university). The assumed size of CLD is approximately 60 000 entries and 105 000 meanings, We intend to pay a special attention to the verbs that should represent about one third of all entries. 1. Úvod Cílem příspěvku je představit koncepci české lexikální databáze (CLD), z níž by v blízké budoucnosti mohl a měl vzejít i nový reprezentativní slovník současné češtiny. Danou koncepci chápeme jako východisko pro budování reprezentativní CLD, která by měla sloužit jako zdroj lexikální informace pro češtinu a také jako dílčí reprezentace znalostí v různých aplikacích v oblasti počítačového zpracování přirozeného jazyka (dále NLP) (Ingria, Boguraev, Pustejovsky, 1992). Základními jednotkami v CLD mohou být buď jednotlivá lemmata jako dům, nebo standardní kolokace jako např. vysoká škola (=univers/zita). Předpokládaný rozsah navrhované CLD je přibližně 50 000 hesel. Na prvním místě bychom se rádi maximálně soustředili na česká slovesa, tj. předpokládáme, že počet zpracovávaných sloves by se měl pohybovat kolem 20 000 (podle našeho odhadu je v češtině asi 40 000 sloves). Orientace na slovesa vychází z faktu, že slovesa reprezentují v přirozených jazycích hlavní relační prvky, které na sebe vážou ostatní prvky, většinou substantiva. I když jsme si vědomi toho, že víceúčelové, plně univerzální slovníky jsou do značné míry problematické, rádi bychom se pokusili o budování databáze, která by obsahovala co nejvíce dostupných údajů o současné češtině. 2. Výchozí struktura CLD 161 KAREL PALA Lze ji popsat pomocí vhodného datového typu, tj. DTD, který bude na základě dosavadních zkušeností definován v XML (k tomu např. Pala – Pavelek 2001) a tvořen následujícími poli (fields, viz např. Faber – Usón 1999): a1) <fonologická (fonetická) informace> o zvukové struktuře výrazů konstituujících dané heslo. To ve skutečnosti znamená, že budeme usilovat o vybudování (paralelní) řečové databáze pro češtinu, která bude představovat soubor dat vhodných pro tvorbu algoritmů schopných zpracovávat řečové signály, tj. např. algoritmů pro syntézu a rozpoznávání řeči, včetně rozpoznávání a verifikaci mluvčích. Data v řečové databázi lze vhodně napojit na ostatní data v lexikální databázi. V tomto směru bude třeba vyřešit některé zajímavé problémy: konkrétně, jednotlivé slovní tvary se budou muset generovat modulem pro řečovou syntézu, protože je prakticky nemožné charakterizovat všechny tvary všech slov v lexikální databázi – v češtině existuje přibližně 5,5 milionů slovních tvarů. a2) <morfologická informace> o struktuře hesla (heslového slova) – představuje informaci o slovním druhu a všech příslušných gramatických kategoriích s ním spojených plus údaje o základní segmentaci. U substantiv to lze zajistit uvedením <kódu příslušného ohýbacího vzoru/paradigmatu>, protože počítáme s tím, že morfologický analyzátor/generátor AJKA bude integrován do CLD (Sedláček 1999) tak, že poskytne morfologickou informaci dynamicky na požádání. U sloves to standardně zahrnuje 8 kategorií (atributů): <negaci>, <osobu>, <číslo>, <čas>, <způsob>, <rod slovesný, diatezi>, <vid> a <rod jmenný>. Jejich hodnoty lze získávat dynamicky skrze <kód příslušného časovacího vzoru slovesa>. Je patrné, že tuto informaci bude možno z morfologického analyzátoru/generátoru získávat podobným způsobem jako u substantiv. V samostatném podpoli lze mít i relevantní informaci slovotvornou, která zachytí relevantní a formálně zachytitelné vazby/vztahy mezi příslušnými heslovými slovy včetně zachycení jejich sémantické povahy, vztahů mezi slovními druhy a vztahů slovotvorných (včetně směru fundace) jako např. řetězce typu: práce pracovat, tj. v konečném úhrnu celé slovotvorné čeledi. Plyne z toho potřeba co možná formálně formulovat slovotvorná pravidla (viz níže např. Klímová – Pala, 2000). Lze tu vyjít z dřívějších popisů slovotvorných procesů (Dokulil 1962), je však potřeba doplnit je a modifikovat tak, aby byly použitelné pro reprezentaci znalostí. a3) <senses1...n>, kde pro každý z významů bychom rádi uvedli následující údaje: 162 NÁVRH ČESKÉ LEXIKÁLNÍ DATABÁZE a3.1) <sémantické rysy> jež lze přiřadit heslovému slovu – nabízí se možnost použít hierarchický soubor sémantických rysů založený např. na vrcholové ontologii (Top Ontology) vyvinuté v rámci projektu EuroWordNet a hypero/hyponymických (H/H) hierarchických strukturách (stromech či grafech) nebo jejich částech (podstromech nebo shlucích) (Vossen 1999). Je třeba zvážit a rozhodnout, jak velké části stromů či podstromů lze použít – podle našeho odhadu lze počítat, že rozumný počet použitých uzlů se může pohybovat kolem 5, a3.2) <popisy využívající definice typu genus proximum (hypero/hyponymické vztahy mezi dvěma nejbližšími uzly v H/H stromech)> a <rozlišovatele (differentia specifica)> se uvedou ve všech substantivních heslech, u nichž to dává dobrý smysl. V dosavadních slovnících představuje informace o genu proximum první část slovníkové definice. Rozlišovatele představují jistý problém: je velmi obtížné je uchopit formálně. Lze to doložit faktem, že jednotlivé slovníky se mezi sebou nejvíce liší právě v tom, jak uvádějí rozlišovatele – existuje jen částečná shoda v tom, které rozlišovatele by měly nebo neměly být vybrány a začleněny v jednotlivých heslech. a3.3) <sémantické třídy> – u sloves se definice typu genus proximum dají použít jen pro jejich určitou část, proto u nich navrhujeme uvádět informaci o sémantické třídě, do níž dané sloveso patří. V tomto ohledu připravujeme sémantickou klasifikaci českých sloves podobnou té, kterou pro angličtinu navrhla Levinová (Levin 1995). Je ovšem třeba vzít v úvahu, že v češtině je vybudování takové sémantické klasifikace spojeno s některými komplikacemi způsobenými primárně existencí kategorie vidu (díky níž se česká slovesa vyskytují ve dvojicích. Na druhé straně je ovšem vidět, že sémantické třídy sloves mají těsný vztah k valenčním rámcům sloves (a slovesným rámcům obecně). Tyto vztahy bychom chtěli v databázi rovněž zachytit. a3.4) <synonymické řady>, které lze najít pro dané heslo (lexikální jednotku, lemma). Důvod pro použití synonymických řad (synsets) plyne ze skutečnosti, že vztah synonymie (a antonymie) může sloužit jako jeden z mála relativně spolehlivých způsobů, jimiž lze charakterizovat význam lexikálních jednotek. Proto se s nimi běžně pracuje ve standardních slovnících. a4) <syntaktická informace> o kombinatorických vlastnostech hesla a výrazech, které se s ním pojí. Je zřejmé, že syntaktické vlastnosti dané lexikální jednotky úzce souvisí s jejím konkrétním významem a odlišují je od ostatních významů. Informace uvedená v tomto poli bude zachycena prostřednictvím <valenčních rámců> pro všechny slovní druhy, u nichž to má smysl, tj. u 163 KAREL PALA sloves, substantiv, adjektiv, číslovek a některých adverbií. Je evidentní, že v tomto ohledu musíme rozlišit formálně syntaktické (povrchové) valenční rámce, jež v češtině zahrnují kombinatorickou informaci o sedmi (šesti) morfologických pádech, případně informaci další, a hloubkové (sémantické) valenční rámce obsahující potřebné údaje o sémantických pádech (rolích), které jsou vyjadřovány povrchovými pády. Příklad notace propojující syntaktické a sémantické valence je uveden níže, je však třeba pokládat ji za předběžnou, dokud nebude stanoven finální inventář hloubkových pádů pro češtinu (viz např. Sgall et al.1986, též Fillmore – Atkins 1998, s. 417 – 423, ). To ale není všechno, podle našeho názoru bude užitečné začlenit do valenčních rámců i vhodné konkrétní lexikální údaje. Pro aplikace v oblasti NLP nestačí znát jen odpovídající hodnoty morfologických (povrchových) pádů, ale i jejich lexikální „obsazení“, což lze doložit např. relevantním rozdílem mezi dvěma akuzativy v držet v ruce knihu a držet tvar. Dá se argumentovat, že sémantické valence by měly zachytit tyto významové diference, nezachycují ovšem přímo, jaké lexikální obsazení se skrývá za jednotlivými sémantickými pády. Tento druh informace může být velmi užitečný pro praktické aplikace a z tohoto důvodu pokládáme za výhodné mít je v CLD v explicitní podobě. a5) <lokální kontexty>, tj. kontexty typické pro dané heslo, např. hezká dívka nebo šikovný chlapec apod., jak patrno, lze je získat z korpusu, a6) <příklady nebo typická užití>, např. držet nůž v ruce, otočit hlavu, obrátit stránku, rovněž je můžeme získat z korpusových textů, a7) <kolokace> doplněné o vhodnou subklasifikaci beroucí v úvahu jejich sémantické i syntaktické vlastnosti. Např. je vidět, že slovesné kolokace by měly být klasifikovány ve shodě s již zmíněnými sémantickými třídami sloves. Podobné postupy lze uplatnit i u substantivních kolokací, ale jsme si vědomi toho, že tento úkol bude vyžadovat rozsáhlá korpusová data a jejich pracnou analýzu. Dobrým východiskem tu může být Slovník české frazeologie a idiomatiky (Čermák et al. 1983 – 1994). a8) <pragmatická informace> – sem patří dostatečně strukturované údaje o stylistických vlastnostech heslového slova včetně informace o regionálním výskytu a sociálních aspektech. Počítáme však jen s uvedením základních informací tohoto druhu. a9) <původ> – tj. stručná etymologická informace vztahující se k danému heslovému slovu, a10) <logický typ> – zde bude uveden údaj o logickém typu heslového slova, jak se s ním pracuje v transparentní intensionální logice (TIL) (Materna 164 NÁVRH ČESKÉ LEXIKÁLNÍ DATABÁZE 2000, Pala 2000). Typy v TIL-u jsou budovány na základě rozvětvené teorie typů a mohou tak vést k formálně konzistentnějším sémantickým reprezentacím výrazů přirozeného jazyka (češtiny). To podle našeho názoru spolu s hierarchickými hypero/hyponymickými strukturami umožní využívat posléze údaje z CLD v systémech pro reprezentaci znalostí. Za samostatný úkol pokládáme stanovení vztahů mezi vrcholovou ontologií, jak byla definována v projektu EuroWordNet 1,2, a typovou ontologií definovanou v rámci TIL. To by mělo poskytnout přesnější a méně arbitrární sémantickou klasifikaci, umožnit konzistentnější vymezení sémantických hierarchií, sémantických vztahů a sémantických rysů. Jsme si vědomi toho, že tyto pokusy budou spojeny s určitými problémy, např. mohou být aplikovatelné jen pro některá hesla a jen pro některé slovní druhy (slovesa, substantiva, adjektiva, adverbia). a12) <encyklopedické informace> – mohou být začleněny do CLD zejména u hesel, u nichž je to vhodné či přímo potřebné z hlediska možných NLP aplikací. To např. platí o heslech, která se vztahují k informačním technologiím, ale i mnoha dalším oblastem. Otázka je, zda usilovat o integrování encyklopedických informací přímo do CLD nebo zvolit pragmatický postup a jen volně napojit současné encyklopedické zdroje (slovníky) na CLD. V příkladech níže uvádíme náznaky příkladů, které předpokládají integraci encyklopedických údajů do CLD. 3. Zdroje pro CLD Situace je příznivá v tom, že nyní jsou k dispozici Český národní korpus (ČNK na FF UK v Praze) a korpus ESO (na Fakultě informatiky Masarykovy university, Brno) – můžeme tedy počítat s tím, že budování CLD bude založeno hlavně na těchto dvou zdrojích. Dále počítáme s následujícími zdroji, konkrétně s existujícími českými slovníky: – akademický Slovník spisovného jazyka českého (1960) (v elektronické podobě), , – střední Slovník spisovné češtiny (1984) (v elektronické podobě). Přirozeně budou použity i další vhodné zdroje, tj. vhodné existující slovníky, zejména terminologické. Je také potřeba ustavit skupinu odborníků (readers), kteří by spolupracovali na získávání terminologických a zejména dalších dat, u nichž je zřejmé, že se nenajdou v korpusu. Má-li se začít pracovat na novém slovníku češtiny, práce na něm se bez této skupiny neobejdou. 4. Nástroje 165 KAREL PALA Nedávné výsledky získané u nás v oblasti NLP na Universitě Karlově (v Ústavu Českého národního korpusu, Ústavu formální a aplikované lngvistikyMatematicko-fyzikální fakulty a Ústavu teoretické a aplikované lingvistiky filozofické fakulty) v Praze a v Laboratoři zpracování přirozeného jazyka na Fakultě informatiky MU v Brně poskytují základní soubor nástrojů, jichž lze použít při budování CLD. Konkrétně jde o morfologický analyzátor a generátor AJKA, syntaktické analyzátory (DIS a GT, Žáčková – Popelínský – Nepil 2000, Horák – Smrž 2000), desambiguátory (Oliva – Petkevič et al. 2000, Hajič 2001), korpusový manažer Manatee a grafické rozhraní GCQP využívající architektury klient-server (Rychlý 2000), slovníkový prohlížeč a editor využívající XML formátu, jenž může pracovat s libovolným slovníkem konvertovaným do XML formátu (Karásek 2000). Vedle toho je k dispozici editor a prohlížeč VisDic, který je určen pro lokální práci s lexikálními databázemi typu WordNet, ale může pracovat i s jakýmikoli dalšími slovníky, pokud jsou uloženy ve formátu XML (Pavelek 2001). Další nástroje zahrnují různé konverzní programy, programy pro budování, údržbu a editování korpusů (Veber 2001), heuristické programy pro získávání valenčních rámců z korpusových textů. Samostatným nástrojem je i_par (Veber 2001), což je automatizovaná morfologická databáze, na niž budou navazovat programy pro automatické odvozování slov (Sedláček 2001) schopné v blízké budoucnosti pracovat s derivačními řetězy jako učit – učení – učitel – učitelka – učený – učenec – výuka atd. Je potřeba rozhodnout, zda data tohoto typu mají být zahrnuta do CLD přímo, nebo by se měla získávat dynamicky ze samostatného morfologického modulu (viz např. Klímová – Pala 2000). Tento bod byl dotčen již výše v souvislosti s morfologickými údaji pro jednotlivá hesla. 5. Závěry V tomto krátkém příspěvku jsme prezentovali výchozí zásady, od nichž se může odvíjet budování České lexikální databáze. Jsme si vědomi, že některé probírané body bude potřeba propracovat hlouběji a systematičtěji, máme-li dospět k plně aplikovatelným výsledkům. Příklady hesel uvedené níže je proto třeba v řadě ohledů chápat spíše jako experimentální skeletony než jako úplná hesla. Jsme však přesvědčeni, že popsané techniky, zdroje a nástroje nám umožní posléze dosáhnout vytčeného cíle. 5.1 Příklady 166 NÁVRH ČESKÉ LEXIKÁLNÍ DATABÁZE Jako příklad uvádíme heslo pro držet (počítáme s formátem XML): <entry <držet>> <mf <k5> <eA> <nS> <pI> <t*> <m*> <aI> <kód vzoru>> <sense:1 <def: uchopovat rukou, mít v ruce>> <val: <ag<k1člověkc1>> <obj<k3něcoc4> <ins<<k7vc6> <k1rucec6>>> <synset: <uchopovat> <mít v ruce> > <sfeat: <činnost> <...> %(ve stylu EWN) <semclass: <3.1> %(slovesa držení 1) <kontexty: <držet dveře, d. pistoli v ruce> > %(příklady z korpusu) <collocation: <> <> > %(+ sémantická třída kolokace) <style: psaný, mluvený> <etym: … > <logtyp: vztah mezi dvěma individui, relation-in-intension between two individuals> <encyk: ruka uchopuje fyzický objekt a je částí lidského těla nebo robota> > <sense:2 <def: být pevnou součástí jiného objektu>> <val <obj<k1c1> <ins<<k7c6> <k1c6>>> <synset: <být fixován> <být upevněn> > <sfeat <...> <mero...> %(ve stylu EWN) <semclass: <3.2> %(slovesa držení 1.1) <kontexty: <omítka drž dobřeí> > %(příklady z korpusu) <kolokace: <hřebík drží> <> > %(+ semantická třída kolokace) <style: psaný, mluvený> <etym: … > <logtyp: vlastnost individua, property of an individual >> <encyk: upevnění objektu se provádí lepením, zatlučením, přišroubováním…> > <sense:3 <def: zachovávat tvar>> <val <obj<k1klouboukc1>> <forma<k1tvarc4> >> <synset: <zůstávat v pevném tvaru> <neměnit formu> > <sfeat <...> <...> > %(ve stylu EWN) <semclass: <3.3> %(slovesa držení tvaru) <kontexty: <vlasy drží fazónu> > %(příklady z korpusu) 167 KAREL PALA <kolokace: <puky drží> <> > (roztřídit podle typů) <styl: psaný> <etym: … > <logtyp: vlastnost individua, property of an individual >> <encyk: platí pro objekty jako součásti oděvu, šaty, vlasy> > <sense:4 <def: zachovávat polohu>> <val <ag<k1člověkc1>> <obj<k1těloc4>> <mod<k6xMrovně> >> <synset: <být ve stejné poloze> <neměnit polohu> > <sfeat <...> <...> > %(ve stylu EWN) <semclass: <4.1> %(slovesa polohy) <kontexty: <držet tělo vzpřímeně> > %(příklady z korpusu) <kolokace: <držet hlavu nad vodou> <> > %(+ sémantická třída kolokace) <styl: psaný> <etym: … > <logtyp: vlastnost individua, property of an individual >> <encyk: platí pro polohu lidského těla> > <sense:6 <def: vlastnit půdu>> <val <ag<k1vlastníkc1>> <obj<k1majetekc4> > > <synset: <vlastnit půdu, spravovat majetek> > <sfeat <...> <...> > %(Ve stylu EWN) <semclass: <2.1> %(slovesa vlastnění) <kontexty: <držet zahradu> > %(příklady z korpusu) <kolokace: <držet byt> <držet dům> > %(+ sémantická třída kolokace) <styl: psaný> <etym: …. > <logtyp: <vztah mezi individui, relation-in-intension>> <encyk: vlastníkem je člověk, objektem nemovitost> > <sense:7 <def: >> <val <ag<k1člověkc1>> <obj<k1zvířatac4> >> <synset: <pěstovat> <chovat> > <sfeat <...> <...> > %(Ve stylu EWN) 168 NÁVRH ČESKÉ LEXIKÁLNÍ DATABÁZE <semclass: <5.1> %(slovesa chování zvířat) <kontexty: <babička drží slepice> > %(příklady z korpusu) <kolokace: <držet dobytek> <> > %(+ sémantická třída kolokace) <styl: psaný> <etym: … > <logtyp: <vztah mezi individui, relation-in-intension>> <encyk: objekty držení jsou obvykle domácí zvířata> > <sense:8 <def: rezervovat>> <val <ag<k1člověkc1>> <obj<k1člověkc3>> <loc<k1místoc4>> > <synset: <rezervovat, obsadit> > <sfeat <...> <...> > %(ve stylu EWN) <semclass: <6.2> %(slovesa rezervování) <kontexty: <drží nám místo v pořadí> > %(příklady z korpusu) <kolokace: <držet komu místo> <> > %(+ sémantická třída kolokace) <styl: psaný> <etym: … > <logtyp: <vztah mezi individui, relation-in-intension> > <encyk: platí pro místo v dopr.prostředku nebo v seznamu> > <sense:9 <def: oblíbit si koho, preferovat koho>> <val <ag<k1člověkc1>> <obj <<k7na> <k1člověkac4>> | <věc <<k1tenisc4>>> <synset: < oblíbit si koho, preferovat koho > > <sfeat <...> <...> > %(Ve stylu EWN) <semclass: <7.2.> %(slovesa emotional attitudes, liking) <kontexty: <ona na něho drží> > %(příklady z korpusu) <kolokace: <držet na sestru> <> > %(+ sémantická třída kolokace) <styl: psaný> <etym: … > <logtyp: <vztah mezi individui, relation-in-intension> > <encyk: platí pro místo lidi nebo člověka a nějaký oblíbený objekt (peníze)> > 169 KAREL PALA <sense:10 <def: držet s kým>> <val <ag<k1člověkc1>> <obj<k7sc7> k1člověkc7>> > <synset: <držet s kým, držet spolu, být s kým v partě> > <sfeat <...> <...> > %(Ve stylu EWN) <semclass: <8.4> %(slovesa social grouping) <kontexty: <držet partu> > %(příklady z korpusu) <kolokace: <držet s komunisty> <> > %(+ sémantická třída kolokace) <styl: psaný> <etym: … > <logtyp: <vztah mezi individui, relation-in-intension> > <encyk: platí pro místo v dopr.prostředku nebo v seznamu> > <sense:9 <def: uchopovat rukou, mít v ruce>> <val: <ag<k1člověkc1>> <obj<k3něcoc4> <ins<<k7vc6> <k1rucec6>>> <synset: <uchopovat> <mít v ruce> > <sfeat: <činnost> <...> %(Ve stylu EWN) <semclass: <3.1> %(slovesa holding and keeping) <kontexty: <držet dveře, d. pistoli v ruce> > %(příklady z korpusu) <collocation: <> <> > %(+ sémantická třída kolokace) <styl: psaný> <etym: … > <logtyp: vztah mezi dvěma individui, relation-in-intension between two individuals> <encyk: ruka je část lidského těla nebo robota> > 5. 2 Example of the entry for Czech noun hlava (head): <entry <hlava>> <mf <paradigm code: 47a> <<k1> <gF> <nS> <c1>> > <sense:1 <defgenprox: část těla>> <difspec: > <val <<k1hlavac1> <k1člověkac2>> <<k2psíc1> <k1hlavac1>> > <synset: <kebule> <palice> <šiška>> <sfeat <holo: tělo> <mero: tělo, oči, nos, tváře, ústa> > %ve stylu EWN 170 NÁVRH ČESKÉ LEXIKÁLNÍ DATABÁZE <kontexty: <lidská hlava> > %(příklady z korpusu) <kolokace: <c1> <c2> …<cn> > %(+ sémantická třída kolokace) <styl: psaný> <etym: ... > <logtyp: vlastnost individua> <encyk: platí pro hlavu člověka, zvířete nebo robota> > <sense:2 <def: rozum, mysl>> <difspec: > <val <<k1hlavac1> <k7nac4> <k1fyzikuc4>> <<k2chytrác1> <k1hlavac1>> > <synset: <mysl> <vědomí> > <sfeat <hyper: abstr> > %ve stylu EWN <kontexty: <chytrá hlava> > %(příklady z korpusu) <collocation: <c1> <c2> …<cn> > %(+ sémantická třída kolokace) <styl: psaný> <etym: … > <logtyp: vlastnost individua> <encyk: sídlo myšlení, inteligence u lidí> > <sense:3 <defgenprox: šéf, vedoucí skupiny>> <difspec: > <val <<k1hlavac1> <k1podnikuc2> > > <synset: <boss> <náčelník> > <sfeat <hyper: hum> <hypo: podřízený> > %ve stylu EWN <kontexty: <hlava mafie> > %(příklady z korpusu) <kolokace: <hlava rodiny> <c2> …<cn> > %(+ sémantická třída kolokace) <style: <psaný> <etym: … > <logtyp: vlastnost individua> <encyk: v hierarchické organizaci, firmě, vládě> > <sense:4 <defgenprox: přední část předmětu>> <difspec: > <val <<k1hlavac1> <k1kolac2>> > <synset: <výstupek> <> > 171 KAREL PALA <sfeat: <hyper: objekt> <hypo: > > %ve stylu EWN <kontexty: <hlava šroubu> > %(příklady z korpusu) <kolokace: <c1> <c2> …<cn> > %(+ sémantická třída kolokace) <styl: psaný> <etym: … > <logtyp: vlastnost individua> <encyk: součást dílu u technických zařízení> > <sense:5 <defgenprox: jednotka textu >> <difspec: > <val <<k1hlavac1> <k1zákonac2 >>> <synset: <oddíl, kapitola v knize> <> > <sfeat: <holo: kniha> <mero: paragraf> > %ve stylu EWN <kontexty: <hlava 22> > %(příklady z korpusu) <kolokace: <> <> > %(+ sémantická třída kolokace) <styl: psaný> <etym: … > <logtyp: vlastnost individua> <encyk: obsah knihy se člení na jednotky – kapitoly, hlavy > Literatura ČERMÁK, F. et al. 1983 – 1994. Slovník českých frazeologie a idiomatiky. Praha: Academia. DOKULIL, M. 1962. Tvoření slov v češtině. Praha, Academia. FABER, P. – USÓN R. M. 1999. Constructing a Lexicon of English Verbs, Berlin – New York: de Gruyter. FILLMORE, Ch. – ATKINS, B. 1998. FrameNet and Lexicographic Relevance, In: A. Rubio – N. Gallardo – R. Castro – A. Tejada (eds.), Proceedings of the First National Conference on Language Resources and Evaluation, vol. 1, Paris: ELRA, s. 417 – 423. HAJIČ, J. et al. 2001. Prague Dependency Tree Bank, CD ROM. v. 1.0, Praha: ÚFAL MFF UK. INGRIA, R. – BOGURAEV, B. – PUSTEJOVSKY, J. 1992. Dictionary/Lexicon. In: S. C. Shapiro (ed.), Encyclopedia of Artifical Intelligence. New York: John Wiley, s. 341 – 365. KARÁSEK, L. 2000. Systém pro tvorbu a presentaci vícejazyčných a výkladových slovníků. Diplomová práce. Brno: Fakulta informatiky MU. KLÍMOVÁ, J. – PALA, K. 2000. Application of WordNet ILR in Czech Word-formation. In: Proceedings of LREC Conference. Athens: ELRA, s. 987 – 991. LEVIN, Beth. 1995. English Verb Classes and Alternations. Chicago: The University of Chicago Press. 172 NÁVRH ČESKÉ LEXIKÁLNÍ DATABÁZE MATERNA, P. 2001. Type-theoretical analysis as a preparation of analyzing expressions of a natural language. Prague – Brno: Faculty of Informatics MU (manuscript), s. 110. OLIVA, K. – PETKEVIČ, V. et al. 2000. The Linguistic Basis of a Rule-Based Tagger of Czech. In: Proceedings of TSD 2000. Berlin: Springer Verlag, s. 3 – 8. PALA, K. 2000. Word Senses and Semantic Representations - Can We Have Both? In: Proceedings of TSD 2000. Berlin: Springer Verlag, s. 109 – 114. PALA, K. – PAVELEK, T. 2001. A Proposal of XML Standard for WordNet (and Other Dictionaries).In: Senseval Workshop, Conference ACL. Toulouse. PAVELEK, T. 2001. VisDic. New Tool for Viewing and Editing WordNets – draft. Brno: Faculty of Informatics MU (September 2001). RYCHLÝ, P. 2000. Korpusové manažery a jejich efektivní implementace (Corpus Managers and their Effective Implementation). Ph.D. Dissertation. Brno: Faculty of Informatics MU. SEDLÁČEK, R. 1999. Morfologický analyzátor pro češtinu (Morphological analyser for Czech). Master Thesis. Brno: Faculty of Informatics MU. SEDLÁČEK, R. 2001. Teze disertační práce. Brno: Fakulta informatiky MU. SGALL, P. et al. 1986. Úvod do syntaxe a sémantiky. Praha: Academia. Slovník spisovného jazyka českého (Dictionary of Written Czech Language). 1960. Praha: Academia. Slovník spisovné češtiny (Dictionary of Written Czech). 1984. Praha: Academia. VEBER, M. 2001. Teze disertační práce. Brno: Fakulta informatiky MU. VOSSEN, P. et al. 1999. Final Report on EuroWordNet-2, 2D041. CD ROM, v. 1, Amsterdam: University of Amsterdam. ŽÁČKOVÁ, E. – POPELÍNSKÝ, L. – NEPIL, M. 2000. Recognition and Tagging of Compound Verb Groups in Czech. In: Proceedings of CoNLL-2000 and LLL-2000, Lisbon, ACL New Brunswick. s.219 – 225. HORÁK, A. – SMRŽ, P. 2000. Large Scale Parsing of Czech. In: Proceedings of Efficiency in Large-Scale Parsing Systems Workshop, COLING'2000. Saarbruecken: Universitat des Saarlandes, s. 43 – 50. 173 KAREL PALA 174 SLOVNÍKOVÁ DATA VE FORMÁTU XML Pavel Smrž: Fakulta informatiky Masarykovy univerzity, Brno Abstract: This paper deals with transformation, storage and processing of dictionaries in an electronic form. Various aspects of the XML format are discussed first. Then, a transformation of source data into a target format is taken into consideration. Such a process is called up-translation. The next section summarizes our experience with the transformation of large dictionaries, especially of the Dictionary of Literary Czech (SSJČ). The last section brings recommendations for those who will be engaged in similar projects. 1. Úvod Slovníky jsou nejvýznamnějším zdrojem informací o slovní zásobě jazyka. Jejich užitečnost se však v současnosti neomezuje jen na lidské uživatele – aplikace v oblasti zpracování přirozeného jazyka potřebují slovníkové informace téměř pro všechny úkoly, které řeší. Stovky, a snad i tisíce různých slovníků jsou používány pro podporu vyhledávání informací, automatického vytváření abstraktů, strojového překladu atd. Většina v současnosti používaných slovníkových dat nebyla původně určena pro počítačové aplikace. Mnoho tištěných slovníků bylo v posledních desetiletích převedeno do elektronické podoby zejména s cílem snížit náklady spojené s editorskými úpravami, kontrolou konzistence a modifikacemi při přípravě nových verzí. Ani ryze elektronický slovník, jakým je WordNet (Miller et al. 1990), nebyl zprvu určen pro aplikační použití – jednalo se o experiment zaměřený na modelování mentálního slovníku. Nehledě na historii vzniku jsou dnes dostupné elektronické slovníky, resp. elektronické lexikální databáze, z aplikačního pohledu nesmírně cenné, neboť získávání lexikální informace je obyčejně drahé a představuje i dosti obtížný intelektuální výkon. Výhodnost používání existujících zdrojů platí i přes nutné investice do nalézání relevantní informace, která je do jisté míry skryta díky slabé strukturovanosti, nevyhnutelným chybám, nekonzistencím a opomenutím. Rozumným cílem je potom ovšem uchovávání slovníků v univerzálním, široce dostupném a znovupoužitelném formátu. Takové prostředí poskytuje rodina formátů a nástrojů sdružená kolem jazyka XML. Následující oddíl je věnován stručnému seznámení s formátem XML a souvisejícími standardy. Dále se budeme zabývat vlastním převodem dat z vý175 PAVEL SMRŽ chozích formátů do cílového XML, tzv. procesem zvyšování informačního obsahu. Poté uvedeme několik vybraných projektů, které se na různých místech světa zabývaly tématy příbuznými naší problematice a jejichž výsledky v menší či větší míře ovlivnily naše postupy. V dalším oddíle potom jako případovou studii zmíníme převod SSJČ (Slovníku spisovného jazyka českého) do formátu XML odpovídajícího doporučením TEI (Text Encoding Initiative). Závěrečná kapitola shrne získané zkušenosti. 2. Formát XML XML (eXtensible Markup Language; (Bray et al. 2000) je standardem pro reprezentaci a výměnu dat. Jde o silný nástroj dovolující obecný způsob značkování všech forem struktury, vzájemné odkazy a víceúrovňové zanoření struktur. XML je tedy velmi vhodným formátem pro reprezentaci silně strukturované informace. V posledních letech vzneslo mnoho uživatelů požadavek převoditelnosti mezi různými reprezentacemi dat. Dodavatelé programových produktů byli nuceni reagovat a akceptovat standardizovaný, neproprietární formát kódování dat. Vývoj, přijetí a postupné nasazování technologií opírajících se o XML tak souvisí zejména s možnostmi větší interoperability aplikací umožňujících výměnu dat ve formátu XML. Právě nemožnost převodu mezi formáty je často důvodem používání starších programových produktů, které již nesplňují nové požadavky. Je výhodnější použít široce podporovaný formát než navrhovat vlastní, omezený. Oproti běžným binárním formátům získáváme také výhodu deklarativnosti a transparentnosti reprezentace dat. Jazyk XML, vyvinutý zejména s ohledem na použití ve webových aplikacích, je zjednodušeným dialektem SGML (Standard Generalized Markup Language). Teoreticky je tedy v některých ohledech méně silný, avšak díky celé škále navazujících technologií, které např. dovolují transformace mezi dokumenty, definice omezujících podmínek, ověřování struktury a odkazy uvnitř jednoho dokumentu i vzájemné odkazy mezi dokumenty, případně jejich částmi (viz dále), je právě XML nástrojem umožňujícím udržet krok s rychlým tempem vývoje v oblasti informačních technologií. Dokumenty založené na XML smazávají rozdíly mezi daty a klasickými dokumenty. Některé dokumenty ve formátu XML nejsou ničím jiným než ASCII reprezentací dat, která jsou typicky ukládána např. do databází. Jiné dokumenty XML obsahují velmi málo struktury, vyznačeny jsou např. jen hranice 176 SLOVNÍKOVÁ DATA VE FORMÁTU XML odstavců, jinak jde o volný text. Slovníková data jsou někde uprostřed mezi těmito dvěma póly – obsahují složité hierarchické struktury, ale také relativně nestrukturovaný volný text. XML dovoluje definovat přesnou sémantiku obsahu slovníku a přitom nespecifikovat formát prezentace. Dovoluje tedy měnit způsob, jakým jsou jednotlivé části textu tisknuty nebo zobrazovány. Při práci se slovníkovými daty ve formátu XML můžeme využít mnoha existujících mechanismů pro přístup k datům a manipulaci s nimi. Budeme mluvit o rodině standardů XML. V základní formě je XML jazykem pro značkování dokumentů, který tudíž dovoluje vyznačit jednotlivé elementy textu, hierarchickou strukturu a odkazy. Strukturu textu kódovaného v XML popisuje tzv. DTD (Document Type Definition), objevující se již u standardu SGML. DTD definuje zobecněná pravidla pro strukturu a určuje tak, co je v kódování příslušného dokumentu dovoleno. Schopnosti validace formy i obsahu dokumentu nabízené DTD rozšiřuje definiční jazyk XML Schema (Thompson et al. 2001, Biron, Malhotra 2001). Dovoluje omezit a dokumentovat význam, použití a vztahy jednotlivých částí dokumentů XML. Mohou být zadávány např. předdefinované hodnoty pro atributy a elementy. Z koncepčního pohledu lze definici XML Schematu chápat jako abstraktní datový model popisované třídy dokumentů (Ide 2000). Dalším členem „rodiny XML“ jsou formátovací jazyky XSL (eXtensible Stylesheet Language; Adler et al. 2000) a XSLT (eXtensible Stylesheet Language for Transformations; Clark 1999, Clark 2001). Jde o deklarativní (neprocedurální) jazyky, kde „stylesheet“ udává, za jakých podmínek se vykoná jaká akce. Tzv. procesory XSLT pracují s dokumentem XML, reprezentovaným stromovou strukturou zanořených elementů, a mohou tento dokument transformovat do libovolného jiného formátu pomocí výběru, přeuspořádání nebo přidávání informací. Jazyk XSLT podporuje výběr obsahu elementů nebo jejich částí z jednoho nebo více XML dokumentů a transformaci obsahu i názvů elementů. Pro efektivní přístup k obsahu rozsáhlých dokumentů v XML je potřeba výkonný dotazovací mechanismus. V uplynulém období vzniklo hned několik návrhů dotazovacích jazyků pro XML. K nejznámějším patří XQuery (XML Query Language; Chamberlin et al. 2001) umožňující zadávat složité dotazy na XML dokumenty ve formě snadno čitelné člověkem (alternativou je XqueryX odpovídající syntaxi jazyka XML). Bylo navrženo i několik standardů pro definici odkazů mezi dokumenty XML. Základní mechanismus XLink (DeRose 2001a) dovoluje specifikovat 177 PAVEL SMRŽ propojení mezi dvěma a více zdroji nebo jejich částmi. Jazyk XPath (XML Path Language) (Clark, DeRose 1999) rozšiřuje syntaxi adresace o predikáty pro manipulace s řetězci znaků, takže je možné odkazovat přímo na části jednotlivých elementů. Ještě propracovanějším je standard Xpointer (DeRose 2001a), který rozšiřuje syntaxi XPath směrem k adresaci rozsahů, lokalizace informace pomocí porovnávání řetězců a použití výrazů v odkazech jako identifikátorů částí dokumentů. Existuje ještě celá řada nejrůznějších standardů, které rozšiřují „rodinu XML“ o více či méně specifickou funkcionalitu. Zmiňme na závěr za všechny ještě alespoň XML Namespaces (Bray et al. 1999) – mechanismus povolující stejná jména v různých kontextech pomocí definice tzv. prostorů jmen. Přes všechny výše zmíněné výhody přetrvává i dnes při řešení zásadní otázky, zda se vyplatí převod již existujících zdrojů, určitá nedůvěra k formátu XML. Na tomto postoji se jistě podepsal historický vývoj, kdy byly, nikoliv neoprávněně, technologie spjaté se standardem SGML považovány za příliš drahé. Dobře placení poskytovatelé programových nástrojů manipulujících s SGML pracovali pro ministerstva (zejména americké Ministerstvo obrany), mamutí podniky typu Boeing (má svoji dokumentaci v SGML), pojišťovny a velké vydavatelské domy a menší firmy nebyly schopny výhod lépe strukturovaných dokumentů využít. Ne nadarmo byla zkratka SGML v této době vysvětlována jako „Sounds Great! Maybe Later!“. S příchodem formátu XML a jeho masivní popularizací se však situace výrazně zlepšila a tento příznivý vývoj neustále pokračuje. Formát XML je dnes široce podporován, existuje mnoho komerčních i nekomerčních programů pracujících s XML. XML přímo podporují poslední verze webových prohlížečů, i když zatím ne v plné šíři. Každopádně vše mluví pro použití technologií spojených s XML v mnoha oborech informačních technologií a byla by samozřejmě škoda nevyužít nabízených možností i pro oblast reprezentace a výměny slovníkových dat. 3. Zvyšování informačního obsahu Slovníky obsahují celou škálu různých typů informací, kódovaných různými způsoby. Jsou aplikovány různé strukturální a typografické normy pro reprezentaci homografů, lexikalizovaných flektivních variant, složených slov, frází atd. Často se liší i taxonomie informací. Standardizovaný formalismus lexikální databáze musí definovat jednoznačný způsob reprezentace všech těchto entit. 178 SLOVNÍKOVÁ DATA VE FORMÁTU XML Nehledě na nejednoznačnost kódování informací lidem obyčejně stačí podívat se na slovníkové heslo a okamžitě pochopí, z jakých je složeno částí a co tyto části znamenají. Zapojí tak ovšem znalost o tom, k čemu slovníky slouží, jak jsou obecně používány. Aby byly stejné informace bez větší námahy dostupné stroji, musí být z původně implicitní formy převedeny do explicitně zaznamenaných údajů, s nimiž si počítačové programy snadno poradí. Hodnota elektronických slovníků se dramaticky zvyšuje, pokud sdílí společné značkování. Dosažení tohoto stavu je však nesmírně obtížné, neboť dostatečně rozsáhlé zdroje jsou získávány obyčejně z existujících slovníků, které mají v převážné většině vlastní strukturu. Převod dat ze zdrojového do cílového formátu bývá označován jako proces zvyšování informačního obsahu (uptranslation). Z aplikačního pohledu se jedná o cestu k použitelnějšímu tvaru slovníkových dat. Jak vyplývá z předchozí kapitoly, bude naším cílem převod slovníkových dat do formátu XML, takže procesem zvyšování informačního obsahu zde budeme rozumět konverzi z libovolného zdrojového formátu do platné instance XML odpovídající nějakému cílovému DTD. Přitom se samozřejmě snažíme nalézt (alespoň částečně) automatické metody převodu. Vývoj takových automatických metod má samozřejmě ekonomické opodstatnění. Vzhledem k různorodosti zdrojových formátů je velmi obtížné definovat obecný model procesu zvyšování informačního obsahu. Obecně lze nicméně identifikovat 3 základní podprocesy (Chahuneau 1994): 1. identifikace skupin objektů zdrojového dokumentu, sdílejících společné formátovací vlastnosti (typografické charakteristiky a typické textové vzory); 2. mapování nalezených tříd na typy elementů XML odpovídající cílovému DTD; 3. generování cílové struktury, případná reorganizace dat a přidání chybějících struktur (elementů i atributů) tak, aby vše odpovídalo DTD. Přestože lze v zásadě provést celý převod v jednom průchodu, má tento postup mnoho nevýhod. Většinou je obtížné rozdělit úkoly tak, aby bylo možné zapojit více programátorů. Monolitický tvar převodních programů navíc nepřispívá k čitelnosti kódu a problematické jsou rovněž nutné manuální opravy chyb kódování, případně i chyb obsahu. Řešením těchto problémů je postupný, víceprůchodový převod, kdy jsou navíc již pro výstupy z jednotlivých fází definována příslušná DTD, jimž odpovídá výsledek ve formátu XML. Výhodou je vstup do „arény XML“ již v prv179 PAVEL SMRŽ ních fázích transformace, což přináší výhodu explicitního modelu informačního obsahu pomocí DTD a dovoluje použití propracovaných nástrojů pro zpracování struktur XML. Snadněji lze také postihnout případy, kdy se zdrojový formát silně vymyká požadavkům cílového DTD. Dekompozici procesu zvyšování informační úrovně na sérii postupných kroků lze z teoretického pohledu chápat jako proces navazujících transformací stromových struktur zanořených elementů, probíhajících při převodu z jednoho stavu do stavu následujícího. Dnes jsou dokonce k dispozici nástroje nabízející odvozování DTD z výstupů jednotlivých kroků. Výše popsané transformace lze implementovat různými metodami. Výhodné je využít některý z řady populárních skriptovacích jazyků, jakými jsou Perl či Python. Existují však i nástroje přímo specializované pro tento úkol. K nejznámějším patří produkt OmniMark (http://www.omnimark.com). Ten nabízí mechanismus porovnávání vzorů podporující událostmi řízené programování, založené na lexikálních událostech. Naproti méně specializovaným nástrojům je úzce provázán se začleněným analyzátorem XML (SGML), takže výsledek porovnávání vzorů může být závislý na kontextu XML. Vzory mohou být pojmenované, čímž lze zachytit i velmi složité konstrukce. Propracované je také zotavování z chyb analýzy dokumentu XML, které může sloužit k opravě generovaného XML tak, aby vznikla platná instance cílového DTD. Tento mechanismus funguje výborně tam, kde je zdrojová podoba vzhledem k požadované cílové struktuře jen mírně deformovaná. Mnohem obtížnější je naopak podchycení případů, kdy zjednoznačňování struktury dokumentu vyžaduje časté pohledy dopředu, začlenění dalších zdrojů a intenzivní generování přídavných struktur (Chahuneau 1994). 4. Obdobné a příbuzné projekty Převodem slovníků do formátu XML se zabývala celá řada projektů v různých koutech světa. Přitom je nesmírně zajímavé a cenné sledovat, jak se v rámci různých projektů řeší obdobné problémy, především nedostatky spojené s nekonzistentní strukturou hesel. Uveďme tedy alespoň několik případů. Jako typického zástupce převodu rozsáhlého výkladového slovníku zmiňme projekt OED (Oxford English Dictionary) Online (Elliott 2001). Převod do strojově čitelné podoby začal již v polovině 80. let, kdy se nakladatelství OUP (Oxford University Press) rozhodlo vydat druhé vydání svého největšího slovníku, zahrnující originální 12 svazkový soubor se všemi pozdějšími dodatky. Bez180 SLOVNÍKOVÁ DATA VE FORMÁTU XML prostředním důvodem vzniku elektronické verze byla tehdy snaha o ekonomizaci nezbytných pozdějších revizí. Přibližně 150 písařek přepsalo celý obsah a po sérii mnoha oprav byl slovník nakonec v roce 1989 úspěšně vydán. Kódování OED neodpovídalo plně SGML, protože se autorům zdálo nemožné, „vzhledem k unikátnímu obsahu a dlouhému vývoji editorského stylu“, svázat celý slovník jednotným formátem. Dokonce i dnes je OED revidován pomocí vlastního značkování, což vyžaduje speciální softwarové nástroje vyvinuté na zakázku. Při analýze potřeb OED Online bylo však konstatováno, že by celý projekt nesmírně komplikovalo, jestliže by nebyl text poskytnut ve standardní formě. Všichni dodavatelé software by totiž byli nuceni proniknout do zvláštností interního formátu a nebylo by možné použít dostupná obecná řešení. Proto bylo z interního formátu odvozeno standardní DTD, nepokrývající sice všechny informace obsažené v OED, zahrnující však všechny hlavní vlastnosti slovníku. Jasně jsou identifikovány definice výrazů, výslovnost, variantní ortografie, etymologie, doklady a jejich datace, včetně jmen autorů a názvů děl, z nichž je citováno. Definice speciálního DTD pro výběr dat je v (Elliott 2001) komentována slovy „ ...archeologové v roce 3000 nebudou moci rekonstruovat všechny aspekty elektronického textu OED z tohoto DTD a úlomků tištěné verze. Jde o kompromisní řešení.“ Zajímavé jsou rovněž informace o finanční náročnosti celého projektu, které příliš neodpovídají výše zmiňované dostupnosti příslušných technologií v dnešní době. Cena za vývoj programových produktů OED Online činila 400.000 amerických dolarů a nakladatelství OUP utratilo přibližně další milion dolarů za výzkum trhu, konzultace atd. Jiným projektem, cenným zejména díky praktickým výstupům ve formě návrhu vhodného univerzálního DTD (Erjavec et al. 2000), byl grantový projekt CONCEDE (Evans 1999), jehož cílem bylo vytvoření lexikálních databází, založených na informacích z tištěných slovníků, pro šest středoevropských a východoevropských jazyků, konkrétně bulharštinu, češtinu, estonštinu, maďarštinu, rumunštinu a slovinštinu. Formátem lexikální databáze bylo SGML odpovídající doporučením TEI. Vzhledem ke skutečnosti, že návrhy TEI pro kódování slovníků podporují přesný popis existujících slovníků, spíše než vytváření nových zdrojů ve formě přímo uzpůsobené pro použití v aplikacích zpracování přirozeného jazyka, bylo druhým cílem projektu vyvinout silně redukovanou variantu DTD, vhodnou pro tyto účely. Projekt se do značné míry opíral o korpus Orwell“, vytvořený v rámci projektu EU MULTEXT-EAST (Erjavec – Ide 1998; většina partnerů byla i partnery CONCEDE), tvořený romá181 PAVEL SMRŽ nem George Orwella 1984 v angličtině a překlady tohoto díla ve všech šesti jazycích. Výběr zpracovávaných slov v projektu CONCEDE např. vycházel z frekvenčního slovníku získaného z tohoto románu. Zajímavou informací o výstupech projektu je zmínka o nemožnosti převést veškeré informace do formátu odpovídajícího cílovému DTD v důsledku limitovaných zdrojů (Kilgarriff 1999). Historicky starším projektem je systém LDB, vytvořený v počítačové laboratoři Cambridgeské university jako součást projektu EU ESPRIT ACQUILEX (Copestake 1995). Systém podporuje uživatele při formulování dotazů a vyhledávání částí hesel z jednoho a více slovníků, implementuje efektivní vyhledávání a dovoluje definovat subslovníky, tvořené výběrem hesel rozšířených o doplňující informace, které nejsou dostupné pro ostatní hesla. Implementačním nástrojem byl v tomto případě jazyk Common Lisp. 5. Převod Slovníku spisovného jazyka českého Projekt převodu SSJČ (osmisvazkového Slovníku spisovného jazyka českého) do formátu XML je realizován v rámci komplexního grantového úkolu GAČR 405/96/K214 (Čeština ve věku počítačů). Laboratoři zpracování přirozeného jazyka na Fakultě informatiky Masarykovy univerzity v Brně, která se na projektu podílí, byla předána již data ve formátu dokumentů aplikace MS Word, vždy deset stran textu v jednom souboru. Data byla v předchozí fázi naskenována, pomocí OCR převedena a dále zkontrolována, aby byly odstraněny okamžitě viditelné chyby rozpoznávání. To vše bylo provedeno na Ústavu pro jazyk český na Akademii věd ČR. Naším prvním úkolem byl tedy převod z formátu MS Word. Aplikace MS Word 2000 slibuje uložení do HTML, které zachovává vše potřebné pro transformaci do prvotní verze XML. Zkušenosti však ukazují, že převod do formátu XML odpovídajícího normě by vyžadoval enormní množství práce a že výsledek i potom nabízí malou podporu pro odvození struktury dokumentu ze značkování. Jinou možností by bylo využití aplikací dostupných v rámci balíku OpenOffice, který používá pro ukládání dokumentů přímo formát XML a v posledních verzích (které však nebyly dostupné v době převodu) by měl být schopen korektně načíst i dokumenty české verze aplikace MS Word. My jsme nakonec zvolili přímý převod dat za pomoci speciálně vyvinutého kódu v jazyce Visual Basic for Application, který MS Word dokáže zpracovávat ve formě 182 SLOVNÍKOVÁ DATA VE FORMÁTU XML maker. Vzhledem k jednorázovosti celého procesu nepředstavovala časová náročnost tohoto postupu větší problém. Další fáze představovala vyhledání anomálií ve vstupním formátu, vyřešení některých nejednoznačností a opravy chyb kódování. Přitom jsme si velmi silně uvědomili, že definování kompletní gramatiky pro rozpoznání textových vzorů a převod struktury je téměř nekonečný proces, kterým je možné projít pravděpodobně pouze postupným úpravami kódu, časově velmi náročnými. V této etapě se jedná ještě převážně o dosti mechanický převod dat, který se příliš nesnaží „zvyšovat informační úroveň“. Pokud je tedy dostatečná pozornost věnována odhalování a opravám chyb převodního kódu, může jít o přímočarý, deterministický, a tudíž i spolehlivý proces. Závěrečnou a nejobtížnější úlohou je transformace mezivýsledku do formátu XML odpovídajícího cílovému DTD (Petkevič 2000). V ideálním případě odpovídá typ elementu přímo některému typu písma, jindy stačí uvažovat jednoduchý, unikátní kontext (např. v hranatých závorkách je uváděna výslovnost), někdy je výhodné uvažovat omezení určitého typu informací, kdy hodnota musí být v předem daném seznamu (výčty zkratek, jména autorů). Úspěšnost převodu samozřejmě závisí podstatnou měrou na kvalitě zdrojových dat, v našem případě především na konzistenci zpracování slovníku. Většina těžkostí je spojena právě s nekonzistencí struktury hesel, která je potom nesmírně obtížné převést plně automaticky. V současné fázi tedy pracujeme s dvěma variantami XML. Nízkoúrovňové kódování (příklad 1) je výhodnější pro zanášení oprav nalezených chyb, forma odpovídající cílovému DTD (příklad 2) je i přes dosud velké množství nesprávně rozpoznaných elementů vhodná pro některé typy dotazů na konkrétní části hesel, např. pouze na doklady výskytu či původ hesla. Postupně jsou opravovány nalezené chyby, zejména nesprávně rozpoznané typy písma, jejichž výskyt by znemožňoval automatický převod do cílového tvaru. Speciální kategorii tvoří chyby a nekonzistence, které se vyskytují již v tištěné verzi slovníku. Ty jsou zaznamenávány odděleně, aby bylo možné kdykoliv konfrontovat původní podobu dat. <entry> <bold>terorismus</bold> <ital>způsob vlády vymáhající terorem poslušnost; hrůzovláda, krutovláda, despotismus:</ital> <norm>vojenský t.; nesnesitelný t.; demagogie a t.; </norm> 183 PAVEL SMRŽ <small>přen. expr.</small> <norm>to je t., nedejte si to líbit</norm> </entry> Příklad 1: Nízkoúrovňové kódování dat – jsou vyznačeny jen různé typy písma <entry> <hw> <orth>terorismus</orth> </hw> <morph> <paradig>socialismus</paradig> </morph> <senses> <sense> <def>způsob vlády vymáhající terorem poslušnost</def> <def>hrůzovláda</def> <def>krutovláda</def> <def>despotismus</def> <eg>vojenský terorismus</eg> <eg>nesnesitelný terorismus</eg> <eg>demagogie a terorismus</eg> <eg> <usg type=style>přen. expr.</usg> to je terorismus, nedejte si to líbit </eg> </sense> </senses> </entry> Příklad 2: Formát kódování hesla SSJČ odpovídající cílovému DTD Pro efektivní uložení slovníkových dat využíváme systém MAXXL, který vznikl na Fakultě informatiky jako výsledek diplomové práce (Karásek 2000). Základní charakteristikou je absolutní nezávislost na konkrétním formátu XML, systém pracuje s daty na podkladě zadaného DTD a s využitím doplňující informace o typech jednotlivých elementů, především o elementu, který má sloužit 184 SLOVNÍKOVÁ DATA VE FORMÁTU XML jako klíč při vyhledávání, vytváří indexy pro velmi výkonné vyhodnocování dotazů. Systém MAXXL také definuje vlastní dotazovací jazyk, který dovoluje zadávat specializované dotazy potřebné pro přístup k slovníkovým datům (spojené např. s propojením na morfologický analyzátor a expanzí dotazu na všechny slovní tvary odpovídající příslušnému morfologickému vzoru). Nad serverovou částí je vystavěno klientské grafické uživatelské rozhraní DictView, zjednodušující zadávání nejčastějších typů dotazů. Systém MAXXL je masivně využíván při přípravě dat pro nový morfologický analyzátor češtiny (Sedláček, Smrž 2001), kdy je vedle dat ze SSJČ prezentován rovněž obsah SSČ (Slovníku spisovné češtiny pro školu a veřejnost) a SCS (Akademického slovníku cizích slov). Během tohoto používání již systém prokázal svoje kvality, především spolehlivost a rychlost vyhledávání. Předpokládá se rovněž využití při práci na české části projektu Balkanet, jehož cílem je rozšířit stávající lexikální databáze typu WordNet. 6. Závěrečná doporučení pro řešitele obdobných projektů Shrňme na závěr tohoto článku naše zkušenosti získané během převádění slovníků do formátu XML. Tato část může být chápána jako snaha o formulaci jednoduchých doporučení, která by mohla pomoci řešitelům obdobných projektů. Při převodu slovníkových dat, ať už z papírové podoby či z elektronické verze v jiném formátu, se často nevyhneme použití WYSIWYG textových editorů typu MS Word (např. i díky přímému vstupu z aplikace OCR). Tyto prostředky obyčejně skrývají logickou strukturu textu, kterou je potom obtížné oddělit od konkrétní formy prezentace. Proto je vždy velmi výhodné: 1. Detailně rozmyslet a předem si uvědomit, které elementy bude třeba identifikovat, aby byla respektována požadovaná cílová struktura dat. 2. Pokud jsou data převáděna z tištěné podoby, např. pomocí technologií OCR, je nanejvýš vhodné, nejlépe ještě před započetím práce, rozhodně však před provedením vizuálních kontrol, probrat tuto fázi s těmi, kdo budou vlastní převodní programy implementovat. Předejde se tak totiž zbytečné práci, kterou bylo možné provést již při prvotní kontrole a která zdržuje všechny následné činnosti. 3. Používat přímo v editoru značkování, dovolující člověku snadno postřehnout i drobné nedostatky, např. chybně rozpoznaný řez písma, párové 185 PAVEL SMRŽ znaky neodpovídající si typem písma atd. Nanejvýš vhodné je vedle typů písma využít barevného rozlišení různé informace obsažené v heslech. Například aplikace MS Word dovoluje takové náhrady pomocí definovaných maker, vše lze tedy provést stiskem jediného tlačítka a u kratších dokumentů (např. výše zmíněná kontrola vždy po deseti stranách textu) není záměna nijak časově náročná. Aby se předešlo problémům spojeným s nejednoznačností obsahu slovníkových hesel, měly by být pro vytváření nových a rozsáhlejší úpravy existujících zdrojů používány pokud možno nástroje dovolující pracovat přímo s cílovou podobou XML. Takové nástroje často teprve vznikají a je otázkou, jak má vypadat vizuální podoba vlastní editace složitějších struktur. Nabízí se možnost vyplňování určitého formuláře a současné vytváření definované vizuální podoby, či přímá editace vizualizované podoby se striktní kontrolou konzistence dat, odpovídající definovaným podmínkám. Toto je dosud otevřený problém, který tak nabízí prostor pro další výzkum. Na úplný závěr dovolte zopakovat ne příliš optimistické konstatování z textu, totiž, že převod slovníkových dat do „vysněné“ zamýšlené struktury je téměř nekonečný proces, kterým je možné projít pouze postupnými, časově velmi náročnými kroky. Literatura ADLER, S. et al. 2000. Extensible Stylesheet Language (XSL). Version 1.0. W3C Proposed Recommendation. http://www.w3.org/TR/xsl/. BIRON, P. – MALHOTRA, A. 2001. XML Schema Part 2: Datatypes. W3C Recommendation. http://www.w3.org/TR/xmlschema-2/. BRAY, T. et al. 1999. Namespaces in XML. W3C Recommendation. http://www.w3.org/TR/REC-xml-names/. BRAY, T. et al. 2000. Extensible Markup Language (XML) 1.0 (Second Edition). W3C Recommendation. http://www.w3.org/TR/1998/REC-xml. COPESTAKE, A. 1995. ACQUILEX. http://www.cl.cam.ac.uk/Research/NL/acquilex/. CHAHUNEAU, F. 1994. Current Approaches to SGML Up-translation. http://www.oasisopen.org/cover/fcha.html. CHAMBERLIN, D. et al. 2001. XQuery 1.0: An XML Query Language. W3C Working Draft. http://www.w3.org/TR/xquery/. CLARK, J. 1999. XSL Transformations (XSLT). Version 1.0. W3C Recommendation. http://www.w3.org/TR/xslt/. CLARK, J. 2001. XSL Transformations (XSLT). Version 1.1. W3C Working Draft. http://www.w3.org/TR/xslt11/. 186 SLOVNÍKOVÁ DATA VE FORMÁTU XML CLARK, J. – DEROSE, S. 1999. XML Path Language (XPath). Version 1.0. W3C Recommendation. http://www.w3.org/TR/xpath/. DEROSE, S. et al. 2001a. XML Linking Language (XLink). Version 1.0. W3C Recommendation. http://www.w3.org/TR/xlink/. DEROSE, S. et al. 2001b. XML Pointer Language (XPointer). Version 1.0. W3C Last Call Working Draft. http://www.w3.org/TR/xptr/. ELLIOTT, L. 2001. How the Oxford English Dictionary Went Online. Ariadne, č. 24. http://www.ariadne.ac.uk/issue24/oed-tech/. ERJAVEC, T. – IDE, N. 1998. The MULTEXT-East Corpus. In: Proceedings of the 1st International Conference on Language Resources and Evaluation, s. 971 – 974. ERJAVEC, T. et al. 2000. The Concede Model for Lexical Databases. In: Proceedings of the 2nd International Conference on Language Resources and Evaluation, s. 355 – 362. http://nl.ijs.si/et/Bib/LREC00/lrec-cnc.ps.gz EVANS, R. 1999. CONCEDE: Consortium for Central European Dictionary Encoding. http://www.itri.bton.ac.uk/projects/concede/. IDE, N. 2000. The XML Framework and Its Implications for the Development of Natural Language Processing Tools. In: Proceedings of the COLING Workshop on Using Toolsets and Architectures to Build NLP Systems. KARÁSEK, L. 2000. Systém pro tvorbu a presentaci vícejazyčných a výkladových slovníků. Diplomová práce. Brno: Fakulta informatiky Masarykovy univerzity. KILGARRIFF, A. 1999. Public Progress Report: Deliverable 0.2.1, CONCEDE Project. http://www.itri.bton.ac.uk/projects/concede/DR0.2.1_no_pointers.html. MILLER, G. 1990. Five Papers on WordNet. CSL Report 43. Princeton: Cognitive Science Laboratory, Princeton University. PETKEVIČ, V. 2000. Návrh DTD pro SSJČ – 1. verze. SEDLÁČEK, R. – SMRŽ, P. 2001. A New Czech Morphological Analyser ajka. In: Proceedings of the 4th International Conference on Text, Speech and Dialogue. THOMPSON, H. S. et al. 2001. XML Schema Part 1: Structures. W3C Recommendation. http://www.w3.org/TR/xmlschema-1/. 187 POČÍTAČOVÁ PODPORA SLOVENSKÝCH LEXIKOGRAFICKÝCH PROJEKTOV – RETROSPEKTÍVNY POHĽAD Vladimír Benko: Laboratórium počítačovej lingvistiky Pedagogickej fakulty Univerzity Komenského; Jazykovedný ústav Ľudovíta Štúra Slovenskej akadémie vied, Bratislava (Vladimir.Benko@fedu. uniba.sk) Abstract: A short case history of several computationally supported Slovak lexicographical projects is presented. A proprietary Markup Language MOM is introduced, with examples of entry representiations of the dictionaries in question, and also some technological problems of our approach are discussed. 1. Úvod Lexikografia ako aplikovaná jazykovedná disciplína je oblasťou, ktorá sa príchodom počítačov zmenila v rámci lingvistiky azda najviac. Myšlienka nahradenia tradičných lexikografických nástrojov – ceruzky, papiera a škatúľ s excerpčnými lístkami – klávesnicou, obrazovkou a diskom počítača je natoľko priamočiara, že pokusy o aplikáciu počítačov v lexikografii začali hneď, keď ich cena poklesla na úroveň, ktorú si aj naše lexikografické pracoviská mohli dovoliť zaplatiť. Dnes síce parametre počítačov toho obdobia vyvolávajú úsmev (PC XT, 640 MB operačnej pamäte, pevný disk s kapacitou 20 MB, grafická karta EGA), podstatné však bolo, že sa na nich dal spustiť textový procesor schopný vytvoriť text so všetkými slovenskými diakritickými znamienkami a vytlačiť ho pomocou (rachotiacej 9-ihličkovej) tlačiarne na papier. Bolo to v roku 1990. V skutočnosti sa počítače aj v našich podmienkach dotkli procesu zrodu slovníka ešte o niečo skôr – v tlačiarňach sa už v polovici 80. rokov používali na sadzbu počítačové terminály a počítačom ovládané osvitové jednotky. Tieto počítače však boli veľké („sálové“) a drahé a práce lexikografov sa priamo nedotkli. Je zrejmé, že použitie počítačov pri tvorbe slovníka sa nemôže obmedziť len na prípravu tlačových podkladov – právom sa očakáva, že pomôžu zefektívniť a skvalitniť všetky etapy životného cyklu lexikografického diela. V našom príspevku chceme podať stručný pohľad na nedávnu históriu i súčasnosť niekoľkých počítačom podporovaných lexikografických projektov, ktorých výsled188 POČÍTAČOVÁ PODPORA SLOVENSKÝCH LEXIKOGRAFICKÝCH PROJEKTOV – RETROSPEKTÍVNY POHĽAD kom bola publikácia slovníkov, či už nových alebo vydaných v opravených a doplnených vydaniach. Príspevok má formu stručných prípadových štúdií obohatených o niekoľko osobných postrehov. 2. Prvé kroky: Krátky slovník slovenského jazyka Náš prvý kontakt s lexikografickým dielom v počítačovej podobe sa uskutočnil v roku 1988. Bolo to v bratislavskej tlačiarni Svornosť, kde sme sa náhodou a s úžasom dozvedeli, že sadzbu 1. vydania Krátkeho slovníka slovenského jazyka (1987, ďalej len KSSJ) bude pravdepodobne treba vymazať (tak, ako sa to rutinne robilo aj s inými textami) pre nedostatok miesta na disku... Príbeh „záchrany“ tohto cenného lexikálneho materiálu a jeho prevodu do tvaru spracovateľného na štandardnom osobnom počítači sme podrobnejšie opísali na inom mieste (Benko – Kostolanský 1997). Tu sa obmedzíme len na konštatovanie, že toto dielo vlastne iniciovalo našu spoluprácu s Jazykovedným ústavom Ľudovíta Štúra SAV (ďalej len JÚĽŠ), ktorá pretrváva až dodnes. Naším cieľom pri tomto projekte bolo jednak to, aby autori slovníka mohli v budúcnosti jednoduchšie a rýchlejšie pripraviť nové vydanie KSSJ, ako aj to, aby sa materiál z diela mohol zužitkovať ako zdroj údajov do pripravovanej lexikálnej databázy slovenského jazyka. Z dnešného pohľadu však za jeho hlavný výsledok možno považovať návrh značkovacieho jazyka MOM1, ktorý sa osvedčil natoľko, že bol následne (s niektorými malými zmenami a rozšíreniami) použitý v niekoľkých ďalších lexikografických projektoch realizovaných v JÚĽŠ. Tento jazyk vznikal postupne počas analýzy typografického formátu KSSJ a pôvodne mal slúžiť len na vizualizáciu typografických povelov, ktoré v pôvodnom formáte mali netlačiteľnú reprezentáciu. Nakoniec sa však podarilo pomocou automatizovaných procedúr prekonvertovať do takejto formy celý text KSSJ, pričom sa v plnej miere zachovali informácie o štruktúre slovníka z hľadiska typografickej reprezentácie a vznikol materiál, ktorý sa mohol stať základom pre ručné opravy a modifikácie textu. Zápis textu v jazyku MOM vychádza z týchto základných pravidiel: 1. Text slovníka sa reprezentuje pomocou štandardnej množiny tlačiteľných znakov na danej počítačovej platforme, napr. v prostredí systému MS-DOS 1 Názov pochádza z odpovede na otázku, ktorú sme často dostávali na odborných podujatiach: „Are you using SGML?“ – „No, I am using My Own Markup.“ 189 VLADIMÍR BENKO 2. 3. 4. 5. 6. sa použilo tzv. kódovanie Kamenických, ktoré bolo v tom čase (1989) u nás na osobných počítačoch de facto štandardom. Základnou spracúvanou jednotkou textu je heslová stať, ktorú tvorí súvislý blok textu ukončený prázdnym riadkom. Riadky začínajúce znakom „!“ sa považujú za identifikačné (môže to byť napr. číslo kartotečného lístka, z ktorého bolo heslo prepísané do počítača, prípadne číslo hesla vytvorené ľubovoľným spôsobom). Riadky začínajúce znakom „?“ sa považujú za komentár. Typografické vlastnosti textu sa reprezentujú takto: a) Text v "úvodzovkách" reprezentuje (polo)tučné písmo. b) Text v 'apostrofoch' predstavuje kurzívu. c) Text v |zvislých paliciach| reprezentuje zmenšené písmo (obyčajne nonpareille). d) Ďalšie typy, rezy, prípadne veľkosti písma možno reprezentovať pomocou dvojíc znakov percento (%), tilda (~), plus (+), rovná sa (=), zavináč (@) alebo ampersand (&). e) Pred horným indexom sa píše znak strieška (^). f) Znaky s vysokou frekvenciou v texte, ktoré nie sú obsiahnuté v základnom súbore (napr. grafická značka pred frazeológiou, odkazová šípka), sa zapisujú pomocou dvojice znakov, z ktorých prvý je znak dolár ($). g) Znaky s diakritikou, ktoré nie sú obsiahnuté v miestnom súbore znakov a majú vysokú frekvenciu, sa reprezentujú pomocou trojice znakov, z ktorých prvý je znak bez diakritického znamienka a druhý je znak opačná lomka (\). h) Na všetky ostatné typografické situácie (napr. grécke písmo, dolné indexy, špeciálne grafické symboly) je možné ad hoc zaviesť skratku uzavretú v dvojici uhlových zátvoriek (< a >). Na zvýšenie čitateľnosti textu sa odporúča členiť heslovú stať na odseky predstavujúce štruktúrne jednotky textu (jednotlivé významy heslového slova, prihniezdované heslové slová). Toto členenie sa však pri ďalšom spracovaní ignoruje. Ako príklad zápisu vo formáte MOM uvádzame úryvok textu KSSJ: !041a03_ "baba^1" -y báb |ž.| 190 POČÍTAČOVÁ PODPORA SLOVENSKÝCH LEXIKOGRAFICKÝCH PROJEKTOV – RETROSPEKTÍVNY POHĽAD "1." |hovor.| stará žena: ’stará b.’ "2." |pejor.| nepríjemná, zlá, protivná žena: ’klebetná, zlostná b.’ "3." |slang.| mladá žena, dievča: ’b-y z internátu’ "4." |hovor.| pôrodná asistentka: ’pôrodná b.’ "5." |pejor.| zbabelec, bojazlivec, slaboch: ’nebuď b.!’ "6." ’slepá b.’ det. hra: ’hrať sa na slepú b-u’ |i fraz.| pretvarovať sa $@ ’čo sa b-e (za)chcelo, to sa b-e (pri)snilo’; "babský" |príd. k 1-5|: ’b-é lieky’ domáce, ľudové; ’b-é klebety, reči’; |slang. pejor.| ’b. internát’ dievčenský; ’b-é správanie’ zbabelé, slabošské; "babsky" |prísl.|; "babisko" -a -bísk |s., N a A jedn. i ž. zvel. pejor. k 1, 2| !041a04_ "baba^2" -y báb |ž. hovor.| "1." prázdny koláč "2." haruľa: ’zemiaková b.’ "3." pandrava chrústa "4." jaternica z hrubého čreva !041a05_ "bába" -y báb |ž. det.| báb(i)ka: ’hrať sa s b-ou’ !041a06_ "bábä" -äťa |mn.| -ätá/-ence -bät/-beniec, "bábo" -a báb |s. hovor.| novorodeniatko: ’budú mať b.’; "bábätko" -a -tiek |s. zdrob.| !041a07_ "babí" |príd.|: ’b-ie leto’ slnečné dni na konci leta; pavučinkové vlákna poletujúce vo vzduchu v tomto období; |pren.| začiatok staroby Ako sme už spomenuli, v čase spracovania textu KSSJ sa ešte vôbec neuvažovalo o ďalšom vydaní slovníka, takže sme údaje použili „len“ ako materiál pre morfologickú databázu slovenského jazyka (Benko – Hašanová – Kostolanský 2001), ktorá neskoršie vznikla v Laboratóriu počítačovej lingvisti- 191 VLADIMÍR BENKO ky Pedagogickej fakulty UK. Skúsenosti a nástroje vytvorené počas tohto projektu sa však veľmi rýchlo uplatnili už v nasledujúcom slovníkovom diele. 3. Na konci životného cyklu slovníka: Slovník slovenských nárečí (I. zväzok) Začiatkom 90-tych rokov pretrvávali pri vydávaní slovníkov ešte staré „socialistické“ pomery, kde nebolo nezvyčajné, že publikácia pripravená do tlače čakala na svoje vydanie aj niekoľko rokov. Autori lexikografických diel tomu čiastočne čelili (a čiastočne to aj zneužívali) tým, že koniec prác na slovníku deklarovali v predstihu, pričom sa mlčky predpokladalo, že záverečné redakčné práce sa vykonajú počas „čakacieho“ obdobia a dlhých intervalov tlačiarenských korektúr. Tak to bolo aj v prípade prvého zväzku Slovníka slovenských nárečí (1994, ďalej len SSN): čistopis textu prepísaný na písacom stroji s (ručne) farebne vyznačenými typmi písma bol podľa vtedajších zvyklostí pripravený na štítkoch v škatuliach a čakal na odvezenie do tlačiarne. Tak vznikla myšlienka uskutočniť v tomto medzičase (nešpecifikovanej dĺžky) experiment, 2 ktorý by overil možnosť využitia počítača pri ďalšom koncipovaní textu slovníka. Počas experimentu bolo prepísaných niekoľko strán skoncipovaného diela vo formáte MOM a bol vytvorený program na jeho prevod do formátu vhodného na import do zalamovacieho systému FERRANTI-TRACT, ktorý sa vtedy používal v tlačiarňach Svornosť na sadzbu slovníkov. Išlo vlastne o opačný smer prenosu dát, ako sa predtým uskutočnil s textom KSSJ, takže získané skúsenosti boli veľmi cenné. Experiment sa vydaril – autori slovníka po prvýkrát uvideli návrh grafickej podoby diela, na ktorom už veľa rokov pracovali, ale výsledok sa zdal byť ešte v nedohľadne. Ukázalo sa tiež, že formát MOM sa dá dobre použiť nielen na reprezentáciu textu získaného prevodom z iného systému, ale je vhodný aj na prvotné písanie textu. „Prepisovači“ (a neskoršie aj autori) si na značkovanú podobu textu veľmi rýchlo zvykli a prijali ju za svoju a neskoršie, keď sa robili experimenty so systémami typu WYSIWYG, vyhlásili značkovanú podobu za výhodnejšiu pre prácu lexikografa. (Len malý príklad: na počítačovom termináli je dosť ťažké rozlíšiť, či spojka „i“ je alebo nie je napísaná kurzívou.) 2 Treba poznamenať, že táto iniciatíva pochádzala od dvoch vtedajších mladých doktorandiek Gabriely Barančokovej-Múcskovej a Ľubice Dvornickej z nárečového oddelenia JÚĽŠ, ktoré sa ujali prvotného prepisovania textu na jednom z troch vtedajších počítačov v JÚĽŠ – na PC XT. 192 POČÍTAČOVÁ PODPORA SLOVENSKÝCH LEXIKOGRAFICKÝCH PROJEKTOV – RETROSPEKTÍVNY POHĽAD Dôsledkom tohto experimentu bolo rozhodnutie prepísať na počítači časť textu skoncipovaného slovníka pochádzajúceho od autorov, ktorí už kolektív opustili, a vykonať s týmto textom ešte jedno kolo redakčných prác. Neskoršie, keď sa tlačiarenský termín stále odďaľoval, sa takto spracoval aj zvyšok textu slovníka. Z hľadiska štruktúry heslovej state a zvolenej grafickej reprezentácie jednotlivých jej prvkov sa SSN veľmi podobá na KSSJ. Na prvý pohľad udrie do očí len pravopis používaný pri zápise nárečových dokladov, ktorý obsahuje niektoré znaky neznáme v spisovnom pravopise (napr. ć alebo ś), a informácia o lokalite, z ktorej daný doklad pochádza. Na zápis uvedených znakov sa použila notácia so znakom „opačná lomka“, čiže napr. znak ć sa zapísal ako c\’, a na lokality sa zaviedol „nový pár“ operátorových zátvoriek (hranatých) s tým, že ich výsledná grafická podoba sa určí neskôr. Príklad časti textu SSN vo formáte MOM je na nasledujúcom obrázku: !1 "čaba" |ž.| i "čabiak" |m. vin.| sorta skorého bieleho stolového hrozna, čabianska perla: ’Bola čaba, malaga, to boli skoré hrozni na jedzení’ [Limbach MOD]; ’To boli záliskové hrozni, na čabe ešče dozráli’ [Vinosady MOD]; ’V águste uš čabág zraje’ [Jur p. Brat. BRA]; ’Bol bílí, červení tokaj, portogézija, čabák’ [Bernolákovo BRA] !2 "čabaňa^1" i "čabanka" |ž. trn, pov, jtrenč| malá nádoba s uškom (obyč. porcelánová al. hlinená), z ktorej sa pije: ’Vipila sis kávu s čabani?’ [Vaďovce MYJ]; ’Boli také kamené hrnčeki, kamenáčki, aj čabanka sa im hovorilo’ [Vinosady MOD]; ’čabaňa’ [Bošáca TRČ]; ’čabanka’ [Ružindol TRN] !3 "čabaňa^2" i "čabianka" |ž.| (’čabanka’) |vin.| sorta skorého bieleho stolového hrozna, čabianska perla: ’Stolové hrozne boli strapág aj čabana’ [Vištuk MOD]; ’Mán tam rizlink, portugal, mán tan čabanu’ [Bučany HLO]; ’Je čabaňa a bílí samorodák, kerí má velice slatkú chuť podobnú čabaňe’ [Nitra]; ’Mávali zme skorú sortu čabanku’ [Trakovice HLO]; ’čabianka’ [Pukanec LVI] !4 "čabarok" |m.| druh chrobáka obžierajúceho lístie stromov, |zool.| chrúst obyčajný (Melolontha vulgaris): ’Čabarog vľecel do chiži’ [Medzany SAB] !6 "čabda" |ž. gem| pasca na vtáky: ’čabda’ [Revúca] 193 VLADIMÍR BENKO Hlavným problémom reprezentácie slovníkového textu vo formáte MOM bolo to, že sa pri prepise často zabudlo na otváraciu alebo zatváraciu operátorovú zátvorku. Rozhodli sme sa preto vytvoriť kontrolný program, ktorý zhodu zátvoriek kontroluje a upozorňuje na všetky „nevyváženosti“ výpisom riadkov textu, v ktorom sa problém vyskytol. Tento program sa neskôr stal základom validačného parsera, ktorý kontroluje správnosť syntaxe heslových statí a štandardne upozorňuje na tieto chyby: 1. 2. 3. 4. 5. 6. nevyváženosť nepárových operátorových zátvoriek; nevyváženosť párových zátvoriek (pričom tieto môžu byť aj vnorené); chýbajúce alebo nadbytočné medzery okolo interpunkčných znamienok (ide o bodku, čiarku, dvojbodku, bodkočiarku, výkričník, otáznik a operátorové zátvorky); viacnásobné medzery v texte (často indikujúce napr. chýbajúce jednoznakové predložky alebo spojky); postupnosť čísel významov (označených polotučným písmom; algoritmus je tu veľmi jednoduchý: ak sa vyskytne polotučná číslovka, musí to byť buď jednotka, alebo číslo o jednotku väčšie, ako bol jej predchádzajúci výskyt v danej heslovej stati); postupnosť písmen „a)“ až „z)“ v rôznych zoznamoch (berie sa do úvahy aj možnosť „ch)“). Voliteľne možno navyše žiadať o tieto kontroly: 7. 8. postupnosť čísel v identifikačných riadkoch začínujúcich výkričníkom (takto sa často objaví vynechanie kartičky pri prepisovaní); prítomnosť nadbytočných medzier na začiatku riadka. Možno povedať, že pomocou validačného parsera sa hneď v zárodku dá odstrániť veľké množstvo chýb, ktoré sa pri klasickom spôsobe práce zdĺhavo hľadali v korektúrach. Zároveň sa postupne zlepšujú aj pisárske návyky autorov textu s tým, že časom sa počet chýb kontrolovaných typov už pri prvotnom vstupe podstatne zníži. V prvých projektoch sme procedúru validačného parsera modifikovali pre každý nový kontrolovaný slovník, dnešná podoba programu je už rovnaká pre viacero projektov, pričom odlišnosť vo funkcii sa špecifikuje pomocou vstupných parametrov. 194 POČÍTAČOVÁ PODPORA SLOVENSKÝCH LEXIKOGRAFICKÝCH PROJEKTOV – RETROSPEKTÍVNY POHĽAD Celkovo možno konštatovať, že použitie počítača v projekte SSN síce neprinieslo skrátenie prác, zato však kvalita textu podstatne stúpla. 4. Recyklácia skúseností a nástrojov: Historický slovník slovenského jazyka (III. a IV. zväzok) V čase dokončovania prác na 1. zväzku SSN mal iný slovníkový projekt – Historický slovník slovenského jazyka (ďalej len HSSJ) – za sebou už dva zväzky: HSSJ I (1992) a HSSJ II (1993), ktoré boli vytlačené tradičnou technológiou. Po skúsenostiach so SSN sa vedenie JÚĽŠ rozhodlo využiť počítačovú technológiu aj pri tomto projekte, ktorý bol v podobnej etape rozpracovania ako SSN I. Vzhľadom na nedostatok pisárskej kapacity na pracovisku sa však text prepisoval externe, pričom dodávateľ bol schopný pracovať len vo formáte textového procesora T602, na ktorý boli jeho pracovníčky zvyknuté. Keďže program T602 neumožňuje pracovať s rôznymi veľkosťami písma, bolo toto písmo zapisované pomocou písma podčiarknutého. Štruktúra heslovej state HSSJ je veľmi podobná s predchádzajúcimi, pričom rozdiely sú dané jednak charakterom dokladového materiálu (zapisovaného v historickom pravopise) a jednak tým, že bola zvolená „opačná“ konvencia pri reze písma v zápise výkladov a dokladov: výklady sú v HSSJ zapísané kurzívou a doklady obyčajným stojatým písmom.3 !2774d "oťažiť" [otíž-] |dk práv| "1." |koho| ’zaťažiť obžalobou, obžalovať niekoho’: kdyz gemu to bude nagdeno, ze on to dobrze muoz vdielati, tehdy otižes (!) geho podle prawa, kterak sie gma geho podgiti, ze by gemu mohlo ku pomoczy przigiti k geho prawu |ŽK 1473| "2." |komu čo| ’priťažiť niekomu (v súdnom spore)’: kterzyz z nich nagprwe vmrze, ten obdrzy zalobu a onomu geho rany obtizy |ŽK 1473| !2774d "otcovizeň" |p.| "otčizeň" !2775a "otcovsko-materinský" |príd| ’týkajúci sa otca i matky’: z običajuv, vúle, zádosti a činuv otcovskomaterinskích mnoho do dítek prelívano bíva |BR 1785| 3 Takáto konvencia je obvyklá v niektorých českých lexikografických dielach. 195 VLADIMÍR BENKO !2775b "otcovský" |p.| "otec" !2775c "otcovstvo" [-o, -í] |s| ’stav toho, kto je otcom’: klekam na swá kolena k Otcy Pana nasseho Gežjsse Krysta, z kterehožto každe otcowstwo na neby y na zemy gmenuge se |SK 1697|; nagmilostiwegšý ten Pán i w panstwú swém na otcowstwj swé |BN 1790|; otcoustvi zalezi v tom, že gich za svich uznava, duszi telem opatruge, wiučuge, napomina, pokutuge |SS 18. st| !2775d "otcozabíjač" |m| ’otcov vrah’: pribyhagú wogáci, publikáni, kúrwi, modloslužebnjci, otcúwzabigaci, čzarodewnjci, swodnjci |BlR 18. st| Pri spracovaní textu slovníka sa už do značnej miery dosiahla úspora programátorskej práce – využili sa hotové nástroje, ktoré bolo treba len mierne upraviť – a ako úplne nová vznikla len procedúra konverzie z formátu programu T602 do formátu MOM. Ukázalo sa, že je to proces vcelku priamočiary. Jediným vážnejším problémom bola iná konvencia pri zápise „typu písma“ pri znaku „medzera“: formát MOM predpokladá, že úvodná a koncová medzera pri vyznačenom type písma je zapísaná obyčajným písmom, zatiaľ čo vo formáte T602 medzera vždy má rovnaký typ písma ako predchádzajúci text. Na elimináciu tohto problému sa však dala pomerne ľahko vytvoriť automatizovaná procedúra, takže redakčné práce už mohli počítať s textom v štandardnej podobe. Pri príprave tlačových podkladov sa ukázala ešte jedna výhoda toho, že text je v počítačovej podobe: pri odhade počtu vytlačených strán vysvitlo, že pripravený text bude potrebné rozdeliť do dvoch zväzkov (HSSJ III 1994 a HSSJ IV 1995) – počas celého obdobia koncipovania textu autori mali značne skreslenú predstavu o tom, koľko ho vlastne je. 5. Trochu iný slovník: Synonymický slovník slovenčiny Projekt Synonymického slovníka slovenčiny (1995, ďalej len SSS) sa z pohľadu autorov líšil od predchádzajúcich najmä v spôsobe rozdelenia materiálu medzi jednotlivých členov kolektívu. Na rozdiel od tradičného členenia textu na „písmená“ tu autori pracovali „podľa slovných druhov“ – táto taktika bola asi jediná možná vzhľadom na to, že synonymia predstavuje vzťahy medzi slovami toho istého slovného druhu, a tiež vzhľadom na veľké množstvo odka196 POČÍTAČOVÁ PODPORA SLOVENSKÝCH LEXIKOGRAFICKÝCH PROJEKTOV – RETROSPEKTÍVNY POHĽAD zov, ktoré museli autori pri tvorbe synonymických radov zohľadniť a spracovať. O tomto projekte podrobnejšie porov. Pisárčiková – Benko (1996). Tu sa obmedzíme len na niekoľko poznámok. Nasledujúci obrázok obsahuje príklad textu SSS: !a69 "čudácky" |p.| čudný !s115 "čudák" človek, ktorého správanie, prejavy sa vymykajú norme: ’v mladosti bol čudák’, |hovor. expr.| "patrón": ’je to čudný patrón, nechodí do spoločnosti’, |expr.:| "odľud, čudo" [J. Horák], |zastar.| "podivín" !a70 "čudesný" |p.| čudný !s116 "čudeso" |p.| zázrak !a71 "čudný" ktorý sa vyznačuje mimoriadnosťou, zriedkavosťou; ktorý je málo známy, ktorý sa nedá presne pomenovať, určiť, "neobyčajný, nezvyčajný, nevšedný, zvláštny" (|op.| obyčajný, bežný, všedný): ’čudný, neobyčajný príbeh; čudné, nezvyčajné správanie; nezvyčajný, nevšedný, zvláštny strom’, "divný, podivný, podivuhodný, podozrivý, znepokojujúci" (vzbudzujúci údiv, počudovanie, znepokojenie): ’začuť divné, podivné, podivuhodné zvuky; podozrivé, znepokojujúce ticho’, "čudácky" (typický pre čudáka): ’vedie čudácky život’, |kniž.:| "bizarný, pitoreskný": ’bizarné, pitoreskné tvary’, |expr.:| "čudesný, prečudesný, prečudný, predivný, prepodivný, prapodivný, prazvláštny", |expr. zried.| "pračudný" (veľmi čudný): ’čudesná, prečudesná, prečudná krajina; prepodivný, pračudný pocit’, "nepochopiteľný, záhadný, tajomný" (plný tajomstva, nepoznaný, nepreskúmaný): ’nepochopiteľná, záhadná osoba; tajomné symboly’, "nevysvetliteľný": ’nevysvetliteľná záhada, nevysvetliteľný úkaz’ !s117 "čudo" "1." |p.| zázrak "2." |p.| strašidlo 1 "3." |p.| čudák !v78 "čudovať sa" pociťovať a prejavovať prekvapenie, údiv, "diviť sa, byť prekvapený": ’diváci sa čudujú, divia, sú prekvapení, že sa predstavenie ešte nezačalo’, "žasnúť, byť ohromený" (čudovať sa vo veľkej miere): ’žasli sme nad výkonmi športovcov’, |expr.:| "vyvaľovať oči, otvárať oči, híkať, ochkať, achkať": ’čudujem sa toľkej odvahe, otváram oči nad toľkou odvahou; čuduje sa, híka, achká nad toľkou krásou’, "prekvapuje ma" (iba v 3. os.): ’čudujem sa tomu, prekvapuje ma to’, |fraz. expr.| "oči mu vyliezajú z jamiek/jamôk" (pri veľkom prekvapení) 197 VLADIMÍR BENKO Aj keď sme sa o tom pri predchádzajúcich projektoch nezmieňovali, jedným z nástrojov vytvorených na výsledné spracovanie textu slovníka bol program na abecedné usporiadanie hesiel vo formáte MOM. Vzhľadom na to, že autori dodávali jednotlivé úryvky textu už abecedne usporiadané, poslúžil tento program „len“ na zisťovanie drobných chýb, ktorých sa autori pri ručnom usporadúvaní dopustili. V projekte SSS však existencia takéhoto nástroja bola takmer nevyhnutnosťou – ručné usporiadanie takto rozsiahleho textu je síce možné uskutočniť, ale bola by to obrovská práca. Nebudeme sa tu zmieňovať o nuansách a teoretických i praktických problémoch implementácie programu na abecedné usporadúvanie, spomenieme len, že na danom projekte prešiel skúškou ohňom a že je to z celého balíka vytvorených nástrojov pravdepodobne „najotestovanejší“ program. Jeho použitie umožňovalo autorom, aby až do posledného momentu mohli pracovať len so „svojím“ textom, ktorý sa stal súčasťou výsledného tvaru slovníka pri každom korektúrnom cykle nanovo. Druhou oblasťou problémov bola verifikácia správnosti odkazov: v heslových statiach sú jednotlivé členy synonymických radov uvádzané v poradí klesajúcej zhody významu s tzv. dominantou, t. j. základným členom synonymického radu. Aby mohol používateľ slovníka nájsť príslušnosť jednotlivých členov synonymického radu k dominantám, musí byť každý člen radu uvedený v slovníku na správnom mieste podľa abecedného poradia vo forme odkazu. V ideálnom prípade by sa všetky takéto odkazy dali vygenerovať automaticky – v praxi to však nebolo možné z viacerých dôvodov. Prvým je skutočnosť, že ak sa heslové slovo vyskytuje vo viacerých synonymických radoch, musia byť aj odkazy členené podľa jednotlivých významov slova, t. j. autor musí pri spracúvaní odkazov zohľadňovať polysémiu. Ďalej, koncepcia slovníka predpokladala, že členy radov s učitými charakteristikami (napr. nespisovné alebo nárečové slová) sa vo forme odkazov uvádzať nebudú, pretože sa neočakáva, že by používateľ slovníka takúto informáciu v diele hľadal. A nakoniec, technológia práce autora bola v skutočnosti iteratívna – v niekoľkých kolách sa pre každý význam polysémického slova autor rozhodoval, či ho spracuje ako dominantu synonymického radu alebo len vo forme odkazu. Tieto dôvody viedli k tomu, že odkazy nebolo možné vytvoriť automaticky, ale bolo ich potrebné verifikovať. Navrhnutá procedúra zaradila každý odkaz a každý výskyt slova v synonymickom rade do jednej z kategórií: 198 POČÍTAČOVÁ PODPORA SLOVENSKÝCH LEXIKOGRAFICKÝCH PROJEKTOV – RETROSPEKTÍVNY POHĽAD 1. 2. 3. Správny odkaz: pre člen synonymického radu existuje odkazová položka na správnom mieste v abecede. Chýbajúci odkaz: pre člen synonymického radu neexistuje odkazová položka – príčinou môže byť buď rozhodnutie autora, alebo omyl. Nadbytočný odkaz: pre danú položku neexistuje buď daná dominanta, na ktorú slovo odkazuje, alebo pri existujúcej dominante dané slovo nefiguruje ako člen synonymického radu. Okrem toho procedúra umožnila odhaliť duplicity v synonymických radoch, t. j. situácie, keď sa dané slovo vyskytuje v synonymickom rade viackrát (obyčajne na rôznych miestach), ktorých bolo na počudovanie niekoľko desiatok. Chyby druhého a tretieho typu boli buď „čisté“, t. j. autorské omyly v zmysle definície, alebo sa často vyskytovali aj v dôsledku preklepov v zápise príslušných slov – takéto prípady boli indikované dvojicou chybových zápisov (druhého a tretieho typu) týkajúcou sa tej istej chyby. Vlastné opravy chýb v odkazoch si síce vždy vyžadovali autorskú prácu, táto však bola uľahčená presnou informáciu o lokalizácii problému v dvojici synonymický rad – odkaz. Procedúra verifikácie a ručných opráv prebehla v niekoľkých cykloch, pričom po každom jej kole počet nájdených chýb podstatne poklesol: z pôvodných niekoľko tisícok až na niekoľko desiatok na konci opravného procesu. Pri prvom kole bolo z rôznych dôvodov označených za chybné takmer 10 % odkazov – táto skutočnosť jasne demonštruje, že bez použitia automatizovaných verifikačných procedúr by takýto slovník v rozumnej kvalite ani nebolo možné pripraviť. 6. Kruh sa uzatvára: tretie vydanie Krátkeho slovníka slovenského jazyka Práca na novom vydaní KSSJ bola pre nás značnou satisfakciou – pri autorských zásahoch bolo možné použiť elektronickú verziu druhého vydania, čo celý proces skrátilo podľa našich odhadov minimálne o jeden rok. Súbor nástrojov na spracovanie textu bol už v podstate uzavretý a organizácia práce prebiehala rutinným spôsobom. Zmienime sa tu preto len o jednom novom prvku použitom pri redakčných prácach – o prezentácii zmien urobených v slovníku. Porovnávanie dvoch textov pomocou počítača je pomerne priamočiary proces, problematické je však efektívne zobrazenie nájdených rozdielov. Ako príklad nášho riešenia uvedieme vizualizáciu rozdielov v heslároch obidvoch vydaní KSSJ, ktorá sa osvedčila v takejto dvojstĺpcovej podobe: 199 VLADIMÍR BENKO 2c-056c18 "celieť sa" 3c-003___ "celebrovať" 3c-056c70 3c-056c70 3c-004___ 3c-004a__ 3c-057a73 3c-005___ 3c-006___ 3c-006___ 3c-007___ 3c-008___ "celiť" "celiť sa" "celoplošne" "celosieťový" "celulózovo-papiernický" "centiliter" "certifikácia" "certifikačný" "cestovka" "cezhraničný" 2c-058b04 "CGT" 2c-058b05 "CIA" 2c-058b15 "CIC" 2c-059a01 "cigánčina" 3c-009___ "ciachovné" 3c-009a__ "cicavý" 3c-059a01 "cigánčina^1" 3c-059a51 "cigánčina^2" V ľavom stĺpci sa nachádzajú heslové slová, ktoré sa vyskytujú v 2. vydaní KSSJ a v 3. vydaní boli vynechané, v pravom stĺpci sú novopridané heslové slová v 3. vydaní. Ako vidíme, v novom vydaní boli vynechané iniciálové skratky, pribudlo veľa nových hesiel a k niektorým heslám boli pridané homonymá. Takýto spôsob prezentácie rozdielov si autori veľmi obľúbili, a preto sme ho použili aj v iných projektoch, ako aj na vizualizáciu rozdielov medzi heslármi rôznych slovníkov. 7. Záver: O čom sme nehovorili a čo nás ešte čaká Predchádzajúce kapitoly sa stručne dotkli počítačového spracovania niekoľkých slovenských slovníkov. V štúdii daného rozsahu sme sa jednotlivým projektom nemohli venovať podrobnejšie, a tak sme nespomenuli napr. pomerne efektívnu metódu vyhľadávania chybných zápisov jednotlivých prvkov metajazyka slovníka (akými sú napr. rôzne kvalifikátory a údaje o prameňoch, citáciách a lokalitách), ako aj metodiku na unifikáciu výkladových parafráz pri heslách patriacich do rovnakej lexikálnej skupiny. Nezmienili sme sa o ostatných lexikografických projektoch využívajúcich uvedenú technológiu – ide o niekoľko prekladových slovníkov na jednej strane spektra, ktoré na druhej 200 POČÍTAČOVÁ PODPORA SLOVENSKÝCH LEXIKOGRAFICKÝCH PROJEKTOV – RETROSPEKTÍVNY POHĽAD strane siaha až po nový projekt viaczväzkového slovníka súčasnej slovenčiny. Predpokladáme, že tieto údaje budeme môcť uviesť v budúcej monografii. Všetky naše doterajšie práce sa vykonávali nad tzv. slabo štruktúrovaným textom, kde je text slovníka reprezentovaný pomocou značkovacieho jazyka blízkeho typografickej reprezentácii. Má to viacero príčin. Na prvom mieste treba uviesť stav technického a programového zabezpečenia v čase, keď sa naše projekty začínali – v roku 1989 sa ešte vôbec nedalo uvažovať ani o systémoch typu WYSIWYG, ani o platforme schopnej spracúvať text reprezentovaný v jazyku SGML. Počas celého uvažovaného obdobia sme pociťovali akútny nedostatok programátorskej kapacity – realizovateľné boli len tzv. „lacné riešenia“. No a nakoniec tu bol tlak bežiacich projektov: v časovej tiesni sa obyčajne dáva prednosť „vrabcovi v hrsti“ (MOM) pred „holubom na streche“ (SGML a všetko, čo s tým súvisí). Nechceme však povedať, že sme túto cestu zavrhli. S počítačmi so stále rastúcou výkonnosťou, dostupnejšími nástrojmi pre prácu s jazykmi SGML a XML a s črtajúcim sa projektom nového korpusového pracoviska v JÚĽŠ SAV dúfame, že ono – v tomto zborníku už citované (Smrž 2001) – „... Maybe Later“ bude aj u nás hovoriť o budúcnosti nie príliš vzdialenej. Literatúra BENKO, Vladimír – HAŠANOVÁ, Jana – KOSTOLANSKÝ, Eduard. 2001. Morfologická databáza ohybných slovných druhov slovenčiny na účely algoritmického spracovania textov. In: Jazykovedný časopis, roč. 52, č. 1, s. 3 – 23. BENKO, Vladimír – KOSTOLANSKÝ, Eduard. 1997. Počítačová verzia Krátkeho slovníka slovenského jazyka. In: Jazykovedný časopis, roč. 48, č. 1, s. 9 – 20. KAČALA, Ján – PISARČÍKOVÁ, Mária (eds.). 1987. (1. vydanie). Krátky slovník slovenského jazyka. Bratislava: Veda. KAČALA, Ján – PISARČÍKOVÁ, Mária – POVAŽAJ, Matej (eds.). 1997. (3. vydanie). Krátky slovník slovenského jazyka. Bratislava: Veda. MAJTÁN, Milan (ed.). 1992. (1. vydanie). Historický slovník slovenského jazyka. I. zv. Bratislava: Veda. MAJTÁN, Milan (ed.). 1993. (1. vydanie). Historický slovník slovenského jazyka. II. zv. Bratislava: Veda. MAJTÁN, Milan (ed.). 1994. (1. vydanie). Historický slovník slovenského jazyka. III. zv. Bratislava: Veda. MAJTÁN, Milan (ed.). 1995. (1. vydanie). Historický slovník slovenského jazyka. IV. zv. Bratislava: Veda. 201 VLADIMÍR BENKO PISÁRČIKOVÁ, M. – BENKO, V. 1996. Slovak Synonym Dictionary. In: Gallerstam, M. et al. (eds.), EURALEX ’96. Proceedings of the Seventh EURALEX International Congress on Lexicography. Göteborg: Götebog University, s. 689 – 696. RIPKA, Ivor (ed.). 1994. (1. vydanie). Slovník slovenských nárečí. I. zv. Bratislava: Veda SMRŽ, Pavel 2001. Slovníková data ve formátu XML. In: Alexandra Jarošová (ed.), Slovenčina a čeština v počítačovom spracovaní. Bratislava: Veda, s.168. 202 203 S L O V E N Č I N A A Č E Š T I N A V P O Č Í TA Č O V O M S P R A C O VA N Í Návrh obálky Hana Kohútová (s použitím grafického motívu P. Kleeho) Zodpovedná redaktorka Jitka Madarásová Prvé vydanie. Vydala VEDA, vydavateľstvo Slovenskej akadémie vied, v Bratislave roku 2001 ako svoju 3378. publikáciu, z tlačových podkladov Jazykovedného ústavu Ľudovíta Štúra SAV. 196 strán. ISBN 80-224-0692-9
Podobné dokumenty
oznámení o doručení písemnosti veřejnou vyhláškou
OZNÁMENÍ O DORUČENÍ PÍSEMNOSTI VEŘEJNOU VYHLÁŠKOU
VoZP ČR tímto v souladu s § 53b) zák. č. 48/1997 Sb., o veřejném zdravotním pojištění a § 26d) zák. č. 592/1992 Sb.,
o pojistném na veřejné zdravot...
OBJEMOVÉ PRŮTOKY V [m3 h-1] - Katedra technických zařízení
Objemové průtoky zemního plynu u jednotlivých typů spotřebičů – ORIENTAČNÍ!!!
Výkon Q Objemový průtok V Typ pro
Typ spotřebiče
výpočet
[kW]
[m3 h-1]
A) Plynový sporák
MORA PS – 2 hořáky
MORA PS 1...
T-Mobile MDA
Přepnutí na funkci Transcriber: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .24
Použití interpunkčních znamének ve funkci Trans...
Praxe Vnější vazby budovy zajišťované TZB Technická Zařízení Budov
prof.. Ing.
Ing. Karel
Karel Kabele,
Kabele, CSc.
CSc.