od cuni.cz - Český národní korpus
Transkript
korpusová lingvistika Praha 2014 20 let mapování češtiny Abstrakty IV. pražská konference korpusové lingvistiky pořádaná u příležitosti 20. výročí založení Českého národního korpusu 17.–19. září 2014 Tato publikace vznikla v rámci Programu rozvoje vědních oblastí na Univerzitě Karlově č. P11 Český národní korpus, podprogram Český národní korpus. Obsah Plenární přednášky Paul Baker Counting all the cherries: using corpora to analyse discourses..................... 12 Cyril Belica Kookurenčná analýza a jazykové štruktúry........................................................ 13 Neil Bermel Mapování jazykové variability ve světle korpusové frekvence a odpovědí rodilých mluvčích................................................................................ 14 Karel Kučera Dvacet let poté........................................................................................................... 15 Konferenční příspěvky Lucie Benešová, Michal Křen, Martina Waclawičová Korpus spontánní mluvené češtiny ORAL2013.................................................. 18 Vladimír Benko Je webový korpus „horší“?...................................................................................... 21 Tilman Berger, Stefan Heck Performativní užívání dokonavého prézentu v češtině ve srovnání s jinými slovanskými jazyky............................................................ 24 Aleš Bičan Fonologický lexikální korpus češtiny a jeho analýza........................................ 27 František Cvrček, Karel Pala, Pavel Rychlý Chování slov a jejich kolokací v jazyce právních subdomén.......................... 29 Václav Cvrček, Jiří Václavík Kvantitativní pohled na kontextovou desambiguaci......................................... 32 3 Tomáš Čapka, Michal Křen, Petr Truneček SynKorp: prostředí pro správu a zpracování textů............................................ 35 Radek Čech, Emmerich Kelih, Ján Mačutek Vliv sémantiky na vlastnosti pádové distribuce podstatných jmen v češtině............................................................................................................. 39 František Čermák Kolokace a kolokabilita synsémantik: Substituty a interjekce........................ 41 Alena M. Černá Staročeské lexémy „nemoc“, „neduh“, „nedostatek“ – jejich sémantická a gramatická charakteristika............................................................. 43 Lenka Fárová Uvozovací slovesa v překladech typologicky rozdílných jazyků................... 45 Jarmila Fictumová, Jiří Rambousek Jak se mění zrádná slova?........................................................................................ 48 Masako Fidler, Václav Cvrček Prezidentské projevy: Analýza tematické výstavby a řečových strategií pomocí KWords ........................................................................................ 51 Markus Giger Subjektová rezultativa v češtině ve srovnání s ruštinou.................................. 53 Hana Goláňová, Marie Kopřivová Kartografické a geografické zpracování dat z mluvených korpusů............... 55 Zbigniew Greń Formální variabilita nejnovějších anglicismů v češtině, polštině a slovenštině (na korpusovém materiálu)............................................................ 57 Milena Hebal-Jezierska Obraz(y) Američana a Angličana v korpusech českého, slovenského a polského jazyka.............................................................................. 60 Jiří Hedánek GLOSSA, metajazyk pro popis zvukové stránky textu..................................... 62 4 Zdeňka Hladká Užití korpusu korespondenčních textů KSK111 k sledování dynamiky české slovní zásoby ve 20. století....................................................... 64 Jaroslava Hlaváčová Vyjádření intenzity slovesného děje pomocí předpon...................................... 66 Milena Hnátková Automatická identifikace ustálených kolokací v diachronních textech....... 68 Jana Hoffmannová, Olga Richterová Si představ, se nediv, ti to ukážu… Jednoslabičné začátky syntaktických segmentů v mluvené češtině........................................................ 71 Andrzej Charciarek Národní korpusy a velké překladové polsko-české a česko-polské slovníky........................................................................................... 73 Pavla Chejnová Využití korpusu dětské řeči k popisu akvizice morfologických kategorií......................................................................................... 77 Lucie Chlumská Je čeština v překladech jiná? ................................................................................. 78 Lucie Jílková Vy jste mi z té otázky utekl! (analýza jednoho způsobu vymáhání odpovědi, s využitím korpusových dokladů)...................................................... 81 Karel Jirásek Identifikace typologických rozdílů mezi češtinou a chorvatštinou za pomoci paralelního korpusu InterCorp........................................................... 84 Elżbieta Kaczmarska, Alexandr Rosen, Jirka Hana Jak najít optimální překlad polysémních sloves – porovnání metod automatické analýzy paralelních textů.................................................... 86 Tomáš Káňa Česká nesubstantivní deminutiva a jejich protějšky v němčině a angličtině.............................................................................................. 89 5 Adam Kilgarriff, Pavel Rychlý, Miloš Jakubíček, Vojtěch Kovář, Vít Suchomel, Jan Bušta, Vít Baisa, Jan Michelfeit Multilingual data processing in Sketch Engine.................................................. 92 Petra Klimešová, Zuzana Komrsková, Marie Kopřivová, David Lukeš Co že to je? K tvaru to v mluvených korpusech ČNK........................................ 95 Ivana Kolářová Slovesa odvozená od adverbií jako periferie slovotvorného systému (na materiále Českého národního korpusu)....................................... 99 Veronika Kolářová Preference v souvýskytu aktantů u českých substantiv mluvení................ 102 Pavel Kosek Vývoj slovosledu kondicionálového auxiliáru v češtině................................. 106 Dominika Kováříková Slovní druhy v mluvené a psané češtině............................................................ 110 Boris Lehečka Obsah a značkování diachronního korpusu češtiny........................................ 112 Eva Lehečková Konstrukční specifika dvou sémantických typů obouvidových sloves v češtině......................................................................................................... 114 Martina Lev Voľné datívy a DcI-konštrukcie. Distribučná štúdia na materiáli podkorpusu českého synchrónneho korpusu SYN2010 a podkorpusu ruského osnovného korpusu...................................................... 118 Michaela Lišková, Helena Pernicová Pojmenování barev a jejich odstínů v Akademickém slovníku současné češtiny...................................................................................................... 122 David Lukeš Perspektivy fonetické anotace v korpusech mluveného jazyka................... 125 6 Jiří Mácha Ke kategorizaci plurálií a singulárií tantum – kvantitativní analýza sufixů........................................................................................................... 128 Markéta Malá Překladové protějšky jako ukazatele významu: čeština a angličtina v paralelním korpusu InterCorp.................................................... 130 Michaela Martinková, Martin Šimon Enklitická partikule pak: korpusová studie....................................................... 133 Tereza Mašková, Vojtěch Ripka Korpus jazyka StB.................................................................................................... 135 Vít Michalec, Vojtěch Veselý K souborovému a kolektivně-látkovému významu substantiv s převahou plurálových tvarů.......................................................... 138 Aksana Mikalayenka Homonymní příslovce a předložky a problematika jejich disambiguace v Českém národním korpusu.......................................... 141 Květoslava Musilová Slovakismy v současné češtině............................................................................. 144 Petr Nádeníček Různá pojetí slovotvorné konverze ve světle národních korpusů slovanských a germánských jazyků.................................................... 147 Olga Navrátilová Slovosled nominální fráze ve staré češtině........................................................ 150 Renata Novotná Antropomorfický princip u konkrétních neživotných substantiv: názvy nebeských těles....................................................................... 152 Klára Osolsobě Korpusy jako zdroje dat pro úpravy nástrojů automatické morfologické analýzy (Slovotvorné varianty adjektiv na [(ou)|í]cí a jejich morfologické značkování)....................................................................... 155 7 Hana Peloušková O nepříjemných pocitech. Specifické konstrukce s několika německými slovesy a jejich protějšky v češtině............................................... 158 Vladimír Petkevič Slovnědruhová a morfologická homonymie, homografie a homofonie v současné češtině........................................................................... 160 Žaneta Pixová Čeština soudních rozhodnutí ve světle korpusu.............................................. 164 Petr Plecháč Korpus českého verše a možnosti jeho využití................................................. 166 Alena Polická K možnostem zkoumání (identitární) neologie v ČNK a IC.......................... 167 Alena Poncarová Sestavování korpusu pro syntaktickou anotaci – práce na celý život?...... 169 Petr Pořízka Olomoucký mluvený korpus – pilotní verze.................................................... 171 Olga Richterová, Anna Čermáková Jak malá je malá místnůstka? Korpusová studie deminutivnosti se zaměřením na sémantické aspekty................................................................. 175 Alexandr Rosen, Michala Adamová, Martin Vavřín Extrakce lexikálních ekvivalentů z paralelního korpusu............................... 177 Hana Skoumalová, Jiří Znamenáček, Vladimír Petkevič Využití valenčních slovníků při tvorbě českého treebanku........................... 179 Tess Slavíčková Investigating nepřizpůsobivý (inadaptable) as a keyword in critical analysis of Czech press reports on Roma............................................. 182 Jindra Světlá Uvádění stupňovaných tvarů u adjektiv a adverbií v novém všeobecném výkladovém slovníku češtiny....................................................... 184 8 Karel Šebesta Využití speciálních korpusů Českého národního korpusu pro výzkum jazykového vývoje žáků......................................................................... 187 Magda Ševčíková Přípona -ství/-ctví v současné češtině (korpus jako zdroj dat pro zkoumání slovotvorby)................................................................................... 189 Mária Šimková Predložky s časovým významom v slovenčine a v češtine............................ 193 Jana Šindlerová Alternace aktoru a instrumentu v paralelním česko-anglickém korpusu...................................................................................... 195 Svatava Škodová, Michaela Kuchařová, Václav Lábus, Jasňa Pacovská Reflexe proměn užívání češtiny na základě mluveného korpusu zpravodajského vysílání Českého rozhlasu v letech 1969–2005 ................. 199 Michal Škrabal, Lubomír Ďuroška Cizojazyčné protějšky slov druh a soudruh: situace v lotyštině a slovinštině.............................................................................................................. 201 Jitka Šonková Rozdíly v rozsahu slovní zásoby v Pražském mluveném korpusu: Kdo má bohatší slovník – junioři, senioři, muži nebo ženy? ....................... 204 Jovanka Šotolová, Olga Nádvorníková Za hranice věty........................................................................................................ 205 Barbora Štindlová, Veronika Čurdová, David Beneš Merlin: Multilingvální platforma pro evropské referenční úrovně.............. 208 Tamás Tölgyesi Německé přejímky v běžně mluvené češtině na základě korpusu ORAL2013................................................................................................. 211 Marie Vachková Paradigmatika a syntagmatika v překladovém slovníku................................ 215 9 Kateřina Veselovská Sestry manžel byl kamaráda bratr – ke slovoslednému postavení neshodného atributu vyjádřeného substantivem v genitivu......................... 217 Pavel Vondřička InterText: upečte si vlastní paralelní korpus..................................................... 219 Uliana Yazhinova Syntactic reduplication in Czech and Slovak (corpus-based approach)..... 222 Anna Zitová, Martin Stluka K některým morfologickým zvláštnostem starších českých textů (především 19. století)............................................................................................. 224 Richard Změlík Možnosti jazykového korpusu pro literárněvědnou analýzu na příkladu autorského slovníku Jana Čepa..................................................... 227 10 Plenární přednášky Paul Baker Dapartment of Linguistics and English Language, Lancaster University [email protected] Counting all the cherries: using corpora to analyse discourses Corpora are (usually) very large collections of electronically stored, naturally occurring texts that are aimed to be representative of a particular language variety. They are analysed with the help of computer software which use a combination of statistical tests and ways of presenting data that enable salient patterns of language to be identified. Partington et al (2013: 11) argue that corpus approaches can thus help to uncover “non-obvious meaning”. In this talk I examine how corpus techniques can be used to analyse discourses or “ways of making sense of the world”. As Fairclough (1989: 54) points out “A single text on its own is quite insignificant: the effects of media power are cumulative, working through the repetition of particular ways of handling causality and agency, particular ways of positioning the reader, and so forth”, so it is through the repetition of language that we are able to obtain evidence for stable discourses in societies. Using examples from my own research, I discuss techniques based around comparing frequencies, collocation, keywords, concordances and dispersion data in order to demonstrate how this method of analysis can be implemented. I employ data from tabloid news, parliamentary debates, personal advertisements and spoken conversations in order to ask – what can corpora tell us about discourse that we wouldn’t necessarily have gained from introspection or qualitative analysis of a small number of texts? The talk ends with a discussion of some of the potential pitfalls of this approach. References Fairclough, N. (1989). Language and Power. London: Longman. Partington, A., Dugiud, A. & Taylor, Ch. (2013). Patterns and Meanings in Discourse. Theory and practice in corpus-assisted discourse studies (CADS). Amsterdam: John Benjamins. 12 Cyril Belica Institut für Deutsche Sprache, Mannheim [email protected] Kookurenčná analýza a jazykové štruktúry Kookurenčná analýza má svoje pevné miesto v korpusovej lingvistike už niekoľko desťročí. Vo svojom klasickom variante, keď voliteľnými veličinami sú len veľkosť kontextu, konkrétna funkcia miery asociácie a cieľová lexikálna jednotka, slúži predovšetkým ako prostriedok na kvantifikovanie asociačných vzťahov medzi dvojicami slov v korpuse. Nad rámec tejto v podstate deskriptívnej funkcie však kookurenčnú analýzu možno chápať aj ako metodické východisko pri abdukcii hypotéz interpretujúcich rozmanité druhy pravidelností pozorovaných v ľubovoľnej jazykovej produkcii. Prednáška je venovaná predovšetkým tomuto pohľadu na možnosti kookurenčnej analýzy, s dôrazom na význam viacčlenných kookurencií a syntagmatických vzorcov najmä pre výskum jazykov s relatívne voľným slovosledom. Na pozadí metód vyvinutých začiatkom deväťdesiatych rokov v Ústave nemeckého jazyka (IDS) v Mannheime ukazuje, ako sa pomocou kombinácie kookurenčnej a zhlukovej analýzy dajú v korpusoch izolovať komplexné, mnohovrstevné štruktúry stimulujúce abduktívny prístup k výskumu jazyka. Explanatívny potenciál týchto štruktúr, osobitne z pohľadu lexikálnej sémantiky, je v prednáške načrtnutý na niekoľkých príkladoch interpretácie zhlukovej analýzy kookurenčných profilov lexikálnych jednotiek pomocou neurónových sietí. 13 Neil Bermel Russian and Slavonic Studies, The University of Sheffield [email protected] Mapování jazykové variability ve světle korpusové frekvence a odpovědí rodilých mluvčích Tvrzení, že nám korpus umožní nahlédnout do lingvistických vlastností textů, které v nich najdeme, není kontroverzní. Pokud ale chceme vyvodit, že díky korpusu získáme náhled do jazyka (nebo jazykové variety), ve kterém jsou jeho texty psány, názory nejsou jednotné. K čemu jsou tedy korpusy v mapování struktury jazyka? Pokud by se měla korpusová data jako doklady Saussurovského parole vztahovat k jazykové produkci, počet a proporce tvarů v korpusu by měly hrát významnou roli ve volbách rodilých mluvčích. Pokud ale vycházíme z předpokladu, že korpus odráží jazykové prostředí, které uživatele obklopuje a není přímou ukázkou jeho jazykových dovedností, měli bychom vztahovat korpusová data spíše k hodnocením a posudkům uživatele. Výsledky našich sond do některých „konkurujících si“ morfů v českém deklinačním systému ukazují, že korpusová data mají předpovědní hodnotu jak pro posudky rodilých mluvčích, tak pro užití jednotlivých jevů, a to v daných případech více než jakýkoliv další činitel. Vysokou předpovědní schopnost vzhledem k volbě a hodnocení tvarů má proporcionální frekvence jevů v korpusu; absolutní frekvence se zdá hrát jen vedlejší roli. Nejjasněji a nejmarkantněji se to odráží na volbě mezi tvary, ale co se týče posudků, zjevná neochota mluvčích označovat méně užívané tvary za „nepřijatelné“ nabízí možné vysvětlení, proč se tato variabilita v češtině po staletí udržuje. 14 Karel Kučera Ústav Českého národního korpusu FF UK [email protected] Dvacet let poté Dvacátého výročí založení Ústavu Českého národního korpusu bude v příspěvku využito jednak ke krátkému přehledu nejvýznamnějších výstupů série pěti- až sedmiletých projektů zaměřených na budování korpusového komplexu Českého národního korpusu (ČNK), jednak – především – ke shrnutí hlavních zásad, které se v tomto komplexu uplatňují, a k naznačení představ a plánů týkajících se jeho dalšího rozvoje v budoucnosti. V rozsahu omezeném formou konferenčního příspěvku bude pozornost věnována základním problémům spojeným s obecnými principy (zejména koncepci reprezentativnosti), s možnostmi lingvistické interpretace a značkování korpusových dat, s předpokládanými směry rozvoje korpusového softwaru a se získáváním jazykových dat. Jádro příspěvku je koncipováno jako zamyšlení nad výhodami i nevýhodami přístupů, které byly v minulosti zvoleny v jednotlivých složkách ČNK (synchronní psané a mluvené korpusy, diachronní korpusy, paralelní korpusy, specializované korpusy), nad současnými problémy i nad problémy, které bude třeba řešit v budoucnu, mimo jiné v souvislosti se snahou, aby ČNK v co největší šíři reflektoval komunikační spektrum současného českého jazyka (aktuální potřeba adekvátně zachytit jazyk SMS, různých druhů internetové komunikace ap.) a souvisleji a hlouběji mapoval diachronii češtiny. 15 Konferenční příspěvky Lucie Benešová Ústav Českého národního korpusu FF UK [email protected] Michal Křen Ústav Českého národního korpusu FF UK [email protected] Martina Waclawičová Ústav Českého národního korpusu FF UK [email protected] Korpus spontánní mluvené češtiny ORAL2013 Příspěvek představí nedávno zveřejněný korpus spontánní mluvené češtiny ORAL2013 (Válková et al. 2012), který je výsledkem projektu realizovaného v ÚČNK FF UK v Praze. Korpus je přístupný všem registrovaným uživatelům na adrese <http://korpus.cz> a zachycuje reprezentativní materiál představující autentický mluvený jazyk v neformálních komunikačních situacích. V příspěvku se zaměříme především na představení základní koncepce korpusu ORAL2013, popíšeme způsob transkripce i řešení praktických otázek při sběru dat. Součástí prezentace bude také ukázka práce s korpusem v novém webovém rozhraní KonText. Korpus ORAL2013 se skládá z 835 nahrávek z let 2008–2011 a obsahuje více než 2,7 milionu textových slov (3 285 508 tokenů včetně interpunkce) v přepisech celkem 2 544 mluvčích (z toho 1 297 unikátních). Celková délka nahrávek je 17 471 minut, tj. téměř 300 hodin. ORAL2013 je v pořadí již třetím korpusem řady ORAL, která vzniká jako součást ČNK. Je tedy přirozené, že v mnohém navazuje na své předchůdce, korpusy neformální mluvené češtiny ORAL2006 (Kopřivová & Waclawičová 2006) a ORAL2008 (Waclawičová et al. 2009). Důležitým rysem celé řady je především zachycení prototypicky mluveného jazyka (Čermák 2009); nahrávány byly proto pouze situace splňující následující kritéria: • fyzická přítomnost mluvčích; • dialogičnost promluv (rozhovor dvou nebo více mluvčích); • vzájemný blízký vztah mluvčích; • nepřipravenost, spontánnost; • neveřejná a neoficiální komunikační situace. 18 Maximální možné míry autenticity jednotlivých nahrávek bylo dosaženo tak, že mluvčí většinou nebyli o nahrávání informováni předem, ale až po jeho skončení. Všichni nahraní mluvčí souhlasili s použitím nahrávek pro účely ČNK. Korpus ORAL2013 se zároveň od svých předchůdců odlišuje v následujících bodech. • Pokrytí celého území ČR, tj. Čech, Moravy a Slezska. • Propojení přepisu se zvukovou stopou v transkripčním programu Transcriber (Geoffrois et al. 2000); uživatel si tak může ve webových rozhraních ke každému zobrazenému výrazu přehrát odpovídající část zvukové stopy (segment), a poslechnout si tak jeho realizaci. • Použití pauzové interpunkce, která nahradila původní syntaktickou. • Označení překryvů replik více mluvčích. • Označení shodných mluvčích, kteří vystupují ve více nahrávkách; toto označení je přístupné pomocí náhodně vygenerované „přezdívky“, která je pro daného mluvčího v celém korpusu stejná. • Uvádění informace o typu komunikační situace. • Odlišné pojetí vyváženosti dat. Při sběru dat jsme usilovali o maximální regionální pokrytí a různorodost mluvčích, materiál byl proto průběžně vyvažován v těchto hlavních sociolingvistických kategoriích: pohlaví, věková skupina (mladší/starší mluvčí), vzdělání a oblast pobytu mluvčího v dětství (podle tradičního Běličova dialektologického členění používaného v Českém jazykovém atlase, Balhar et al. 1992–2011). Na rozdíl od korpusu ORAL2008 jsme však nepřistoupili k závěrečnému výběru, jehož výsledkem by bylo plné vyvážení korpusu. Znamenalo by to totiž zbavování se cenného materiálu v situaci, kdy je korpus už dostatečně reprezentativní, zatímco jeho hypotetická „ideální“ vyváženost by byla jednak sporná (zvláště její regionální faktor), a jednak by nebyla ani potřebná, protože nové webové rozhraní umožňuje práci s relativními (a tedy srovnatelnými) frekvencemi. Složení korpusu v základních socio lingvistických kategoriích uvádíme v následujících tabulkách: Pohlaví Věková skupina Vzdělání ženy 1 359 761 mladší (18–34 let) 1 458 386 nižší 1 515 732 muži 1 425 428 starší (35 let a výš) 1 326 803 vyšší 1 269 457 Tabulka 1: Počet slov v hlavních kategoriích. 19 Oblast pobytu v dětství středočeská severovýchodočeská jihozápadočeská české pohraničí česko-moravská středomoravská východomoravská slezská moravské pohraničí počet slov 570 283 353 486 315 716 191 553 83 478 503 391 359 249 317 087 90 946 Tabulka 2: Počet slov podle převažující oblasti pobytu v dětství. Literatura Balhar, J. (Ed.) (1992–2011). Český jazykový atlas, 1–6. Praha: Academia. Čermák, F. (2009). Spoken corpora design. Their constitutive parameters. International Journal of Corpus Linguistics, 14 (1), 113–123. Geoffrois, E., Barras, C., Bird, S. & Wu, Z. (2000). Transcribing with annotation graphs. In: Proceedings from The Second International Conference on Language Resources and Evaluation (LREC), 1517–1521. Kopřivová, M. & Waclawičová, M. (2006). Representativeness of spoken corpora on the example of the new spoken corpora of the Czech language. In: Труды международной конференции „Корпусная лингвистика – 2006“. Санкт-Петербург: Издательство СПбГУ, 174–181. Válková, L., Waclawičová, M. & Křen, M. (2012). Balanced data repository of spontaneous spoken Czech. In Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC), 3345– 3349. Accessed January 30, 2014. http://www.lrec-conf.org/proceedings/ lrec2012/pdf/179_Paper.pdf. Waclawičová, M., Křen, M. & Válková, L. (2009). Balanced corpus of informal spoken Czech: compilation, design and findings. In Proceedings of the 10th Annual Conference of the International Speech Communication Association INTERSPEECH 2009, 1819–1822. 20 Vladimír Benko Jazykovedný ústav Ľ. Štúra SAV [email protected] Je webový korpus „horší“? V súvislosti s takmer exponenciálnym rastom množstva textových dát na internete stúpa zároveň záujem o ich lingvistické využitie. Okrem „naivného“ používania vyhľadávacích služieb na zisťovanie základných údajov o frekvencii výskytu slov a slovných spojení, trochu pejoratívne označovaného ako „Google linguistics“ (porov. Kilgarriff 2007), sme aj svedkami snáh o využitie dát z webu systematickejším a z hľadiska potrieb lingvistov plnohodnotnejším spôsobom. Jedným z vývojových smerov v tejto oblasti je tvorba webových korpusov, v rámci ktorej sa dáta vo veľkom objeme sťahujú z webu pomocou automatizovaných procedúr využívajúcich sofistikované stratégie hodnotenia obsahu jednotlivých webových lokalít z hľadiska využiteľnosti v korpuse (Suchomel & Pomikálek 2012), následne sa filtrujú a deduplikujú, takže výstup v textovej podobe možno ďalej spracovať štandardnými metódami a technológiami korpusovej lingvistiky (tokenizácia, morfologická anotácia a spracovanie korpusovým manažérom). Za posledné desaťročie sa tvorba webových korpusov etablovala ako samostatná oblasť korpusovej lingvistiky, má svoju sekciu v Asociácii pre počítačovú lingvistiku (ACL SIGWC), pravidelné konferencie (WAC) a dočkala sa už aj prvej monografie (Schäfer & Bildhauer, 2013). Okrem zjavných výhod webových korpusov oproti „tradičným“ (dajú sa vytvoriť omnoho rýchlejšie a s neporovnateľne väčším rozsahom, obsahujú aj žánre, registre a domény typicky absentujúce v tradičných korpusoch, dáta sú k dispozícii prakticky pre ľubovoľný jazyk, nové tendencie v jazyku sa v nich odrazia prakticky okamžite) majú samozrejme a veľa nedostatkov, ktoré spôsobujú problémy nielen pri ich tvorbe a anotácii, ale aj pri lingvistických analýzach (len v nepatrnom rozsahu vieme ovplyvniť a dokonca aj zistiť, aké texty vlastne obsahujú, a značná časť textov je „zašumená“, napr. používa neštandardnú ortografiu prípadne jazykovú varietu, alebo obsahuje čiastočne nezmyselné slová v dôsledku chýb pri znakových konverziách, filtrácii či identifikácii jazyka dokumentov. Pre jednotlivé dokumenty v korpuse je k dispozícii len minimálna bibliografická anotácia, väčšinou obmedzená len na adresu webovej stránky a dátum jej stiahnutia z webu. Vzhľa- 21 dom na technické obmedzenia procesu sťahovania dát z webu je principiálne nemožné určiť (socio)lingvisticky dôležitý parameter – dátum vzniku dokumentu. Problémy sú aj s nejasnou situáciou ohľadne autorských práv jednotlivých textov – pri počtoch dokumentov rádovo v miliónoch nie je v silách žiadneho korpusového pracoviska riešiť túto otázku pre každý text individuálne. V súčasnosti už existuje veľa jazykov, pre ktoré okrem tradičných korpusov bol vytvorený aj webový korpus porovnateľného, či dokonca ešte väčšieho rozsahu. Každému (korpusovému) lingvistovi sa v takejto situácii prirodzene núkajú otázky: Aké dôsledky má pre môj výskum existencia dvoch „vzoriek jazyka“ vytvorených odlišnou metodológiou a technológiou? Ktorá z nich poskytuje vhodnejší podklad na zovšeobecnenie výsledkov? Je niektorý z korpusov „horší“? Aj slovenčina patrí medzi jazyky, kde sa na takéto otázky môžeme pokúšať hľadať odpoveď. Je to dané projektom Slovenského národného korpusu, v rámci ktorého sa systematicky buduje tradičný korpus na báze textov pokrytými autorskými právami (beletria, odborné publikácie a publicistika) a tiež tým, že sa paralelne budujú aj webové korpusy. Hlavný korpus SNK (6.1) má v súčasnosti rozsah okolo 830 miliónov tokenov a tri existujúce webové korpusy (vytvorené v rozličnom čase, rozličnými autormi a rozličnými procedúrami) majú rozsahy (po deduplikácii na úrovni dokumentov) 195, 875 a 2 980 miliónov tokenov. V príspevku opisujeme práve prebiehajúci experiment, v ktorom sa pokúšame potvrdiť alebo vyvrátiť tvrdenie, podporené našimi skúsenosťami s prácou s webovými aj tradičnými korpusmi: „Webový korpus nie je „horší“ ako tradičný korpus rovnakého rozsahu. V prípade, že webový korpus je väčší (čo je veľmi častý prípad), môže byť dokonca „lepší“, než korpus tradičný.“ Naše tvrdenie sa však obmedzuje len na použitie korpusu ohraničené našou skúsenosťou, t. j. v lexikografii. Experiment pozostáva z rekonfigurácie pôvodných korpusových dát tak, aby vzniklo niekoľko webových korpusov s rovnakým rozsahom, ako má referenčný tradičný korpus. Pre všetky korpusy vykonávame porovnanie stupňa deduplikácie na úrovni odsekov a viet, štatistických parametrov pre homogénnosť a vzájomnú podobnosť korpusov (Kilgarriff 2001), frekvenčnú distribúciu lexikálnych jednotiek a slovných druhov, formálnu úspešnosť morfologickej anotácie (počty nerozpoznaných slovných tvarov), proporciu úspešne detegovaného „šumu“, a na malých vzorkách aj jej reálnu chybovosť 22 morfologickej anotácie. Vlastným jadrom experimentu je porovnanie kolokačných profilov vybraných lexikálnych jednotiek z rôznych frekvenčných pásiem vytvorených pomocou nástroja Sketch Engine (Kilgarriff et al. 2004). Chceme ešte poznamenať, že v štádiu rozpracovania máme aj webový korpus pre češtinu. Po jeho dokončení bude analogické porovnanie možné aj medzi korpusmi budovanými v ÚČNK a týmto webovým korpusom. Literatúra Kilgarriff, A. (2001). Comparing Corpora. International Journal of Corpus Linguistics, 6 (1), 97–133. Kilgarriff, A. (2007). Googleology is Bad Science. Computational Linguistics 33 (1), 147–151. Kilgarriff, A. et al. (2004). The Sketch Engine. In G. Williams & S. Vessier (Eds.), Proceedings of the eleventh EURALEX International Congress EURALEX 2004 Lorient, France, July 6-10, 2004. Lorient: Université de Bretagne-Sud, 105–116. Schäfer, R. & Bildhauer, F. (2013). Web Corpus Construction. Synthesis Lectures on Human Language Technologies. Morgan & Claypool Publishers. Suchomel, V. & Pomikálek, J. (2012). Efficient Web Crawling for Large Text Corpora. 7th Web as Corpus Workshop (WAC-7), Lyon, 2012. 23 Tilman Berger Slavisches Seminar, Universität Tübingen [email protected] Stefan Heck SFB 833, Universität Tübingen [email protected] Performativní užívání dokonavého prézentu v češtině ve srovnání s jinými slovanskými jazyky Náš příspěvek se zabývá užíváním dokonavého prézentu bez významu futura v performativních kontextech, jako např. ve větě: Přiznám se, že tomu vůbec nerozumím (SYN2010). Na tento fenomén jako první upozornil Koschmieder (1930) a vysvětlil ho takzvanou „koincidencí“, tj. tím, že realizací výpovědi je také realizován děj popsaný slovesem. Uvedl polské příklady jako A teraz poproszę o odprowadzenie do powozu nebo Tylko na baronową … ośmielę się zwrócić uwagę. Performativní výpovědi, jak je později v rámci teorie řečových aktů popsali Austin (1962) a Searle (1969), jsou zvláštním případem „koincidence“, která sama o sobě představuje širší koncept a obsahuje také případy s neperformativními slovesy. O užívání dokonavého prézentu v performativním kontextu se psalo několikrát v rusistických pracích (srov. Forsyth 1970: 150; Bondarko 1971: 222; Apresjan 1986: 215). O jiných slovanských jazycích se zmínil už Koschmieder a potom krátce Galton (1976: 92–95). V rámci své velké studie o slovanském vidu Dickey (2000: 175–202) předložil podrobnější rozbor tohoto fenoménu ve všech slovanských jazycích. Podle jeho názoru se užívání dokonavých sloves v performativní funkci různí v jednotlivých slovanských jazycích. Zatímco v ruštině je daný fenomén omezen na podskupinu verb dicendi a na slovesa odkazující na okamžik výpovědi („mentální performativa“ v pojetí Rjabcevové (1992)), v polštině funguje u mnohem více verb dicendi a také u „sociálních“ neboli „rituálních“ performativ podle Rjabcevové. Ohledně češtiny můžeme pozorovat rozporuplnou situaci: Dickey a po něm také Wiemer (v tisku) a Łaziński (rukopis) se domnívají, že je tam situace podobná jako v polštině a dokonce naznačují, že by dokonavá performativa v češtině by mohla být ještě častější. Bohemistická aspektologická literatura zase o tomto užívání dokonavého prézentu mlčí nebo jeho existen- 24 ci vysloveně popírá. Kopečný (1962: 35–36) sice diskutuje sporné příklady z Seidelova článku z roku 1939 o užívání dokonavého prézentu, ale neříká nic o jediném dokladu performativního slovesa, který je tam uveden (Nu jo, já dovolím, Seidel 1939: 17). V mluvnicích češtiny jsme nic nenašli, kromě Příruční mluvnice češtiny (1996: 592), která tvrdí, že performativní výpovědi jsou užívána „vždy v nedokonavém vidu“. Totéž tvrdí i Hirschová (2011), která sice zná a cituje Apresjana, ale zastává názor, že „je to spíše věc idiomatického charakteru takové výpovědi se smyslem důrazné žádosti, nikoli specifického ‚typu performativnosti‘“ (Hirschová 2011: 155). Pro naši studii jsme vybrali celkem 15 sloves ze studií Dickeyho, Wiemera a Łazińského. Prozkoumali jsme, jak často se české, ruské a polské ekvivalenty vyskytují v korpusech (SYN2010, NKJP, NKRJa). Užívali jsme jen doklady z přímé řeči a bez časové posloupnosti (která vylučuje performativnost). Došli jsme k několika prozatimním výsledkům, z nichž je nejdůležitější ten, že dokonavá slovesa jsou užívána v češtině v podobném rozsahu jako v jiných slovanských jazycích, ale nikoliv výrazně častěji. Jinak můžeme konstatovat následující: 1. U řídkých nebo průměrně frekventovaných sloves (např. upřesním, utočnju, uściślę) užívání ve všech třech jazycích je poměrně podobné. 2. U vysoce frekventovaných sloves může dojít k značným výkyvům: např. je performativní užívání ruského poprošu značně častější než užívání českého poprosím nebo polského poproszę, což se asi dá vysvětlit tím, že prosím a proszę mají více významů a funkcí než ruské prošu (konkurující s požalujsta). 3. V případech, kde podle Dickeyho a Wiemera dokonavé sloveso údajně nevystupuje v ruštině, ale jen v češtině a polštině, dotyčná slovesa jsou poměrně řídká také v češtině. To se týká např. sloves navrhnu a zaproponuję. Literatura Apresjan, Ju. D. (1986). Performativy v grammatike i v slovare. Izvestija Akademii nauk SSSR, 45, 208–223. Austin, J. L. (1962). How to Do Things with Words. Oxford. Bondarko, A. V. (1971). Vid i vremja russkogo glagola (značenie i upotreblenie). Moskva. Dickey, S. (2000). Parameters of Slavic Aspect: A Cognitive Approach. Stanford. 25 Forsyth, J. (1970). A Grammar of Aspect: Usage and Meaning in the Russian Verb. Cambridge. Galton, H. (1976). The Main Functions of the Slavic Aspect. Skopje. Hirschová, M. (2011). Slovesný vid a tzv. performativnost. In M. Ološtiak et al. (Eds.), Vidy jazyka a jazykovedy. Na počesť Miloslavy Sokolovej. Prešov, 151–161. Kopečný, F. (1962). Slovesný vid v češtině. Praha. Koschmieder, E. (1930). Durchkreuzungen von Aspekt- und Tempussystem im Präsens. Zeitschrift für slavische Philologie, 7, 341–358. Łaziński, M. (2012). The aspect of Polish performatives with regard to politeness rules. Rukopis. Příruční mluvnice češtiny. (1996). Praha. Rjabceva, N. K. (1992). Mental’nye performativy v naučnom diskurse. Voprosy Jazykoznanija 1992, 4, 12–28. Searle, J. (1969). Speech Acts: An Essay in the Philosophy of Language. Cambridge. Seidel, E. (1939). Zur Futurbedeutung des Praesens perfectivum im Slavischen. Slavia, 17, 1–32. Wiemer, B. (v tisku). Upotreblenie soveršennogo vida v performativnom nastojaščem. Vyjde ve sborníku na počest V. S. Chrakovského. 26 Aleš Bičan Ústav pro jazyk český AV ČR [email protected] Fonologický lexikální korpus češtiny a jeho analýza Korpusová lingvistika se soustředí především na tvorbu korpusů určených pro gramatickou analýzu češtiny. Korpusy však lze využít pro analýzu fonologické struktury jazyka, avšak tento aspekt zůstával doposud mimo zájem lingvistů popisujících češtinu. Příspěvek představí fonologický korpus české slovní zásoby a nabídne analýzu dat, které z něj lze získat. Fonologický lexikální korpus češtiny je primárně korpusem fonologickým. Jeho zdrojem je seznam lexémů zahrnutých v Databázi heslářů (http:// lexiko.ujc.cas.cz/), jež obsahuje 855 329 hesel. V současné době je do našeho korpusu zahrnuto přes 270 tisíc lexémů ze Slovníku spisovné češtiny, Slovníku spisovného jazyka českého, Výslovnosti spisovné češtiny, Příručního slovníku jazyka českého a dalších zdrojů. Všechny lexémy jsou opatřeny fonologickou reprezentací, která vychází z ortoepické výslovnosti. Fonologická reprezentace byla nejdříve získána automatickým převodem z ortografické podoby, následně však byl každý lexém manuálně zkontrolován a případně opraven. Jelikož ze samotného českého pravopisu nelze stoprocentně odvodit výslovnost (především v případě slov cizího původu), byla kontrola nutná, aby se předešlo zkreslení a nepřesnostem způsobeným automatickou transkripcí. Tím jsme předešli problémům, které jsou patrné u fonologické analýzy ČNK Bartoně et al. (2009), kteří též použili automatickou transkripci, avšak bez následné kontroly. (Ačkoliv si autoři zmíněné analýzy jsou zkreslení výsledků vědomi, pokládají je za zanedbatelné, s čímž lze polemizovat: např. slova struktury konsonant–konsonant (CC) mohou jen těžko patřit mezi sto nejčastějších typů slov (viz op. cit. 109), jelikož čeština taková slova nemá, uvedenou strukturu mají pouze zkratky.) Data ve fonologickém lexikálním korpusu jsou uložena v formátu tabulky. Příklad záhlaví a jednoho hesla v korpusu je v následující tabulce. 27 stín Sťīn 4 1 CCVC APvA FOvN XUvX ccQc ccHc ccGc 1 SSJČ VSČ SSČ Quant Vertic Horiz Voicing Manner Place CVStr Phtagms Length PhRep Ortho 1 0 Sloupec Ortho udává pravopisnou podobu lexému a sloupec PhRep jeho fonologickou reprezentaci. Sloupce Length až Quality udávají fonologické vlastnosti lexémů a fonémů, které obsahují. Zbývající sloupce zaznamenávají, do kterého slovníku je lexém zařazen. Fonologické vlastnosti fonémů, kterých se lexém skládá, jsou odvoditelné z fonologické reprezentace a lze je chápat jako analogie gramatické anotace v nefonologických korpusech. Sloupce Length, Phtagms udávají počet fonémů a počet slabik, sloupec CVStr pak strukturu lexému na základě členství jeho fonémů ve třídě konsonantů či vokálů. Další sloupce vyjadřují distinktivní rysy konsonantů podle místa a způsobu artikulace a znělosti (Place, Manner, Voicing) a distinktivní rysy vokálů podle horizontální a vertikální polohy a kvantity (Horiz, Vertic, Quant). Písmena v uvedených sloupcích jsou zkratky fonologických vlastností; např. APvA ve sloupci Place lze chápat takto: A = alveolární (odpovídající /S/), P = palatální (= odpovídající /ť/), v = vokál (odpovídající /ī/), N = nazální (odpovídající /n/). Další sloupce, např. s vyjádřením hranic slabik, budou do korpusu postupně přidávány. Na základě uvedených sloupců, resp. fonologických vlastností celého lexému nebo jednotlivých fonémů je možné v korpusu vyhledávat a třídit data podle definovatelných kritérií (např. jednoslabičné lexémy o šesti fonémech obsahujících okluzívu a dlouhý vokál). Korpus je k dispozici na webové adrese http://www.ujc.cas.cz/phword/. Prozatím je volně přístupná jen jeho ukázková část o počtu cca 50 000 hesel ze Slovníku spisovné češtiny, jež je též doplněna o informaci o slovních druzích, podle které lze např. zkoumat i fonologickou strukturu podstatných jmen oproti slovesům. Data z lexikálního fonologického korpusu slouží, obdobně jako u gramatických korpusů, k lingvistické analýze. Příspěvek kromě představení tohoto korpusu nabídne i fonologickou analýzu lexikální zásoby češtiny. Z korpusu lze např. získat informace o frekvenci výskytu jednotlivých fonémů a jejich tříd nebo frekvenci různých kombinací fonémů a vůbec informace o kombinovatelnosti fonémů. Rovněž můžeme získat informace o výskytu a frekvenci lexémů určité délky nebo struktury. 28 Literatura Bartoň, T. et al. (2009). Statistiky čestiny. Praha. František Cvrček Ústav státu a práva AV ČR [email protected] Karel Pala Fakulta informatiky Masarykovy univerzity [email protected] Pavel Rychlý Fakulta informatiky Masarykovy univerzity [email protected] Chování slov a jejich kolokací v jazyce právních subdomén V článku věnujeme pozornost chování kolokací v právních subdoménách, jako jsou texty zákonů, vyhlášek a nařízení. Porovnání slov samostatně i slovních kolokací z jednotlivých typů právních textů poskytuje kvantifikovatelné údaje, které vypovídají o terminologické povaze pozorovaných kolokací. Z provedených měření a pozorování jasně plyne, že jazyk primárních předpisů se značně liší od jazyka sekundárních předpisů. Jako materiál posloužily korpusy: CzLaw čítající 20,6 mil. tokenů, který se dále člení na subkorpus Primarni predpisy (Ústava a platné zákony ČR) s 12,2 mil. tokeny a Sekundarni predpisy (vyhlášky a nařízení) s 8,4 mil. tokeny. Uvedené korpusy nejsou velké, ale základní kolokační tendence, o které nám jde, lze na nich dobře demonstrovat. Pro kontrastní analýzu jsme též využili korpus CzechParl čítající 51,4 mil. tokenů, který obsahuje záznamy projevů poslanců v Parlamentu ČR a má právní povahu. Jeho velikost lze pro naše účely pokládat za více než dostačující. 29 V článku navazujeme na projekt PES (viz http://deb.fi.muni.cz/pes), v němž se úspěšně kombinují korpusově lingvistické přístupy s právnickými. Jde o analýzu užití právnické terminologie v doktrinálním jazyce (základní učebnice práva z jednotlivých odvětví), v jazyce zákonů (korpus platných zákonů ČR včetně Ústavy ČR), v jazyce sekundárních předpisů (korpus platných nařízení a vyhlášek ČR na centrální úrovni), v jazyce judikatury (korpus judikatury soudních rozhodnutí nejvyšších soudů od roku 1990) a v tzv. obecném základu jazyka (korpus Czes). Systém PES (soubor bází, korpusů a programů) umožňuje studium právního jazyka a jeho změn. Vzhledem k rozsahu, který prakticky pokrývá celý právní řád i obecný základ jazyka, získáváme vlastně poprvé představu o složitosti práva jako celku na jazykové úrovni. Programový systém PES je pravidelně aktualizován a je pro potřeby výuky a výzkumu přístupný všem uživatelům, kteří o to mohou požádat u JUDr. F. Cvrčka z ÚSP AV ČR. Jednotlivé uvedené korpusy jsou v elektronické podobě a lze s nimi pracovat v korpusovém manažeru Manatee/Bonito (Rychlý 2007) s vestavěným modulem pro práci se slovními profily (Word Sketches, Kilgarriff et al. 2004). Manažer Manatee/Bonito umožňuje prohledávat zmíněné korpusy, získávat z nich konkordance, sledovat frekvence jednotlivých výrazů (právních termínů) a zejména pozorovat jejich kolokační chování, získávat klíčová slova a porovnávat jednotlivé korpusy či subkorpusy na různých úrovních. První důkaz rozdílnosti jazyků primárních a sekundárních předpisů přináší porovnání klíčových slov obou subkorpusů. Pro oba subkorpusy jsme vytvořili seznamy klíčových slov porovnáním frekvencí slov s referenčním korpusem. Při výpočtech byla používána tzv. redukovaná četnost (Average Reduce Frequency), která automaticky filtruje slova, která se vyskytují v jednom či několika málo dokumentech. Vytvořeno bylo několik seznamů různé délky obsahující vždy statisticky nejvýznamnější klíčová slova z daného subkorpusu. Z porovnáním příslušných seznamů plyne, že pouze 60 % slov je v odpovídajících seznamech společných. Podobně jsme postupovali při porovnání kolokací jednotlivých klíčových slov (společných oběma subkorpusům). Seznamy kolokací byly vytvořeny pomocí systému Sketch Engine (Kilgarriff et al. 2004) jako statisticky významné kolokace v příslušných gramatických relacích. Opětovné porovnání seznamů mezi oběma subkorpusy ukazuje, že u některých slov je podíl společných kolokací menší než 30 %. Jako příklad můžeme uvést slovo „území“, u kterého z 37 gramatických relací má pouze 18 re- 30 lací alespoň jednu kolokaci společnou oběma subkorpusům a pouze 6 relací má více než 3 společné kolokace. Podrobnějším studiem konkrétních vazeb jednotlivých slov zjišťujeme, že společné kolokace v primárních a sekundárních předpisech jsou z velké části pouze obecné fráze, které nejsou specifické pro právnické texty. Odborné vazby jsou v obou subdoménách značně rozdílné. V článku budou uvedeny příslušné seznamy a tabulky. Celkově můžeme konstatovat, že ač se na první pohled může zdát, že zákony na jedné straně a vyhlášky a nařízení na druhé straně spadají do stejného jazyka, exaktní statistická analýza ukazuje, že se jedná o dvě značně rozdílné domény, které hovoří různými podjazyky. I když to nebývá v odborné literatuře zvykem, pokládáme zde za nutné konstatovat, že analýza korpusů právních textů upozorňuje na některé celospolečenské problémy, jež mají bezprostřední politické důsledky. Jestliže nejfrekventovanější slovo v korpusu právních textů je slovo „zákon“ a jeho prostý slovní profil (Word Sketch) ukazuje, že nejfrekventovanější kolokace s genitivem jsou „znění“, „změna“, „návrh“, „doplnění“ (zákona) a je subjektem sloves „měnit“, předchází před slovesy „měnit“, „stanovit“, „doplňovat“ atd., svědčí to o nenormálním a nadměrném novelizování zákonů, které fakticky ohrožuje právní řád v ČR. Další podrobná kvantitativní analýza stavu českého právního řádu ukazuje, že jazyková analýza na základě poměrně jednoduchých prostředků naznačené situace potvrzuje. Lingvistická analýza v daném případě dokládá existenci nebezpečí spočívajícího v nepřehlednosti a nesrozumitelnosti vazeb mezi právními předpisy, jež obojí narušuje standardní využívání práva v ČR. Literatura Cvrček, F. et al. (2012). PES (Právní elektronický slovník – Electronic Legal Dictionary), http://deb.fi.muni.cz/pes, webová stránka (Web page). Kilgarriff, A., Rychlý, P., Smrž, P. & Tugwell, D. (2004). The Sketch Engine Proc. Euralex. Lorient, France, July, 105–116. Mráková, E. & Pala, K. (2010). Legal Terms and Word Sketches: a Case Study, Proceedings of the RASLAN Workshop, Karlova Studánka, 31–40. Pala, K., Rychlý, P. & Šmerk, P. (2012). Automatic Identication of Legal Terms in Czech Law Texts, Semantic Processing of Legal Texts, Springer, LNAI 6036, 83-94. Rychlý, P. (2007). Manatee/Bonito – A Modular Corpus Manager, Proceedings of the RASLAN Workshop, Karlova Studánka, 65–70. 31 Václav Cvrček Filozofická fakulta Univerzity Karlovy [email protected] Jiří Václavík Filozofická fakulta Univerzity Karlovy [email protected] Kvantitativní pohled na kontextovou desambiguaci Myšlenkovým východiskem tohoto příspěvku je tvrzení, že izolované (dekontextualizované) jazykové jednotky jsou ze své podstatě vždy víceznačné či alespoň polyfunkční (Cvrček 2013). Až zapojením do kontextu dochází k jejich desambiguaci, čehož využívají jak nástroje na pravidlovou či stochastickou morfologickou analýzu (Hajič 2004, Petkevič 2006), tak lingvisté v popisu; např. zkoumání kolokací je ve světle tohoto pohledu hledáním typických kontextů, které zjednoznačňují inherentně víceznačné lexémy. Výzkum kvantitativních charakteristik kontextu by i proto měl být v centru zájmu komputačních i korpusových lingvistů. Příspěvek se pokusí kvantitativně uchopit vztah mezi délkou n-gramu, která aproximuje rozsah kontextové informace, a mírou jeho jednoznačnosti. U izolované jednotky najdeme příklady víceznačnosti vcelku snadno: řada lemmat má kupř. mnoho různých flektivních tvarů, skloňovaná i nesklonná lemmata pak nabývají v různých kontextech různých významů nebo stylových odstínů. Problematika víceznačnosti (a její desambiguace) se tedy týká všech jazykových rovin; prakticky je však v současnosti kvantitativní výzkum tohoto fenoménu možný pouze na rovinách přidržujících se formy, o což se pokusí i tento příspěvek. Na jednotky, jejichž rozsah překračuje hranici jednoho slova (n-gramy), je možné nahlížet jako na spojení zkoumaného slova a části jeho kontextu. Tím, že slovo vstupuje do sousedství s jiným, se víceznačnost celého spojení ve srovnání s izolovaným slovem snižuje. Např. bigram tvořený posloupností verba a substantiva odpovídá v rozsáhlém korpusu mnoha lexikálním realizacím (sekvencím lemmat) a stejnému nebo většímu počtu realizací lexikálně gramatických (sekvencím slovních tvarů). Přidáváním dalších jednotek k tomuto bigramu (např. vytvořením trigramu adverbium – verbum – substantivum nebo tetragramu adverbium – sloveso – substantivum – pre- 32 pozice) omezujeme formální i lexikální variabilitu celé sekvence, až v určitém kroku dospějeme k takové délce zkoumané jednotky, že její realizace bude jednoznačná, tj. sekvenci značek slovních druhů bude odpovídat právě jedna posloupnost lemmat nebo tvarů (což svědčí o tom, že došlo k úplné desambiguaci). Otázkou samozřejmě zůstává, jak dlouhá musí taková posloupnost být, aby byla zcela zjednoznačněná. Pro každou délku n-gramu platí, že některé n-gramy budou zcela jednoznačné (budou mít právě jednu realizaci na zvolené rovině), jiné budou víceznačné. Předpokládáme přitom, že nejednoznačných n-gramů bude proporčně méně v seznamu n-gramů rozsáhlejších než v seznamu n-gramů kratších. Výzkum bude prováděn na korpusech ČNK řady SYN, a to konkrétně na seznamech n-gramů (konsekutivních n-tic slov) různé délky. Pro každý n-gram tvořený lemmaty bude v korpusu zjištěn počet jejich různých realizací na úrovni slovních tvarů, pro n-gramy tvořené značkami slovních druhů bude zjišťován počet různých realizací na úrovni posloupností lemmat i slovních tvarů atp. Analýza tak simuluje zablokování flektivního a lexikálního faktoru (ve smyslu článku Nebeský & Novák 1996). Lze přitom předpokládat, že výsledky zjištěné při těchto pokusech na formách a lexémech budou analogicky platit i pro desambiguaci sémantiky (ačkoli v oblasti významů je situace nesporně složitější). Abychom výsledky měření mohli zobecnit a úspěšně kvantifikovat vztah délky a ambiguity v závislosti na použitém typu desambiguace a celkové frekvenci sekvence v korpusu, je třeba přistoupit ke korekci, která zohledňuje omezený rozsah korpusu (jakkoli je dnes obrovský). O jistotě desambiguace kontextem můžeme mluvit pouze v případě, kdy víme, že jednotky v n-gramu obsažené, skutečně můžou různých formálních podob nabýt. Má-li zkoumaný n-gram (tvořený kupř. lemmaty) celkovou frekvenci 200 výskytů a víme-li, že všechna slova v něm obsažená jsou nesklonná, nelze takový příklad za desambiguaci (na rovině slovních tvarů) prohlásit. N-gram je za takových okolností formálně jednoznačný vždy (bez ohledu na délku). Pouze v případě, že jednotky v n-gramu mohou při své realizaci nabývat alespoň dvou různých variant (např. jedno lemma alespoň dvou různých tvarů) a to s pravděpodobností, která naznačuje, že při celkové frekvenci 200 výskytů bychom mohli očekávat alespoň dvě odlišné realizace, pak – pokud je taková sekvence realizována jednoznačně – můžeme skutečně hovořit o desambiguaci. 33 Výsledky takto zjištěné by mohly sloužit nejen k určení optimálního rozsahu kontextu nutného pro formální desambiguaci anotačních nástrojů, ale s určitou mírou tolerance by měly být zobecnitelné i na analýzu jakékoli polysémie/polyfunkčnosti, jíž se zabývá deskriptivní lingvistika na všech rovinách popisu. Literatura Cvrček, V. (2013). Kvantitativní analýza kontextu. Praha: Nakladatelství Lidové noviny. Hajič, J. (2004). Disambiguation of Rich Inflection (Computational Morphology of Czech). Vol. 1. Praha: Karolinum Charles University Press. Petkevič, V. (2006). Reliable Morphological Disambiguation of Czech: Rule-Based Approach is Necessary. In M. Šimková (Ed.), Insight into the Slovak and Czech Corpus Linguistics. Bratislava: Veda, 26–44. Nebeský, L. & Novák, P. (1996). Větné faktory a jejich podíl na analýze věty. Slovo a slovesnost, 57, 249–263. 34 Tomáš Čapka Ústav Českého národního korpusu FF UK [email protected] Michal Křen Ústav Českého národního korpusu FF UK [email protected] Petr Truneček Ústav Českého národního korpusu FF UK [email protected] SynKorp: prostředí pro správu a zpracování textů Zveřejnění korpusu předchází často velké množství pro uživatele „neviditelné“ práce, jejíž cíl můžeme charakterizovat jako kvalitně zpracované texty bez duplicit či jiných zjevných chyb. Zpracování textů do synchronních psaných korpusů řady SYN zahrnuje v zásadě tři hlavní kroky: akvizici (získání textu), jeho (víceméně automatickou) technickou konverzi do potřebného formátu a (převážně manuální) anotaci. Anotací je v tomto textu míněno pouze doplňování bibliografické informace spolu s evaluativním určováním typu textu a žánru; lemmatizace a morfologické značkování probíhají až v další fázi, jejíž popis není cílem příspěvku. Dosud se v ČNK pro konverzi a anotaci korpusů řady SYN používaly nástroje, které začaly vznikat už v polovině 90. let; tyto nástroje byly v dalších letech průběžně vylepšovány a doplňovány. Postupně tak vznikla sada nástrojů, jimiž byly zpracovány všechny dosud zveřejněné korpusy řady SYN (Hnátková et al. 2014). Jednotlivé nástroje však byly příliš specifické a málo flexibilní a především používaly dnes již překonané standardy (SGML, 8-bitové kódování češtiny). Průběžné modernizaci bránila komplexnost celé sady nástrojů a jejich vzájemná provázanost, stejně jako (možná paradoxně) jejich spolehlivost: jednotlivé komponenty byly odladěné a vhodně parametrizované, což zvyšovalo nároky na nový systém, stejně jako čas potřebný k jeho implementaci. Protože šlo o nástroje v mnoha ohledech zastaralé, začaly práce na kompletním přepracování celého procesu včetně adaptace či výměny všech výkonných skriptů. Kromě potřeby radikálních změn bylo zřejmé, že je nutné zachovat to, co se osvědčilo, a tím je především základní princip používat 35 cílené procedury aplikované v závislosti na zdroji dat spolu s průběžnými kontrolami jejich výstupů. Hlavní cíle vývoje nového prostředí SynKorp tedy byly: 1. integrace správy textů, anotace a konverze pro synchronní psané korpusy do jednotného systému; 2. přechod na nové standardy (XML, UTF-8); 3. preference etablovaných nástrojů (jsou-li pro daný účel dostupné); 4. modularita, tj. možnost snadné výměny komponent; 5. revize architektury databáze používané pro správu textů spojená s obohacením o další údaje; 6. anotace s externě definovatelnými závislostmi jednotlivých položek; 7. spouštění konverzí přes webové rozhraní zahrnující snadnou konfigurovatelnost (zapojování/vyřazování konkrétních nástrojů a jejich parametrizaci) a kvalitativní kontroly; 8. zrychlení celého procesu; 9. zachování kvality a spolehlivosti původních nástrojů; 10. využitelnost nové sady nástrojů také pro další účely. Postup zpracování textů implementovaný v SynKorpu je principiálně velice podobný původnímu, pouze je celý (od jednotlivých nástrojů až po uživatelské rozhraní) realizován jinými programy. Typický proces zpracování textu v SynKorpu probíhá v následujících čtyřech krocích. 1. Získaný text je spolu s dostupnými metadaty evidován v databázi. 2. Text je spolu s dalšími texty stejného formátu a/nebo ze stejného zdroje převeden z původního formátu (.txt, .doc, .pdf, .epub apod.) do jednotného XML meziformátu. Tento meziformát je založen na doporučeních TEI, umožňuje zachování řady dosud opomíjených jevů (řezy písma, nadpisy, poznámky pod čarou, verše, repliky v dramatech, přímá řeč) a zároveň je navržen tak, aby vyhovoval potřebám zpracování textů také v dalších sekcích ČNK. 3. Meziformát je anotován v komfortním webovém prostředí s možností volby mezi anotací manuální (typicky pro neperiodika) a dávkovou (periodika). 4. Nakonec probíhá čištění, které je možné provádět podle potřeby pouze částečně nebo vůbec: detekce a odstraňování cizojazyčných částí textu (Cavnar & Trenkle 1994), duplicit (Onion & Pomikálek 2011; jeho použití viz Benko 2013) a odstavců obsahujících velké množství čísel, tabulek nebo seznamů; obecně jde o části textu, jejichž přítomnost v kor- 36 pusu by byla z uživatelského hlediska spíše kontraproduktivní. Všechny zmíněné procedury jsou aplikovány na úrovni dokumentů nebo odstavců, mohou však být dále doplněny úpravami i uvnitř odstavce. Tyto úpravy jsou navrženy tak, aby nijak nenarušovaly původnost textu, a proto k nim dochází pouze tehdy, pokud jde o napravení chyby, která s největší pravděpodobností nebyla záměrem autora a která jím většinou ani nebyla způsobena; typicky jde o chyby technické, vzniklé sazbou nebo dalším zpracováním textu. Všechny uvedené kroky jsou integrovány do prostředí SynKorp, které je možné si představit jako „ovládací pult“, za nímž sedí operátor, který celý proces sleduje a řídí. Výsledkem zpracování je strukturovaný text v XML s kompletními metadaty uloženými v databázi, který je připraven k dalšímu zpracování, např. lemmatizaci a morfologickému značkování (Hajič 2004; Jelínek 2008; Petkevič 2006; Spoustová et al. 2007). Základ SynKorpu je v tuto chvíli hotov a v hlavních ohledech funkční, celý systém však ještě není připraven k plnému nasazení; jeho dokončení předpokládáme do konce roku 2014. Závěrem bychom chtěli zdůraznit několik dalších aspektů budoucího použití SynKorpu. Především plánujeme vyčlenění výkonného jádra SynKorpu v podobě sady konverzních nástrojů a jejich samostatné využití pro zpracování textů nejenom v ostatních sekcích projektu ČNK (zejména pro historické a paralelní texty), ale také v rámci automatizovaného zpracování textů při vytváření korpusů samotnými uživateli, což je služba, o jejíž realizaci ČNK v dlouhodobější perspektivě uvažuje. V neposlední řadě SynKorp díky zrychlení zpracování dat umožní vznik monitorovacích korpusů, jejichž cílem bude aktuálnější mapování češtiny a usnadnění výzkumu jazykových změn. Literatura Benko, V. (2013). Data deduplication in Slovak Corpora. In Natural Language Processing, Corpus Linguistics, E-learning. RAM Verlag, Lüdenscheid, 27–39. Cavnar, W. B. & Trenkle, J. M. (1994). N-Gram-Based Text Categorization. In Proceedings of Third Annual Symposium on Document Analysis and Information Retrieval. Las Vegas, USA. Dostupné z http://www.info.unicaen.fr/~giguet/sigdat95/cavnar_trenkle_ngram.ps. 37 Hajič, J. (2004). Disambiguation of Rich Inflection (Computational Morphology of Czech). Vol. 1. Praha: Karolinum Charles University Press. Hnátková, M., Křen, M., Procházka, P. & Skoumalová, H. (2014). The SYN-series Corpora of Written Czech. In Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC‘14). ELRA, Reykjavík, 160–164. Dostupné z http://www.lrec-conf.org/proceedings/ lrec2014/pdf/294_Paper.pdf. Jelínek, T. (2008). Nové značkování v Českém národním korpusu. Naše řeč, 91 (1), 13–20. Petkevič, V. (2006). Reliable Morphological Disambiguation of Czech: Rule-Based Approach is Necessary. In M. Šimková (Ed.), Insight into the Slovak and Czech Corpus Linguistics. Bratislava: Veda, 26–44. Pomikálek, J. (2011). Removing Boilerplate and Duplicate Content from Web Corpora. Disertační práce, FI MU Brno. Dostupné z http://code.google. com/p/onion/. Spoustová, D., Hajič, J., Votrubec, J., Krbec, P. & Květoň, P. (2007). The Best of Two Worlds: Cooperation of Statistical and Rule-Based Taggers for Czech. In Proceedings of the Workshop on Balto-Slavonic Natural Language Processing. ACL 2007, Praha, 67–74. 38 Radek Čech Ostravská univerzita [email protected] Emmerich Kelih Universität Wien [email protected] Ján Mačutek Univerzita Komenského, Bratislava [email protected] Vliv sémantiky na vlastnosti pádové distribuce podstatných jmen v češtině Vliv sémantiky na frekvenční distribuce pádů substantiv u jazyků s bohatou flexí je dobře znám (srov. Greenberg 1990); například substantivum denotující osobu má tendenci se vyskytovat nejčastěji v nominativu (vlivem sémantické roli agentu), zatímco substantivum označující místo v lokálu. V naší analýze se ovšem pokusíme interpretovat vztah mezi sémantikou substantiva a frekvencí pádů z širší perspektivy. Teoretickými východisky našeho přístupu jsou jak Wimmerova-Altmannova teorie (2005), tak idea diverzifikačního procesu v jazyce (Altmann 2005): tato východiska, stručně řečeno, předpokládají, že rankové frekvenční distribuce jazykových jednotek (tj. distribuce jednotek uspořádaných podle klesající frekvence těchto jednotek) či kategorií jsou řízeny mechanismy, které lze chápat jako projevy vzájemných vztahů mezi jazykovými jednotkami a kategoriemi. Rozhodující vliv na charakter těchto vztahů pak mají tzv. komunikační požadavky účastníků komunikace; viz synergetická lingvistika (Köhler 1986, 2005). Ranková frekvenční distribuce je tedy jedním z pozorovatelných projevů diverzifikace. Její důležitou vlastností je to, že se dá dobře matematicky modelovat, přičemž parametry daného modelu lze interpretovat lingvisticky. Konkrétně v naší analýze předpokládáme, že 1. ranková frekvenční distribuce pádů u jednotlivých substantiv bude odpovídat modelům, které lze odvodit z Wimmerovy-Altmannovy teorie; 39 např. v nejjednodušším případě bude možné tyto distribuce modelovat prostřednictvím mocninné funkce y = axb kde y odpovídá pořadí daného pádu v rankové frekvenční distribuci sledovaného substantiva, x odpovídá frekvenci daného pádu, a je parametr odpovídající nejvyšší frekvenci a b je parametr určující charakter diverzifikace (konkrétně sklon křivky v grafu vyjadřujícím tuto funkci); 2. sémantické vlastnosti substantiv budou mít vliv na charakter rankové frekvenční distribuce pádů; např. rozdíly rankových frekvenčních distribucí pádů u jednotlivých životných a neživotných maskulin by se měly projevit v rozdílných hodnotách parametrů (např. parametr b ve výše uvedené mocninné funkci); zdůrazněme, že rozdíly mezi hodnotami parametrů budeme statisticky testovat. Pro analýzu budou použita jazyková data z Českého národního korpusu (synchronní lemmatizované a morfologicky značkované korpusy). Budeme sledovat rozdíly rankových frekvenčních distribucí pádů u různých sémantických kategorií substantiv: např. životná vs. neživotná maskulina, konkrétní vs. abstraktní substantiva. Dále porovnáme rozdíly mezi skupinami substantiv rozdělenými do specifických sémantických kategorií, jako jsou „zvířata“, „části těla“, „místa“ atd. Výsledky budou interpretovány ve vztahu k synergetické teorii jazyka. Literatura Altmann, G. (2005). Diversification processes. In R. Köhler, G. Altmann & R. G. Piotrowski (Eds.), Handbook of Quantitative Linguistics. Berlin: de Gruyter, 649-659. Greenberg, J. H. (1990). The Relation of Frequency to Semantic Feature in a Case Language (Russian). In K. Denning & S. Kemmer (Eds.), On language: selected writings of Joseph H. Greenberg. Stanford: Stanford University Press, 207–226. Köhler, R. (1986). Zur linguistischen Synergetik. Struktur und Dynamik der Lexik. Bochum: Brockmeyer. 40 Köhler, R. (2005). Synergetic Linguistics. In R. Köhler, G. Altmann & R. G. Piotrowski (Eds.), Handbook of Quantitative Linguistics. Berlin: de Gruyter, 760–775. Wimmer, G. & Altmann, G. (2005). Unified derivation of some linguistic laws. In R. Köhler, G. Altmann, R. G. Piotrowski (Eds.), Handbook of Quantitative Linguistics. Berlin: de Gruyter, 791–807. František Čermák Ústav Českého národního korpusu FF UK [email protected] Kolokace a kolokabilita synsémantik: Substituty a interjekce Mluví-li se o kombinatorice slovních druhů, mluví se obvykle o velkých autosémantických slovních druzích. V následujícím příspěvku půjde ale o přehled zcela zanedbávané oblasti synsémantik v širokém smyslu a o to zjistit, nakolik se tyto slovní druhy kombinují nezávisle na autosémantikách, tj. především mezi sebou, uvnitř své třídy; role synsémantik vázaných na autosémantika je většinou dobře známá. Do záběru se takto dostane šest slovních druhů, funkčně zcela heterogenních, které spojuje právě to, že jednak nejsou autosémantiky, a jednak to, že mají vůči nim v různém smyslu většinou služebnou úlohu, i když ne vždycky. Konkrétně tedy půjde o prepozice, konjunkce, partikule, pronomina, numerále i interjekce, u nichž se až dosud o syntagmatických aspektech příliš neuvažovalo (pokud vůbec). První část stručně vymezí široké a hrubé pojetí synsémantik, jejich typy (jednoslovné i víceslovné) a kombinatoriku a především funkční aspekty, popř. i pragmatiku. Necháme-li stranou vlastně definitoricky bokem stojící interjekce, pak lze oblast synsémantik dělit na dvě velké skupiny, na substi- 41 tuty (pronomina a numerale) a relátory (prepozice, konjunkce, včetně odlišných relátorů pragmatických, tj. partikulí). Protože autor pozornost některým z nich už věnoval dříve (tj. prepozicím, konjunkcím a partikulím) a protože je tato oblast velmi široká, bude se příspěvek věnovat především substitutům, tj. pronominům a numeraliím, v závěru však i oblastem dalším, především znovu interjekcím. Druhá část, založená na korpusovém rozboru, si postupně všimne jednotlivých takto vymezených synsémantik. Základním půdorysem k pohledu na ně bude jejich obecná syntagmatická funkce, komentovaná stručně i z hlediska jejich sémantiky a pro ně specifické funkce. Důraz se bude klást, v souladu s mým opakovaným zjištěním, na potřebu lišit vedle tradičně formálně povědomých synsémantik jednoslovných i synsémantika víceslovná, v řadě případů tedy o synsémantické kolokace (často frazeologické) ustálené. Jedním z cílů bude naznačit kombinatorické možnosti, ale i omezení, především vůči sobě navzájem. Tato specifická otázka nebyla dosud v zásadě systematicky studovaná. V části věnované zájmenům a číslovkám se prezentují možnosti a hranice jejich kombinatoriky a komentují některé nápadné zvláštnosti. Obdobně se nabídne pohled na, běžně nečekanou, kombinatoriku číslovek, které nejsou vždy jen textové; najdou se tu i případy ustálené. 42 Alena M. Černá Ústav pro jazyk český AV ČR [email protected] Staročeské lexémy „nemoc“, „neduh“, „nedostatek“ – jejich sémantická a gramatická charakteristika Čtrnácté a zejména patnácté století je obdobím, z něhož se nám v rukopisech dochovalo velké množství česky psaných lékařských textů. Tyto texty se vyznačují charakteristickými rysy, z nichž jazykově nejvýraznějším je specifická slovní zásoba, která tvoří základ budoucí lékařské terminologie. Tato specifická slovní zásoba nese rysy formujícího se lékařského názvosloví – je neustálená, variabilní a rozkolísaná; rukopisné texty navíc obsahují řadu chyb způsobených neznalostí laických opisovačů. Tato rodící se lékařská terminologie je složena z několika sémantických okruhů, např. z názvů částí lidského těla (budoucí anatomické názvosloví), z názvů nemocí, zdravotních obtíží, příp. estetických nedostatků (budoucí nosologické názvosloví), z názvů léčiv (budoucí farmaceutické názvosloví) atd. Do široce pojaté lékařské terminologie navíc ve středověku patří i názvosloví blízkých oborů – astronomie a astrologie, botaniky, mineralogie, magie atd. Specifické lékařské pojmy jsou na jazykové rovině vyjadřovány zvláštními postupy. Neexistence jednoslovných pojmenování se specifickou funkcí je suplována mj. různými typy spojování slov. Pro obecný význam ,nezdraví‘ se ve staré češtině užívalo několik léxémů s různou sémantickou, formální a frekvenční charakteristikou, mj. neduženie, neduha, nesdravie, bezsdravie, vada/váda, bolest, škoda atd. Nejfrekventovanější jsou však lexikální jednotky nemoc, neduh a nedostatek, jejichž obecný význam je determinován mj. kolokacemi, v nichž se lexémy vyskytují. Samotné lexémy nemají charakter termínu, mj. nejsou vázány jen na lékařský kontext, ale vyskytují se i v textech neodborných.V příspěvku se věnujeme jak lexikálnímu významu jednotek nemoc, neduh a nedostatek, tak jejich slovotvorné i gramatické charakteristice, i s přihlédnutím k jejich dalšímu vývoji až k moderní češtině. Zvláštní důraz bude kladen právě na kolokace těchto staročeských lexémů (např. nemoc súchotiny, nemoc hluchá, nemoc hlavy; neduh veliký; nedostatek mozku, nedostatek od příčin vnitřních atd.). Pokusíme se o klasifikaci doložených lexikálních spojení z hlediska jejich 43 formy, funkce, frekvence atd. Některé z kolokací již ve staré češtině postupně získávají charakter terminologických kolokací (termínů), srov. např. nemoc svatého Valentina, nemoc padúcie, neduh volový. Zajímavou otázkou je stanovení časové posloupnosti vzniku terminologických kolokací a jednoslovných termínů (např. žlutá nemoc × žlútenicě), neboť nelze jednoznačně tvrdit, že jednoslovný název vznikl univerbizací víceslovného pojmenování. Poměrně častý je i společný výskyt uvedených tří lexikálních jednotek, přičemž je nutné správně definovat jejich vzájemný vztah, tj. jedná-li se o synonymní výrazy, či nikoliv (proti neduhóm a nemocem plicným; lékařstvie postavil proti mnohým a rozličným nemocem, neduhuom a nedostatkóm). Materiálovou bází pro výzkum bude zejména staročeský korpus, který je součástí internetové databáze Vokabulář webový, webové hnízdo pramenů k poznání historické češtiny (http://vokabular.ujc.cas.cz) a který obsahuje téměř 3 mil. slovních tvarů. Podpůrnou bází je pak diachronní korpus Českého národního korpusu (http://www.korpus.cz). Ze získaného materiálu budou vytříděny pouze doklady z odborné lékařské literatury, příp. z literatury pro středověké léčení pravidelně využívané (herbáře, lapidáře, astrologické spisy atd.). Jazykový materiál získaný v korpusech bude navíc doplněn o cílovou excerpci mimokorpusových zdrojů (staročeských textů, lexikálních kartoték, lexikografických děl). Příspěvek přinese další pohled na zrod staročeské lékařské terminologie a na vývoj českého jazyka. Pro tento výzkum máme k dispozici mimořádně hojné množství zdrojových textů, z nichž je již značná část k dispozici v korpusových bázích. Literatura Bečka, J. V. (1992). Česká stylistika. Praha: Academia. Čermák, F. (1982). Syntagmatika a paradigmatika českého slova I: Valence a kolokabilita. Praha: SPN. Čermák, F. & Šulc, M. (Eds.) (2006). Kolokace. Praha: Nakladatelství Lidové noviny. Černá, A. M. (2009). Staročeské názvy chorob. Praha: Nakladatelství Karolinum. Filipec, J. (1961). Česká synonyma z hlediska stylistiky a lexikografie. Praha: Nakladatelství ČSAV. Michálek, E. (1971). Pojmová diferenciace – ústřední problém terminologie viděné historicky, Slovo a slovesnost, 32, 312–317. Mluvnice češtiny III (1987). Praha: Academia. 44 Vokabulář webový, webové hnízdo pramenů k poznání historické češtiny, [on-line], <http://vokabular.ujc.cas.cz> Lenka Fárová Ústav obecné lingvistiky FF UK [email protected] Uvozovací slovesa v překladech typologicky rozdílných jazyků Při zkoumání jazyka překladu se v posledních zhruba dvaceti letech objevuje snaha o hledání překladových univerzálií, tedy jevů typických pro překladové texty. Mezi často uváděné univerzálie ve vztahu překladu k originálu (tzv. S-univerzálie) patří (viz např. Chesterman 2010: 41-42): • prodlužování (překlad delší než originál) • interference (jeden ze „zákonů“ podle Toury 1995) • standardizace (další ze „zákonů“ podle Toury 1995) • normalizace dialektů • redukce složitých vypravěčských hlasů • explicitace • retranslační hypotéza (pozdější překlady se více blíží originálu) • redukce opakování Mezi potenciální univerzálie vlastní překladům ve vztahu ke srovnatelným původním dílům téhož jazyka (tzv. T-univerzálie) Chesterman (2010:42) počítá následující: • simplifikace (generalizaci je možné chápat jako projev simplifikace) • konvencionalizace • netypické lexikální vzorce • nižší zastoupení prvků specifických pro jazyk překladu Jakkoliv je pojem překladových univerzálií sporný (řada kritiků tohoto termínu jej cítí jako příliš absolutní a navrhuje spíše označení „pravidelnost“, 45 „zákon“ či „tendence“ – např. Toury 1995, Bernardini & Zanettin 2004), nadále se jako (možná i provizorní) nástroj využívá. V tomto příspěvku se problematičnost některých těchto univerzálií pokusím ukázat na příkladu sloves uvozujících přímou řeč ve třech typologicky rozdílných jazycích: češtině, finštině a angličtině. Zdrojem materiálu jsou subkorpusy vytvořené na základě beletristických textů z paralelních korpusů zvolených jazyků v rámci projektu InterCorp, jako srovnávací materiál posloužila data ze srovnatelného překladového korpusu Jerome (vše dostupné na http://www.korpus.cz). V jazyce překladu se podle výše uvedených T-univerzálií objevují dvě protichůdné tendence: na jedné straně nadměrné využívání nejtypičtějších slov a větných struktur cílového jazyka (srov. simplifikace), na druhé straně fakt, že překlad vykazuje znaky netypického užití lexikálních vzorců. V rámci S-univerzálií se mluví také o redukci opakování, ale překlady uvozovacích sloves z angličtiny i finštiny do češtiny naznačují, že tento princip zde není dodržován (což ostatně naznačuje už Levý 1998: 144). V první fázi se výzkum zaměřil na trojici nejfrekventovanějších uvozovacích sloves ve zkoumaných jazycích. V angličtině i ve finštině je zdaleka nejčastěji (byť vůbec ne bezvýhradně – k použití said a jeho překladům do češtiny srov. např. Corness 2010) jako uvozovací sloveso používáno said, resp. jeho finský ekvivalent sanoi, v češtině se jedná o uvozovací slovesa řekl/ řekla. Ve světle překladových univerzálií a na základě materiálu paralelních subkorpusů, kdy se při analýze vychází pokaždé z jiného originálu, jsou proto zajímavé následující otázky: • Jak s opakováním nejfrekventovanějšího uvozovacího slovesa naložily překlady: je opakování zachováno nebo dochází k jeho redukci? A liší se výsledky v závislosti na typu jazyka? V druhé fázi se pak výzkum zaměřil na použití dalších uvozovacích sloves (zejména v češtině a finštině) a pokusil se najít odpověď na otázky: • Jakým způsobem se pestrá škála uvozovacích sloves v českém originálu překládá do finštiny a do angličtiny? • Dochází k jevům zjištěným u sloves typu „said“ i v případě méně frekventovaných uvozovacích sloves? • Vyskytují se ekvivalenty uvozovacích sloves použité v překladech i v originálních beletristických textech nebo zde dochází k netypickému použití lexikálních vzorců? 46 Získané výsledky budou v závěru konfrontovány s obecnými principy označovanými jako překladové univerzálie. Literatura Bernardini, S. & Zanettin, F. (2004). When is a universal not a universal? In A. Mauranen & P. Kujamäki (Eds.), Translation Universals: Do they exist? Amsterdam; Philadelphia: Benjamins, 51–62. Chesterman, A. (2010). Why study translation universals? In R. HartamaHeinonen & P. Kukkonen (Eds.), Kiasm. Acta Translatologica Helsingiensia. Helsingfors: Helsingfors universitet, 38–48. Corness, P. (2010). Shifts in Czech translations of the reporting verb said in English fiction. In F. Čermák, P. Corness & A. Klégr (Eds.), InterCorp: Exploring a Multilingual Corpus. Praha: Nakladatelství Lidové noviny/ Ústav Českého národního korpusu, 159–176. Levý, J. (1998). Umění překladu. Praha: Ivo Železný. Mauranen, A. & Kujamäki, P. (Eds.) (2004). Translation Universals: Do they exist? Amsterdam / Philadelphia: John Benjamins. Toury, G. (1995). Descriptive Translation Studies and Beyond. Amsterdam/ Philadelphia: John Benjamins. Fárová, L. & Vavřín, M., Korpus intercorp_fi, verze 6 z 8. 4. 2013. Ústav Českého národního korpusu FF UK, Praha 2013. Dostupný z WWW: http:// www.korpus.cz Rosen, A. & Vavřín, M., Korpus intercorp_cs, verze 6 z 8. 4. 2013. Ústav Českého národního korpusu FF UK, Praha 2013. Dostupný z WWW: http:// www.korpus.cz Klégr, A., Malá, M., Rohrauer, L., Šaldová, P. & Vavřín, M.: Korpus intercorp_en, verze 6 z 8. 4. 2013. Ústav Českého národního korpusu FF UK, Praha 2013. Dostupný z WWW: http://www.korpus.cz Chlumská, L., JEROME: srovnatelný překladový korpus. Ústav Českého národního korpusu FF UK, Praha 2013. Dostupný z WWW: http://www. korpus.cz 47 Jarmila Fictumová Filozofická fakulta Masarykovy univerzity [email protected] Jiří Rambousek Filozofická fakulta Masarykovy univerzity [email protected] Jak se mění zrádná slova? Myšlenka vytvořit novou verzi známé příručky Josefa Hladkého Zrádná slova v angličtině je již několik let stará. Příručka vyšla poprvé již v roce 1990 a inspirací pro její vznik byly podobné příručky pro francouzštinu a němčinu (Kudrnáčová 1991). V příspěvku se pokusíme v hlavních rysech popsat uspořádání přepracované příručky a její zamýšlené online verze. Zatímco doposud byla cílena zejména na české studenty angličtiny jako cizího jazyka, v nové verzi předpokládáme jako cílovou skupinu také začínající překladatele z angličtiny. To vyžaduje zahrnutí jevů opačného směru než ty, na něž se zaměřoval Hladký, tj. takových, kde k chybě vede sledování anglické významové struktury při produkci českého textu. (Dodejme, že jsou proto relevantní nejen pro překladatele, ale současně i pro anglofonní studenty češtiny.) Při jejich identifikaci je užíván nově budovaný paralelní korpus studentských překladů, který bude stručně představen spolu s příslušným software. Například ve větě „Personal space [...] is both measurable and atmospheric, fixed and elastic“ použilo 7 ze 17 studentů jako ekvivalent anglického atmospheric české atmosférický (místo zde správného významu „vyvolávající určité pocity, jsoucí věcí pocitu“; jeden překlad zněl navíc vzdušný, což vychází ze stejného neporozumění). Původní Hladkého verze příručky slovo atmospheric neobsahuje, protože nepředstavuje nebezpečí, jestliže český rodilý mluvčí hovoří anglicky (české atmosférický lze vždy přeložit atmospheric). Použitý korpus studentských překladů není určen jen k identifikaci zrádných slov. Je budován jako víceúčelový a je součástí většího korpusu studentských textů (druhou část budou tvořit jejich eseje a jiné texty v angličtině). Byl pro něj vyvinut speciální software pro správu většího počtu paralelních verzí. Korpus umožňuje různé typy akvizice: buď studenti přímo vkládají svou práci pomocí rozhraní, v němž je jim zadána, nebo se do kor- 48 pusu vkládají elektronické texty již předem sebrané e-learningovým systémem. V obou případech lze pak texty tagovat z hlediska překladatelských (či jiných) chyb – při vložení textu lze tedy použít také opravy, které již vyučující k danému textu pořídil v minulosti. To umožňuje zpětně vložit i překlady ze starších běhů kurzů, které jsou v e-learningovém systému stále k dispozici. Na doladění softwaru a zejména systému tagů se průběžně pracuje, takže doposud použité výsledky jsou zčásti dosud zpracovávány ručně. Rutinní nasazení korpusu umožní výsledky ověřovat na větším vzorku studentů a na více textech. Zmíníme se též o některých současných vývojových jazykových tendencích, které pozorujeme v médiích, na internetu i u studentů překladatelství. Zdá se, že některá slova již nejsou „zrádná“: jejich úzus se u některých významů posunul směrem k angličtině, jedná se o jistý druh neosémantizmů (Mravinacová 2005) jako důsledek používání angličtiny v mezinárodní komunikaci. Nelze se domnívat, že se jedná pouze o jazykovou neobratnost překladatelů či dalších uživatelů jazyka. Je zřejmé, že v odborném jazyce dochází k procesu přebírání nových významů i „bývalých zrádných slov“ častěji. Uvedeme několik příkladů z různých oblastí. Naší snahou je ověřovat výskyty těchto neosémantizmů v korpusech. Pro tento účel jsou vhodné jiné korpusy než studentské, tedy paralelní (překladové) korpusy, zejména anglicko-české (InterCorp, Opus2 Czech, případně Kacenka). Výrazy ověřujeme nejen v nich, ale také v českých synchronních korpusech ČNK i v korpusech vytvořených z webu na FI MU (czTenTen12 a czes). Nalezené výskyty srovnáváme a snažíme se vysledovat, v jakých kontextech jsou tyto výrazy používány nejčastěji. Otázkou zůstává, zda jsou to pouze nevýznamné jevy, anebo výrazy, které se v budoucnu v jazyce ustálí. Zejména z hlediska tvorby příručky zrádných slov pak tyto významové posuny vyvolávají otázky týkající se vztahu deskripce a preskripce. Pokusíme se stanovit pracovní kritérium pro to, které výskyty ještě mezi „zrádná slova“ zahrnovat a které již zcela vynechat jakožto v češtině plně přípustné. Přechodovou kategorií by pak zřejmě mohly tvořit případy, kdy přípustnost závisí na stylové rovině. Zrádná slova neexistují pouze na úrovni jednotlivých slov. Zamyslíme se nad možnostmi rozšíření příručky o tzv. zrádné kolokace neboli kolokační faux-amis (Klégr & Šaldová 2006). Zrádné kolokace představují skutečný překladatelský problém, který dosud není soustavně řešen v žádném z dostupných slovníků či příruček. Jejich velmi volné vymezení, které použili 49 Klégr a Šaldová, bude ale pro potřebu praktické příručky nutno upřesnit a pravděpodobně značně zúžit. Literatura Cvrček, V. (2013). Kvantitativní analýza kontextu. Praha: Nakladatelství Lidové noviny. Gabrovšek, D . (1998). Dimensions of falseness in false friends: implications for bilingual lexicography. In A. Zettersten, V. Hjornager Pedersen & J. E. Mogensen (Eds), Symposium on Lexicography VIII. Proceedings of the Eighth International Symposium on Lexicography May 2-4, 1996, at the University of Copenhagen. Niemeyer. Hladký, J. (1990). Zrádná slova v angličtině. Praha: SPN. Klégr, A. & Šaldová, P. (2006). Kolokační faux amis. In F. Čermák, K. Kučera & M. Šuld, (Eds.), Kolokace. Studie z korpusové lingvistiky, Praha: Nakladatelství Lidové noviny. Křen, M. (2013). Odraz jazykových změn v synchronních korpusech. Praha: Nakladatelství Lidové noviny. Kudrnáčová, N. (1991). Josef Hladký, Zrádná slova v angličtině [False friends in English]. Brno Studies in English, 19, 186-187. Mravinacová, J. (2005). Neosémantizmy vzniklé pod vlivem cizího jazyka. In O. Martincová et al., Neologizmy v dnešní češtině. Praha: ÚJČ AV ČR. 50 Masako Fidler Brown University [email protected] Václav Cvrček Ústav Českého národního korpusu FF UK [email protected] Prezidentské projevy: Analýza tematické výstavby a řečových strategií pomocí KWords Prezidentské novoroční projevy poskytují jedinečnou možnost pro testování limitů korpusově založeného diskurzivního výzkumu. Většina ze stěžejních proměnných ovlivňujících jejich podobu (autor, komunikační situace, čas, téma) zůstává konstantní nebo se mění poměrně prediktabilním způsobem. Srovnání novoročních projevů různých prezidentů tak může ukázat na rozdílné priority jednotlivých politiků i na odlišný přístup k žánru novoročního projevu. Tento příspěvek je součástí rozsáhlejší spolupráce mezi Univerzitou Karlovou v Praze a Brownovou Univerzitou v USA (Cvrček & Fidler 2012, 2013ab; Fidler & Cvrček 2012, 2013), která je zaměřena na testování limitů korpusově založené analýzy klíčových slov. V příspěvku budeme analyzovat novoroční projevy čtyř prezidentů – Gustáva Husáka (z let 1976–1989), Václava Havla (z období 1990-2003), Václava Klause (z roků 2004–2013) a Miloše Zemana (2013)* – pomocí nedávno zveřejněné aplikace KWords (viz https:// kwords.korpus.cz/) a kvalitativní textové analýzy. Nástroj KWords identifikuje nejprve klíčová slova („keywords“ podle definice Scott (1996) a Baker & Ellece (2011)). Ta jsou úzce spojena s hlavními tématy textu a s jeho žánrem. Kromě seznamu klíčových slov (KS) aplikace vytvoří pořadí jejich významnosti pomocí modifikovaného Diceova koeficientu, analyzuje vzájemné vazby KS a jejich počty, to vše doplněné přehlednou grafickou reprezentací, která ulehčuje interpretaci textu a jeho porovnání s ostatními (hledání tematických a motivických odlišností). Cílem je korpusovými metodami charakterizovat některé řečnické strategie jednotlivých politiků a poukázat na jejich odlišnosti. * Jelikož není k dispozici novoroční projev M. Zemana z roku 2014, bude místo toho použito jeho vánoční poselství z roku 2013 51 Z pilotního průzkumu analyzovaných textů vyplývá, že KS, jejich pořadí a jejich vzájemné vazby u každého prezidenta reflektují odlišné záměry a cíle jejich projevů. V Husákových textech se odráží prominentní zájem o stabilitu Československa v rámci socialistického bloku (ukazují na to např. následující KS: upevňování, mírového, vlastenectví, vlast, československého/ československá); v Havlových projevech převládají koncepce spoluodpovědnosti, občanské společnosti a demokracie, zatímco v Zemanových projevech je dominantní osobní záměr (viz KS: slib/slibů, zavázal, splnit, milost). Pokud jde o Klausovy novoroční projevy, silně se v nich projevuje zájem o výrazně rozmanitá témata, jako jsou ekonomika (např. zadlužování), vnitropolitické dění (např. mandát, parlamentu) a vztah k Evropě (např. evropského). Ve srovnání s ostatními je zde mnohem cílevědomější snaha vybudovat vazbu s posluchačem na bázi „my = já“. Naproti tomu stojí za povšimnutí, že v Zemanově vánočním poselství – na rozdíl od ostatních prezidentů – chybí mezi KS tvary posesivního a osobního zájmena 1. os. pl. i slovesné tvary 1. os. pl. Literatura Baker, P. & Ellece, S. (2011). Key Terms in Discourse Analysis. London: Continuum. Cvrček, V. & M. Fidler. (2012). Analysis of keywords in Czech political texts: A Needle in a Haystack Model. International conference of Corpus-Assisted Discourse Study. Bologna, Italy, September 2012. Cvrček, V. & M. Fidler. (2013a). Keyword analysis with a usage-based perspective: A preliminary study in Czech. American Association of Teachers of Slavic and East European Languages annual national convention. Boston, January, 2013. (http://www.aatseel.org/100111/pdf/4a8_3_cvrek.pdf) Cvrček, V. & M. Fidler. (2013b). Not all keywords are created equal: How can we measure keyness? Corpus Linguistics 2013, July, Lancaster, 2013 (http://ucrel.lancs.ac.uk/cl2013/doc/CL2013-ABSTRACT-BOOK.pdf) Cvrček, V. & Vondřička, P. (2012). KWords (https://kwords.korpus.cz/) Czech National Corpus – SYN2010. Institute of the Czech National Corpus, Praha 2010. Accessible at WWW: <http://www.korpus.cz>. Fidler, M. & V. Cvrček. (2012). Keyword analysis of totalitarian texts: A case study. (http://www2.ku.edu/~slavic/conference/SLS_2012_Abstracts.pdf) Fidler, M. & V. Cvrček. (2013). Usage-based approach to discourse through keyword analysis. International Conference of the Cognitive Linguistics 52 Association, Alberta, Canada, June, 2013. (http://www.ualberta.ca/~iclc2013/ABSTRACTS/Fidler_et_al.pdf) Scott, M. & C. Tribble. (2006). Textual patterns: Keyword and corpus analysis in language education. Amsterdam: John Benjamins. Markus Giger Ústav východoevropských studií FF UK [email protected] Subjektová rezultativa v češtině ve srovnání s ruštinou V dosavadní literatuře o rezultativních konstrukcích (tedy o slovesných tvarech vyjadřujících stav nutně implikující předcházející děj, jehož uskutečněním daný stav nastal) zajímají subjektová rezultativa (konstrukce, u nichž je koreference mezi subjektem rezultativní konstrukce a subjektem předchozího děje) poměrně okrajové místo (srov. oproti tomu pozornost věnovanou objektovým a posesivním rezultativům). Primární důvody jsou patrně omezená produktivita subjektových rezultativ a chybějící perspektiva jejich gramatikalizace. K tomu přicházejí však další faktory: deverbální tvary schopné vyjádřit rezultativní význam v predikativu jsou často považovány za adjektiva a tím z analýzy vyloučeny, resp. jejich schopnost stát v predikativu není zohledněna. Situace v češtině a v ruštině, která se na první pohled zdá velmi odlišná, vykazuje zajímavé paralely: zatímco se v češtině l-ový tvar typu odkvetlý, který je zodpovědný za velkou část českých subjektových rezultativ, obyčejně považuje za adjektivum a tím stojí v bohemistických opisech mimo paradigmatiku slovesa, ohledně ruštiny se konstatuje, že produktivnost subjektového rezultativa je minimální, protože ruština tvoří jen velmi omezeně n-/t-ové příčestí od intranzitivních sloves. Přitom se ztrácí z pohledu schopnost ruského s-ového příčestí stát v predikativu a vyjádřit rezultativní sémantiku. Sémantické paralely mezi odpovídajícími konstrukcemi v obou jazycích jsou přitom očivid- 53 né; vedle sebe tedy stojí např. č. Její tvář byla zčervenalá a r. Её щёчки были слегка покрасневшими, č. Jezero bylo zamrzlé a r. Озеро было замерзшим, č. Stromy byly zažloutlé a r. Хвоя была пожелтевшей. V příspěvku budou subjektová rezultativa v češtině a ruštině diskutována v celé šířce: produktivnost, restrikce, konkurence se stavovými predikáty (Její tvář byla červená, Ее щеки были красными), speciálně zdůrazněna bude však úloha českého l-ového tvaru a jeho výskyt v textech a výskyt ruského s-ového příčestí v predikativní pozici s rezultativním významem a také analogie mezi nimi. K tomu přicházejí některé úvahy o diachronii, zejm. ohledně prosazení s-ového příčestí v ruštině na začátku 19. stol. a jeho konkurence s l-ovým tvarem. Analýza bude využívat paralelní korpusy, vedle toho však – vzhledem k poměrně nízké fekvenci subjektových rezultativ v textu – převážně neparalelní národní korpusy obou jazyků včetně diachronních a také internet. Literatura Damborský, J. (1967). Participium l-ové ve slovanštině. Warszawa: PWN. (Rozprawy Uniwersytetu Warszawskiego 15) Giger, M. (2010). Příčestí minulé činné na -(v)ší v dnešních českých publicistických textech. Korpus – Gramatika – Axiologie, 1 (2), 3–23. Knjazev, Ju. P. (1989). Akcional’nost’ i statal’nost’. Ich otnošenie v russkich konstrukcijach s pričastijami na -n, -t. München: Sagner. Nedjalkov, V. P. & Jachontov, S. E. (1983). Tipologija rezul’tativnych konstrukcii. In: V. P. Nedjalkov (Ed.), Tipologija rezul’tativnych konstrukcii. Leningrad: Nauka, 5–41. Wiemer, B. & Giger, M. (2005). Resultativa in den nordslavischen und baltischen Sprachen. Bestandsaufnahme unter arealen und grammatikalisierungstheoretischen Gesichtspunkten. München: Lincom. (LINCOM Studies in Language Typology 10) 54 Hana Goláňová Ústav Českého národního korpusu FF UK [email protected] Marie Kopřivová Ústav Českého národního korpusu FF UK [email protected] Kartografické a geografické zpracování dat z mluvených korpusů V současné době jsou budovány v ÚČNK dva nové korpusy mluveného jazyka, a to korpus ORTOFON a nářeční korpus DIALEKT. Oba korpusy mluveného jazyka mají douvúrovňovou transkripci a obsahují nahrávky pořízené na území celé České republiky. První úroveň přepisu dat v korpusu ORTOFON je přepis převážně ortografický. Navazuje na transkripci korpusů řady ORAL a bude sloužit k snadnému vyhledávání. Druhou úroveň tvoří zjednodušená transkripce fonetická, která se snaží podrobněji zachytit některá specifika výslovnosti mluveného jazyka, např. asimilace a další jevy. K segmentaci a přepisu jazykových dat pro korpus ORTOFON i DIALEKT je používán transkripční program ELAN (http://tla.mpi.nl/tools/tla-tools/elan/). Nahrávky tvořící korpus ORTOFON jsou nepřipravené rozhovory mluvčích, takže promluvy mají většinou dialogický ráz. Rozhovory probíhají v autentickém prostředí a mezi mluvčími, kteří se vzájemně znají. Mluvčími bývají dospělí od 18 let. Nahraný jazykový materiál pochází z městských i venkovských lokalit. Pro vyvažování korpusu je určující nářeční oblast, kde mluvčí strávil dětství. Korpus DIALEKT prezentuje tradiční teritoriální dialekty na území ČR a vychází z nahrávek, které byly pořízeny v období 60. až 80. let 20. století dialektologickým oddělením ÚJČ AV ČR, v. v. i. Jde o jazykový materiál, v němž jsou uchovány archaické nářeční prvky mluveného jazyka z českých nářečních oblastí, jež se dnes již v běžném úzu z velké části nevyskytují. Aby bylo možno doložit původní, ještě nenarušený, stav českých dialektů, byl terénní nářeční výzkum zaměřen na příslušníky nejstarší generace. Mluvčími jsou místní rodáci většinou z venkovských lokalit, kteří patřili ke starousedlé vrstvě obyvatelstva, spjaté se zemědělským způsobem života nebo 55 s řemeslem. Většinou se narodili ke konci 19. století a na počátku 20. století. Promluvy mívají spíše monologický ráz. Korpus je taktéž dvouúrovňový, s přepisem dialektologickým a ortografickým. Pro zpracování jazykového materiálu z obou mluvených korpusů hraje velkou roli zařazení mluvčích ze sond do systému územního hierarchického členění. Tento systém zeměpisného členění českého jazykového území byl po desetiletí dialektology korigován a vznikl na základě stanovení hranic rozšíření diferenčních nářečních jevů. Rozděluje Českou republiku na větší a menší nářeční oblasti a celky. Tyto oblasti jsou stanoveny především na základě Českého jazykového atlasu a dalších jazykových příruček. Pokud chceme zpracovávat data z obou mluvených korpusů, potřebujeme tyto mapy zpřesnit a do budoucna počítáme i s mapovým zobrazením nahrávek podle místa původu mluvčích. V současnosti je možné využít moderních kartografických metod nejen pro zobrazení nářečních oblastí a menších územních celků, ale i pro popis jednotlivých zkoumaných lokalit a jazykových jevů. Lze např. použít program ArcGis (je přístupná i webová verze, http://www.arcgis.com/explorer/), v němž si můžeme na základě databáze vytvářet vrstvy podkladových map pro geografické členění. Zároveň bychom těchto podkladových map rádi použili k modelování rozšíření jazykových jevů, které bude možné v mluvených a nářečních korpusech sledovat, jako např. rozšíření protetického /v/, úžení, určité typy asimilace. Počítáme i s didaktickým využitím, kdy je možné k mapovému podkladu a ke sledované lokalitě přidat nahrávku a krátký přepis příslušného dialektu. (srov. např. německá databáze http:// www.dialektkarte.de/, anglická databáze http://sounds.bl.uk/Sound-Maps/ Accents-and-dialects, nebo americká http://aschmann.net/AmEng/). Výhledově bychom rádi získali současné nahrávky mluvčích, kteří pocházejí ze stejných nebo blízkých lokalit jako mluvčí z nářečního korpusu DIALEKT. Uživatel by pak měl možnost sledovat, které nářeční prvky se v mluvě zachovaly dodnes a jak se jazyk v určité lokalitě nebo nářeční oblasti vyvíjí. Literatura Balhar, J. et al. (1992, 1997). Český jazykový atlas 1, 2. Praha: Academia. Balhar, J. et al. (1999, 2002, 2005). Český jazykový atlas 3, 4, 5. Praha: Academia. Balhar, J. et al. (2011). Český jazykový atlas Dodatky. Praha: Academia. 56 Bělič, J. (1972). Nástin české dialektologie. Praha: Státní pedagogické nakladatelství. Karlík, P., Nekula, M., & Pleskalová, J. (Eds.) (2002). Encyklopedický slovník češtiny. Praha: Nakladatelství Lidové noviny. Wittenburg, P., Brugman, H., Russel, A., Klassmann, A. & Sloetjes, H. (2006). ELAN: a Professional Framework for Multimodality Research. In Proceedings of LREC 2006, Fifth International Conference on Language Resources and Evaluation, 1556–1559. http://tla.mpi.nl/tools/tla-tools/elan/ http://www.arcgis.com/explorer/ http://www.dialektkarte.de http://sounds.bl.uk/Sound-Maps/Accents-and-dialects http://aschmann.net/AmEng/ Zbigniew Greń Varšavská univerzita [email protected] Formální variabilita nejnovějších anglicismů v češtině, polštině a slovenštině (na korpusovém materiálu) Současné slovanské jazyky podléhají stejnému procesu v rámci globalizace, to znamená vlivu angličtiny, jenž se odráží predevším v lexikální rovině jazyka. Jak je známo, každý kulturní jazyk si vypracoval způsob postupu s cizími vlivy, a způsob jejich inkorporace. Zde uvedené západoslovanské jazyky do jisté míry mají stejný způsob adaptace, v jistém měřítku přece jen zavádějí tyto elementy do mateřštiny rozdílným způsobem. Jedná se především o rozdíly v tempu přizpůsobení k domácímu lexiku. Kromě toho, tyto jazyky, ačkoliv z téže jazykové skupiny a poměrně si podobné, zvlášt čeština a slovenština, se přece jen v podrobnostech liší, co znamená, že postup adap- 57 tace může být rozdílný. Stejné u těchto jazyků je to, že cizí slova podléhají zdomácnění ve všech jazykových rovinách. Tyto adaptační procesy trvají nějakou dobu a změny v použití výpůjček mají dynamický charakter. A proto slovníky, dokonce také slovníky neologismů, nejsou s to zachytit samotnou podstatu tohoto procesu. Slovníky totiž zaznamenávají již ustálenou, vžitou podobu přejatého slova, kdežto před zaznamenáním této podoby ve slovnících, přejímaná slova se vyskytují v jednotlivých textech v nejrozmanitějších tvarech. Tuto dobu kolísání tvarů výpůjček a celou mozaiku používaných forem zaznamenávají z textů jenom jazykové korpusy. Korpusový materiál je totiž nejblíže jazykové praxi, to znamená jazykovým pramenům. A proto, abychom zjistili podstatu procesu adaptace a celé bohatství jazykových forem, použitých v textech, obracíme se na korpusový materiál. K analýze použijeme korpusy tří jazyků: češtiny, polštiny a slovenštiny, samozřejmě se zřetelem na rozdíly mezi těmito korpusy, jak po stránce obsahové, tak případně metodologické. Proto taky výsledky srovnání budou uvedeny v podobě nepřímé (procenta) a budou mít především orientační hodnotu. Jednotlivá slova, zaváděná do výše jmenovaných jazyků, působí ovšem rozdílné adaptační problémy. Závisí to na míře jejích složitosti a rozdílnosti ve srovnání s domácím lexikem. Nejméně problémů je se slovy, jež se moc neliší ve výslovnosti v jazyku původním a přijímajícím, jako jsou např. dvojité souhlásky, jež se také vyskytují v domácím jazyce. Následkem toho je dvojí možnost tvarů uváděných, jednak totožnost s původním tvarem, jednak zjednodušení pravopisného tvaru v této poloze (v češtině a slovenštině ve shodě s výslovností), srovnejme slovenské, české a polské assembler : asembler, boss : bos. Čím více původní tvar je složitější a vzdalenější svou podobou od tvarů domácích, tím větší je jeho formální variabilita v textech. Ve zmíněných textech se vyskytují tvary od vůbec nezměněných, fungujících podle pravidel citování cizího tvaru a textu, až po tvary plně adaptované, tak v rovině ortografické, fonetické, morfologické, případně také sémantické. Týká se to všech zkoumaných jazyků. Mezi těmito jazyky, a také mezi procesy adaptace cizích slov v těchto jazycích, existují jisté rozdíly, nejsou to však rozdíly nějak zásadní. Týkají se především podrobností, dokonce jednotlivých přejímaných slov. Zásadnější rozdíl by mohl být výsledkem rozdílů v jazykové politice vůči výpůjčkám, a toho, jak rychle se výpůjčky podrobují pravidlům jazyka domácího. Dalo by se říct, že ze tří zmíněných jazyků nejrychlejší 58 v tomto adaptačním postupu je slovenština, nejpomalejší je polština. Jedná se přece jen o oficiální pravidla, kdežto jednotliví uživatelé jazyka se těchto pravidel nedrží, a proto také vzniká v textech (v jazykových korpusech), poměrně bohatá variabilita tvarů, a to ve všech třech zmíněných jazycích. Zajímavé v těchto pokusech o zavedení anglicismů do zmíněných jazyků je také to, že tato variabilita se týká nejen nových slov (z oblasti tak říkajíc moderního života, popsaných už několikrát ve vědecké literatuře), ale také slov už v těchto jazycích ustálených, a dokonce kodifikovaných v pravidlech pravopisu, jako je např. slovo (česky a slovensky) kovboj / (polsky) kowboj. Vystupuje totiž v těchto textech, různého rázu, výpůjčka v původní podobě cowboy (adaptována morfologicky, např. slovenské cowboyom, cowboyi, cowboyov, cowboymi, české cowboye, cowboyem, cowboyové, cowboyů,polské cowboya, cowboyów, cowboyami ) a ve tvarech částečně adaptovaných, jako jsou např. slovenské kowboy, kowboj, kawboj, české kowboj, polské kowboy, kawboj. Původní podoby jsou posilovány jednak používáním v domácích textech celých citací z angličtiny (jako tomu bylo dříve s latinou, francouzštinou apod.), jednak velikou frekvencí propriální slovní zásoby, jako jsou např. cizí názvy firem (dokonce domácích). Variabilita zase je výsledkem toho, že dnešní uživatelé jazyka, také ve veřejné psané sféře, nepoužívají jazykové pomůcky nebo vůbec jazykové pomůcky neobsahují požadovaná slova a k tomu neexistuje už mechanismus jazykové a redakční úpravy textu. Tímto způsobem ve veřejné jazykové komunikaci, také psané, můžeme zaznamenat občas jazykový zmatek v oblasti přejímaných slov. V našem příspěvku tento jev doprovázíme materiálem z jazykových korpusů srovnávaných jazyků, jak v jeho společných rysech, tak v jednotlivých rozdílech. Uplatnění diachronického hlediska, v časovém rozpětí využitých korpusů, umožňuje dokonce ukázat dynamiku tohoto procesu. Literatura Dobrík, Z. (2007). Jazyky v kontaktoch. (Anglicizmy a iné slová cudzieho pôvodu v nemčine a slovenčine). Banska Bystrica. Görlach, M. (Ed.) (2001). A Dictionary of European Anglicisms. New York. Madecki R. (2009). Anglicismy v současné češtině a polštině. In I. Pospíšil (Ed.), Klíčové problémy slovanských areálů, Brno. Rejzek J. (1993). K formální adaptaci anglicismů, Naše řeč, 76, 1. Český národní korpus. Ústav ČNK, FF UK, Praha. Dostupný z www <http:// www.korpus.cz> 59 Slovenský národný korpus. Bratislava: Jazykovedný ústav Ľ. Štúra, SAV. Dostupný z www: http://korpus.juls.savba.sk Narodowy Korpus Języka Polskiego Milena Hebal-Jezierska Varšavská univerzita [email protected] Obraz(y) Američana a Angličana v korpusech českého, slovenského a polského jazyka Cílem článku je rekonstrukce obrazů vybraných lexémů denotujících Američana a Angličana dostupných v různých korpusech Českého národního korpusu, Slovenského národního korpusu a Polského národního korpusu. Analyzujeme neutrální a expresivní jména (a jejich odvozeniny) označující zmíněné národnosti. K analýze používáme různé přístupy korpusové lingvistiky, vycházející z metodologie corpus-based a corpus-driven. „Korpusově řízený přístup (corpus-driven approach) je takový, který své výsledky zakládá pouze na něm a stojí proti korpusově založenému přístupu (corpus-based approach), který z korpusu vychází, ale podle potřeby ho doplňuje z jiných zdrojů, popř. vlastní retrospekce“ (Čermák 2006: 15). V našem příspěvku používáme např. kolokační profily, pattern grammar, klíčová slova, seznam slov, analýzu konkordance apod. V článku chceme prezentovat, jak se mění obrazy Američana a Angličana v závislosti na druhu zkoumaného lexému, typu použitého korpusu (jeho druhu, velikosti, doby vzniku textu), druhu kontextů a témat, typu nástrojů i manažeru, a také na jazyce. Zajímavé rozdíly najdeme v obrazech zjištěných v korpusech SYN2010, SYN2009PUB, prim -6.0 -public -all of prim. 6.0. -public- inf, NKJP. Srovnání obrazů Američana a Angličana, které jsme 60 tvořili na základě řady SYN2005, SYN2010 a SYN2000 a jejich slovenských ekvivalentů, přináší další zajímavé závěry. Analýza zahrnující tři jazyky a tři korpusy nám pomůže dospět k objektivním závěrům. V příspěvku se také zmíníme o faktorech umožňujících aplikaci dané metody. Použité přístupy se snažíme vzájemně ověřovat a najít ten nejlepší způsob reprezentace obrazu. Literatura Baker, P. (2010). Sociolinguistics and Corpus Linguistics. Edinburgh. Baker, P., Gabrielatos, C. & McEnery. T. (2013). Discourse Analysis and Media Attitudes: The representation of Islam in the British press. Cambridge: Cambridge University Press. Baker, P., Gabrielatos C., Khosravinik, M., Krzyzanowski, M., McEnery, T. & Wodak, R. (2008). A useful methodological synergy? Combining critical discourse analysis and corpus linguistics to examine discourses of refugees and asylum seekers in the UK press. Discourse & Society, 19(3), 273–305. Bańko, M., Doliński, I., Duda, J., Hebal-Jezierska, M. (2012). Collocation Images of Hungarians in Slavonic Languages. In A. Obrębska (Ed.), Practical Applications of Linguistic Research, Łódź. Bartmiński, J. (Ed.). (1999). Językowy obraz świata, Lublin. Błuszkowski, J. (2003). Stereotypy narodowe w świadomości Polaków, Warszawa. Čermák, F. & Blatná, R. (2006). Korpusová lingvistika: stav a modelové přístupy. Praha: Lidové noviny. Čermák, F. & Šulc, M. (2006). Kolokace. Praha: Lidové noviny. Český národní korpus – SYN2000, SYN 2005, SYN2010. Ústav Českého národního korpusu FF UK, Praha 2010. Dostupný z WWW: <http://www.korpus.cz>. Hebal-Jezierska, M. (2011). Kolokační obrazy některých lexémů patřících do sémantického pole cizinec v českém tisku (s metodologickými úvahami). In. F. Čermák (Ed.), Korpusová lingvistika InterCorp. Praha: Lidové noviny, 109–123. Hunston S. & Francis G. (2000). Pattern Grammar. Amsterdam/Philadephia: John Benjamins. Tognini-Bonelli, E. (2001). Corpus Linguistics at Work, Amsterdam: John Benjamins. 61 Jiří Hedánek Filozofická fakulta Univerzity Karlovy [email protected] GLOSSA, metajazyk pro popis zvukové stránky textu Pro vícefázový projekt korpusové fonologie středověké podoby starověkého jazyka jsem vytvořil obecný formální deskriptivní metajazyk Glossa (General Language of Speech Sound Analysis) jako skript fonologický, analytickofonetický i akustický. Není to transkripce (bývají syntetické), naopak může do své syntaxe integrovat libovolnou transkripci. Může být užíván neformálně (až natolik, že se vmísí do běžné grafiky). Formální užití je určeno strojovému zpracování. Výstupem mohou být statistiky zvukových prvků včetně prozodie, sestavení syntetických transkripcí, akustický převodník do systémů TTS (text-to-speech) anebo bytecode zvukové struktury. Neformální užití spoléhá na implicitní definice prvků, intuitivní syntax, případně grafiku transkripce; toleruje neúplnost, nejistotu, variantnost či značnou ležérnost popisu. Formální úzus transkripci téměř nepotřebuje (ta je komentářem, v lepším případě pojmenováním či nejvýš datovým typem) a kromě implicitních definic může prvky a operátory definovat explicitně. Vedle změny implicitních hodnot může redefinovat nejen významy prvků, ale i některých syntaktických konstrukcí (což v důsledku znamená, že Glossa není jeden jazyk, ale svazek podobných jazyků). Tak lze Glossu přizpůsobit různým praktickým potřebám bez omezení formální explicitnosti. Možnost více rovin abstrakce využije nejenom fonologie. K výzkumu fonologie slouží sběr dat do mimotextových datových struktur. Pro fonetický zápis (u jazyka bez dochovaného znění jen hypotetický) lze nad rámec těchto definic rozvinout kvalifikace u transkriptorů v textu, kde to skutečné znění vyžaduje. Jinou kombinaci externích definic a intratextových kvalifikací potřebuje akustický popis zvukové stránky (další fáze projektu). Z technických i kapacitních důvodů může být úspornější zkompilovat kompletní zdrojový popis z Glossy do tzv. bytecodu. Důvodem zkompilování do binárního bytecodu může být buďto možnost spouštět syntetické znění na různých platformách TTS efektivněji (jeden bytecode pro více instrukčních sad), rychleji (pevný formát) anebo zakó- 62 dovat znění v idealizované kompaktní formě (nikoli jako zvuková data, nikoli jako metajazykový záznam), např. když přesná transkripce má jakožto okrajová, málo využívaná součást textu zabírat co nejméně místa (nastavuje jednotlivé bity). Formát bytecodu jsem vytvořil jako svou diplomní práci (BFK, binární fonetické kódování jako součást BLK (v3.2), FÚ 1995). Není přímo čitelné, ale je úsporné a přímočaré. Glossa není úsporná, zato přístupná a pružná. Převod do různých datových formátů je tedy jednodušší z BFK než z Glossy. V tom se Glossa podobá problémově orientovaným programovacím jazykům. Glossa striktně užívá ASCII. Jiná kódování toleruje v transkripci a zapouzdřeních cizího kódu (např. grafiky). Byť je schopna omezené algoritmizace (BFK také), jde primárně o datový, nikoli procedurální kód. Je tedy bezpečná. Formát segmentu sestává z prefixu, transkriptoru, sufixu, deskriptorů a kategorizátorů. Jediný povinný je prefix. Konkatenuje na pozici úzkým rejstříkem znaků, aby parsing segmentů byl jednoduchý. Transkriptor, nepovinný libovolně dlouhý řetězec (i nulový), značí jeden segment. Nepovinný sufix, zpřesňující fonetický význam, je ústupek impresionistické transkripci. Ač neurčen strojovému zpracování, lze parsovat. Pro formálnější analýzu jsou vhodnější nepovinné deskriptory. Může jich být libovolný počet, mají různou sémantiku. Výjimečně se uplatní nepovinný kategorizátor. Vzorec rozvinutějšího segmentu je ..[x](y)(z), kde x je transkriptor, y a z deskriptory. Často stačí jen ..x nebo ..x(y). Segmentaci se lze i vyhnout. Suprasegment a extrasegmentální neřečové prvky využívají kombinací svislic a závorek. Pro každé složitější členění textu a komplikovanější datové bloky se užívá <štítek[konstituent]štítek>, kde konstituent (interpretační kontext) může být <...[ textový]...>, <...{supratextový}...>, <...(technický)...> nebo <...<grafický>...>. Jednodušeji lze členit rozhraními, ač nemusí být tak jednoznačná. Své značení mají deklarace, operace a folding. Bloky deklarací i deskriptory disponují pro popis deskripčními rysy: kromě prozodie 118 základních, které lze zpřesnit nebo definovat další. Popisovat prozodii lze intuitivně (několika úrovněmi výšky a důrazu), anebo akusticky přesně. Časový rozměr umožňuje značit dva druhy délek současně. Před začleněním do druhé disertace, Phonology of Masoretic Hebrew: A Corpus Approach, připravuji revizi aktuální verze Glossy b14.20 na b15.0. Ta by se po nasazení ve třetí fázi projektu už neměla podstatně měnit. 63 Zdeňka Hladká Ústav českého jazyka FF MU [email protected] Užití korpusu korespondenčních textů KSK111 k sledování dynamiky české slovní zásoby ve 20. století Vzhledem k jubilejnímu charakteru konference bude úvodní část příspěvku věnována krátkému ohlédnutí za dvacetiletým zapojením bohemistů brněnské filozofické fakulty do tvorby korpusových zdrojů češtiny a etablování korpusové lingvistiky v českém prostředí. Brněnští lingvisté K. Pala, K. Osolsobě a později Z. Hladká se od samého počátku podíleli na aktivitách směřujících k vytvoření Českého národního korpusu (už v r. 1988 účastí v Iniciativní skupině pro přípravu počítačových korpusů a slovníků, která dala impuls k vybudování Počítačového fondu češtiny a v r. 1994 stála u založení Ústavu Českého národního korpusu), na metodice tvorby korpusů a jejich značkování (v úzké spolupráci s brněnskými informatiky P. Rychlým, R. Sedláčkem a řadou dalších) i na zapojování korpusových zdrojů do lingvistického výzkumu. Na Masarykově univerzitě vznikly též dva menší specializované korpusy, které se staly součástí ČNK (Brněnský mluvený korpus, BMK, v ČNK od r. 2002; Korpus soukromé korespondence, KSKdopisy, v ČNK od r. 2006). Příspěvek připomene přípravu těchto korpusů, jejich pozitiva i limity a směry využití pro mapování češtiny a pro vysokoškolskou výuku. Upozorní na rozvoj korpusové lingvistiky v pracích mladší generace lingvistů FF MU i studentů oboru Český jazyk se specializací počítačová lingvistika, který byl v Brně otevřen v r. 2010. V hlavní části příspěvku budou dva korpusy korespondenčních textů vytvořené na FF MU (KSKdopisy a KSK111) prezentovány jako cenný materiálový zdroj pro lexikologicko-lexikografický výzkum. Zmíněny budou některé výsledky analýz korpusu KSKdopisy mapujícího korespondenci přelomu 20. a 21. století (Hladká 2013, Hladká & Martincová 2012, Machalová & Osolsobě, 2013), pozornost však bude věnována především nedávno vzniklému korpusu KSK111 zahrnujícímu soukromou korespondenci z let 1902 až 2012 (Hladká et al. 2013). Na příkladech z jeho materiálu bude sledován pohyb v slovní zásobě češtiny v průběhu 20. století. Půjde pochopitelně o dy- 64 namiku vázanou na charakter soukromého dopisu, proměny epistolárního stylu a epistolární etikety, nicméně dosavadní sondy naznačují využitelnost získaných poznatků i pro obecněji platné úvahy o vývojových procesech v lexikonu. Analýza se zaměří na slovní zásobu typickou pro osobní dopisy: na hypokoristika z propriální i apelativní sféry, kvalitativní deminutiva, lexikum s příznakem knižnosti a okazionalismy. Při hodnocení excerpovaných dat bude akcentována relace archaičnost – knižnost (na pozadí údajů základních výkladových slovníků češtiny PSJČ, SSJČ, SSČ). Literatura Hladká, Z. (2013). Corpora of Private Correspondence as a Source of Material Focused on a Research of Diminutives. In K. Gajdošová & A. Žáková (Eds.), Natural Language Processing, Corpus Linguistics, E-learning: SLOVKO 2013. Lüdenscheid: RAM-Verlag, 81–91. Hladká, Z. et al. (2013). 111 let českého dopisu v korpusovém zpracování. Brno: Masarykova univerzita. Hladká, Z. & Martincová, O. (2012). Slova v soukromých dopisech. Lexikografická sonda. Brno: Masarykova univerzita. Hlaváčková, D. (2013). Korpusové zpracování korespondenčních textů: morfologické značkování. In Z. Hladká et al., Soukromá korespondence jako lingvistický pramen. Brno: Masarykova univerzita, 19–31. Machalová, J. & Osolsobě, K. (2013). Hypokoristika z rodných jmen v Korpusu soukromé korespondence. In Z. Hladká et al., Soukromá korespondence jako lingvistický pramen. Brno: Masarykova univerzita, 33–59. 65 Jaroslava Hlaváčová Ústav formální a aplikované lingvistiky MFF UK [email protected] Vyjádření intenzity slovesného děje pomocí předpon V práci (Hlaváčová 2009) je uvedena množina šesti českých slovesných předpon, které spolu s reflexivním morfémem způsobí modifikaci původního slovesa. Nemodifikuje se však hlavní význam slovesa, ale intenzita děje, který je slovesem vyjádřen. Jedná se o předpony roz-, po-, za-, na-, vy- a u- s reflexivním morfémem se nebo si (u předpon po- a za-). Uvedené pořadí současně zavádí uspořádání předpon podle intenzity slovesného děje. Předpona roztedy znamená začátek, malou intenzitu, předpona u- potom intenzitu nejvyšší. Intenzity vyjádřené pomocí ostatních předpon se mohou překrývat, jejich stupeň není ostře vyhraněný. Tento typ slovesné modifikace je velmi produktivní, lze ho aplikovat na většinu nedokonavých sloves. V dalších pracích (Hlaváčová & Nedolužko 2012, 2013) se ukázalo, že podobné vlastnosti mají tyto předpony i ve slovenštině a v ruštině; z nepublikovaných konzultací se potom lze domnívat, že i polština a chorvatština má podobnou posloupnost intenzifikujících slovesných předpon. Nabízí se tedy hypotéza, že uvedený způsob modifikace slovesa je vlastností více (všech?) slovanských jazyků. V našem příspěvku se však chceme zabývat jen češtinou. V uvedených pracích je předloženo ke každé předponě několik příkladů – vymyšlených i převzatých z korpusů a z internetu. Není tam však předvedeno, zda je možné uvedené typy sloves v běžném textu správně rozpoznat. Některá slovesa s příslušnou předponou a výše popsaným významem jsou běžnou součástí jazyka, v jiných případech však jde o slova příležitostná, která přirozeně nejsou zahrnuta v žádném slovníku. Jedním z důsledků je to, že zůstávají v jazykových korpusech většinou nerozpoznána. Při automatickém zpracování jazyka je však výhodné i takové slovní formy umět rozpoznat a přiřadit jim správné morfologické, případně i jiné vlastnosti. Rozšířit slovníky o všechny možné tvary takových sloves však není příliš užitečné, zvláště vezmeme-li v úvahu jejich poměrně nízkou frekvenci. Přitom je poměrně snadné je v textu rozpoznat. 66 V tomto příspěvku bychom tedy chtěli ukázat, jak taková slovesa v textech vyhledávat, a stanovit kritéria, která umožní jejich správné určení. Pomocí klasických měr pro vyjádření přesnosti ukážeme, jak jsou takové vyhledávky úspěšné. Vše bude prezentováno na datech Českého národního korpusu. Konkrétně jsme tedy navrhli vyhledávací podmínky, které v anotovaném korpusu řady SYN označí slova, jejichž zápis začíná jednou z uvedených předpon a v jejichž rozumném okolí se nachází reflexivní morfém se (případně si). Ve výsledné množině se samozřejmě objevila i jiná slova, včetně překlepů, kterými se zabývat nechceme. Proto jsme výslednou množinu dále zúžili. Odtrhli jsme předponu a spustili morfologickou analýzu na zbylý řetězec. Vycházíme z předpokladu, že základní sloveso, ke kterému je připojena předpona, je běžnou součástí jazyka, a tudíž obsaženo v morfologickém slovníku. Jestliže tedy analýza určila, že zbytek je nedokonavé sloveso, zařadili jsme tento výskyt do výsledné množiny. Abychom mohli udělat ruční evaluaci, zúžili jsme seznamy vět pro každou předponu na maximálně 200 vět. Ty jsme poté podrobili ručnímu zkoumání a u každého výskytu rozhodli, zda se jedná o sloveso s daným významem, či nikoli. Z výsledných počtů jsme potom pro všechny předpony spočítali hodnotu tzv. precision, která určuje, jaký poměr z vybraných kandidátů je skutečně hledaným slovesem. Největší precision, vychází pro předponu roz- (0,81), nejmenší pro předponu vy- (0,17). Vysoká hodnota precision znamená, že určení, zda jde o stupňované sloveso, je poměrně spolehlivé. U sloves s předponami, jejichž hodnota precision je nízká, není jejich intenzifikační význam tak jednoduše rozpoznatelný. U některých předpon je však možné využít i jiná kritéria, vycházející především z kontextu. Objevíli se například v okolí reflexivního slovesa s předponou u- výraz „k smrti“, bude jeho určení zřejmě mnohem jistější (např. uhonil se k smrti). Literatura Český národní korpus – SYN2010. Ústav Českého národního korpusu FF UK, Praha 2010. Dostupný z WWW: <http://www.korpus.cz>. Hlaváčová, J. (2009) Formalizace systému české morfologie s ohledem na automatické zpracování českých textů. Ph.D. thesis, FF UK, Praha. Hlaváčová J. & Nedolužko A. (2012). Příklad pravidelných slovotvorných vzorců v automatickém zpracování češtiny a ruštiny. In Zborník príspev- 67 kov prezentovaných na konferencii Informačné technológie – Aplikácie a Teória, ITAT 2012, Hotel Magura, 17–21. septembra 2012. 53–56. Hlaváčová J. & Nedoluzhko A. (2013). Intensifying Verb Prefix Patterns in Czech and Russian. In Lecture Notes in Computer Science, Vol. 8082, Text, Speech and Dialogue: 16th International Conference, TSD 2013. Berlin / Heidelberg: Springer Verlag, 303–310. Hlaváčová J. & Nedoluzhko A. (2014). Productive verb prefixation patterns. The Prague Bulletin of Mathematical Linguistics, No. 101, Univerzita Karlova v Praze, Praha, 111–122. Khoroshkina, A. & Nedoluzhko, A. (2014). “Vchera nasochinyalsya voroh strok”: Productive circumfixal intensifying patterns in Russian. In Papers from the Annual International Conference Dialogue 2014, 13 (20) of Computational Linguistics and Intellectual Technologies, Moscow. Milena Hnátková Ústav teoretické a komputační lingvistiky FF UK [email protected] Automatická identifikace ustálených kolokací v diachronních textech Příspěvek se zabývá automatickým vyhledáváním frazémů a ustálených slovních spojení v diachronních korpusových textech a porovnáním výsledků automatického označení přísloví s výsledky v textech synchronních korpusů. Pro účely tohoto výzkumu byl vytvořen vzorek elektronických textů 19. století z textové základny diachronní části Českého národního korpusu a vyhledávácí program pro automatickou identifikaci frazémů byl doplněn o další ustálená slovní spojení 19. století. Texty připravované pro zařazení do diachronního korpusu Diakorp o rozsahu cca 2 miliónu slov obsahují díla autorů 19. století, například F. Palackého (Dějiny národu českého v Čechách 68 a na Moravě), J. Arbesa, B. Němcové, A. Jiráska, převážnou část tvoří básně, například J. Vrchlického, J. Zeyera, J. V. Sládka, F. Rubeše, je zde zařazen i slovník Příruční slovník jazyka českého (PSJČ) a vydání časopisu Český lid. Vyhledávací procedura ustálených slovních spojení FRANTA (FRazémová ANotace a Textová Analýza) je program automatického vyhledávání kolokací v korpusových datech, pracuje na jednoznačném morfologicky označkovaném textu, proto pro účely této studie byly diachronní texty automaticky morfologicky označkovány pracovně pomocí programu pro desambiguaci současného psaného jazyka. Seznamy frazémů jsou uvedeny v tabulce, kterou program vyhledávání využívá. Tento počítačový program automatického vyhledávání ustálených slovních spojení FRANTA je založen na Slovníku české frazeologie a idiomatiky (SČFI) a doplněn o ustálená slovní spojení vyskytující se v korpusových datech. Automaticky nalezená slovní spojení jsou označena a lze je vyhledávat v korpusovém vyhledávači. Při rozšíření tabulek pro automatické vyhledávání ustálených kolokací byla aktuálně zařazena pouze ta větná spojení ze SČFI (část Výrazy větné - SČFI4), která se vyskytují v korpusech SYN. Pro zpracování diachronních textů byla do programu automatické identifikace frazémů zařazena další slovní spojení z SČFI4, zejména přísloví, která se v diachronních textech vyskytují. Dále do vyhledávání byla zařazena přísloví, která byla identifikována v textech 19. století (pomocí korpusového vyhledávače) na základě klíčových slov – přísloví, rčení, úsloví, pranostika, „říká se“ apod. Dalším způsob nalezení přísloví vyskytujících se v textech bylo zobecnění tabulky pro vyhledávání přísloví (lemmata byla zaměněna proměnnou) a pomocí takto vzniklých základních slovnědruhových vzorců přísloví (Kdo se ...; Komu se ..., tomu se ...) byla automaticky označena některá slovní spojení jako potencionální přísloví. Ve výsledku tohoto vyhledávání byly potom ručně identifikována přísloví, která byla zařazena do tabulky pro automatické označování frazémů. Při automatickém zpracování diachronních dat (automatická morfologická desambiguace) bylo nalezeno několik pro automatickou morfologickou analýzu neznámých slov, jejichž výskyt jsme porovnávali v synchronních korpusech. Tímto způsobem bylo například doplněno do stávajícího morfologického slovníku slovo „prk“ (a sloveso prkat), uvedené v PSJČ jako kozí, kozlovitý pach a vyskytující se i v synchronním korpusu: „Jasně jsme cítili jeho prk.“ (SYN2009). 69 Autor příspěvku se zaměří především na porovnání výsledků automatického vyhledávání větných výrazů v diachronním textu s texty současné publistiky – s výsledky automatického označení ustálených kolokací v korpusech současného psaného jazyka řady SYN z Českého národního korpusu. Příspěvek si hlavně všímá rozdílu v používání a frekvenci českých přísloví. Například přísloví: „Nežeň se očima, ale ušima.“, „Kdo se žení pro statek, přichází na zmatek“ se vyskytují pouze v diachronních textech, k přísloví „Kdo se míchá mezi plevy, toho prasata snědí“ z 19. století se v korpusu syn2010 vyskytuje varianta: „Kdo se míchá mezi otruby, svině ho zežerú“. Pro situaci, že je špatné počasí, se stále používá označení „všichni čerti se žení“, ve vzorku diachronních textů byla nalezena varianta: „všichni kominíci se tam žení“. Literatura Čermák, F. et al. (2009). Slovník české frazeologie a idiomatiky 4. Výrazy větné. Praha: Leda. Hnátková, M. (2005). Identifikace přísloví v korpusu. In R. Blatná, V. Petkevič (Eds.), Jazyky a jazykověda. Ústav Českého národního korpusu Filozofické fakulty Univerzity Karlovy, Praha, 89–97. Hnátková, M. (2011): Výsledky automatického vyhledávání frazémů v autorských korpusech. In Korpusová lingvistika Praha 2011, sv. 3: Gramatika a značkování korpusů. Praha: Nakladatelství Lidové noviny, 171–185. Hnátková, M. & Kopřivová, M. (2012). From a Dictionary to a Corpus, Konference EUROPHRAS 2012 – Phraseology and Culture. Maribor. 70 Jana Hoffmannová Ústav pro jazyk český AV ČR [email protected] Olga Richterová Ústav Českého národního korpusu FF UK [email protected] Si představ, se nediv, ti to ukážu… Jednoslabičné začátky syntaktických segmentů v mluvené češtině Jednoslabičné výrazy se, si, seš, sem, sme, ste, mě, mi, mu, tě, ti, bych, by (z hlediska slovnědruhového tedy výrazy povahy zájmenné nebo jednotlivé tvary slovesa být, resp. komponenty složených slovesných tvarů) stojí často na počátku syntaktických segmentů – v mluvené češtině, v její beletristické stylizaci (dialogy postav v próze, dramatu), ale např. i v komunikaci mladých lidí na chatu, tedy v textech silně ovlivněných projevy mluvenými. Analýza tohoto frekventovaného jevu vede k úvahám o tom, jak vůbec tento typ počátkových výrazů hodnotit, hodnocení musí být nutně rozrůzněné. Např. Sgall a Hronek (1992) je označují jako příklonky, resp. předklonky; podle J. Tomana (2001) či A. Svobody (2000) nejde o klitika, všichni zmínění autoři tu však uvažují o výsledcích slovosledné inverze (Se mu to nepovedlo = „Nepovedlo se mu to“) nebo procesů eliptických (Bych si taky myslel = „To bych si taky myslel“). Kromě hodnocení a kategorizace jednotlivých typů jednoslabičných začátků představuje další zajímavý problém metodika korpusového vyhledávání zaměřeného na tento jev: co je vlastně „začátek“, jak se dobrat počátkové pozice (velká otázka, k níž existuje především zahraniční literatura, srov. Brazil 1995: 47nn.). Při výzkumu mluvené syntaxe – a tedy i zde – neustále narážíme na problém „jednotky“ mluveného projevu. Ostře ohraničené jednotky typu vět v psaném projevu zde nepřicházejí v úvahu. Neurčité, rozplývavé hranice „jednotek“, útržkovitost mluvené syntaxe, časté dodávání a nastavování, juxtapoziční přiřazování, množství oprav a „falešných startů“, ztrácení větné perspektivy – to vše komplikuje práci se segmenty, na jejichž počátku sledované výrazy stojí. Důležitým, ale v korpusových datech rovněž jen obezřetně využitelným signálem začátku segmentu je střídání mluvčích v dialogu; na hranicích replik ve spontánním živém rozhovoru dochází ne- 71 zřídka k jejich překrývání, jeden mluvčí skáče druhému do řeči, „přebírá“ od něj nedokončenou konstrukci, v tomto poněkud chaoticky strukturovaném prostoru právě vznikají slovosledné nepravidelnosti, eliptická vyjádření apod. Je tedy na místě přistupovat k analýze tohoto a dalších podobných jevů z hlediska „dialogické syntaxe“, z pohledu interaktivního, brát v úvahu i zvuková specifika a speciální techniky mluveného projevu – což právě současné korpusy, propojující transkripty s nahrávkami, ve vysoké míře umožňují. Příprava příspěvku bude spojena i se zkoušením různých dotazů, které by umožnily dobrat se k co nejvíce homogennímu souboru dat. Příspěvek přirozeně naváže na text J. Hoffmannové a I. Kolářové, přednesený rovněž na korpusové konferenci (Gramatika a korpus 4, 2012) a poté publikovaný v časopise Korpus – gramatika – axiologie. Pro tento předchozí příspěvek byla využita především data z korpusů SYN2000, SYN2005, SYN2010, ORAL2006, ORAL2008; nyní se nabízí soubor analyzovaných dat rozšířit (kvantitativně i typově) a využít jednak korpus ORAL2013, jednak doplňkově i data z korpusů DIALOG (v ÚJČ AV ČR), Schola 2010, a z ČNK rovněž Korpus soukromé korespondence. Neformální privátní dopisy, maily a zprávy SMS – tedy texty, které vykazují mediální psanost, ale konceptuální mluvenost (srov. Koch & Oesterreicher 1986) – totiž jednoslabičné začátky rovněž obsahují (viz k tomu Hoffmannová 2011) a jsou specifickým, ale rozhodně využitelným zdrojem poznatků o syntaxi mluvené češtiny. Tato sonda je určitou anticipací metod a přístupů, které by obě autorky rády dále rozvinuly v chystaném grantovém projektu, zaměřeném právě na lepší poznání syntaxe mluvené češtiny. Projekt by měl navazovat na syntaktické poznatky českých dialektologů (např. Šipková 1993) i na výzkumy O. Müllerové (1994) a aspoň poněkud splatit bohemistický dluh vůči stále málo zpracovanému tématu. Literatura Brazil, D. (1995). A Grammar of Speech. Oxford: Oxford University Press. Hoffmannová, J. (2011). Mluvená čeština v zrcadle „psané konverzace“ na chatu. In S. Čmejrková & J. Hoffmannová (Eds.), Mluvená čeština: hledání funkčního rozpětí. Praha: Academia, 393–407. Hoffmannová, J. & Kolářová, I. (2013). Se vám to nelíbí? Jednoslabičné začátky českých výpovědí / dialogických replik: v běžně mluvené češtině a beletristické stylizaci. Korpus – gramatika – axiologie, 07, 36–47. 72 Koch, P. & Oesterreicher, W. (1986). Sprache der Nähe – Sprache der Distanz. Mündlichkeit und Schriftlichkeit im Spannungsfeld von Sprachtheorie und Sprachgeschichte. In Romanistisches Jahrbuch, 36, Berlin / New York: Walter de Gruyter, 15–43. Müllerová, O. (1994). Mluvený text a jeho syntaktická výstavba. Praha: Academia. Sgall, P. & Hronek, J. (1992). Čeština bez příkras. Praha: H+H. Šipková, M. (1993). Skladba věty v mluvených projevech (Syntax hanáckých nářečí). Jinočany: H+H. Svoboda, A. (2000). Klitika z hlediska funkční větné perspektivy. In Z. Hladká & P. Karlík (Eds.), Čeština – univerzália a specifika 2. Brno: MU, 149–159. Toman, J. (2001). Ertlova diskuse českých klitik. In Z. Hladká & P. Karlík (Eds.), Čeština – univerzália a specifika 3. Brno: MU, 73–79. Andrzej Charciarek Uniwersytet Śląski w Katowicach [email protected] Národní korpusy a velké překladové polsko-české a česko-polské slovníky Je zajímavé, že v překladové polsko-české lexikografii se dosud používají ve větší míře slovníky v papírové podobě, které byly vytvořeny bez využití narodních polských a českých korpusů. Dokonce i autoři nejnovějšího elektronického velkého polsko-českého a česko-polského slovníku (LINGEA Lexicon 5) neinformují o využití korpusů. Potěšující však je alespoň skutečnost, že první takový elektronický slovník už existuje a dá se předpokládat, že se bude početně stále rozšiřovat a jeho kvalita zvyšovat. Je přece samozřejmé, že přišel čas převést slovníky z papírové podoby do podoby elektronické. Tato operace je přirozená, protože korpusy jako takové mají datovou podobu. Kromě toho je práce se slovníky v papírové podobě zdlouhavá a ne- 73 praktická. Navíc současný odborný uživatel slovníků potřebuje co nejbohatší zdroj jazykových dat a příslušné nástroje k jejich využívání. Elektronická podoba slovníků umožňuje rychlé a operativní prohledávání jednotlivých hesel, které mohou mít netradiční podobu. Používání elektronického slovníku přináší v porovnání s tradiční papírovou formou slovníku celou řadu výhod, poskytuje například bohaté možnosti rozšíření hesla o multimediální prvky, animace apod. Využití hypertextu umožňuje také přechod na další text a získat tak podrobnější informace. Neexistuje již žádná omezení rozsahu, které u slovníků v papírové podobě byly limitujícím faktorem. V 21. století by se národní korpusy jako významný zdroj lingvistických dat měly stát základními zdroji při sestavování velkých překladových slovníků. Jedná se o všechny druhy národních korpusů, nejen o jednojazyčné synchronní korpusy psané. Velkou budoucnost mají současné paralelní korpusy, z nichž je možné získávat překladové ekvivalenty. Na rozdíl od tradičních překladových slovníků obsahují paralelní korpusy textové ekvivalenty, které tvoří základní jednotky v procesu translace. Je však třeba konstatovat, že tyto korpusy obsahují převážně beletristické texty. Zásadním problémem je také vyřešení otázky ochrany autorských práv při používaní současných beletrických textů v korpusu. Zároveň zde vznikají pochybnosti týkající se kvality překladu. Nezřídka se stává, že překlad je neprofesionální a nepřesný. Nejčastějším důvodem tohoto faktu je překladatelova nedostatečná znalost zdrojového nebo cílového jazyka, a proto některé přeložené fragmenty neodpovídají originálu, nebo úplně absentují. Navíc si je třeba uvědomit, že jazyk v beletristických textech se může významně lišit od jazyka průměrného uživatele jazyka. Autorský jazyk může být zcela odlišný od jazyka většiny populace, může být nekonvenční, plný netypických kolokací, neobvyklých idiomatických spojení a autorských metafor. Slovník by však měl uvádět jazyk příznačný pro celonárodní komunitu, jazyk standardní. Slabinou paralelních korpusů také stále zůstává přenos mluveného jazyka, neboť mluvené texty se převážně nepřekládají. Nicméně nelze pochybovat o tom, že paralelní korpusy mohou být do budoucna užitečným zdrojem pro tvorbu překladového slovníku. Metody automatického získávání překladových slovníků z paralelních korpusů jsou již známé a použitelné v praxi. Problémem je ale malý rozsah paralelních korpusů, které jsou nesrovnatelné s velkými jednojazyčnými korpusy. Ty 74 poslední zřejmě zůstanou největší z tohoto důvodu, že ne všechny možné kategorie textů budou přeloženy do cizího jazyka. V případě velkých korpusů (českého a polského) je důležitým momentem jejich reprezentativnost. Je samozřejmostí, že podmínkou dostatečné reprezentativnosti korpusů je velký rozsah dat, který eliminuje do jisté míry jednostrannost malého korpusu. Reprezentativnost korpusu by měla být založena na tom, že korpus reflektuje a popisuje jazykovou realitu. Problém ale tkví v samotné definici zmíněného pojmu, který se používá nejednoznačně. Podle našeho názoru by jazyková realita měla odrážet dvě variety jazyka: mluvenou a psanou. Většina národních korpusů (včetně českého a polského) je založena pouze na textech psaných. Bude tedy nutné získat zápisy mluvených projevů. Realizace tohoto záměru však je nepochybně náročná a zdlouhavá. Sběr mluvených textů provází mnoho problémů a omezení. Svědčí o tom alespoň různý vývoj jednotlivých korpusů, například českého (ČNK) a polského (NKJP). Zatímco český se neustále rozšiřuje a patří k jednomu z největších korpusů v Evropě, práce na polském korpusu jsou v současné době prakticky zastaveny. Je třeba konstatovat, že velké korpusy jsou neocenitelnými zdroji informací pro lingvisty a lexikografy při budování velkých překladových slovníků v elektronické podobě. Otevřenou otázkou zůstává, kdo bude tvořit a pro koho ony nové, kvalitativně lepší velké elektronické slovníky. Lze předpokládat, že slovníky budoucnosti budou sestavovány lingvisty-lexikografy-informatiky (což se neobejde bez nezbytného interdisciplinárního vzdělání) pro všechny uživatele – lingvisty, překladatele a studenty jazyka. Literatura Čermák, F. (2010). Mnohojazyčný korpus InterCorp: Možnosti studia. Praha: Nakladatelství Lidové noviny. Čermák, F. & Blatná, R. (2005). Jak využívat český národní korpus. Praha: Nakladatelství Lidové noviny. Čermák, F. & Blatná R. (2006). Korpusová lingvistika: Stav a modelové přístupy. Praha: Nakladatelství Lidové noviny. Čermák, F., Králík, J. & Kučera, K. (1997). Recepce současné češtiny a reprezentativnost korpusu. SaS, 58, 117–124. Charciarek, A. (2012). Ostrzeżenia i zakazy jako napisy miejskie w słowniku dwujęzycznym polsko-czeskim, „Bohemistyka” Nr 1, Poznań, 5–34. 75 Chlebda, W. (Ed.) (2009). Podręczny idiomatykon polsko-rosyjski, z. 4., Opole. Grabowski, Ł. (2011). Korpusy dwu- i wielojęzyczne w służbie tłumacza, leksykografa i badacza: poszukiwanie ekwiwalentów przekładowych w świetle hipotez dotyczących istnienia uniwersaliów tłumaczeniowych. In W. Chlebda (Ed.), Na tropach translatów. W poszukiwaniu odpowiedników przekładowych. Opole, 89–112. Kopřivová, M., (2001). Využití korpusu při zpracování frazeologie ve výkladovém slovníku. In M. Balowski & Chlebda W. (Eds.), Frazeografie slovianska, Opole, 335–339. Kopřivová, M. & Waclawičová, M. (2008). Čeština v mluveném korpusu. Praha: Nakladatelství Lidové noviny. Lewandowska-Tomaszczyk, B. (2005). Podstawy językoznawstwa korpusowego. Łódź. Lewicki, R. (2011) Translaty w słowniku przekładowym – poszukiwanie i ustalanie, In W. Chlebda (Ed.), Na tropach translatów. W poszukiwaniu odpowiedników przekładowych. Opole, 159–166. Piotrowski, T. (2011). Ekwiwalencja w słownikach dwujęzycznych, In W. Chlebda (Ed.) Na tropach translatów. W poszukiwaniu odpowiedników przekładowych. Opole, 45–70. Šulc, M. (1999). Korpusová lingvistika. První vstup. Praha. Żmigrodzki, P. (2003). Teraźniejszość i przyszłość polskiej leksykografii językoznawczej. Poradnik Językowy, z. 1, 20–33. Żmigrodzki, P. (2005). Słownik jako korpus tekstów – korpus tekstów jako słownik. Perspektywy polskiej leksykografii naukowej. Poradnik Językowy, z. 6, 3–14. Żmigrodzki, P. (2008). Słowo – słownik – rzeczywistość. Z problemów leksykografii i metaleksykografii. Kraków. Żmigrodzki, P. (2009). Wprowadzenie do leksykografii polskiej. Katowice. 76 Pavla Chejnová Pedagogická fakulta Univerzity Karlovy [email protected] Využití korpusu dětské řeči k popisu akvizice morfologických kategorií Příspěvek představuje výzkum osvojování gramatických kategorií češtiny u českého monolingvního chlapce, mapován je vývoj od nástupu řeči cca do čtyř let věku dítěte. Výzkum je založen na korpusu, který autorka pořizovala od nástupu prvních jednoslovných výpovědí, sběr dat probíhá i v současnosti. Korpus tvoří autentické rozhovory dítěte s matkou a dalšími dospělými, které byly transkribovány dle zásad užívaných v korpusu CHILDES. Autorka představí vlastní korpus a metody používané při analýze dat. Prezentovaná část výzkumu se soustřeďuje na nabývání morfologických kategorií flektivního jazyka, autorka se zaměřuje na vývoj gramatických kategorií substantiv, adjektiv, pronomin a verb. Teoretický rámec tvoří koncepty založené na vývojových fázích pre-morfologie, protomorfologie a modulární morfologie (Dressler 1997, Voeikova & Dressler 2002, Bittner et al. 2003, Voeikova & Stephany 2009). Vývoj je chápán jako kontinuální. Ačkoliv existence jistých vrozených predispozic není vyloučena, autorka se zaměřuje spíše na situační proměnné, např. povahu inputu, se kterým je dítě konfrontováno. Zaznamenávána jsou tzv. miniparadigmata, tj. výskyt deklinačních a konjugačních minimálně tříčlenných paradigmat v řeči dítěte a dále frekvence výskytu jednotlivých jevů: lemma – tvar (type) – počet výskytů (token frequency). Dílčí výsledky naznačují, že vývoj gramatických kategorií postupuje ve sledu, který je popisován autory studií věnovaným příbuzným flektivním jazykům (viz uvedená literatura). Z laického pohledu byl vývoj sledovaného dítěte skokový – po nástupu řeči ve dvou a půl letech se během půl roku vyvinula schopnost mluvit ve složitých souvětích. Detailní analýza korpusu ovšem naznačuje, že nástup řeči byl sice pozdní a následný vývoj probíhal velmi rychle, nicméně základní fáze a přechody mezi nimi byly zachovány a korespondují s fázemi sledu akvizice gramatických kategorií popsaných v jiných slovanských jazycích. Autorka při své práci používá i metodu deníkových zápisů, neboť samotný transkript demonstruje pouze výseč produkce dítěte ve sledovaném období, a další sledované jevy 77 by tak mohly být opomenuty. Pro detailní objektivní analýzu je tedy třeba korpusová data doplnit o další záznamy. Rovněž je výhodou, pokud řečovou produkci dítěte analyzuje lingvista, který má s dítětem osobní zkušenost, protože zná kontext jeho vývoje a při včasné analýze každého pořízeného transkriptu dokáže správně přiřazovat referenty k situacím. Literatura Bittner, D., Dressler, W. U. & Kilani-Schoch, M. (Eds.) (2003). Development of verb inflection in first language acquisition. A cross-linguistic perspective. Berlin: Mouton-de Gruyter. Dressler, W. (Ed.) (1997). Studies in Pre- and Protomorphology. Wien: Verlag der Österreichischen Akademie der Wissenschaften. Stephany, U. & Voeikova, M. D. (Eds.) (2009). Development of nominal inflection in first language acquisition. A cross-linguistic perspective. Berlin / New York: Mouton de Gruyter. Voeikova, M. D. & Dressler, W. U. (Eds). (2002). Pre- and Protomorphology. Early Phases of Morphological Development in Nouns and Verbs. München: Lincom Europa. Lucie Chlumská Ústav Českého národního korpusu FF UK [email protected] Je čeština v překladech jiná? Překladové literatuře se u nás daří rok od roku lépe. Podíváme-li se na situaci v posledních pěti letech podle statistik Národní knihovny (od roku 2008 do roku 2012)*, počet překladů neperiodických publikací – kam patří beletrie, populární i odborná literatura – stále narůstá. V roce 2012 bylo vydáno téměř o 98 % překladových knih více než v roce 2008. Šlo celkem o 5 871 * Statistiky NKP dostupné např. zde: http://text.nkp.cz/soubory/ostatni/vykaz_dd2012.pdf 78 titulů překladové literatury, což je více než 34 % z celkového objemu knižní produkce. Nejvíce překládanými jazyky jsou po mnoho let s velkým náskokem angličtina, dále pak němčina a francouzština. Uvážíme-li, že překladová literatura dnes tvoří více než třetinu vydaných publikací, musí nás nutně zajímat, zda se překladový jazyk nějak neodlišuje, zdali není svébytným kódem, který má své vlastní zákonitosti a svá pravidla. Je překladová čeština jiná než čeština původních, česky psaných děl? Vykazuje jazyk překladů nějaké specifické rysy, jež jsou pro něj typické bez ohledu na jazyk, z něhož byl překlad pořízen? A konečně, jak můžeme tyto otázky vůbec zkoumat – na jakých datech? Na tyto otázky se pokusí odpovědět tato studie. Překladovému jazyku a jeho charakteristikám je v korpusové translatologii věnována velká pozornost již od devadesátých let, kdy Mona Bakerová (Baker 1993) publikovala svůj stěžejní článek o teorii překladových univerzálií. Od té doby se mnoho vědců zabývá otázkou popisu překladového jazyka jak z kvalitativního, tak především z kvantitativního hlediska (např. Laviosa 2002, Olohan 2004, Chesterman 2004, Malmkjær 2005, Xiao 2010). V češtině byl tento výzkum donedávna poněkud opomíjen, až na dílčí, převážně kvalitativní studie (např. Středová 2009, Polišenská 2010) neexistuje monografie, která by se překladovou češtinou dopodrobna zabývala. Chceme-li zkoumat překladový jazyk ve srovnání s nepřekladovým, nepotřebujeme k tomu nutně zdrojové texty, z nichž byly překlady pořízeny, ale referenční korpus nepřekladových textů, který bude sestaven podle obdobných pravidel. Jinými slovy, pro tento typ výzkumu není vhodný paralelní korpus, který obsahuje překlady a originály, ale korpus srovnatelný. Pro češtinu byl takový korpus** vytvořen na Ústavu Českého národního korpusu v roce 2013. Korpus Jerome je jednojazyčný srovnatelný korpus speciálně sestavený pro zkoumání překladové češtiny (tedy textů přeložených do češtiny z jiných jazyků) v porovnání s češtinou nepřekladovou (původní česky psanou). Korpus Jerome je primárně určen translatologům a lingvistům, kteří se chtějí zabývat zkoumáním překladové češtiny – jejími vlastnostmi a charakteristikami. Korpus (především pak jeho vyvážený subkorpus) je možné využít i k ověřování teorií o platnosti tzv. překladových univerzálií. Korpus vznikl na základě databáze textů Českého národního korpusu, konkrétně pak řady SYN (synchronní čeština), z níž byly ručně vybrány kon** http://wiki.korpus.cz/doku.php/cnk:jerome 79 krétní texty na základě specifických, translatologicky relevantních kritérií. Mezi hlavní kritéria patří zásada, že v korpusu Jerome nemůže být žádný autor zastoupen více než třikrát, aby se předešlo vlivu autorského idiolektu. Podobné pravidlo platí i pro překladatele s tím, že překladatel se může v korpusu objevit také max. třikrát, ovšem pokaždé s překladem jiného autora. Tím byla zajištěna dostatečná heterogennost korpusu. Dalším kritériem byla doba vydání textu – do korpusu jsou zařazeny překlady a původní díla vydaná v období dvaceti let (1992–2009), aby mohla být zkoumána současná překladová čeština. V anotaci je k dohledání nejen rok vydání konkrétní knihy, která byla zařazena do korpusu, ale i rok jejího prvního vydání, aby bylo možné vyfiltrovat publikace, jež sice vyšly po roce 1992, ale již v několikátém vydání. Kritériem, kterému výběr podřízen naopak nebyl, je kvalita překladu. Cílem korpusu totiž bylo, aby odrážel reálnou situaci se vším všudy, tedy i s více či méně kvalitními překlady. Příspěvek si klade za cíl – kromě samotného představení korpusu Jerome širšímu odbornému publiku – seznámit posluchače s výsledky nejnovějších výzkumů překladové češtiny. První sondy provedené na korpusu Jerome naznačují, že překladová čeština se skutečně od nepřekladové liší, např. délkou vět či bohatostí slovní zásoby (Chlumská & Richterová 2014). Právě probíhající výzkum n-gramů ukazuje, že nejčastěji používané 2-gramy, 3-gramy a 4-gramy a jejich typy se v překladové a nepřekladové češtině zcela nepřekrývají, podobně jako ve finštině (Mauranen 2000). Literatura Baker, M. (1993). Corpus linguistics and translation studies: Implications and applications. In M. Baker, G. Francis & E. Tognini-Bonelli (Eds.), Text and Technology: In Honour of John Sinclair. Amsterdam / Philadephia: John Benjamins, 233–50. Chesterman, A. (2004). Hypotheses about translation universals. In G. Hanse, K. Malmkjær & D. Gile (Eds.), Claims, Changes and Challenges in Translation Studies. Selected Contributions from the EST Congress Copenhagen 2001, 1–14. Chlumská, L. & Richterová, O. (2014). Jak zkoumat překladovou češtinu? Výzkum simplifikace na korpusu Jerome. Korpus – gramatika – axiologie ,9, 16–29. Laviosa, S. (2002). Corpus-based Translation Studies. Theory, findings, applications. Amsterdam / New York: Rodopi. 80 Malmkjær, K. (2005). Linguistics and Language of Translation. Edinburgh University Press: Edinburgh. Mauranen, A. (2001). Strange Strings in Translated Language. A Study on Corpora. In M. Olohan (Ed.), Intercultural Faultlines: Research Models in Translation Studies I: Textual and Cognitive Aspects. Manchester: St. Jerome Publishing, 119–141. Olohan, M. (2004). Introducing Corpora in Translation Studies. London: Routledge. Polišenská, M. (2010). Translation Universals in the English and Spanish Translations of Saturnin by Zdeněk Jirotka, diplomová práce. Brno: FF MU. Středová, A. (2009). Explicitation and Implicitation in Non-literary Translations, diplomová práce. Brno: FF MU. Xiao, R. (2010). How different is translated Chinese from native Chinese? International Journal of Corpus Linguistics, 15 (1), 5–35. Lucie Jílková Ústav pro jazyk český AV ČR [email protected] Vy jste mi z té otázky utekl! (analýza jednoho způsobu vymáhání odpovědi, s využitím korpusových dokladů) Analýza mediálních dialogů (Čmejrková & Hoffmannová 2011, Čmejrková et al. 2013) mimo jiné ukazuje, že např. v televizních či rozhlasových diskusích, jichž se jako hosté účastní politici, nezřídka dochází k tomu, že pozvaný host se snaží vyhnout odpovědi na moderátorovu otázku. Moderátor po neuspokojivé či žádné odpovědi může hosta upozornit, že od něj dosud nezískal požadovanou informaci. Právě v tuto chvíli se moderátoři současných publicistických pořadů někdy uchylují k formulaci Vy jste mi z té otázky utekl / 81 Vy mi z té otázky utíkáte, která bude předmětem zkoumání příspěvku. Analyzovány budou doklady této formulace v korpusech poskytovaných Ústavem Českého národního korpusu (http://www.korpus.cz), doklady zachycené v korpusu DIALOG (http://ujc.dialogy.cz) a také doklady získané na internetu prostřednictvím české verze vyhledávače Google (www.google.cz). Užití zkoumaného slovního spojení nepochybně souvisí s osobností moderátora, s jeho stylem kladení otázek (Havlík 2008, 2013; Schneiderová 2013). Nějaký moderátor či moderátorka (např. Daniela Drtinová) se i opakovaně může snažit od svého hosta získat požadovanou informaci, a právě při své opakované prosbě může užít analyzované slovní spojení, tj. zkoumané slovní spojení je součástí jeho/jejího idiolektu. Jiný moderátor se v téže situaci může uchýlit k jinému způsobu vyjádření, jímž se snaží hosta přimět k odpovědi, příp. se spokojí s odpovědí vyhýbavou atd. Ukazuje se, že zkoumané slovní spojení je v současné češtině, resp. ve zkoumaném souboru textů, spojením srozumitelným, žádný z hostů se nad ním nepozastavil, explicitně je nepovažoval za nesrozumitelné, naopak, někteří hosté svou (z pohledu moderátora vyhýbavou) odpověď zahajují opět slovy já vám z té otázky neutíkám. Předmětem analýzy je i to, v jaké době se toto slovní spojení začalo objevovat. Zkoumané slovní spojení navozuje představu, že moderátorova otázka je prostorem, v němž se host (nedobrovolně) ocitl a z nějž se snaží uniknout. Utíkání ze skutečných uzavřených prostor je v jazyce vyjadřováno samozřejmě velmi běžně, viz např. slovní spojení utíkat z vězení, utéct z hořícího domu, utéci z nemocnice apod. Vyskytuje se i utíkání z prostor metaforických, např. utéci z učení, utéct z práce, velmi běžná jsou ustálená slovní spojení utíkat z boje, z bitvy, z války (Čermák & Hronek et al. 2009a, b, c; Čermák 2009; Saicová Římalová 2010), bez zajímavosti nejsou ani doklady zachycené např. v Příručním slovníku jazyka českého (1935–1957). Analýza se snaží zjistit, zda se ve zkoumaném slovním spojení stává otázka právě takovou metaforickou prostorou. Doklady z korpusů ukazují, že u moderátorů diskusních pořadů se lze setkat i s vyjádřeními, která lze označit jako spojení ke zkoumanému spojení synonymní: vyvléci se z otázky, vykroutit se z otázky, vycouvat z otázky, vyklouznout z otázky, vybruslit z otázky. Spojení utéci z otázky bylo tedy možná analogicky utvořeno podle těchto synonymních slovních spojení. I v nich se otázka stává metaforickou prostorou, kterou se mluvčí chystá opustit. 82 Sloveso utíkat/utéct je v diskusních pořadech (a ovšem nejen v nich) dále běžně spojováno s předložkou od a podstatným jménem téma, tj. utéct/utíkat od tématu. Nelze zřejmě vyloučit, že slovní spojení utéci z otázky vzniklo kontaminací právě se slovním spojením utéci od tématu. V korpusových dokladech navíc opakovaně nacházíme i spojení utéct od otázky, a to jak ve vstupech moderátorů, tak v reakcích hostů: já od té otázky neutíkám. Literatura Čermák F., Hronek J. et al. (2009a). Slovník české frazeologie a idiomatiky 1. Přirovnání. Praha: Leda. Čermák F., Hronek J. et al. (2009b). Slovník české frazeologie a idiomatiky 2. Výrazy neslovesné. Praha: Leda. Čermák F., Hronek J. et al. (2009c). Slovník české frazeologie a idiomatiky 3. Výrazy slovesné. Praha: Leda. Čermák F. et al. (2009d). Slovník české frazeologie a idiomatiky 4. Výrazy větné. Praha: Leda. Čmejrková, S. & Hoffmannová, J. (Eds.) (2011). Mluvená čeština: hledání funkčního rozpětí. Praha: Academia. Čmejrková, S. et al. (2013). Styl mediálních dialogů. Praha: Academia. Havlík, M. (2008). Poznámky k práci moderátorů televizních politických debat a rozhlasových interview. Jazykovědné aktuality, 45 (1–2), 4–31. Příruční slovník jazyka českého (1935–1957). Praha: Československá akademie věd. Saicová Římalová L. (2010). Vybraná slovesa pohybu v češtině. Studie z kognitivní lingvistiky. Praha: Karolinum. Schneiderová, S. (2013). Mediální diskurz. Komunikační situace a styl. Studie k moderní mluvnici češtiny. Olomouc: Univerzita Palackého v Olomouci, 95–121. 83 Karel Jirásek Filozofická fakulta Univerzity Karlovy [email protected] Identifikace typologických rozdílů mezi češtinou a chorvatštinou za pomoci paralelního korpusu InterCorp Při kontrastivním zkoumání dvou blízce příbuzných jazyků, jakými jsou čeština a chorvatština, je velmi důležité identifikovat typologické rozdíly mezi těmito jazyky a případné vývojové tendence, které tyto rozdíly mohou v diachronní perspektivě umocňovat či postupně zmírňovat. Nelze se tedy plně spolehnout na kontrastivní studie staršího data, neboť stav v nich popisovaný se v některých dílčích aspektech mohl změnit. Diskutabilní je rovněž jazykový materiál, z něhož se dříve při srovnávání češtiny a chorvatštiny vycházelo – převážně šlo o klasickou českou a chorvatskou beletrii z konce 19. a první poloviny 20. století – tedy v řadě případů to bylo srovnávání pouze jazyka spisovného, někdy až knižního. Přitom ne vždy bylo zohledňováno, že spisovná čeština té doby se od mluvené obecné češtiny odlišovala mnohem výrazněji, než jak tomu bylo v případě chorvatštiny, kde jazyková norma vycházela z živého mluveného jazyka. Na druhou stranu badatelé při svém studiu pochopitelně využívali i vlastní jazykovou kompetenci, která je v případě chorvatštiny poněkud problematická z důvodu výrazné nářeční roztříštěnosti, dodnes mnohem výraznější, než je tomu v případě češtiny. Z uvedených důvodů se stávalo, že některé zaznamenané rozdíly v podstatě nepředstavovaly rozdíly mezi češtinou a chorvatštinou, nýbrž pouze rozdíly mezi nestejnými jazykovými rovinami obou jazyků. Stejně tak některé zdánlivé shody (např. lexikální, frazeologické, stylistické) mohly být shodou mezi češtinou a pouze jedním z chorvatských nářečí. Tak jako prvky obecné češtiny postupně pronikají do spisovného jazyka, dochází i v chorvatštině k posunu, když se některé původně nářeční prvky stávají součástí obecné chorvatštiny, která zejména v posledních dvaceti letech prošla výraznými vyrovnávacími procesy. Paralelní korpus InterCorp nám dává jedinečnou možnost porovnat a statisticky vyhodnotit potenciální typologické rozdíly mezi oběma jazyky na rozsáhlém souboru ekvivalentních textů z pera různých autorů a různých 84 překladatelů. Pro získání relevantních zobecňujících výsledků je totiž nezbytné odlišit obecně jazykové jevy od individuálních specifik jazyka jednotlivých autorů či překladatelů. Jedním z problémů paralelního korpusu je ne vždy uspokojivá kvalita překladů, což mnohdy není patrné na první pohled, ale až na základě statistické analýzy. Nemusí jít přitom přímo o překlad chybný, v některých případech však překladatel dílo ochuzuje, původní jazyková pestrost originálu se ztrácí a nivelizuje, jak na úrovni lexika, tak i na úrovni syntaktických konstrukcí. V některých případech i sám autor originálu systematicky používá velmi specifických jazykových prostředků, které nelze považovat za součást standardu příslušného jazyka. Oba tyto typy textů (nekvalitní překlady i výrazně jazykově specifické originály) je vhodné ze zkoumaného vzorku předem vyloučit, abychom naše výsledky mohli zobecnit. Díky novým uživatelským rozhraním pro práci s paralelním korpusem (NoSkE a KonText) je nyní mnohem snazší takto specifické texty na základě statistického srovnání odhalit a následně vyřadit ze zkoumaného subkorpusu. Ve svém příspěvku chci demonstrovat postup vyhledávání typologických rozdílů mezi češtinou a chorvatštinou v paralelním korpusu InterCorp na příkladu srovnání derivačního potenciálu sloves (zejména při odvozování slovesných adjektiv a substantiv) v češtině a chorvatštině. Zatímco v češtině je odvozování slovesných adjektiv jevem zcela běžným, chorvatština jich využívá v mnohem menší míře. Již na první pohled jde o rozdíl poměrně výrazný, který však nebývá při studiu dostatečně zdůrazňován, a proto je to jeden z rysů, na jejichž základě lze odhalit text, jehož autorem není rodilý mluvčí. V chorvatštině naopak zůstávají zcela běžnou součástí živého jazyka přechodníky, které by při doslovném překladu do češtiny text výrazně archaizovaly, a proto musejí být v češtině kompenzovány jinými způsoby, což si vyžaduje výraznější zásah do syntaktické struktury věty. Paralelní korpus je tak nástrojem, který nám umožňuje identifikovat typologické rozdíly mezi blízkými jazyky a z praktického hlediska také nalézat vhodné kompenzační strategie při překládání textů, abychom se vyhnuli negativním transferům z jazyka originálu. Literatura Český národní korpus – InterCorp. Ústav Českého národního korpusu FF UK, Praha 2010. Dostupný z WWW: <http://www.korpus.cz>. 85 Elżbieta Kaczmarska Instytut Slawistyki Zachodniej i Południowej, Uniwersytet Warszawski [email protected] Alexandr Rosen Ústav teoretické a komputační lingvistiky FF UK [email protected] Jirka Hana Ústav formální a aplikované lingvistiky MFF UK [email protected] Jak najít optimální překlad polysémních sloves – porovnání metod automatické analýzy paralelních textů Naším cílem je najít optimální metodu pro automatické zjištění překladových ekvivalentů sloves vyjadřujících duševní stavy a jiných sloves, která mohou být obtížně přeložitelná, a to i mezi typologicky blízkými jazyky, jakými jsou polština a čeština. Zkoušíme dva podstatně odlišné postupy. První z nich vychází z identifikace syntaktických argumentů a jejich sémantických vlastností, které mohou mít na výběr ekvivalentu zásadní vliv (Levin 1993). Druhý postup využívá standardní klasifikátor, který o volbě ekvivalentu rozhoduje na základě pravého a levého kontextu o velikosti několika slov, aniž by měl k dispozici syntaktickou informaci. Variantou druhého postupu je omezení kontextu na slovní formy určité slovnědruhové třídy. Výsledek evaluujeme na paralelních česko-polských textech. Vycházíme z česko-polské části paralelního korpusu InterCorp, jehož verze 6 již byla použita v pilotní studii (Kaczmarska & Rosen 2013). Z textů o objemu asi 12 mil. slov v každém z obou jazyků bylo po automatickém zarovnání po slovech programem GIZA++ (Och & Ney 2003) extrahováno 8,7 mil. dvojic lemmat, z toho 528 tisíc dvojic bylo různých. Výsledný slovník (dostupný on-line na adrese http://utkl.ff.cuni.cz/~rosen/public/cspl_lex/) lze třídit a filtrovat podle různých kritérií, včetně frekvence dvojice lemmat v korpusu. Zatím byl využit pro kontrastivní analýzu deminutiv, identifikaci chybějících pojmů ve druhém jazyce a hledání ekvivalentů obtížně přeložitelných lexémů. 86 Nejdříve popíšeme první postup, a to jen v části, která se týká využití sémantických vlastností argumentů. Vliv povrchové realizace argumentů na volbu ekvivalentu je přímočarý a v praxi bude řešen jednoduchými pravidly. Pro každý výskyt českého i polského slovesa vyhledáme pomocí syntaktického analyzátoru nebo gramatiky regulárních výrazů jeho syntaktické argumenty (pokud možno argumenty hloubkové, tedy neutralizující vliv pasivizace). Z nich bereme v potaz jen sémanticky řídící člen (hlavu), a to v základním tvaru. Pro všechny výskyty identických dvojic slovesných lemmat sloučíme lexémy v roli argumentů zvlášť na české a polské straně. Jako příklad můžeme uvést české polysémní sloveso toužit a jeho polské ekvivalenty marzyć, tęsknić, pragnąć a pożądać: • toužit (Arg1: já, Arg2: człowiek) – marzyć (Arg1: já, Arg2: člověk) cs. Vždycky jsem toužila po člověku, který by byl prostý a přímý. pl. Zawsze marzyłam o człowieku, który byłby prosty i bezpośredni. • toužit (Arg1: ona; Arg2: oko) – tęsknić (Arg1: ona; Arg2: oko) cs. Oči, po kterých touží, jsou oči Tomáše. pl. Oczy, do których tęskni, to oczy Tomasza. • toužit (Arg1: já, Arg2: Lucie) – pragnąć (Arg1: já, Arg2: Lucja) cs. Toužil jsem po Lucii, ale zároveň jsem se bál její lásky, protože jsem nevěděl, co si s ní počít. pl. Pragnąłem Łucji, ale jednocześnie bałem się jej miłości, bo nie wiedziałem, co z nią począć. • toužit (Arg1: Bernard, Arg2: sláva) – pożądać (Arg1: Bernard, Arg2: sława) cs. Bernard netouží po slávě osvětleného, ale po moci toho, kdo je v přítmí. pl. Bernard nie pożąda sławy tego, w kogo wycelowane są reflektory, lecz władzy tego, kto stoi w półmroku. Po sloučení lexémů v rolích argumentů zjistíme, jaké lexémy např. v rolích argumentů slovesa toužit odpovídají lexémům v rolích argumentů jeho jednotlivých ekvivalentů (marzyć, tęsknić, pragnąć, pożądać). Množiny lexémů pro jednotlivé argumenty toužit se tak rozpadnou na podmnožiny určené těmito ekvivalenty. Podmnožiny patrně nebudou disjunktní, ale v příznivém případě budou mít prototypické reprezentanty. Optimálně tak dostaneme pro každé 87 slovesné lemma preference volby ekvivalentu podle procenta shody jeho argumentů s argumenty kandidátů na překlad. Při výpočtu procenta shody lze brát v úvahu i frekvence jednotlivých lexémů v rolích argumentů a ve sporných případech upřednostňovat shodu mezi frekventovanějšími lexémy. V dalším kroku pomocí tezauru zobecníme (pod)množiny lexémů, které odpovídají argumentům daného slovesa, tak, abychom získali sémantické třídy, v optimálním případě shodné pro polštinu a češtinu. (Jako tezaurus lze pro češtinu i polštinu použít WordNet, program Word Sketches zpracovává k témuž účelu data z korpusu, ve kterém právě hledá.) Tyto sémantické třídy lze využít při testování v případě, že konkrétní věta obsahuje jako argument lexém, který se v trénovacích datech neobjevil. Následující kroky se věnují ověření metody. Množiny lexému v rolích argumentů (ale už nikoli podmnožiny) a jim odpovídající sémantické třídy prověříme tak, že hledání slovesných argumentů zopakujeme na jednojazykových korpusech, tedy nikoli pro dvojice sloves, ale jen pro jednotlivá slovesa. Evaluaci pak provedeme na části dat InterCorpu, kterou jsme dosud nepoužili. Podle paralelních textů ověříme, jak spolehlivě funguje výběr ekvivalentu v závislosti na argumentech. Jako alternativu k metodě s hledáním argumentů vyzkoušíme i metodu fungující na čistě empirickém základě: volbu ekvivalentu určujeme nikoli podle syntaktických/sémantických argumentů, ale podle lineárního slovosledného kontextu o šíři např. 3 pozice vlevo a vpravo, případně s vypuštěním slovních forem, jejichž slovní druh nebude pro výsledek rozhodující. Porovnáním výsledků těchto dvou metod bude možné rozhodnout o tom, zda typy argumentů jsou pro porozumění a výběr ekvivalentů směrodatné. Literatura Kaczmarska, E. & Rosen, A. (2013). Między znaczeniem leksykalnym a walencją – próba opracowania metody ekstrakcji ekwiwalentów na podstawie korpusu równoległego. Studia z Filologii Polskiej i Słowiańskiej, 48, 103–121. Levin, B. (1993). English Verb Classes and Alternations: A Preliminary Investigation. Chicago: University of Chicago Press. Och, F. J. & Ney, H. (2003). A systematic comparison of various statistical alignment models. Computational Linguistics, 29 (1), 19–51. 88 Tomáš Káňa Pedagogická fakulta Masarykovy univerzity [email protected] Česká nesubstantivní deminutiva a jejich protějšky v němčině a angličtině Ačkoliv jsou deminutiva oblíbeným předmětem zájmu nejen lingvistů, ale i široké veřejnosti (Magazín DNES 15/2011), zužuje se většinou jejich popis na oblast jmen, většinou jen podstatných. Je to celkem logické: deminuce substantiv by se dala považovat snad i za univerzální jev všech jazyků (Rusínová 2001), neboť substantivní deminutiva najdeme také v jazycích, která jinak příliš nezdrobňují a vůbec mají chudý morfologický aparát (angličtina, francouzština). Popisy deminutiv ostatních slovních druhů češtiny jsou v odborných publikacích řídké, nejvíc se ještě týkají adjektiv (a analogických adverbií). Důvodů je několik: 1) zdrobněliny v nich nejsou, 2) nebo jsou, ale velmi málo frekventní, 3) uvádějí se u jiných slovních druhů (viz dále), anebo 4) je sporné, zda se o deminutivum vůbec jedná. (Poslední bod platí ostatně pro všechny slovní druhy. I u substantiv nelze vždy jednoznačně rozhodnout, zda se jedná o deminutivum či nikoliv. Striktní pravidlo, že k deminutivu musí (stále) existovat základ je jistě dobré vodítko, ve všeobecném povědomí to ovšem neplatí stoprocentně (srov. Káňa 2011: 170–171).) Dobrovský (1809) jako první uvádí v popisu češtiny vedle substantivních deminutiv také „Verkleinerungsformen der Beywörter“ (1809: 88–89) – zdrobněliny jmen přídavných. K primárním dodává, že se jedná o „gemeine Rede“, tedy řeč hovorovou, uvádí i sekundární deminutiva zdvojením (maličičký, tenaučičký) s poznámkou, že se požívají jen v řeči důvěrné. I pozdější autoři (Gebauer 1936, Trávníček 1951, Šmilauer 1971) popisují vedle substantivních deminutiv jen adjektivní. Trávníček (1951: 368) nemluví explicitně o adjektivních deminutivech, nýbrž „zesilujících adjektivech, (...) vyjadřujících větší míru vlastnosti než základní adjektivum“, shrnuje tak adjektivní deminutiva a augmentativa. Podobné pojetí má Šmilauer (1971: 129-130): „zdrobňující, citově obměňující a zesilující“ přídavná jména. U „věcně zdrobňujících“ uvádí sufix –avý (bělavý) a cirkumfixy na‑ ‑lý (nahnědlý) a za‑ ‑lý (zažloutlý). U „citově obměňujících“ pak sufixy –ičký, ‑oučký, ‑inký, ‑ounký, které lze považovat za typické zástupce adjektivních 89 deminutiv – uvádí je většina autorů (dále např. Čermák 2011: 104, ale i Příruční mluvnice češtiny). Problematiku adjektivních deminutiv sledujeme tedy v několika rovinách: 1. jak si konkurují sufixy/ cirkumfixy „věcně zdrobňující“ (‑avý, na‑ ‑lý, při‑ ‑lý, za‑ ‑lý) a „citově obměňující“ (‑oučký, ‑íčký, ‑inký)? 2. lze adjektiva utvořená „věcně zdrobňujícími“ prostředky (‑avý, na‑/ při‑/za‑ ‑lý) považovat za deminutiva? 3. neexistují i jiné kombinace prefixu a sufixu (např. na‑ ‑oučký)? U českých sloves není ucelený deminutivní systém a „jejich (velmi řídký) výskyt ve slovníku lze rozpoznat už jen diachronně“ (Čermák 2011: 122). Podobně jako u adjektiv sufix –avý a cirkumfixy na‑ ‑lý, při‑ ‑lý, za‑ ‑lý, tak i zde se někdy považuje prefix snižující míru děje po‑ (poplakat) za deminutivní (Nekukla 2010: 304). Proto se zamyslíme taktéž nad konkurencí slov utvořených prefixem po‑ a deminutivním sufixem (pospat/ spinkat, popapat/ popapinkat), jejich funkcí a frekvencí. Deminutiva zbývajících slovních druhů se pro češtinu běžně neuvádějí (důvody viz také výš). Je to dáno především: 1. jejich blízkostí k jiným slovním druhům, u kterých bývají uváděny (zájmena u adjektiv/ adverbií, číslovky u substantiv) 2. jejich nesystematičností, 3. relativně nízkou frekvencí, 4. nahodilostí a 5. blízkosti k okasionalismům. Ze zájmen tvoří deminutiva jen zájmena neurčitá, navíc jen ta, která mají formu adjektiv nebo jmen. (Mimo každý a všechen nemají signifikantní výskyt.) Tvoří se formanty –inko, ‑ičko, ‑ičký. U číslovek se kryjí s deminutivy substantiv vytvořených univerbizací: stovečka, dvoječka. Mezi českými synsémantiky v užším smyslu (předložky, spojky, částice) deminutiva hledat nelze. Několik málo zdrobnělin je mezi citoslovci – především v posledních letech (snad původně pod vlivem slovenštiny se začala i v češtině „ohýbat“ některá citoslovce: srov. ve slovenštině běžné ahojte, čaute, v několika tuctech doložené i v psaném korpusu) se v češtině rozšířila deminutiva kontaktových citoslovcí ahojky/ ahojka, nazdárek, páček. Vedle již načrtnutých bodů se podíváme na nejčastější nesubstantivní česká deminutiva pohledem z jiných jazyků. Obecně lze říct, že zdrobněliny 90 jsou častou příčinou lexikálních divergencí mezi jazyky. Pokud srovnávaný jazyk není k deminuci podobně „náchylný“, dochází k lexikální nulové ekvivalenci. Toto platí především v porovnání češtiny s němčinou a angličtinou. Vzhledem k tomu, že oba germánské jazyky mají velmi omezený deminutivní aparát, bude o to zajímavější pohled na prostředky, které vytvářejí ekvivalenty českých nesubstantivních deminutiv. Již nyní ale víme, že výsledky kontrastivního výzkumu budou pouze náčrtkem reprezentativního obrazu. I přes (již) značnou velikost jednotlivých paralel a průnik české, německé a anglické paralely čítající přes několik desítek milionů slov, nebude možné vyvodit jednoznačné závěry, protože dokladů nesubstantivních deminutiv tam je (zatím) jen maloučko. Literatura Čermák, F. (2011). Morfématika a slovotvorba češtiny. Praha: Nakladatelství Lidové noviny. Gebauer, J. (1936). Příruční mluvnice jazyka českého pro učitele a studium soukromé. Praha: Česká grafická unie a.s. Dobrovský, J. (1809). Ausführliches Lehrgebäude der Böhmischen Sprache, zur gründlichen Erlernung derselben für Deutsche, zur vollkommenern Kenntniss für Böhmen. Prag: J. Herrl. Káňa, T. (2011). Deminutiva a deminutivní vyjádření v češtině, němčině a angličtině – hledání hranic. In F. Čermák (Ed.), Korpusová lingvistika Praha 2011: 1 – InterCorp. Praha: NLN/ ÚČNK, 168–185. Karlík, P., Nekula, M. & Rusínová, Z. (1995). Příruční mluvnice češtiny. Praha: Nakladatelství Lidové noviny. Malinda, J. (2011). 100 stupidních slov. Magazín DNES 15/2011. Nekula, M. (2010). Deminutiva a augmentativa v češtině z typologického hlediska. Karlík a továrna na lingvistiku. Brno: Host, 304–315. Rusínová, Z. (2001). Deminutiva jako jazykové universale. Sborník prací Filozofické fakulty brněnské univerzity, Linguistica Brunensia. A49. Brno: Vydavatelství MU, 137–146. Šmilauer, V. (1971). Novočeské tvoření slov. Praha: Státní pedagogické nakladatelství. Trávníček, F. (1951). Mluvnice spisovné češtiny. 3., opr. a dopl. vyd. Praha: Slovanské nakladatelství. 91 Adam Kilgarriff Lexical Computing, Brighton, United Kingdom [email protected] Pavel Rychlý Lexical Computing, Brighton, United Kingdom / NLP Centre, Faculty of Informatics, Masaryk University, Brno, Czech Republic [email protected] Miloš Jakubíček Lexical Computing, Brighton, United Kingdom / NLP Centre, Faculty of Informatics, Masaryk University, Brno, Czech Republic [email protected] Vojtěch Kovář Lexical Computing, Brighton, United Kingdom / NLP Centre, Faculty of Informatics, Masaryk University, Brno, Czech Republic [email protected] Vít Suchomel Lexical Computing, Brighton, United Kingdom / NLP Centre, Faculty of Informatics, Masaryk University, Brno, Czech Republic [email protected] Jan Bušta Lexical Computing, Brighton, United Kingdom / NLP Centre, Faculty of Informatics, Masaryk University, Brno, Czech Republic [email protected] Vít Baisa Lexical Computing, Brighton, United Kingdom / NLP Centre, Faculty of Informatics, Masaryk University, Brno, Czech Republic [email protected] Jan Michelfeit Lexical Computing, Brighton, United Kingdom / NLP Centre, Faculty of Informatics, Masaryk University, Brno, Czech Republic [email protected] 92 Multilingual data processing in Sketch Engine This paper describes several new features of Sketch Engine, the corpus management and querying system. Sketch Engine includes advanced support for parallel corpora. Rather than a bilingual or multilingual corpus, multilingual data are represented by a set of corpora, one for each language. The corpora are then aligned using a special structure that maps the respective sequences of tokens (usually whole sentences) in each corpus to one another. We call this a 1:1 alignment. However, for more than 2 languages, a more sophisticated approach is usually required. With the so-called m:n alignment, sequences of existing structures in each pair of corpora are aligned using a special configuration file (e.g. m sentences in one language to n sentences in the other). This way each translation pair can have a unique partition of the corpora and some sequences can be left untranslated in some of the languages. Regardless of the type of alignment, the aligned corpora can then be queried in parallel, yielding pairs of sentences matching the appropriate query for each language. Since recently, Sketch Engine enables users to create pairs of mutually aligned corpora from TMX (Translation Memory eXchange) files automatically. TMX is a standardized format for the import and export of translated texts in CAT (Computer Assisted Translation) software. When imported into Sketch Engine, the languages specified in the TMX file are automatically detected and appropriate processing tools applied to the text in each language. These tools include tokenizers, lemmatizers and part of speech taggers (available for Czech, most European and several Asian languages). The resulting vertical files are then compiled, forming a pair of aligned corpora and enabling the user to run parallel queries on them. Word sketches are one-page, automatic corpus-based accounts of a word‘s grammatical and collocational behaviour. Since their introduction in 1998, they have come to be widely used in lexicography, but until recently, they have only been monolingual. To satisfy a widespread demand for sketches combining data in multiple languages, we implemented three extensions of the word sketch functionality: bilingual word sketches based on comparable corpora (BIC), bilingual word sketches based on parallel corpora (BIP), and bilingual word sketches based on manual selection of headword translations (BIM). All of them are currently available in Sketch Engine, enabling the 93 users to see the collocations and grammatical behaviour of a word and its translation side by side. Terminology extraction is a process of identifying multi-word expressions in a focus corpus that are specific to its domain. Since 2009, the Sketch Engine has had a method for identifying keywords in a focus corpus in contrast to a reference corpus. This can be directly applied to multi-word expressions as well. Finding out whether a sequence of consecutive words forms a term is another problem. For use in word sketches, Sketch Engine uses a word sketch grammar to identify collocations. A special version of sketch grammar can be used for term finding, defining the syntactic structure of terms. The terminology extraction feature is now available in Sketch Engine for most of the languages with a PoS tagger and a large enough reference corpus (including English, German, French, Spanish, Portuguese, Russian, Chinese, Japanese, Korean and Czech). References Kilgarriff, A. (2009). Simple Maths for Keywords. Proceedings of Corpus Linguistics, Liverpool. Kilgarriff, A. (2013). Terminology finding, parallel corpora and bilingual word sketches in the Sketch Engine. ASLIB 35th Translating and the Computer conference, London. Kilgarriff, A., Rychlý, P., Smrž P. & Tugwell, D (2004). The Sketch Engine. Proceedings of EURALEX 2004. France: Lorient, 105–116. 94 Petra Klimešová Ústav Českého národního korpusu FF UK [email protected] Zuzana Komrsková Ústav Českého národního korpusu FF UK [email protected] Marie Kopřivová Ústav Českého národního korpusu FF UK [email protected] David Lukeš Ústav Českého národního korpusu FF UK [email protected] Cože to je? K tvaru to v mluvených korpusech ČNK Mluvený jazyk má svá specifika, která vycházejí z podstaty jeho produkce a percepce. Na rozdíl od jazyka psaného má lineární povahu, plyne v čase a mluvčí nemá možnost se v něm vracet a korigovat již řečené. Co se volby vyjadřovacích prostředků týče, v zájmu ukotvení a propojení průběžně budovaného celku jsou častěji užívána deiktická slova, která svou endo- a exoforickou funkcí text provazují; zároveň se mluvčí často uchylují ke slovům výplňkovým či zástupným. Ve svém příspěvku se zaměřujeme na slovní tvar to, který ve spontánním mluveném projevu plní obě tyto funkce. Jedná se tradičně o nejfrekventovanější tvar ve všech mluvených korpusech. V tabulce č. 1 uvádíme srovnání frekvence tvaru to a lemmatu a. Lemma a je nejčastějším lemmatem v psaných korpusech (Čermák & Křen 2004); v mluvených korpusech je tvar a na druhém místě. SYN2010 PMK BMK ORAL2006 lemma / tvar a 25 609,00 27 093,73 28 424,07 24 955,00 tvar to 7968,40 36 036,00 38 583,31 41 317,34 95 ORAL2008 ORAL2013 25 384,28 28 870,42 40 303,48 46 740,41 Tabulka 1. Normalizované frekvence (i.p.m.) lemmatu/tvaru a a tvaru to v psaném reprezentativním korpusu SYN2010 a v mluvených korpusech PMK, BMK, ORAL2006, ORAL2008 a ORAL2013. Z tabulky je zřejmé, že zatímco normalizovaná frekvence (i.p.m.) lemmatu a je v mluveném i psaném jazyce podobná, frekvence tvaru to vykazuje mezi oběma typy korpusů značnou asymetrii: v mluvených korpusech se normalizovaná frekvence slovního tvaru to pohybuje okolo hodnoty 41 000 i.p.m.; oproti tomu celé lemma ten má v korpusu psané češtiny SYN2010 normalizovanou frekvenci 14 211 i.p.m. (zastoupení částicového lemmatu to je zcela marginální). Jistá variabilita v rámci mluvených korpusů může být ovlivněna jiným způsobem zápisu interpunkce (syntaktická u PMK, ORAL2006 a ORAL2008 versus pauzová u ostatních) a jiným typem promluv (součástí PMK a BMK jsou i formální komunikační situace). Slovní tvar to je tradičně klasifikován jako zájmeno nebo částice. Užívání tvaru to ve funkci částice je v mluvnicích často spojováno s vyjádřením emocionality v mluveném jazyce (viz např. Havránek a Jedlička (1960: 381): „to dnes prší“; MČ2 (Petr et al. 1986: 88)). Taková částice zpravidla stojí na začátku výpovědi. Tomuto pojetí odpovídá i morfologické značkování psaných korpusů: v korpusu SYN2010 výraz to najdeme označený jako částici v 3243 případech (z toho 1813 výskytů je na začátku věty); 969 495 výskytů je označeno jako zájmeno. Kolokace s tímto výrazem v mluvených korpusech naznačují, že situace je mnohem pestřejší, výraz to tu najdeme např. ve funkci adjektiva: tak já si du vybrat nějaký pečivo normální neto, neposypaný.; či slovesa: dyž to vytočim, tak mi to, tak mi to to, chcípne. Slovesná slovnědruhová platnost je posílena i doplněním dalších slovotvorných prvků jako je negace, např. dyž sem viděla, furt, že se k tomu neto, tak sem popadla ten; prefix, např. no, tak já sem si to rozto a řikám. Varianty s prefixem je složité vyhledat spolehlivě, ale podobně tvořené negované varianty, jež jsou snad až na řídké formace typu netento či netoto homogennější, naznačují, že tyto slovotvo rné jevy jsou charakteristické právě pro mluvené korpusy (např. ORAL2013, 114 výskytů, normalizovaná frekvence 34,70 i.p.m.); v psaných se najdou ojedinělé výskyty v beletrii (např. SYN2010, 5 výskytů, normalizovaná frekvence 0,04 i.p.m.). 96 Výraz to se často vyskytuje na místech, kde mluvčí váhá, hledá vhodné slovo a také získává čas. Levým kolokátem pak bývají slova s podobnou funkcí, jako např. no, jo nebo hezitační zvuky (hmm); případně se výraz opakuje (to to). Reduplikace ovšem může být pouze formální, není vždy znakem hezitace, neboť oba výskyty výrazu tu mohou mít jinou syntaktickou funkci (např. to to tam nekvalifikuje). Ve výše zmíněném slovesném užití se pak z hlediska informační struktury výpovědi výraz to vyskytuje primárně v pozici rématu a je též projevem tápání při volbě lexika: slouží k tomu, aby se mluv čí vyhnul příliš dlouhé odmlce, když se mu nedaří vybavit si konkrétní sloveso. Na jiném místě než v jádru výpovědi se neobjevuje, respektive by působil přinejmenším nepřirozeně (srov. umělé příklady on Honzu neto, nenašel vs. ?on neto Honzu). Kromě zmíněných případů je slovní tvar to součástí pevných kolokací a frazémů typických pro mluvený jazyk, jako např. to pude, to nevadí, to je blbost, to je jedno, to je dobrý, nehledě na to, tak to je (srov. Čermák 2007: 365–370). Z uvedeného nástinu plyne, že to je forma pro mluvený jazyk dosti typická a zároveň funkčně mnohem rozrůzněnější, než by tomu naznačovaly gramatické analýzy a korpusová pozorování založená na psaném jazyce. Vzhledem k tomu, že se do budoucna uvažuje o případné lemmatizaci a morfologickém značkování mluvených korpusů ČNK, je dobré na tato specifika spojená s jejich nejfrekventovanější formou u pozornit, buď aby byla v nějaké podobě strojovou identifikací ošetřena, nebo aby alespoň bylo explicitně řečeno, že doplněné atributy tuto variabilitu plně nereflektují. Literatura Benešová, L., Křen, M. & Waclawičová, M. (2013). ORAL2013: reprezentativní korpus neformální mluvené češtiny. Praha: Ústav Českého národního korpusu FF UK. Dostupný z WWW: http://www.korpus.cz Čermák, F. & Křen, M. (2004). Frekvenční slovník češtiny. Praha: Nakladatelství Lidové noviny. Čermák, F. et al. (2007). Frekvenční slovník mluvené češtiny. Praha: Karolinum. Český národní korpus – PMK (2001). Praha: Ústav Českého národního korpusu FF UK. Dostupný z WWW: http://www.korpus.cz Hajič, J. (2004). Disambiguation of Rich Inflection (Computational Morphology of Czech). Praha: Karolinum Charles University Press. Havránek, B. & Jedlička, A. (1960). Česká mluvnice. Praha: SPN. 97 Hnátková, M. (2013). Automatická slovnědruhová desambiguace slova „to“ v ustálených větných výrazech. Korpus – gramatika – axiologie, 7. Hradec Králové: Nakladatelství Gaudeamus, Univerzita Hradec Králové, 22–35. Jelínek, T. (2008). Nové značkování v Českém národním korpusu. Naše řeč, 91 (1), 13–20. Petkevič, V. (2006). Reliable Morphological Disambiguation of Czech: Rule-Based Approach is Necessary. In M. Šimková (Ed.), Insight into the Slovak and Czech Corpus Linguistics. Bratislava: Veda, 26–44. Petr, J. et al. (1986). Mluvnice češtiny 2. Praha: Academia. Spoustová, D., Hajič, J., Votrubec, J., Krbec, P. & Květoň, P. (2007). The Best of Two Worlds: Cooperation of Statistical and Rule-Based Taggers for Czech. Proceedings of the Workshop on Balto-Slavonic Natural Language Processing, 67–74. Šmilauer, V. (1966). Novočeská skladba. Praha: SPN. Křen, M., Bartoň, T., Cvrček, V., Hnátková, M., Jelínek, T., Kocek, J., Novotná, R., Petkevič, V., Procházka, P., Schmiedtová, V. & Skoumalová, H. (2010). SYN2010: žánrově vyvážený korpus psané češtiny. Praha: Ústav Českého národního korpusu FF UK. Dostupný z WWW: http://www.korpus.cz Kopřivová, M. & Waclawičová, M. (2006). ORAL2006: korpus neformální mluvené češtiny. Praha: Ústav Českého národního korpusu FF UK. Dostupný z WWW: http://www.korpus.cz Waclawičová, M., Kopřivová, M., Křen, M. & Válková, L. (2008). ORAL2008: sociolingvisticky vyvážený korpus neformální mluvené češtiny. Praha: Ústav Českého národního korpusu FF UK. Dostupný z WWW: http:// www.korpus.cz 98 Ivana Kolářová Katedra českého jazyka a literatury PedF MU [email protected] Slovesa odvozená od adverbií jako periferie slovotvorného systému (na materiále Českého národního korpusu) Slovesa odvozená od adverbií = deadverbiální (např. oddálit, přitakat, opětovat) se svým počtem ve srovnání se slovesy desubstantivními, deadjektivními a deinterjekčními nacházejí spíše na periferii české slovotvorné soustavy. Tomu odpovídá i poměrně malá pozornost, kterou jim věnují mluvnické a slovotvorné práce (Čermák 2012; Mluvnice češtiny 1; Šlosar 1981; Dokulil 1974, 1975; Šmilauer 1972; Trávníček 1948). Ovšem i krátké výklady v nich ukazují odlišné přístupy již v přiřazení některých slovesných derivátů k deadverbiálním. Za východisko pro interpretaci slovotvorných vlastností jednotlivých sloves a jejich přiřazení k slovům deadverbiálním jsme zvolili především vysvětlení slovotvorné i významové motivace v Mluvnici češtiny 1 (1986: 415), v níž jsou za deadverbiální považována slovesa s významem „dělat něco tak, jak označuje základové adverbium“, „probíhat tak, jak označuje základové adverbium“. Pak autoři Mluvnice češtiny 1 považují za odvozená od adverbií např. sloveso zpomalit, oddálit, opozdit, přitakat, opětovat a na základě toho je možné přiřadit k nim další: pospíšit si, přiblížit, unáhlit se, venčit. Nejvíce příkladů deadverbiálních sloves uvádí Šmilauer (1972: 183), mezi nimi ovšem i slovesa odvozená od adverbií archaických a zřídka užívaných: příčit/příčit se (od adverbia příč), popř. slovesa, jejichž potenciální základová adverbia v textech současné češtiny nenajdeme vůbec: např. sloveso peskovat spojuje s adverbiem pesky, které není doloženo ani v korpusech češtiny současné, ani v korpusu DIAKORP. Deadverbiální původ přisuzuje Šmilauer též slovesu opakovat, jehož základové slovo opak je ve Slovníku spisovného jazyka českého (SSJČ) i v Příručním slovníku jazyka českého hodnoceno jako substantivum, a významy slov opak a slovesa opakovat spolu v současné češtině již nesouvisejí. Proto se slovesem opakovat nezabýváme, stejně jako slovesy zdvojnásobit, ztrojnásobit, která za deadverbiální považuje Trávníček (1948: 174), neboť slova dvojnásob, trojnásob hodnotí jako příslovce. V nejnovějších 99 mluvnických pracích jsou však řazena k číslovkám, resp. k „číslovkám adverbiální povahy“ (Akademická gramatika spisovné češtiny, s. 423). Naše dřívější analýzy deadverbiálních sloves v Českém národním korpusu ukázaly následující: (1) Deadverbiální slovesa jsou tvořena stejně jako slovesa desubstantivní a deadjektivní: konverzí i cirkumfixací. Zatímco konverze kmenotvornými sufixy se uplatňuje zřídka (viz a), cirkumfixace je výrazně častější (srov. b): (a) slovesa tvořená kmenovými sufixy: -i- venčit, příčit, příčit se -ova- opětovat (b) slovesa tvořená cirkumfixy: • prefix + -io- + -i- opozdit se od- + -i- oddálit po- + -i- pospíšit si, ponáhlit se pře + -i- přenáhlit se při- + -i- přiblížit, přispíšit si u- + -i- vz- + -i- vzdálit, vzdálit se, vzpříčit se za + -iz- + -i- zpomalit, zpozdit, zpozdit se unáhlit se, upřílišit, uspíšit zapříčit se • prefix + -apo- + -a- potakat o- + -a- uondat při- + -i- přitakat (2) Co se týká četnosti výskytu deadverbiálních sloves, některá z nich jsou velmi frekventovaná (doložená i v několika desítkách tisíc dokladů), např. přiblížit, vzdálit se, zpomalit…, jiná mají spíše nižší frekvenci (jsou doložená pouze v desítkách dokladů), např. připozdit se, přispíšit, a některá jsou doložena zřídka nebo ojediněle, např. přenáhlit se, ponáhlit se, potakat, upřílišit. Není neobvyklé, že od jednoho adverbia vznikají jak slovesa doložená v počtu několika tisíc i minimálně (srov. např. frekventované slovesa unáhlit se, přitakat a minimálně doložená ponáhlit se, potakat). (3) Stylově patří deadverbiální slovesa nejčastěji k bezpříznakovým, nechybějí však mezi nimi na jedné straně archaismy (potakat), výrazy působící 100 jako knižní (opětovat), a na straně druhé slovesa hovorová (venčit), popř. výrazněji expresivní (uondat). Zdrojem pro vyhledávání dokladů je korpus psaných textů SYN, popř. využijeme některý z korpusů dalších: KSK dopisy, LINK nebo SKRIPT2012. Cílem stati není pouze upřesnění a ověření již zjištěných vlastností deadverbiálních sloves: frekvence v Českém národním korpusu, jejich slovotvorných a významových vlastností na základě užití v korpusových textech různých stylových sfér a různých žánrů. Prostřednictvím důkladnější korpusové sondy se pokusíme především: • odlišit slovesa skutečně užívaná od sloves, jejichž existence je spíše hypotetická, tj. doložených např. jen jako předmět výkladu v lingvistických textech (upřílišit); • na bázi analýzy konkrétních dokladů srovnat aktuální významy, kterých deadverbiální slovesa nabývají v současných textech, s významy, který jim přisuzují SSJČ (1989) a mluvnické a slovotvorné práce, eventuálně srovnání četnosti užití ve významu základním spojeném přímo s významem základového adverbia a ve významu přeneseného pojmenování (např. při dřívějších analýzách jsme již zjistili, že u slovesa příčit se jednoznačně převažuje užití ve funkci přeneseného pojmenování, zatímco vzpříčit se, zapříčit se užívají ve významu souvisejícím s prostorovým významem archaického adverbia příč); • v některých případech vysledovat vázanost slovesa na určitý typ věty (např. dřívější korpusové sondy ukázaly, že sloveso připozdit se je doloženo výhradně ve větách bezpodmětových). Literatura Čermák, F. (2012). Morfématika a slovotvorba češtiny. Praha: Nakladatelství Lidové noviny. Dokulil, M. (1974). Dva příspěvky k odvozování sloves. Naše řeč, 65, 1–11. Machek, V. (1971). Etymologický slovník jazyka českého. Praha: Academia. Mluvnice češtiny 1. (1985). Praha: Academia. Slovník spisovného jazyka českého I-VIII. (1989). Praha: Academia. Šmilauer, V. (1972). Novočeské tvoření slov. Praha: SPN. 101 Štícha F. (2008). Usage, frequency and grammaticality. In F. Štícha, & M. Fried (Eds.), Grammar & Corpora / Gramatika a korpus 2007. Praha: Academia, 285–292. Štícha, F. et al. (2013) Akademická gramatika spisovné češtiny. Praha: Academia. Trávníček, F. (1948). Mluvnice spisovné češtiny I. Hláskosloví – Tvoření slov – Tvarosloví. Praha: Melantrich. Veronika Kolářová Ústav formální a aplikované lingvistiky MFF UK [email protected] Preference v souvýskytu aktantů u českých substantiv mluvení Vedle tzv. korpusově řízené analýzy, která se zaměřuje na frekvenčně pojaté pásmo substantiv a zdůrazňuje spíše lexikologické aspekty valence (Čermáková 2009), je možné k problematice valence substantiv přistupovat z hlediska syntaktického. Tento příspěvek navazuje na valenční teorii funkčního generativního popisu (FGP; Panevová 1980; Panevová 2002; Kolářová 2010). Obdobně jako u sloves (Daneš & Hlavsa et al. 1987; Kettnerová, Lopatková & Hrstková 2008), i u substantiv se dá vypozorovat, že lexikální jednotky spadající do jedné sémantické skupiny vykazují obdobné valenční chování, projevující se zejména v počtu, povaze a sémantické charakteristice argumentů, v některých případech i v jejich formách. Substantiva mluvení mají tři argumenty (aktanty, popř. sémantické participanty Mluvčí, Informace a Příjemce), v FGP označované nejčastěji funktory Aktor (ACT), Patiens (PAT) a Adresát (ADDR). Korpusy jsou nezastupitelné v případě, kdy chceme zjistit frekvenci jednotlivých forem aktantů, případně preferované kombinace aktantů. Souvýskytu jednotlivých aktantů u substantiv spadajících do jedné sémantické skupiny byla dosud věnována zcela minimální pozornost. Bekaert 102 a Enghels (v tisku) sledují četnosti kombinací aktantů u nominalizací španělských sloves vnímání (3 substantiva zrakového vnímání, 3 substantiva sluchového vnímání). Kolářová (2010) srovnává valenční chování vzorku substantiv dávání (16 substantiv) a substantiv mluvení (22 substantiv, dále „vzorek_2010“) odvozených od sloves s Adresátem v dativu. Na základě dat ze subkorpusu SYN2000 konstatuje, že zatímco u substantiv mluvení je relativní četnost kombinace ACT+ADDR jen zhruba o polovinu menší než relativní četnost kombinace PAT+ADDR (viz tabulka č. 2), u substantiv dávání je výskyt kombinace ACT+ADDR téměř nulový. V tomto příspěvku chceme ověřit hypotézu, že nezanedbatelný výskyt Mluvčího je vlastností charakteristickou nejen pro vzorek_2010, ale i pro další typy substantiv mluvení. Bylo vytipováno dalších 32 substantiv tak, aby byly zastoupeny všechny podskupiny substantiv mluvení, přičemž hlediskem třídění je forma Adresátu u základového slovesa (tj. dativ, akuzativ, genitiv a předložková skupina, PS). Do tohoto vzorku byla zahrnuta jak verbální substantiva (VS, např. dotazování se), tak dějová substantiva (DS, např. dotaz). Jako základnu pro vytvoření seznamu substantiv jsme využili převážně slovesa uvedená ve valenčním slovníku VALLEX (class: communication). Přehled zkoumaných substantiv znázorňuje tabulka č. 1. Při započítání vzorku_2010 je celkový počet zkoumaných substantiv mluvení 54. Forma ADDR Počet a typ zkoumaných substantiv Příklady Sloveso Substantivum Verbální Dějová substantiva substantiva Celkem Ak Gen / Dat 4 9 13 upozornění, výzva Gen Gen / Dat 6 2 8 vyptávání se, otázka PS PS 3 3 6 povídání si, rozhovor Dat Dat 2 3 5 odpovídání, pohrůžka Dat 11 11 22 doporučení, nabídka Dat (vzorek_2010) 54 Celkem: 26 28 Tabulka č. 1: Přehled zkoumaných substantiv mluvení 103 Forma ADDR u slovesa Typ substantiva Při porovnání výskytu kombinace ACT+ADDR a kombinace PAT+ADDR u zkoumaných substantiv byla použita stejná metoda jako u Kolářové (2010). Jako základní korpus byl použit SYN2000; v případě nulového počtu dokladů byly použity subkorpusy SYN2005 a SYN2010. Pro jednotlivá substantiva byly vyhledány všechny jejich doklady s Adresátem (tedy i doklady, kde je vyjádřen pouze ADDR); mezi těmito doklady byly následně vyhledány všechny doklady různých slovosledných variant kombinací PAT+ADDR (např. dotazování se voličů.ADDR, koho by volili.PAT), ACT+ADDR (např. povídání si rodičů.ACT s dítětem.ADDR), případně ACT+PAT+ADDR (např. její.ACT rozhovory s Izraelem. ADDR o okupovaných Golanských výšinách.PAT). Pro substantiva s ADDR vyjádřeným předložkovou skupinou byla použita série různých dotazů, pro substantiva s ADDR v genitivu nebo dativu byl použit dotaz ([lemma=“lemma_ substantiva“] [!(tag=“[Z|R|V|J].*“)]{0,4} [tag=“N...[2|3].*“]). Všechny nalezené doklady byly manuálně zkontrolovány. Absolutní četnosti (AbsČ) a relativní četnosti (Rel_ADDR, tj. AbsČ kombinace aktantů ku AbsČ celkového výskytu ADDR) pro jednotlivé podskupiny substantiv jsou uvedeny v tabulce č. 2. ADDR celkem: AbsČ PAT+ADDR VS 150 34 DS 402 135 Gen VS 31 8 DS 22 4 VS 77 2 DS 4313 98 Dat 22,67 7 4,67 33,58 35 8,71 19 4,73 25,81 0 0 0 0 18,18 3 13,64 0 0 2,6 5 1 1,3 2,27 442 10,25 12 0,28 6,67 0 0 40,00 0,67 6 DS 117 5 4,27 41 35,04 3 2,56 Dat VS 151 58 (vzorek_2010) DS 369 105 38,41 22 14,57 7 4,64 28,46 58 15,72 20 5,42 VS 424 108 25,47 35 9 2,12 DS 5223 347 579 11,09 54 1,03 6,64 1 6,49 1 15 Celkem VS ACT+PAT+ADDR AbsČ Rel_ADDR AbsČ Rel_ADDR AbsČ Rel_ADDR (%) (%) (%) Ak PS ACT+ADDR 8,26 Tabulka č. 2: Přehled absolutních a relativních četností souvýskytu aktantů 104 Závěr: Zpracování dokladů dalších podskupin substantiv mluvení ukázalo, že se jednotlivé podskupiny co do preferencí v souvýskytu aktantů liší (nejvýraznější je nízká relativní četnost kombinace PAT+ADDR u substantiv s ADDR ve formě PS). Relativní četnost kombinace ACT+ADDR sice v celkových průměrných hodnotách klesla zhruba o 5 procent (srovnáváme řádky „Dat (vzorek_2010)“ a „Celkem“), i tak je však možné konstatovat, že vyjádření Mluvčího (ACT) v souvýskytu s Adresátem není pro substantiva mluvení zanedbatelné, u některých dějových substantiv tato kombinace dokonce převažuje nad kombinací PAT+ADDR. Zdá se, že tato vlastnost odlišuje substantiva mluvení od některých jiných sémantických tříd, např. od substantiv dávání. Literatura Bekaert, E. & Enghels, R. (2014). Nominalizations of Spanish perception verbs at the syntax-semantics interface. In O. Spevak (Ed.), Noun Valency. Studies in Language Companion Series. Amsterdam: John Benjamins. Čermáková, A. (2009). Valence českých substantiv. Praha: Nakladatelství Lidové noviny. Český národní korpus – SYN2000. Ústav Českého národního korpusu FF UK, Praha 2000. Dostupný z WWW: <http://www.korpus.cz>. Český národní korpus – SYN2005. Ústav Českého národního korpusu FF UK, Praha 2005. Dostupný z WWW: <http://www.korpus.cz>. Český národní korpus – SYN2010. Ústav Českého národního korpusu FF UK, Praha 2010. Dostupný z WWW: <http://www.korpus.cz>. Daneš, F., Hlavsa, Z. et al. (1987). Větné vzorce v češtině. Praha: Academia. Kettnerová, V. , Lopatková, M. & Hrstková, K. (2008). Semantic Classes in Czech Valency Lexicon: Verbs of Communication and Verbs of Exchange. In Lecture Notes in Computer Science, Vol. 5246, Proceedings of the 11th International Conference, TSD 2008. Berlin / Heidelberg: Springer, 109–116. Kolářová, V. (2010). Valence deverbativních substantiv v češtině (na materiálu substantiv s dativní valencí). Praha: Karolinum. Panevová, J. (1980). Formy a funkce ve stavbě české věty. Praha: Academia. Panevová, J. (2002). K valenci substantiv (s ohledem na jejich derivaci). Zbornik Matice srpske za slavistiku 61, 29–36. VALLEX: Valency Lexicon of Czech Verbs. Dostupný z WWW: <http://ufal. mff.cuni.cz/vallex/> 105 Pavel Kosek Ústav českého jazyka FF MU [email protected] Vývoj slovosledu kondicionálového auxiliáru v češtině Jak napovídá název, cílem příspěvku je prozkoumat vývoj slovosledu kondicionálového auxiliáru (AUXK) ve vývoji češtiny typu nesl bych, nesl by/ nesl bys/ nesl by sis, nesl by, nesli bychom, nesli byste, nesli by. Tímto příspěvkem navazuji na analýzu slovosledu auxiliárních forem, kterou jsem provedl na materiálu barokní češtiny (Kosek 2011). Podle dosavadních znalostí o historické syntaxi češtiny (Gebauer 1929; Trávníček 1935, 1956) lze předpokládat, že na vývoj slovosledu AUXK měly vliv následující faktory: a. původně přízvučné tvary AUXK se proměnily na formy plně enklitické; b. tato změna nejspíše souvisela s procesem reanalýzy časového významu praslovanského plusquamperfekta a jeho následné proměny ve kondicionál (tj. změna slovosledných vlastností AUXK byla spjata s procesem gramatikalizace); c. vývoj českých enklitik se vyznačoval konkurencí postiniciálního (tzv. 2P pozice) a kontaktního slovosledu (tzv. VA pozice). V současnosti stále scházejí konkrétní materiálově založené analýzy slovosledu AUXK, které by zkoumaly vliv těchto faktorů na vývoj AUXK ve vývoji češtiny (s některými výjimkami, jako např. Prejzová (2013)). Cílem plánovaného příspěvku je tedy analyzovat, jak se jmenované faktory uplatňují ve slovosledu AUXK ve starších fázích češtiny. Při analýze vývoje slovosledu AUXK v dějinách češtiny je kvůli množství pramenů nutno provést redukci zkoumaných textů; práci s prameny bohužel komplikuje fakt, že současné diachronní korpusy se zatím vyznačují různou mírou reprezentativnosti (Staročeská textová banka obsahuje pouze texty vzniklé před rokem 1500, DIAKORP obsahuje velmi málo textů). Vzhledem k tomu, že pro jednotlivá období jsou zpravidla doloženy rozdílné typy (žánry) textů, je obtížné vybrat takové prameny, jejichž data by bylo možno validně statisticky porovnávat. Naštěstí je pro dějiny češtiny k dispozici pramen, který je textově ustálený 106 a který byl v jednotlivých vývojových fázích jazykově upravován/adaptován: text Bible. Nicméně data obsažená v jednotlivých biblických textech je nutno přijímat kriticky, jelikož jde o pramen velmi specifický, zejména proto, že jeho jazyk podléhá vysoké míře stylizace. Chystaný příspěvek je založen na rozboru jazyka Matoušova evangelia v reprezentativních biblických překladech: Bibli drážďanské, Bibli olomoucké, Bibli mlynářčině, Bibli benátské, Bibli Melantrichově, Bibli kralické, Bibli svatováclavské, ekumenickém překladu a Českém studijním překladu bible. Pro tyto účely byl vytvořen soukromý korpus přepisů této novozákonní knihy. Provedená analýza se stane základem budoucího výzkumu vývoje slovosledu AUXK v dalších památkách starších vývojových fází češtiny. Literatura Anderson, S. R. (1993). Wackernagel’s revenge: Clitics, morphology, and the syntax of second position. Language, 69, 68–98. Avgustinova, T. & Oliva, K. (1995). Wackernagel position and related phenomena in Czech. Wiener Slavistisches Jahrbuch, 41, 21–42. Berneker, E. (1900). Die Wortfolge in den slavischen Sprachen. Berlin: B. Behr’s Verlag. Daneš, F. (1957). Intonace a věta ve spisovné češtině. Praha: Nakladatelství ČSAV. Dostál, A. (1967). Historická mluvnice česká II. Tvarosloví 2. Časování. Praha: SPN. Ertl, V. (1924). Příspěvek k pravidlu o postavení příklonek. Naše řeč, 8, 257– 268, 293–309. Esvan, F. (1997). Několik poznámek o tzv. rytmickém činiteli. SPFFBU, A 45, 1997, 85–93. Esvan, F. (2000). Česká klitika z hlediska typologického. In Z. Hladká & P. Karlík (Eds.), Čeština – univerzália a specifika, 2. Brno: MU, 141–147. Flajšhans, V. (1923). K výkladům o postavení slov příklonných. Naše řeč, 7, 297–298. Franks, S. & King, T. H. (2000). A Handbook of Slavic Clitics. Oxford: Oxford University Press. Fried, M. (1994). Second-Position Clitics in Czech: Syntactic or Phonological? Lingua, 94, 155–175. Gebauer, J. (1929). Historická mluvnice jazyka českého IV. Skladba (F. Trávníček (Ed.)). Praha: ČAVU. 107 Gebauer, J. (1958). Historická mluvnice jazyka českého III/1. Tvarosloví – časování. 2. vyd., Praha: ČSAV. Halpern, A. (1995). On the Placement and Morphology of Clitics. Stanford CA: CSLI Publications. Halpern, A. (1998). Clitics. In A. Spencer & A. M. Zwicky (Eds.), The Handbook of Morphology. Oxford: Blackwell Publishers Ltd. Junghanns, U. (2002). Klitische Elemente im Tschechischen: eine kritische Bestandaunahme. In Th. Daiber (Ed.), Linguistische Beiträge zur Slavistik IX. München, 117–150. Klavans, L. J. (1985). The Independence of Syntax and Phonology in Cliticization. Language, 61, 95–120. Kosek, P. (2010). Slovosled kondicionálového auxiliáru v „Bibli svatováclavské“. In Bičan, et al. (eds.), Karlík a továrna na lingvistiku. Prof. Petru Karlíkovi k šedesátým narozeninám. Brno: Host – MU, 205–229. Kosek, P. (2011). Enklitika češtině barokní doby. Brno: MU–Host. Kosek, P. (2012). Word Order of Conditional Auxiliary Clitics in the Czech Language of the Baroque Period. In M. Ziková & M. Dočekal (Eds.), Slavic Languages in Formal Grammar. Proceedings of FDSL 8.5, Brno 2010. Frankfurt am Main et al.: Peter Lang, 100–118. Kosta, P. & Schürcks, L. (2009). Word order in Slavic. In S. Kempgen, P. Kosta, T. Berger & K. Gutschmidt (Eds.), Die slavischen Sprachen. The Slvic Languages. Walter de Gruyter: Berlin / New York, 654–683. Lamprecht, A., Šlosar, D. & Bauer, J. (1986). Historická mluvnice češtiny. Praha: SPN. Lešnerová, Š. (2002). Postavení příklonky „se“ v textu Kryštofa Haranta „Cesta z Království českého… do Země svaté…“. In Z. Hladká & P. Karlík (Eds.), Čeština – univerzália a specifika, 4. Brno: MU, 325–327. Migdalski, K. (2009). On two types of Wackernagel cliticization in Slavic. In J. Reich, M. Babyonyshev & D. Kavitskaya (Eds.), Formal Approaches to Slavic Linguistics: The Yale Meeting. Ann Arbor: Michigan Slavic Publications, 147–162. Migdalski, K. (2010). On the relation between V2 and the second position cliticization. Lingua, 120, 329–353. Palková, Z. (1994). Fonetika a fonologie češtiny. Praha: Karolinum. Pancheva, R. (2005). The rise and fall of second-position clitics. Natural Language and Linguistic Theory, 23, 103–167. 108 Prejzová, L. (2013). Slovosled kondicionálového kondicionálu ve staré češtině. (Diplomová práce) Brno: MU. Svoboda, A. (1984). České slovosledné pozice z pohledu aktuálního členění. Slovo a slovesnost, 45, 22–34, 88–103. Svoboda, A. (2000). Klitika z hlediska funkční větné perspektivy (I). In P. Karlík & Z. Hladká (Eds.), Čeština – univerzália a specifika, 2. Brno: MU, 149–159. Svoboda, A. (2001). Klitika z hlediska funkční větné perspektivy (II). In P. Karlík & Z. Hladká (Eds.), Čeština – univerzália a specifika, 3. Brno: MU, 149–159. Šlosar, D. (1967). Poloha enklitik jako kritérion k hodnocení staročeské interpunkce. Listy filologické, 91, 251–258. Toman, J. (2004). Ertlova diskuse českých klitik. In Z. Hladká & P. Karlík (Eds.), Čeština – univerzália a specifika, 5. Brno: Nakladatelství Lidové noviny, 73–79. Trávníček, F. (1935). Historická mluvnice československá. Praha: Melantrich. Uhlířová, L. (2011–2012). Obštnost i mnogoobrazie na slovoreda na klitikite (săpostavitelno izsledvane na bălgarskija i češkija ezik). Săpostavitelno ezikoznanie, 36, Čast I., 2011, 5–17; Čast II., 20–31; Čast III, 5-16, 37; Čast IV, 5–11. Večerka, R. (1989). Altkirchenslavische (Altbulgarische) Syntax I, Die lineare Satzorganisation. Freiburg i. Br: Weiher. Wackernagel, J. (1892). Über ein Gesetz der indogermanischen Wortstellung. Indogermanische Forschungen, 1, 393–436. Zikánová, Š. (2009). Postavení slovesného přísudku ve starší češtině (1500– 1620). Praha: Karolinum. Zwicky, A. (1977). On Clitics. Bloomington: Indiana University Linguistics Club. Zwicky. A. (1994). What is a clitic. In J. A. Nevis, B. D. Joseph, D. Wanner & A. M. Zwicky (Eds.), Clitics. A comprehensive bibliography 1892–1991. Amsterdam: John Benjamins Publishing, 12–20. Zwicky, M. A. & Pullum, K. G. (1983). Cliticization vs. inflection: the case of English „n’t“. Language, 59, 502–513. 109 Dominika Kováříková Ústav Českého národního korpusu FF UK [email protected] Slovní druhy v mluvené a psané češtině Korpusy neformální mluvené češtiny (řada ORAL) umožňují díky své dostatečné velikosti popis mluvené češtiny v míře, která donedávna byla jen těžko představitelná. Zvláště korpus ORAL (bez přívlastku, zatím nedostupný pro veřejnost), který vznikl sloučením korpusů ORAL2006 a ORAL2008 a je lemmatizovaný a morfologicky označkovaný, je cenným nástrojem pro výzkum gramatiky mluvené češtiny i její slovní zásoby. Mluvená čeština nebyla zatím z hlediska gramatiky ani slovní zásoby systematicky popsána. Morfologie mluvené češtiny je alespoň z frekvenčního pohledu podrobně zpracována v knize J. Šonkové (2008) (na ručně označkovaném Pražském mluveném korpusu). K popisu gramatiky mluvené češtiny se do určité míry přibližuje Mluvnice současné češtiny (Cvrček et al. 2010), která bere mluvený jazyk v úvahu a uvádí údaje o slovních tvarech v psaných i mluvených textech, nejfrekventovanějších zástupcích jednotlivých slovních druhů atp. Detailně zpracovaný je výsek problematiky slovní zásoby ve Slovníku české frazeologie a idiomatiky (Čermák et al. 2009), který zpracovává frazémy jak v psané, tak v mluvené češtině. Za zmínku stojí i sbírka studií Čeština v mluveném korpusu (Kopřivová & Waclawičová 2008), která ovšem není pojata jako celistvější popis. Prvotním impulsem k předkládané studii je úmysl zkoumat mluvenou češtinu skutečně systematicky (například zpracováním mluvnice mluvené češtiny), tedy nikoli jen okrajově (vedle psané češtiny) nebo jen s úzkým zaměřením na jeden jev nebo jeden úhel pohledu. Takový ucelený výzkum vyžaduje zjistit, jaké jsou možnosti a jakým směrem zaměřit pozornost, a to především proto, aby nešlo pouze o zkoumání založené na šabloně popisu psaného jazyka. Studie se soustředí na slovní druhy v mluvené a psané češtině (korpusy ORAL a SYN2010), a detailněji pak v různých typech textu: v mluvené češtině, v beletrii (próze), v publicistice a v akademických textech (podle Bibera, 1999). Srovnává počet textových pozic přináležejících k jednotlivým slovním druhům, stejně jako počty lemmat ve slovních druzích. Už tato základní analýza poskytuje cenné informace o tom, které oblasti mluvené češtiny vyža- 110 dují naši výzkumnou pozornost více než jiné. Jde např. o takové jevy, jako je výrazně vyšší počet textových pozic obsazených zájmeny nebo částicemi v mluvené češtině (oproti psané), nebo nízké procento podstatných a přídavných jmen v textech korpusu ORAL oproti korpusu SYN2010. Následný pohled na nejfrekventovanější zástupce (lemmata i slovní tvary) jednotlivých slovních druhů pak přináší možnosti interpretace takovýchto významných rozdílů mezi mluvenou a psanou češtinou. Mezi nejfrekventovanějšími lemmaty v jednotlivých slovních druzích jsou zároveň často slova, kterým by měla být věnována zvláštní pozornost. Jde o slova s neobvyklým chováním, např. problematicky zařaditelná k určitému slovnímu druhu (rád, každý, všichni, sám, druhý, už), slova deiktická tvořící zvláštní skupinu, již lze vydělit ze slovních druhů (a slova s nimi sdílející určité formální rysy: ně/ jaký/si, ně/který/koli apod.), zájmeno ten, které v mluvené češtině často plní funkci podobnou členu určitého (Chlumská & Kováříková 2010), případně vysoce frekventovaná sémanticky vyprázdněná slova výplňová, která jsou typická právě pro mluvenou češtinu (jako, vlastně, prostě). I těmto slovům či skupinám slov se studie bude v krátkosti věnovat. Právě takovýto výzkum, zaměřený spíše široce, tedy nikoli do hloubky a do podrobností sledující jeden vybraný jev, může být předstupněm ucelenější a daleko podrobněji zpracované analýzy mluveného jazyka. Literatura Biber, D. et al. (1999). Longman Grammar of Spoken and Written English. Harlow: Pearson Education. Cvrček, V. et al. (2010). Mluvnice současné češtiny. Praha: Karolinum. Čermák, F. et al. (2009). Slovník české frazeologie a idimoatiky I.-IV (2. vydání). Praha: Leda. Chlumská, L. & Kováříková, D. (2010). The Reflection of Linguistic Tradition in Translation. In F. Čermák, P. Corness & A. Klégr (Eds.), Intercorp: Exploring a Multilingual Corpus. Praha: NLN/ÚČNK. Kopřivová, M. & Waclawičová, M. (Eds.) (2008). Čeština v mluveném korpusu. Praha: NLN/ÚČNK. Šonková, J. (2008). Morfologie mluvené češtiny: Frekvenční analýza. Praha: NLN/ÚČNK. 111 Boris Lehečka Ústav pro jazyk český AV ČR [email protected] Obsah a značkování diachronního korpusu češtiny Příspěvek se zamýšlí nad obsahem zdrojových dat a metadat diachronního korpusu češtiny i nad funkčností korpusových manažerů, aby byly v co největší míře splněny základní požadavky kladené na korpusy: autenticita textů a jednoduché vyhledávání. Návrhy vycházejí z analýzy DIAKORPu, který je součástí diachronní složky Českého národního korpusu, a staročeské textové banky, jež vzniká v oddělení vývoje jazyka Ústavu pro jazyk český AV ČR, v. v. i. Diachronní korpusy mají v korpusové lingvistice výjimečné postavení: jejich příprava není snadná, neboť je tvoří texty, na něž nelze uplatnit moderní způsoby digitalizace (např. OCR). Tyto prameny musí připravit diachronně orientovaný editor, který v případě nečitelného nebo porušeného textu problematické místo emenduje, čímž narušuje jeho autenticitu. DIAKORP na tyto případy upozorňuje pomocí dvojice kódů, která se uživatelům i korpusovému manažeru jeví jako základní text (např. <e> a </e>), i když jde o metadata (informace přidané editorem k původnímu textu). V důsledku toho se navyšuje počet pozic, respektive slov, daného korpusu, a to nejen o počet samotných značek, ale i o výrazy uvedené mezi těmito značkami. Navíc tyto údaje ovlivňují např. řazení v konkordanci. Staročeská textová banka tyto informace uvádí adekvátnějším způsobem, tedy v komentáři k tokenu, takže údaj není na první pohled patrný, ale zobrazí se na vyžádání. Pozornost si v případě diachronních korpusů dále zaslouží cizojazyčný text, který bývá součástí textu staročeského. Jak DIAKORP, tak staročeská textová banka na tyto „nečeské“ výrazy upozorňují (pomocí značky <o>, resp. komentáře), korpusové manažery však s touto informací nepočítají a při hledání se prohledává jak český, tak cizojazyčný text (viz např. výsledky hledání výrazu pes). Cizojazyčný text by měl být explicite označen pomocí atributu, aby jej manažery mohly z vyhledávání vyřadit. Obdobný problém je potřeba řešit u tzv. mladších přípisků, které se v textu objevily dlouho po vzniku základního textu pramene. Není-li takový přípisek nijak označen, stane se nedílnou součástí hlavního textu a zkreslí tím informace o jazyce daného období. DIAKORP i staročeská textová banka 112 takové přípisky ve zdrojových datech pro korpus vypouštějí. Tím se ovšem narušuje autenticita textu (tj. podoba, v níž byl pramen reflektován čtenáři). Pokud se mají mladší přípisky stát součástí korpusu, bude nutné označit jednotlivé připsané výrazy dobou svého vzniku, aby na ně bylo možné aplikovat filtrační kritéria doby vzniku. Speciální zacházení si zaslouží rovněž přípisky soudobé, které vznikly ve stejné, popř. časově ne tak vzdálené době jako základní text pramene. Pokud netvoří organickou součást textu (např. v případě doplnění vynechaných slov), musí editor rozhodnout o umístění přípisku (podle smyslu nebo podle místa připsání), což může v některých případech vést k narušení větné stavby a k vytváření neobvyklých kolokací (se základním textem). Řešení tohoto problému vyžaduje další diskusi a spolupráci na straně editorů a korpusových manažerů. Jedním z obvyklých korpusových dotazů bývá hledání všech tvarů jednoho lemmatu, čemuž napomáhá lemmatizace korpusových dat. U diachronních korpusů se problém, jak zjednodušit hledání různých hláskoslovných podob téhož lemmatu (např. kóň, kouň, kůň), řeší pomocí tzv. hyperlemmatu. Pracovníci ÚČNK počítají s uváděním hyperlemmatu v hláskoslovné podobě, která má co nejblíž současné češtině (tj. kůň); pracovníci ÚJČ naproti tomu pro hyperlemma zvolili podobu nejstarší, tj. ve formě k roku 1300 (tedy kóň). Obě varianty mají své opodstatnění, a jako vhodné se proto jeví uvádět u tokenu dvě hyperlemmata: historické a moderní. Poslední bod hodný pozornosti je značkování hláskoslovných změn proběhnuvších na určitém tokenu. Při lemmatizaci, která reflektuje rovněž hláskoslovný vývoj jazykových jednotek, by zejména pro starší vývojové fáze jazyka bylo vhodné zaznamenávat, k jakým hláskoslovným změnám došlo. V tomto případě je potřeba zaznamenat, nejen k jaké změně došlo, ale rovněž na jakém místě (v rámci jednoho výrazu mohla tatáž změna nastat i nenastat, např. dóstoujenstvie). Příspěvek popisuje přednosti i nedostatky současných řešení v uvedených aspektech diachronních korpusů, případně navrhuje výhodnější řešení s ohledem na sledovaná kritéria, totiž autenticitu textů a jednoduchost vyhledávání. 113 Literatura Černá, A. M. & Lehečka, B. (2012). Elektronická příprava a publikace starších českých textů. In Čeština v pohledu synchronním a diachronním: stoleté kořeny Ústavu pro jazyk český. Vyd. 1. Praha: Karolinum, 265–269. Český národní korpus - DIAKORP. Ústav českého národního korpusu FF UK, Praha. Cit. 8. 2. 2014. Dostupný z WWW: <www.korpus.cz> Stluka, M. (2010). Zpracování jednotlivých pravopisných systémů v rámci diachronní složky Českého národního korpusu. In M. Čornejová, L. Rychnovská & J. Zemanová (Eds.), Dějiny českého pravopisu (do r. 1902): sborník příspěvků z mezinárodní konference Dějiny českého pravopisu (do r. 1902) 23.–25. září 2010, Brno, Česká republika. Brno: Host; Masarykova univerzita, 435–448. Staročeská textová banka [on-line]. Citováno dne 8. 2. 2014. Oddělení vývoje jazyka Ústavu pro jazyk český AV ČR, v. v. i. Dostupná na <http://vokabular.ujc.cas.cz/banka.aspx>. Eva Lehečková Ústav českého jazyka a teorie komunikace FF UK [email protected] Konstrukční specifika dvou sémantických typů obouvidových sloves v češtině Obouvidová slovesa (dále OS) v češtině představují neprototypickou množinu sloves: nemají právě jednu vidovou hodnotu (dokonavý–nedokonavý), nýbrž mohou nabývat hodnot obou. Až na několik málo původních českých sloves sestává jádro subsystému z neprefigovaných sloves cizího původu tvořených pomocí kmenotvorného sufixu -ova- (např. rezervovat, analyzovat, identifikovat, expandovat, renovovat). Že je tato funkční podvojnost z dlouhodobého hlediska v systému češtiny neudržitelná, ukazují výzkumy sledující adaptaci OS v českém slovesném subsystému, viz např. Lebeďová 114 (1980, 1984), Komárek (1984) či nověji Jindra (2008). Obouvidová slovesa se v české lingvistice nazírají nikoliv jako jeden lexém, ale jako dvě samostatná, homonymní paradigmata (Kopečný 1962, Veselý 2008). V návaznosti na tento pohled Chromý a Lehečková (připr.) stanovují hypotézu, že (systémově) OS nejsou v konkrétním užití, tedy v určitém jazykovém a situačním kontextu, nikdy interpretována jako obouvidová, ale vždy mají pouze jednu preferovanou interpretaci, a to buď dokonavou, nebo nedokonavou. Jednoznačná interpretace obouvidového slovesa v kontextu je ovlivněna například strukturními faktory, jako je hodnota gramatického času, gramatické číslo a reference (specifická vs. generická) subjektu či objektu daného slovesa, přítomnost negace či sémantickými faktory určujícími vnitřní průběh děje (aktionsart) slovesa. Tento příspěvek zkoumá vliv sémantického rysu durativnost/momentánnost (resp. v klasifikaci navržené Vendlerem (1967) dichotomii accomplishments vs. achievements) na užívání přejatých neprefigovaných OS zakončených na -ovat. Dotazníkový průzkum představený ve studii Chromý a Lehečková ukázal, že tato dichotomie může hrát v distribuci OS určitou roli a že může odpovídat za některé rozdíly v interpretaci jednotlivých sloves. Durativnost/momentánnost je jedním z hlavních rysů slovesné sémantiky, který zasahuje celý systém sloves vyjadřujících směřování k nějaké vnitřní hranici – v některých pojetích (viz např. Smith 1997; Filip 1999) se tento rys vnitřní, sémantické aspektuality označuje jako teličnost; telická slovesa mohou vyjadřovat dosahování cíle v průběhu časového intervalu (durativní slovesa), nebo toto dosažení cíle konceptualizovat jako časově zhuštěné, tedy v rámci okamžiku (momentánní slovesa). S oporou o odbornou literaturu a kritéria tam uvedená klasifikujeme OS uvedená ve studii V. Jindry (2008) do kategorií momentánní a durativní, přičemž předpokládáme prototypické jádro každé kategorie a přechodové případy (zvláště s ohledem na fakt, že slovesná sémantika představuje jakýsi potenciální předvýznam, jejž lze aktualizovat užitím v konkrétním kontextu v rámci konkrétní verbální fráze v predikátové funkci). Teoreticky naše studie vychází z konstrukčního přístupu k jazyku (v češtině viz Friedová 2013): jazykové jednotky chápe jako komplexní gestalty zahrnující všechny informace o dané konstrukci, které jsou relevantní pro její užití v komunikaci. Výzkum se materiálově opírá o SYN2010 a jako metodu uplatňuje kolostrukční analýzu (collostructional analysis) vyvinutou M. Stefanowitschem a S. Griesem (2003, 2004, 2005), konkrétně kolexémovou analýzu (collexeme 115 analysis), která zkoumá stupeň asociace vybraného lemmatu s určitou pozicí ve zkoumané konstrukci coby syntaktickém vzorci. U OS zkoumáme asociační sílu skupiny momentánních a skupiny durativních lemmat v konstrukcích obsahujících a) různou hodnotu gramatické kategorie času a b) valenční doplnění v jednotném, resp. množném čísle, a to ba) subjekt a bb) přímý objekt. Predikcí u prvního zkoumaného rysu je, že durativní OS budou vykazovat menší restrikce v distribuci z hlediska času (a budou tedy mít menší asociační míru s určitou konstrukcí než momentánní slovesa, která budou signifikantně tíhnout k minulému času). Gramatické číslo subjektu a přímého objektu ovlivňuje aspektuální interpretaci (cf. Krifka 1998; Filip 1999), neboť s sebou nese individuální, resp. generickou referenci (v rámci krifkovské mereologie se obvykle vyděluje singulárový tvar se specifickou interpretací a kvantifikovaný plurálový tvar na jedné straně vs. nekvantifikovaný, holý plurálový tvar a nepočitatelná, látková jména na straně druhé, srov. např. Dočekal (2009). V rámci tohoto rysu předpokládáme, že momentánní OS budou preferenčně přítomna v konstrukcích s individuální interpretací, zatímco durativní OS budou z tohoto hlediska nespecifická, a budou tedy vykazovat menší míru kolexémové asociace s konstrukcemi obsahujícími aktanty v singuláru. Pro ověření vlivu distinkce durativní/momentánní na distribuci OS ve zkoumaných konstrukcích budeme kontrolně sledovat i signifikantnost asociační míry jednotlivých slovesných lemmat v těchto konstrukcích, a to za účelem identifikace případných idiosynkratických vlivů u konkrétních lexikálních jednotek. Role, kterou tato aspektuální distinkce hraje při distribuci OS, dosud nebyla v odborné literatuře soustavně sledována, a mohlo tak dojít k pominutí podstatných rysů ovlivňujících užívání a adaptaci těchto sloves v českém jazykovém systému. Literatura Český národní korpus – SYN2010. Ústav Českého národního korpusu FF UK, Praha 2010. Dostupný z WWW: <http://www.korpus.cz>. Dočekal, M. (2009). Aspekt a sémantika předložek. In Struny mysli. Ostrava: Montanex, 291–300. Filip, H. (1999). Aspect, Eventuality Types and Nominal Reference. New York/London: Garland Publishing. Friedová, M. (2013). Pojem konstrukce v konstrukční gramatice. Časopis pro moderní filologii, 95(1), 9–27. 116 Gries, S. Th. & Stefanowitsch, A. (2004). Co-varying collexemes in the into-causative. In M. Achard & S. Kemmer (Eds.), Language, Culture, and Mind. Stanford, CA: CSLI, 225–36. Chromý, J. & Lehečková, E. (připr.). Impact of tense on the interpretation of bi-aspectual verbs. Studie z aplikované lingvistiky, 1/2014. Jindra, V. (2008). Vývojová dynamika obouvidových sloves cizího původu na základě korpusových dat. Slovo a slovesnost, 69, 192–210. Komárek, M. (1984). Prefixace a slovesný vid (K prefixům čistě vidovým a subsumpci). Slovo a slovesnost, 45, 257–267. Kopečný, F. (1962). Slovesný vid v češtině. Praha: ČSAV. Lebeďová, S. (1980). K ztrátě obouvidovosti u sloves cizího původu v současné češtině. Slovo a slovesnost, 41, 279–286. Lebeďová, S. (1984). Spojování sloves cizího původu s českými předponami. Naše řeč, 67, 117–121. Smith, C. (1997). The Parameter of Aspect. 2nd edition. Dordrecht: Kluwer. Stefanowitsch, A. & Gries, S. Th. (2003). Collostructions: Investigating the interaction between words and constructions. International Journal of Corpus Linguistics, 8(2), 209–243. Stefanowitsch, A. & Gries, S. Th. (2005). Co-varying collexemes. Corpus Linguistics and Linguistic Theory, 1(1), 1–43. Vendler, Z. (1967). Verbs and times. In: Linguistics and Philosophy. Ithaca/ New York: Cornell University Press. Veselý, L. (2008). Testy pro zjišťování vidové hodnoty vidového paradigmatu slovesa (indikátory slovesného vidu). Slovo a slovesnost, 69, 211–220. 117 Martina Lev Institut für Slavistik, Justus-Liebig-Universität Giessen [email protected] Voľné datívy a DcI-konštrukcie. Distribučná štúdia na materiáli podkorpusu českého synchrónneho korpusu SYN2010 a podkorpusu ruského osnovného korpusu S voľnými datívmi sa stretávame vo všetkých slovanských jazykoch, porov. nasledujúci výber: • Rus.: Эти мне газеты! (Mašovec 2000: 68) Ja ne prikazčik vam! (tamtiež: 58) • Pol.: Telewizor mi się zepsuł. (Rytel-Kuc 1999: 239) Tylko mi nie hałasuj! (Dąbrowska 1997: 55) • Č.: To je mi pěkný pořádek! (Karlík 2002: 105) Co jste nám tu ukradli? (Janda 1993: 89, 90) • Sloven.: Dokiaľ bola Zuza u Telného, nuž ti vám, dietky božie, milý Adam tú truhlu predal. ( Jégé; porov. Miko 1966: 181) A matka vám ešte žije? (Bednár; porov.: tamtiež) • Slovin.: Pametna bodi, glave mi ne povešaj! (Greenberg 2008: 95) Ostrigel mi je lase. (tamtiež) • Chorv./ Srb.: Kako ste mi? (Silić/ Pranjković 2007: 220) Kako ti je zdravlje? (Kunzmann-Müller 2002: 238) • Bulh.: Така ли ще ми говориш с баща си?! (Börger 2008: 43) Ich distribúcia sa však odlišuje od jazyka k jazyku. Kým v češtine, slovenčine, chorvátčine a srbštine sú voľné datívy hojne zastúpené, je ich frekvencia v ruštine silno obmedzená (porov. Janda 1993: 208; Daiber 2008:104). Fakultatívne datívy ako v č. Šel otci pro pivo (Nádeníček 2011: 152) alebo 118 v chorv. To ti je bila gužva! (Kunzmann-Müller 2002: 237) sa v modernej ruštine nerealizujú. Dôvody pre toto nerovnomerné zastúpenie voľných datívov sa v literatúre neuvádzajú, stretávame sa tu nanajvýš s domnienkami a hypotézami autorov. Prínosným v tomto ohľade je pozorovanie Havránka, ktorý opisuje jeden z rozdielov v používaní datíva v ruštine a češtine nasledujúco: […] pro ruštinu je příznačné zejména užívání dativu v jednočlenných větách s příslovcem nebo infinitivem v základním členu (sr. Мне далеко до вокзала. – Открыть мне окно?), a naproti tomu jiné vyjádření za český tzv. volný dativ při slovese, s významem příslušnosti, vztahu (sr. Ztratila se mi kniha. У меня пропала книга). (Havránek 1961: 298, 299; porov. i Zaičkova 1972: 66) Daiber predpokladá systematický súvis medzi frekvenciou voľných datívov v juho- a západoslovanských jazykoch a tzv. Dativus cum Infinitivokonštrukcií (ďalej DcI), ktoré dominujú v ruskom jazyku: „Verf. hält die zum Schwund der fakultativen Dativerweiterungen und zum Schwund klitischer Pronominalformen sich umgekehrt reziprok verhaltende Frequenz der DcIKonstruktionen für das entscheidende systemimmanente Kriterium.“ (Daiber 2008: 104, 105) Konštrukcia „je + infinitív“ s logickým subjektom v datíve, ktorá v minulosti slúžila ako jeden z výrazových prostriedkov vyjadrenia voľnej modality (a v ruskom jazyku existuje dodnes), sa v českom jazyku dochovala len „jako archaismus“ (Karlík et al. 1995: 410): Všem lidem jest umříti (tamže). (Porov. aj Zubatý 1922: 3; Gebauer 1929: 390; Bauer 1974: 11; Lamprecht et al. 1977: 238; Lamprecht et al. 1986: 350, 351.) Cieľom príspevku je, na základe výskumu na materiáli českého a ruského elektronického synchrónneho korpusu vyhodnotiť používanie voľných datívov v češtine a ruštine ako aj frekvenciu DcI-konštrukcií v ruskom jazyku a overiť tak hypotézu, že jazyky, v ktorých sú pronominálne datívy viazané v syntaktických konštrukciách (viď DcI) vykazujú menej voľných, t.j. syntakticky neväzobných (porov.: Bauer & Grepl 1970: 115; Grepl & Karlík 1986: 275; Karlík et al. 1995: 429; Karlík 2002: 104) datívov a naopak. Korpusová analýza tak podáva základ pre ďalší typologický výskum týchto javov v prípade, že sa hypotéza potvrdí. Použité korpusy budú predstavovať dva mnou zadané podkorpusy českého synchrónneho korpusu SYN2010 a ruského osnovného korpusu („Oсновный корпус“), pričom ich zloženie má pozostávať predovšetkým 119 z textov súčasnej originálnej českej a ruskej umeleckej literatúry (prózy). Prekladová literatúra zostáva nezohľadnená. Zloženie a veľkosť podkorpusov budú volené tak, aby boli navzájom porovnateľné. Literatúra Bauer, J. (1974). Historische Syntax der tschechischen Sprache. Übersetzt von Gerd Freidhof. Frankfurt a. M.: Slavisches Seminar. Bauer, J. & Grepl, M. (1970). Skladba spisovné češtiny. Praha: SPN. Börger, G. (2008). Der ethische Dativ in der Kommunikation. Sprachvergleich: Deutsch, Russisch, Bulgarisch. Frankfurt a. M.: Lang. Daiber, Th. (2008). Produktive Dativkonstruktionen. Possessive, deontische und temporale Attribution. In S. Kempgen, K. Gutschmidt, U. Jekutsch & L. Udolph (Eds.), Deutsche Beiträge zum 14. Internationalen Slavistenkongress Ohrid 2008. München: Otto Sagner, 103-116. Dąbrowska, E. (1997). Cognitive Semantics and the Polish Dative. Berlin/ New York: de Gruyter. DuFeu, V. (1998). The Dativus Ethicus (DE) in the Slavonic languages. XII MKS Kraków 1998. Dostupné online z: WWW: <http://www.arts.gla. ac.uk/Slavonic/VDuFeu.htm>. Gebauer, J. (1929). Historická mluvnice jazyka českého. Díl IV: Skladba. Praha: Česká Akademie věd a umění. Greenberg, M. L. (2008). A Short Reference Grammar of Slovene. München: Lincom Europa. Grepl, M. & Karlík, P. (1986). Skladba spisovné češtiny. Praha: SPN. Havránek, B. (Ed.) (1961). Příruční mluvnice ruštiny pro Čechy I. Hláskosloví a tvarosloví. Praha: SPN. Janda, L. A. (1993). A Geography of Case Semantics. The Czech Dative and the Russian Instrumental. Berlin/ New York: de Gruyter. Karlík, P. (2002). Dativ volný. In P. Karlík, M. Nekula & J. Pleskalová (2002), 104–105. Karlík, P., Nekula, M.; Pleskalová, J. (Eds.) (2002). Encyklopedický slovník češtiny. Praha: Lidové noviny. Karlík, P., Nekula, M. & Rusínová, Z. (Eds.) (1995). Příruční mluvnice češtiny. Praha: Lidové noviny. Kunzmann-Müller, B. (2002). Grammatikhandbuch des Kroatischen unter Einschluß des Serbischen. 3., durchges. und erg. Aufl. Frankfurt a. M.: Lang. 120 Lamprecht, A., Šlosar, D. & Bauer, J. (1977). Historický vývoj češtiny. Praha: SPN. Lamprecht, A., Šlosar, D. & Bauer, J. (1986). Historická mluvnice češtiny. Praha: SPN. Mašovec, E. N. (2000). Konstrukcii s datel’nym etičeskim v sovremennom russkom jazyke. Dissertacija na soiskanie učenoj stepeni kandidata filologičeskich nauk. Moskva: MGU. Miko, F. (1966). Datív. In J. Ružička (Ed.), Morfológia slovenského jazyka. Bratislava: Vydavateľstvo SAV, 177–185. Nádeníček, P. (2011). Der Dativ im Tschechischen: Syntax, Semantik und Pragmatik. Anzeiger für slavische Philologie 39, 147–168. Rytel-Kuc, D. (1999). In U. Engel (Ed.), Deutsch-polnische kontrastive Grammatik. Bd. 1. Heidelberg: Groos. Silić, J. & Pranjković, I. (2007). Gramatika hrvatskoga jezika za gimnazije i visoka učilišta. 2. izdanje. Zagreb: Školska knjiga. Zaičkova, I. (Zajičková, J.) (1972). Datel’nyj bespredložnyj v sovremennom russkom literaturnom jazyke. Praha: Universita Karlova. Zubatý, J. (1922). Musiti. Naše řeč, 6 (1), 1–9. Český národní korpus – SYN2010. Ústav Českého národního korpusu FF UK, Praha 2010. Dostupný z WWW: <http://www.korpus.cz>. Osnovnoj korpus Nacionaľnogo korpusa russkogo jazyka. Dostupný z WWW: <http://www.ruscorpora.ru>. 121 Michaela Lišková Ústav pro jazyk český AV ČR [email protected] Helena Pernicová Ústav pro jazyk český AV ČR [email protected] Pojmenování barev a jejich odstínů v Akademickém slovníku současné češtiny Fenomén barev lze zkoumat z různých hledisek, fyzikálního, psychologického, antropologického, jazykovědného a dalších. V jednotlivých oborech pak existují rozličné úhly pohledu, z nichž lze problematiku barev nazírat; v jazykovědě je možné se zabývat mj. určením jazykové základovosti barev (Schmiedtová & Schmiedtová 2006), barvami v jazykovém obrazu světa (Vaňková 2005, Gieroń-Czepczor 2011), užitím barev v toponymii (Štěpán 2004) nebo definováním barev ve slovnících (Pakuła 2010). Tento příspěvek je zaměřen lexikograficky, soustřeďuje se na kritéria zařazování hesel označujících barvy a jejich odstíny do hesláře vznikajícího slovníku s pracovním názvem Akademický slovník současné češtiny (ASSČ), dále na problematiku výkladu a na exemplifikaci. Heslář ASSČ bude obsahovat 120–150 tisíc lexikálních jednotek. Je vytvářen na základě vyvážených korpusů Českého národního korpusu (SYN 2000, SYN 2005, SYN 2010) s celkovým objemem 300 milionů slov. Při vlastním zpracovávání hesel pak jako výchozí materiálovou základnu využíváme korpus SYN, jako doplňkové zdroje elektronický mediální archiv Newton Media, oborovou databázi ODE, neologickou databázi Neomat, internet ad. Na základě frekvence v korpusu se do hesláře ASSČ dostávají výrazy, které v dosavadních slovnících nenajdeme. Mezi nová pojmenování označující barevné odstíny patří např. kapučínový ,světle hnědý‘ nebo limetkový ,světle žlutozelený‘. Setkáváme se s nimi především v textech týkajících se módy, kosmetiky a interiérového designu. Naopak jiné výrazy v hesláři ASSČ nebudou, přestože je dřívější slovníky uvádějí; v korpusu je ve významu označujícím barvu nenacházíme vůbec nebo jen s minimální frekvencí, např. čekankový ,modrý‘, koukolový ,červenofialový‘. Důvodem těchto změn je jiná životní realita, menší sepětí s přírodou a zároveň větší propojenost 122 s širším, globálním prostředím. Nová pojmenování však vyhodnocujeme, je třeba rozlišit lexikalizované spojení a příležitostné volné spojení, které může mít v určitém časovém období vyšší frekvenci výskytu. Všímáme si rovněž typu zdrojů, ve kterých se daný výraz vyskytuje (není výjimečné, že adjektivum vyjadřující barevný odstín se vyskytuje pouze v překladové beletrii nebo v díle jednoho autora). Hnízdování se v ASSČ užívá méně než v předchozích slovnících. To znamená, že některé tradičně hnízdované deriváty (vztahová adjektiva, adverbia, substantiva označující názvy vlastností) budou zpracovány jako samostatná hesla s plným výkladem. Zatímco přídavná jména v analyzované oblasti někdy výklad měla již v předchozích slovnících (srov. Slovník spisovného jazyka českého: olivový ,mající barvu olivy‘, oříškový ,mající barvu (lískových) oříšků‘, pivoňkový ,mající barvu červených pivoněk‘), pro adverbia je model výkladu třeba vytvořit zcela nově. Nabízející se jednoduché výkladové definice typu avokádově ,jako avokádo´ (s doklady avokádově zelené tričko; avokádově zbarvené dlaždice) nejsou dostačující. Potřeba hledat širší, přesnější formu výkladu je ještě výraznější v případech, kdy doklady ukazují na souvislost s jinou než vizuální charakteristikou základového substantiva (ananasově vonět; alabastrově hebká pokožka). Základní barvy v jejich primárním významu vykládáme v souladu s lexikografickou tradicí přirovnáním k jejich typickým nositelům (bílý ,mající barvu mléka, sněhu ap.‘). Samostatně registrujeme a vykládáme i substantivizované podoby pojmenování základních barev (bílá ,bílá barva‘). Nelze opomíjet to, že barvy nesou množství jazykových a kulturních konotací. Ale jak uvádí R. Blatná (1995: 85), hlavním problémem při lexikografickém zpracování konotační složky je míra její lexikalizace. Je nezbytné vždy pečlivě zvážit začleněnost konotační významové složky do lexikálního systému. Odstíny někdy přináležejí více barvám, barevné spektrum je škálovité. Přestože je vnímání odstínů velmi individuální, nelze při tvorbě slovníkové definice rezignovat na odpovídající slovní vyjádření. Jako příklad uveďme označení barevných odstínů šeříkový a lila. Ve Slovníku spisovné češtiny nalezneme u exemplifikačního spojení šeříková modř dovýklad ,bledě fialová´. Nesklonné adjektivum lila je definováno jako bledě fialový, šeříkový. Analýza materiálu ukázala, že se výrazů šeříkový a lila (a odpovídajících adverbií) užívá nejen pro označení bledě fialové barvy, ale i barvy sytě fialové. Vzhledem k omezenosti adekvátních jazykových prostředků popisu by bylo 123 vhodné doplnit slovník obrázkovou přílohou s barevnými odstíny (jak je běžné u slovníků zahraničních) s event. naznačenou škálovitostí a prolínáním jednotlivých barevných odstínů. Při exemplifikování hesel usilujeme o doložení typického úzu a sémantické spojitelnosti. Uvádíme jak stručné doklady (dvojice slov), tak doklady rozšířené a větné, které mohou v odůvodněných případech ukazovat i méně obvyklé užití slova. Výjimečně exemplifikujeme pomocí nadvětných celků. Literatura Berlin, B. & Kay, P. (1969). Basic Color Terms: Their Universality and Evolution. Berkeley: University of California Press. Blatná, R. (1995). Metajazyk v lexikografii. In F. Čermák & R. Blatná (Eds.), Manuál lexikografie. Jinočany: H&H, 72–89. Gieroń-Czepczor, E. (2011). A corpus-based cognitive-semantic analysis of the primary basic colour terms in English and Polish. Racibórz: Państwowa Wysza Szkola Zawodowa. Pakuła, Ł. (2010). Seeing through dictionaries: On defining basic colour terms in English, Japanese and Polish lexicography. Cit. 2014-01-29. <https://repozytorium.amu.edu.pl/jspui/bitstream/10593/7786/1/130_ Euralex_2010_9_PAKULA_Seeing%20through%20dictionaries_On%20 defining%20basic%20colour%20terms%20in%20English,%20Japanese%20 and%20Polish%20lex.pdf> Schmiedtová, V. & Schmiedtová, B. (2006). In F. Čermák & R. Blatná (Eds.), Korpusová lingvistika: Stav a modelové přístupy. Praha: NLN, 285–313. Slovník spisovné češtiny. (2000). Praha: Academia. Slovník spisovného jazyka českého. (1960–1971). Díl I-IV. Praha: Academia. Štěpán, P. (2004). Označení barev a jejich užití v toponymii Čech. Praha: Univerzita Karlova. Vaňková, I. (2005). Kapitoly o barvách. In I. Vaňková, I. Nebeská, L. Saicová Římalová & J. Šlédrová (Eds.), Co na srdci, to na jazyku. Praha: Karolinum, 195–246. 124 David Lukeš Ústav Českého národního korpusu FF UK [email protected] Perspektivy fonetické anotace v korpusech mluveného jazyka Velké veřejně dostupné korpusy mluvené češtiny většinou obsahují pouze jednu vrstvu transkripce. Ta bývá zpravidla založena na ortografii, ale zároveň zohledňuje některé zdroje řečové variability, jež standardní pravopis nezachycuje a jež nám tak mohou mnohé napovědět o fonetické realizaci dané promluvy. V případě korpusů PMK a řady ORAL se jedná např. o protetické [v], v korpusu BMK o neortoepické asimilace znělosti, v korpusu DIALOG můžeme zmínit třeba hrubé zachycení intonace, tzv. melodémů. Deklarovaným cílem je vytvořit přepis, který bude pohodlně čitelný a zároveň bude kódovat vybraná specifika mluveného jazyka (viz např. Kaderka & Svobodová 2006). Jak správně poznamenává Pořízka (2009: 23–24), volba takovýchto hybridních přepisů je problematická v tom, že některé jevy přeceňuje a přisuzuje jejich reprezentaci přílišnou granularitu, naopak jiné úplně pomíjí. Zároveň může ona polovičatost způsobit, že i vybrané jevy jsou zaznamenávány nesystematicky, neboť přepisovatele svádí zažitá a zautomatizovaná pravidla ortografie. Část fonetické variability tedy zůstává nezachycena, zejména jevy, které nebyly dosud systematicky popsány a tudíž nemohly být explicitně zařazeny do pravidel přepisu. Přitom mají výzkumný potenciál a popis by si zasloužily. S vědomím těchto problémů volí korpus KOMČ víceúrovňovou anotaci, která obsahuje jak ortografickou, tak plně fonetickou vrstvu (Pořízka 2008). Tímto přístupem se ve svých pravidlech pro přepis volně inspiruje i korpus ORTOFON, aktuálně budovaný na ÚČNK pomocí anotačního programu ELAN (Sloetjes & Wittenburg 2008). Tyto korpusy mají ambici zprostředkovat možnost komplexního kvantitativního výzkumu fonetické stránky českého jazyka (asimilace znělosti před jedinečnými souhláskami, prestové realizace frekventovaných a výplňkových slov aj.). Při vhodné reprezentaci dat v korpusovém manažeru mohou dokonce umožnit dotazy porovnávající 125 fonetickou realizaci s ortografickou podobou slova, či ještě lépe, s „očekávanou“ ortoepickou výslovností vygenerovanou podle pravopisu. Zároveň se ovšem na základě dosavadní praxe při budování korpusu ORTOFON ukazuje, že pro foneticky neškolené spolupracovníky, kteří nahrávky přepisují, bývá problém oprostit své uši od pravopisných předsudků a zachytit reálnou výslovnost. Svou roli v tom hraje nepochybně i to, že pečlivý fonetický přepis vyžaduje opakovaný poslech záznamu po krátkých úsecích a ideálně i vizuální informaci v podobě spektrogramu nahrávky (srov. Skarnitzl & Machač 2009). Je tedy náročný jak na čas, tak na specifické technické dovednosti. V tomto světle se může ukázat, že čas investovaný do dálkového fonetického školení přepisovatelů-laiků se nevyplácí, podobně jako čas vložený do systematického fonetického přepisu celých nahrávek. Do budoucnosti je tak potřeba se zamyslet i nad jinými variantami fonetické anotace, ať už by šlo o selektivní transkripci podle frekvenčního klíče (tj. přednostně přepisovat nejčastější typy v korpusu) či o návrat k anotaci pouze vybraných jevů, jako např. ve výše zmíněných korpusech řady ORAL, ovšem se dvěma důležitými rozdíly. Zaprvé, anotace by neměla klást důraz na specifika češtiny, ale na obecně relevantní fonetické procesy (proteze, epenteze, elize, lenizace...), a měla by probíhat formou metadat, aby nedocházelo k interferencím s ortografickým přepisem (mohlo by jít o podobný systém jako u morfologických značek). Má-li totiž být fonetický přepis mluveného korpusu užitečný, musí být spolehlivý a systematický a musí usnadňovat vyhledávání. Z tohoto hlediska se detailní fonetická transkripce jeví dokonce jako nevhodná: čím více detailů obsahuje, tím je pro uživatele těžší vymyslet dotaz, který poskytne všechny pro něj relevantní výsledky (snižuje se recall). Zároveň vždy existuje možnost, že uživatelem hledaný jev v transkripci zachycen není a badatel si jej stejně bude muset doplnit sám. Teoretická výhoda výše zmíněné metadatové obecněfonetické anotace pak oproti transkripci spočívá v tom, že poskytovatel korpusu přesně definuje výčet parametrů, u nichž se zaručuje za poskytnutou informaci; u čehokoli, co leží mimo tuto oblast, uživatel rovnou ví, že si musí doplnit anotaci vlastní. Je ovšem třeba tuto koncepci a její užitečnost pilotně odzkoušet v praxi. 126 Literatura Benešová, L., Křen, M. & Waclawičová, M. (2013). ORAL2013: reprezentativní korpus neformální mluvené češtiny. Praha: Ústav Českého národního korpusu FF UK. Český národní korpus – PMK. (2001). Praha: Ústav Českého národního korpusu FF UK. Hladká, Z. (2002). BMK (Brněnský mluvený korpus): přepisy nahrávek brněnské mluvy z 90. let 20. století. Praha: Ústav Českého národního korpusu FF UK. Kaderka, P. & Svobodová, Z. (2006). Jak přepisovat audiovizuální záznam rozhovoru? Manuál pro přepisovatele televizních diskusních pořadů. Jazykovědné aktuality, 43 (3–4), 18–51. Kopřivová, M. & Waclawičová, M. (2006). ORAL2006: korpus neformální mluvené češtiny. Praha: Ústav Českého národního korpusu FF UK. Machač, P. & Skarnitzl, R. (2009). Fonetická segmentace hlásek. Praha: Nakladatelství Epocha. Pořízka, P. (2008). Anotace orálních korpusů. Olomoucký mluvený korpus jako model. In M. Kopřivová & M. Waclawičová (Eds.), Čeština v mluveném korpusu. Praha: NLN. Pořízka, P. (2009). Transkripce a sběr dat v korpusech mluvené češtiny. (Unpublished doctoral dissertation). Filozofická fakulta Univerzity Palackého, Olomouc. Sloetjes H. & Wittenburg, P. (2008). Annotation by category—ELAN and ISO DCR. In Proceedings of the 6th International Conference on Language Resources and Evaluation (LREC 2008). Waclawičová, M., Kopřivová, M., Křen, M. & Válková, L. (2008). ORAL2008: sociolingvisticky vyvážený korpus neformální mluvené češtiny. Praha: Ústav Českého národního korpusu FF UK. 127 Jiří Mácha Ústav Českého národního korpusu FF UK [email protected] Ke kategorizaci plurálií a singulárií tantum kvantitativní analýza sufixů Předmětem příspěvku je vyhodnocení morfematické analýzy přibližně 2000 singulárií tantum a přibližně 100 až 200 plurálií tantum, která byla vyextrahována z korpusu SYN2010 na základě metodologie užité pro identifikaci singulárií / plurálií tantum, kterou navrhli Mácha a Richterová v příspěvku The Quantum of Plurality. The relationship of singular and plural (and singularia and pluralia tantum) in Czech nouns (2014, v tisku), poté bude následovat stručné představení výsledků a souboru singulárií a plurálií tantum. Těžištěm příspěvku je kvantitativní analýza sufixů dotčených substantiv s důrazem na nastínění sémantických skupin, které se mezi danými skupinami substantiv objevují. Vztah plurálií a singulárií byl zkoumán na 9000 nejfrekventovanějších českých substantivních lemmatech, z nichž bylo v prvním kroku vyfiltrováno asi 2000 vlastních jmen a cizích slov. Ze zbývajících lemmat bylo vydělena velká skupina (asi 5/7) substantiv realizujících singulárové i plurálové tvary s různou mírou preference daného čísla; druhou největší skupinu tvořila singularia tantum a nejméně početnou skupinou (cca 100 výskytů) tvořila pluralia tantum. Právě obě menší skupiny substantiv budou předmětem této analýzy. Jak ukázal předchozí výzkum, v některých případech jde jen velmi těžko identifikovat hranici mezi zmíněnými skupinami. Stanovení hranice pro vymezení singulárií / plurálií musí být nutně akt arbitrární – Mácha a Richterová využili čistě kvantitativní metodu (jako hranici stanovili první a poslední vigintil souboru.) Při jinak stanovené hranici by bylo možno do obou skupin přidat či odebrat další členy. Zvlášť pro oblast plurálií, která se ukázala jako početně slabší, by bylo pro účely kvantitativní analýzy výhodnější hranice posunout a kategorii tak zvěšit. Již Kroupová (1985) uvádí v článku K pomnožným podstatným jménům v současné češtině stručnou klasifikaci plurálií, a to jednak na základě sémantiky (konkréta a abstrakta) a jednak na základě analýzy sufixů: „Z hlediska morfologického, tj. tvaroslovného a slovotvorného, jsou pro tato jména cha- 128 rakteristické zvláště tyto formanty:[7] nejčastější -y, -ky, -čky, -iny; četné -a, -e, -ie; řídké -i, -í, -é, -ě, -á, -ice. Pomnožná jména patří po stránce jmenného rodu ke všem třem rodům (značnou převahu má u nich ženský rod, četně je zastoupen rod mužský, méně střední), rozlišují se však pouze formálně, neboť se tak pojmenovávají jen věci a jevy neživé (proto zcela chybějí příznakové tvary životné).“ Ze starších prací se věnuje ananalýze dané problematiky také Mluvnice češtiny 2 (Petr 1986), kde je nastíněna řada sémantických kategorií. Pro účely bližší klasifikace vytěžených dat byla provedena „manuální“ morfematická analýza singulárií a plurálií tantum, jejímž cílem bylo získání solidních empirických dat, která by posloužila nejen bližšímu prozkoumání sémantické stránky vytěžených substantiv, ale i dalšímu explorativnímu statistickému výzkumu. Analyzovaný data-set měl přibližně tuto podobu: polovina vedení prezident láska řízení pomoc půl mluvčí vývoj politika rámec podpora množství hudba vzduch 98,4 98,7 97 96,4 95,3 99,6 100 95,4 99,5 95,5 99,3 96,6 98 99,2 100 1,6 1,3 3 3,6 4,7 0,4 0 4,6 0,5 4,5 0,7 3,4 2 0,8 0 23085 22950 22827 22591 22158 21759 20805 19878 19259 18866 18688 18196 17710 17562 17464 ina í 0 a í 0 0 čí 0 a ec a ství a 0 První sloupec reprezentuje lemma, druhý procentuální podíl singulárových tvarů, třetí relativní zastoupení plurálových tvarů, čtvrtý absolutní fre kvenci a pátý sloupec zastupuje sufix. Analýza sufixů by měla přispět ke zpřesnění sémantické kategorizace obou skupin substantiv. Vnést světlo by měla také do smíšených „fuzzy“ oblastí, tj. tam, kde data naznačují nejednotnost, přechod mezi kategoriemi. 129 Literatura Bartoň, T., Cvrček, V., Čermák, F., Jelínek, T. & Petkevič, V. (2009). Statistiky češtiny. Praha: NLN. Cvrček, V., Kodýtek, V., Kopřivová, M., Kovaříková, D., Sgall, P., Šulc, M. Táborský, J.,Volín, J. & Waclawičová, M. (2010). Mluvnice současné češtiny. Praha: NLN. Jirsová, A. (1981). Dynamika vztahu singuláru a plurálu u substantiv v češtině. Slovo a slovesnost, 42 (3). 193–199. Kroupová, L. (1985). K pomnožným podstatným jménům v současné češtině. Naše řeč, 68 (2). 57–63. Markéta Malá Ústav anglického jazyka a didaktiky FF UK [email protected] Překladové protějšky jako ukazatele významu: čeština a angličtina v paralelním korpusu InterCorp Na česko-anglickém materiálu příspěvek ukáže, jak je díky paralelnímu korpusu InterCorp (Čermák & Rosen 2012) možné využít českých překladových protějšků jako ukazatelů významu odpovídajících anglických konstrukcí. Na rozdíl od tradičního pojetí kontrastivní lingvistiky jako porovnávání jazykových systémů přinášejí s sebou paralelní korpusy možnost zaměřit se spíše na korespondence mezi jazyky na úrovni významových jednotek (Johansson 2007). Teubert (2001: 151) ukazuje, že právě díky překladovým protějškům je možné přesněji identifikovat v textu hranice a význam takových jednotek. Za předpokladu, že význam nějaké textové jednotky lze odhalit na základě její (opět textové) parafráze, můžeme paralelní korpus pokládat za „depozitář takových parafrází“. Jako příklad tohoto uplatnění překladových protějšků může sloužit anglické sloveso come. Jeho překladové korespondence ukazují, že význam 130 slovesa je vázán na typ komplementace a sémantiku komplementu, které tvoří spolu se slovesem významovou jednotku: srov. lexikální sloveso come (+Adv) typicky překládané slovesy pohybu se směrovými prefixy přijet, přijít, konstrukci „come + přítomné participium sloves pohybu“, v níž je význam slovesa come redukován na indikátor směru odpovídající předponě českého slovesného protějšku (come running – přiběhnout, come galloping/ trotting – přiklusat), nebo come vyjadřující změnu stavu v konstrukci s infinitivním komplementem (come to love – zamilovat se) nebo ve sponové predikaci (come alive – ožít). Právě na sponových slovesech můžeme ukázat další kroky metody využití překladových protějšků jako ukazatelů významu. Stejně jako u sponového come nacházíme slovesné protějšky s předponami označujícími změnu stavu i u dalších anglických inchoativních sponových predikací, např. become cold – ochladit se, go red – zrudnout, turn grey – zešedivět, fall silent – ztichnout, grow old – zestárnout. Tyto předpony můžeme tedy pokládat za indikátory inchoativního významu a lze očekávat, že se objeví jako překladové protějšky také u dalších anglických konstrukcí vyjadřujících změnu stavu. Anglické korespondence českých sloves s těmito prefixy skutečně zahrnují celou škálu takových konstrukcí: různé typy verbonominálních vazeb (rozplakat se – burst into tears, osmělit se – take courage, rozlétnout se – burst open), slovesa s adverbiálními částicemi (zklidnit se – calm down), slovesa s rezultativním komplementem reflexivního předmětu (opít se – drink oneself silly), fázová slovesa (rozkvést – begin to bloom), nebo slovesa, u nichž je změna stavu indikována afixy (zmizet – disappear, zvláčnět – soften). Podobně je například možné s pomocí překladových protějšků epistemických sponových sloves ukázat, jaké prostředky využívá angličtina k vyjadřování jistotní modality (Malá 2013). Na rovině větné lze pak překladových protějšků využít jako indikátorů diskurzní funkce (Malá 2010; Šaldová 2009). Využití této metody je ovšem vždy podmíněno tím, že existují překladové protějšky, které jsou dostatečně široce zastoupené a významově jednoznačné. Tam, kde lze takové korespondence identifikovat, představuje použití překladových protějšků jako ukazatelů významu způsob, jak je možné s využitím paralelního korpusu postupovat od určité funkce (významu) k různým formálním prostředkům jejího vyjádření v daném jazyce. Funkční, nikoli formální, korespondence mezi zkoumanými jazyky je pak, jak ukazuje už Mathesius (1936: 95), základem jejich synchronního kontrastivního popisu. 131 Literatura Čermák, F. & Rosen, A. (2012). The case of InterCorp, a multilingual parallel corpus. International Journal of Corpus Linguistics, 17 (3), 411–427. Johansson, S. (2007). Seeing through Multilingual Corpora: On the Use of Corpora in Contrastive Studies. Amsterdam / Philadelphia: John Benjamins. Malá, M. (2010). English declarative yes/no questions as seen through their Czech counterparts. Acta Universitatis Carolinae, Philologica, 2008 (1), Prague Studies in English, 25, 141–151. Malá, M. (2013). Translation counterparts as markers of meaning. The case of copular verbs in a parallel English-Czech corpus. Languages in Contrast, 13 (2), 170–192. Mathesius, V. (1936). On some problems of the systematic analysis of grammar. Travaux du Cercle Linguistique de Prague, VI, 95–107. Šaldová, P. (2009). Identifying discourse functions through parallel text corpora. In M. Mahlberg et al. (Eds), Proceedings of the Corpus Linguistics Conference CL2009. University of Liverpool, dostupné z WWW: <http:// ucrel.lancs.ac.uk/publications/cl2009>. Teubert, W. (2001). Corpus Linguistics and Lexicography. International Journal of Corpus Linguistics, 6 (Special Issue), 125–153. InterCorp: Český národní korpus - InterCorp. Ústav Českého národního korpusu FF UK, Praha. Cit.20.01.2014 , dostupný z WWW: <http://www. korpus.cz>. 132 Michaela Martinková Univerzita Palackého v Olomouci [email protected] Martin Šimon Univerzita Palackého v Olomouci [email protected] Enklitická partikule pak: korpusová studie Předmětem našeho výzkumu jsou výrazy figurující v té jazykové rovině, kterou Poldauf označuje jako třetí syntaktická rovina (Poldauf 1963) a kterou svým způsobem předpověděl zrod nové lingvistické disciplíny, tedy pragmatiky. V tomto příspěvku se zaměříme na synchronní analýzu distribuce a funkce morfému pak v jeho enklitické pozici, někdy označovaného jako enklitická partikule (Karlík et al. 1995: 679) či postfix (Karlík et al. 1995: 296), tedy v těch příkladech, kdy funguje jako „druhá část zájm., zájm. přísl., částic a citosl. stupňující a citově zabarvující jejich význam“ (SSJČ). Poldauf (1963: 143), který ve svých příkladech zmiňuje pouze tázací výrazy s tímto morfémem, tu viděl jeho funkci jako „kontaktovou“ a funkční paralely nacházel v anglické konstrukci I wonder (jím samotným označované jako „předrážka“). Jelikož akademická Mluvnice češtiny tázací výrazy obsahující „komponent“ pak označuje jako „expresívní“ a uvádí, že tato „expresívní interogativa se využívají zejména v mluvených projevech“ (Komárek et al. 1986: 95), výzkum jsme zahájili v korpusu mluvené češtiny ORAL 2013 jako „corpus driven“ (pomocí Word Form jsme hledali výskyty sekvence [a-ž]+pak). Potvrzuje se tu, že morfém pak je stále živý; kromě výrazů, které již mohou stát mimo syntaktickou strukturu věty (částice copak, kdepak), najdeme i tázací výrazy, v nichž je pak připojeno k adverbiu (ja(k) pak, (k)dypak, kudypak), spojce (jes(tl)ipak), i číselnému zájmenu (SSJČ) koli(k)pak nebo jiným typům zájmen (kdopak, jakejpak), přičemž je zřejmé, že řada z nich uvádí řečnické otázky. Na subkorpusech vytvořených v rámci paralelního korpusu Intercorp jsme poté zkoumali, jak přítomnost komponentu pak v českých tázacích výrazech opodstatňují anglické zdrojové texty. Korespondence tázacích výrazů s pak a anglického wonder (tzv. mutual correspondence, srov. Altenberg (1999: 254)) měřené na malém paralelním obousměrném korpusu (cca půl milionu slov každým směrem) se ukazují 133 být velmi nízké. Ve větším subkorpusu překladů anglických zdrojových textů o 3,893,010 slovech jsme po ručním odfiltrování copak a kdepak jako částice identifikovali 379 výskytů tázacích výrazů s pak: nejčastější bylo copak (121), jestlipak (57), kdepak (46), jakpak (44), kdopak (35) a pročpak (25). Protějškem anglického wonder však byly pouze 18krát (z toho čtyřikrát se toto sloveso objevilo ve třetí osobě a v minulém čase). Nejčastěji šlo o jestlipak (11krát), například ve větě Wonder if he was flying first class? he asked himself. Jestlipak lítá první třídou? zamyslel se (Grisham), dále pak o copak (třikrát), kdepak (dvakrát) a kdopak a japak [sic], každé po jednom výskytu. Spíše než o čistě kontaktní funkci (v uvozujících větách se kromě slovesa say vyskytovalo i sloveso think) však šlo o vyjádření tentativnosti. Kontaktní funkci pak v tázacích výrazech potvrzuje v anglických originálech častý souvýskyt s oslovením. Někdy se vyskytuje pouze pozdrav, např. Hello there! A hele, kdopak to tam je (Brown), případně je užito zájmeno we k označení osoby druhé (Jakpak se dnes cítíme? how are we feeling today? Adams). Výraz jestlipak je často ve spojení se slovesem vědět ekvivalentní kontaktnímu (do/ did you) know (Jestlipak víš, kdo to je? Know who he is? Rowling), kterým upozorňuje mluvčí posluchače na uvedení nové informace. Anglické ekvivalenty bývají expresívně zabarvené, jak dokládají příklady ekvivalence s then (“What’s this then?” asked Sparks, pointing to the floor. „Copak je tohle?“ ukázal Sparks na zem. Frost) i jiné: Where you think you’re going? Kampak jdete? (Steinbeck). Anglická zdrojová věta bývá často výrazně expresívní, zvláště pokud již neplní funkci otázky (Oh yes I bloody well can; of course I can mean. Jakpak by ne. Amis). V těchto případech mají věty odlišnou polaritu. Literatura Altenberg, B. (1999) Adverbial connectors in English and Swedish: Semantic and lexical correspondences. In H. Hasselgård & S. Oksefjell (Eds.), Out of Corpora. Amsterdam: Rodopi, 249–268. Havránek, B. a kol. (2011). Slovník spisovného jazyka českého. Dostupný z: <http://ssjc.ujc.cas.cz/> Karlík, P., Nekula, M. & Rusínová Z. (1995). Příruční mluvnice češtiny. Praha: Nakladatelství Lidové noviny. Komárek, M. a kol. (1986). Mluvnice češtiny 2. Praha: Academia. Poldauf, I. (1963). Třetí syntaktická rovina. Philologica Pragensia, 6 (45),134–146 134 Český národní korpus – ORAL2013. Ústav Českého národního korpusu FF UK, Praha 2013. Dostupný z WWW: <http://www.korpus.cz>. Český národní korpus – InterCorp. Ústav Českého národního korpusu FF UK, Praha. Dostupný z WWW: <http://www.korpus.cz>. Tereza Mašková Ústav pro studium totalitních režimů [email protected] Vojtěch Ripka Ústav pro studium totalitních režimů [email protected] Korpus jazyka StB Ústav pro studium totalitních režimů zahajuje v roce 2014 projekt Korpus jazyka Státní bezpečnosti (StB). Předpokládaná velikost korpusu se pohybuje mezi 15 až 50 mil. slov. Cílem je vytvořit bázi pro systematický výzkum jak ze strany jazykovědců, tak historiků, sociálních vědců a podobně. Dosavadní historiografické práce považují StB za zásadní oporu komunistického režimu v Československu. Výzkum týkající se této organizace se však dominantně zaměřuje na dílčí či nominální prvky: na jednotlivé postavy StB, studium organizační struktury či činnosti StB vůči objektům jejího zájmu. Staví na zkušenosti badatele, přirovnatelné k výsledku dlouhodobého ponoření se do příslušných textů, jak ho známe z kvalitativní metodologie sociálních věd. Tato zkušenost vychází ze znalosti řady dílčích materiálů, na kterých dosavadní texty zabývající se StB stojí, a často podléhá obecným neduhům archivního výzkumu (například systematickému upřednostňování jmenného principu). Je exkluzivní, staví na osobní autoritě (a poctivosti) badatele, a znemožňuje proto do značné míry replikaci. Projekt Korpus jazyka StB je zaměřen na vytvoření pomůcky vhodné pro odbornou i laickou veřejnost. Účelem pomůcky je poskytnout sadu dat umožňující zkoumat některá klíčová témata spojená s fungováním tajné policie v komunistickém Československu. Korpus může mj. posloužit jako 135 podklad pro tvorbu slovníků či encyklopedie o StB. Má narušit zmíněnou exkluzivitu a poskytnout nástroj k alespoň dílčím odpovědím na obecnější výzkumné otázky cílící na vnitřní fungování StB (např. organizační principy, rozdíl mezi tajným a veřejným modem činnosti organizace), na jazyk či komunikaci StB (ideologizace, míra a dynamika cizího vlivu, vzdálenost jazyka terénu od jazyka programových dokumentů), případně místo organizace v systému (vůči KSČ či právnímu řádu). Na designování korpusu participují i samotní historici. Dostávají hlas skrze strukturované dotazníky zabývající se nejen kategorizací dokumentů, tj. výběrem typů textů a časových období, ale také výzkumnými tématy a otázkami. Z našich prvních explorativních rozhovorů uvádíme příklady klíčových otázek, kterými by se oslovení historici zabývali v případě neomezených kapacitních možností, tj. k jejichž zodpovídání by Korpus StB mohl přispět: Vnitřní dynamika StB – jak docházelo k revizi vnitřních dokumentů (např. rozdíl mezi vlastnoruční zprávou agenta a agenturní zprávou důstojníka). Jak ovlivňovaly proměny společenského a politického kontextu vyjadřování StB a jaký vliv na společnost měly naopak změny myšlení a formálního vyjadřování uvnitř StB? (Při reorganizacích StB docházelo ke změně terminologie, např. označení nepřátel režimu se vyvíjelo: reakce, diverse, ideodiverse, bývalí lidé, nepřítel, disent, opozice). V neposlední řadě je cílem této participativní části projektu představení možností budoucího korpusu historiografické komunitě. Dosavadní porozumění světu StB se soustřeďuje především na jednotlivé kauzy a chybí celostní perspektiva, která by je zasadila do širšího rámce. Analýza korpusu může tyto nedostatky překročit, naráží však doposavad na množství překážek: historiografie a korpusová lingvistika tvoří oddělené světy. Příspěvek se zaměří na dosavadní zkušenosti se způsoby, jakými je možné tyto světy přiblížit. Literatura Čermák, F. (2011). Jazyk a jazykověda: přehled a slovníky. Praha: Karolinum. Čermák, F., Cvrček, V. & Schmiedtová, V. (2010). Slovník komunistické totality. Praha: Nakladatelství Lidové noviny. Becker, P. & Lüdtke, A. (1997). Akten, Eingaben, Schaufenster: Die DDR Und Ihre Texte. Berlin: Akademie Verlag. Biber, D. (2007). Discourse on the Move: Using corpus analysis to describe discourse structure [online]. Amsterdam: John Benjamins. 136 Cvrček, V. (2013). Kvantitativní analýza kontextu. Praha: Nakladatelství Lidové noviny. David, J. et al. (2013). Slovo a text v historickém kontextu: perspektivy historickosémantické analýzy jazyka. Brno: Host. Fidelius, P. (1983). Jazyk a moc. München: K. Jadrný. Fidelius, P. (1998). Řeč komunistické moci. Praha: Triáda. Générux, M., Mendes, A., Santos Pereira, L. A. & Bacelar do Nascimento, M. F. (2010). Lexical analysis of pre and post revolution discourse in Portugal. Lisboa. Dostupné z http://www.clul.ul.pt/files/anagrama/lrec2010.pdf. Hájek, M., Havlík, M. & Nekvapil, J. (2014). Problém relevance v tematicky orientovaném biografickém interview: případ orálněhistorických životopisných rozhovorů. Sociologický časopis / Czech Sociological Review, 50 (1), 29–56. Hájek, M. (2010). Počítačová textová analýza metodou sledování spoluvýskytů slov. Data a výzkum - SDA Info, 4 (1), 19–37. Hill, M. R. (1993). Archival Strategies and Techniques. Thousand Oaks: Sage. Hitzing, D. (2010). Politische Sprache als Fachsprache: Öffentlicher Sprachgebrauch in der DDR am Beispiel Erich Honecker und Walter Ulbricht. Nordstedt: GRIN Verlag. Kaplan, R. D. (Ed.) (2002). The Oxford Handbook of Applied Linguistics. Oxford: Oxford University Press. Klemperer, V. (2003). Jazyk Třetí říše – LTI: poznámky filologovy. Jinočany: H & H. Mácha, J., Čermák, F., Chlumská, L. & Cvrček, V. (2011). Lexikon korpusu Orální historie (Příběhy). Korpus – gramatika – axiologie, 2 (4), 3–26. Macura, V. et al. (2008). Šťastný věk (a jiné studie o socialistické kultuře). Praha: Academia. Mühlberg, F. (1999). Informelle Konfliktbewältigung: Geschichte der Eingabe in der DDR. Chemnitz: Philosophische Fakultät TU Chemnitz. Scott, J. (1990). A Matter of Record: Documentary Sources in Social Research. Cambridge: Polity. Schmiedtová, V. (2012). Malý slovník reálií komunistické totality. Praha: Nakladatelství Lidové noviny. Šebesta, K. (2001). Studovat jazyk totality. In Institucionalizace (ne)odpovědnosti: globální svět, evropská integrace a české zájmy. 1, Přelom druhého a třetího tisíciletí z pohledu společenských věd. Praha: Karolinum, 268–273. 137 Šlosar, D. (1993). Jazyk totality a jazyk dneška. In Spisovná čeština a jazyková kultura. Praha: FF UK. Tomek, P. (2008). Okres na východě 1960–1989: Občané a nejnižší článek Státní bezpečnosti na příkladu okresu Havlíčkův Brod. Praha: Vyšehrad. Vít Michalec Ústav pro jazyk český AV ČR [email protected] Vojtěch Veselý Ústav pro jazyk český AV ČR [email protected] K souborovému a kolektivně-látkovému významu substantiv s převahou plurálových tvarů Souborový význam plurálových tvarů substantiv považují J. Panevová a M. Ševčíková (2011) za gramatikalizovanou kategorii. Plurálový tvar může podle nich nabývat třech hodnot: pl-single, sg-set, pl-set. Jednotlivé hodnoty jsou rozlišitelné číslovkami: dvě zápalky vs. jedny zápalky vs. dvoje zápalky. Naše stanovisko je poněkud odlišné: Schopnost označovat soubory jednotlivin mají všechna substantiva realizující protiklad singuláru a plurálu, uplatnění souborového významu je však podmíněno pojmenovací potřebou. Ačkoli nelze vyloučit „ad hoc“ vymezení souboru v komunikační situaci, denotát souborově užitého substantiva je obvykle typizovaný. Jazykovým odrazem jeho typizovanosti je lexikalizace souborového významu: lexikální jednotka zahrnuje nejen sémantické rysy, které popisují vlastnosti prvku/ prvků souboru, ale také sémantické rysy, které specifikují příslušný soubor prvků. Lexikalizována je tedy informace, a) z kolika prvků se soubor skládá (ze dvou prvků, nebo – obvykle – z více než dvou prvků, srov. dvoje boty a dvoje zápalky), b) jaké má soubor vnější znaky. Vnější znaky souboru bý- 138 vají vyjádřitelné slovně: dvoje klíče = dva svazky klíčů, troje sardinky = tři krabičky sardinek. Gramatickou povahu má obecná schopnost plurálových tvarů substantiv označovat soubory jednotlivin, jakož i kombinatorika těchto substantiv s kvantifikátory; souborové významy konkrétních substantiv jsou výsledkem procesu lexikalizace. Souborový význam mívají substantiva s převahou plurálových tvarů nad singulárovými, např. kozačky, ledviny, sirky. Podle K. Osolsobě (2002, s. 316) jde o substantiva, která stojí na přechodu mezi jmény s plně vyvinutým protikladem singuláru a plurálu a jmény pomnožnými. Domníváme se, že převaha plurálových tvarů svědčí o tom, že lexikální význam singulárových a (některých) plurálových podob není identický. Pro substantiva označující soubory je stejně jako pro pluralia tantum charakteristická neutralizace protikladu mezi singulárem a plurálem; první skupinu lze proto chápat jako podmnožinu skupiny druhé. Např. substantiva zápalka (v singuláru i „prostém“ plurálu) a zápalky (jako označení souboru zápalek) tvoří samostatné lexikální jednotky. V připravovaném všeobecném výkladovém slovníku s pracovním názvem Akademický slovník současné češtiny (dále jen ASSČ) však z praktických důvodů jako pluralia tantum zpracováváme jen ta jména, která singulárový protějšek buď nemají, nebo jsou od něj významově značně vzdálená. Některá substantiva s převahou plurálových tvarů nemají primárně význam souborový, ale inklinují k významu kolektivně-látkovému. Typické je to pro jména poživatin, např. těstoviny, halušky, borůvky, ale i pro některá jména další, např. piliny. Souborové významy těchto substantiv jsou sekundární, srov. např. dvoje těstoviny = dvě balení těstovin. Obecně platí, že substantivum lze ve smyslu kolektivně-látkovém interpretovat tím spíše, čím obtížněji jsou jednotky (kusy) označené poživatiny počitatelné. Počitatelnost kusů souvisí s jejich rozměrem i s kompaktností hmoty, kterou vytvářejí. Substantivům neomezeně počitatelným přisuzuje Z. Hlavsa (1975: 75 a 81) denotační rys opakovanosti, substantivům kolektivním a látkovým denotační rys spojitosti. Názvy poživatin s převahou plurálových tvarů jsou na přechodu od názvů počitatelných (meloun, pomeranč) k názvům nepočitatelným, tj. singulariím tantum (rýže, cizrna, rybíz) a pluraliím tantum (šunkofleky); jednoznačně proto nevyjadřují ani rys opakovanosti, ani rys spojitosti. U některých jmen svědčí o lexikalizaci kolektivně-látkového významu zaměnitelnost jejich singulárových a plurálových forem (jména kolektivní a látková jsou prototypicky singularia tantum): kuře s brambory/bramborem. 139 Míru lexikalizace kolektivně-látkového významu lze ověřit statistickou analýzou dokladů z korpusu SYN. Relevantní jsou zejm. tyto ukazatele: 1. Celkový poměr singulárových a plurálových tvarů. Pokud plurálové formy výrazně převažují, svědčí to o značné míře lexikalizace kolektivně-látkového významu. V ASSČ specifikuje zastoupení singulárových a plurálových forem charakteristika „často mn.“ (singulárové tvary jsou doloženy řídce) a „zprav. mn.“ (singulárové tvary nejsou doloženy téměř vůbec). 2. Typ kvantifikace substantiva. Zatímco některé kvantifikátory (šest, několik, pár) jsou kompatibilní jen s denotačním rysem opakovanosti, jiné mohou determinovat substantiva vyjadřující opakovanost i substantiva vyjadřující spojitost. Polyfunkční je např. kvantifikátor hodně, srov. spojení hodně lidí a hodně vody. Proti sobě lze tedy postavit kontexty, v nichž je denotát substantiva kvantifikován počtem (několik borůvek), a kontexty, v nichž je určena jeho míra, objem, hmotnost apod. (trochu borůvek, sklenice borůvek, litr borůvek, kilo borůvek), příp. oba typy kvantifikace nelze rozlišit (hodně borůvek). Pokud kontexty druhého typu výrazně převažují, svědčí to o značné míře lexikalizace kolektivně-látkového významu. Předpoklad, že kolektivně-látkové vnímání denotátu souvisí s velikostí prvků, které denotát konstituují, se potvrdil např. u názvů plodů jablko, jahoda, borůvka. Celkový výskyt plurálových tvarů těchto substantiv je srovnatelný (60 až 65 %), liší se však typ jejich kvantifikace. Zatímco substantivum jablko se s kvantifikátory počtu spojuje běžně (ve 47 % všech případů kvantifikace), denotát substantiva borůvka se počítá zřídkakdy (v 5 % případů). Substantivum jahoda se s kvantifikátory počtu kombinuje častěji než borůvka, ale méně často než jablko (ve 14 % případů). Podobně jako borůvka se chovají i další jména poživatin, např. arašíd, těstovina, haluška. Celkový výskyt singulárových tvarů je však u těchto substantiv nízký. Na distribuci denotačních rysů opakovanosti a spojitosti má nepochybně vliv lexikální sémantika a vid slovesa, na němž substantivum s převahou plurálových tvarů závisí. Ve spojení trhat borůvky je denotát substantiva nespojitý, ve spojení natrhat borůvky jej lze chápat spojitě (srov. ? trhat trochu borůvek vs. natrhat trochu borůvek). Literatura Hlavsa, Z. (1975). Denotace objektu a její prostředky v současné češtině. Praha: Academia. Jirsová, A. (1981). Dynamika vztahů singuláru a plurálu u substantiv v češtině. Slovo a slovesnost, 42 (3), 193–199. 140 Kroupová, L. (1985). K pomnožným podstatným jménům v současné češtině. Naše řeč, 68 (2), 57–63. Osolsobě, K. (2002). Plurale tantum. In P. Karlík, M. Nekula & J. Pleskalová (Eds.), Encyklopedický slovník češtiny. Praha: Nakladatelství Lidové noviny, 315–316. Panevová, J. & Ševčíková, M. (2011). Jak se počítají substantiva v češtině: poznámky ke kategorii čísla. Slovo a slovesnost, 72 (3), 163–176. Veselý, V. (2009). Lexikální sémantika neurčitých kvantifikátorů v současné češtině. Slovo a slovesnost, 70 (3), 175–192. Český národní korpus – SYN. Ústav Českého národního korpusu FF UK, Praha. Cit.27.01.2014, dostupný z WWW: <http://www.korpus.cz>. Aksana Mikalayenka Ústav východoevropských studií FF UK [email protected] Homonymní příslovce a předložky a problematika jejich disambiguace v Českém národním korpusu Tento příspěvek vznikl v rámci projektu „Rozpracování lingvistických kritérií pro disambiguaci homonymních příslovcí a předložek v Českém národním korpusu“ řešeného na Filozofické fakultě Univerzity Karlovy v Praze z prostředků specifického vysokoškolského výzkumu na rok 2014. Jedná se o homonymní jednotky s místním významem jako například blízko, dovnitř, vstříc, uprostřed, naproti aj., které se v řeči vyskytují buď jako příslovce anebo jako předložky. Pracovní seznam hledaných homonym zpracovaný autorkou příspěvku způsobem jejich excerpce z ilustračních soupisů uvedených v odborné literatuře (viz bibliografie) v současné době čítá 46 jednotek (včetně fonetických variant). Korpusová sonda těchto jednotek, jejíž výsledky se budou probírat v daném příspěvku, ukázala, že tyto jednotky (jako jakákoliv jiná homonyma) jsou dosti komplikovaným materiálem pro morfologické značkování (dále 141 disambiguace) v korpusu. Příspěvek se tedy věnuje problematice disambiguace daných homonymních příslovcí a předložek v Českém národním korpusu a pokusu o řešení této problematiky způsobem rozpracování lingvistických pravidel, na základě kterých by bylo možné dosavadní disambiguaci daných jednotek v korpusu zlepšit. Výzkum se uskutečňuje na materiálu korpusu SYN 2010. Jak známo, korpus poskytuje možnost specifikovat vyhledávání lemmat podle jejich slovního druhu, což je při zkoumání homonym velmi účinné. Korpus dále umožňuje získávat údaje o frekvenci hledaných jednotek. Tuto možnost jsme ve výzkumu také využili. Podle údajů korpusu SYN 2010 lze zkoumané homonymní jednotky roztřídit do následujících skupin: 1. vedle, uprostřed, okolo, naproti, nedaleko, poblíž, napříč, skrz, doprostřed, vně, vprostřed, zprostřed – větší část dokladů je specifikovaná jako doklady předložky; 2. dovnitř, blíž, zevnitř, vevnitř – větší část dokladů je specifikovaná jako doklady příslovce; 3. uvnitř, blízko, vstříc, zkraje, zprostředka, doprostředka, vprostředku – počet dokladů specifikovaných jako doklady předložky a počet dokladů specifikovaných jako doklady příslovce je skoro stejný, tj. zhruba 50 / 50; 4. blíže, vpředu, navrch, opodál, nablízku, zespodu, svrchu, vespod, zevně, zespoda, odspodu, naspodu, navrchu, nablízko, zboku, dospodu, zespod, dospod, poblíže, vespodu, naspod – všechny doklady jsou specifikované jako doklady příslovce; 5. proti, skrze – všechny doklady jsou specifikované jako doklady předložky. Manuální analýza těchto dokladů specifikovaných korpusem jako příslovce resp. předložky však ukázala, že ve velkém množství případů je tato automatická specifikace omylná. Mezi výskyty jednotek označkovaných korpusem jako příslovce jsou zařazeny výskyty, ve kterých jsou tyto jednotky evidentně předložkami a naopak. Z provedené analýzy vyplývá, že podklady disambiguace daných homonymních jednotek v korpusu nelze považovat za uspokojivé a tyto podklady tudíž vyžadují svou korekci a zdokonalení. Způsob řešení této problematiky vidíme v rozpracování přesných lingvistických kritérií pro rozlišování těchto homonym, která by dále bylo možné uplatnit ke zdokonalení disambiguace daných jednotek v Českém národním korpusu. 142 Kritéria slovnědruhové identifikace daných ambivalentních jednotek nejsou řešenou otázkou ani v dosavadních mluvnicích a příručkách. Jediné kritérium, které bylo možné vyvodit z odborné literatury (viz literatura) – pokud se jednotka vyskytuje ve spojení se jménem (jméno následuje po předložce), jedná se o předložku; pokud se jednotka vyskytuje samostatně, jedná se o příslovce – vyžaduje upřesnění a doplnění (např. zde není brána v úvahu možnost postpozice předložky ke jménu nebo možnost elipsy jména aj.). Aktuální úlohou se tak stává pokus o rozpracování takovýchto kritérií. Příspěvek tedy prezentuje první výsledky této práce, která se uskutečňuje hlavně ve dvou směrech: a) ve směru analýzy sémantických, morfologických, syntaktických a valenčních vlastností každého výskytu každé konkrétní jednotky ve vybraném reprezentativním korpusu (v daném případě je to korpus SYN2010), tzn. ve směru analýzy jejich lexikálních a gramatických významů, pozicí ve větě, kolokací aj.; b) ve směru vyvození lingvistických kritérií, která dovolí co nejsprávněji anotovat výskyty daných homonym jako výskyty příslovcí nebo předložek, tzn. ve směru vyvození těchto kritérií na základě provedené analýzy. Výsledky této práce mohou být dále využity ke zdokonalení disambiguace homonymních příslovcí a předložek v Českém národním korpusu a k optimalizaci korpusového vyhledávání daných jednotek. V příspěvku je také diskutována teoretická otázka o morfologické podstatě zkoumaných ambivalentních jednotek (příslovce, nebo předložka?). Literatura Cvrček V. et al. (2010). Mluvnice současné češtiny 1. Jak se píše a jak se mluví. Praha: Nakladatelství Karolinum. Čermák, F. (2012). Morfematika a slovotvorba češtiny. Praha: Nakladatelství Lidové noviny. Čermák, F. & Blatná, R. (Eds.) (2006). Korpusová lingvistika: Stav a modelové přístupy. Praha: Nakladatelství Lidové noviny. Český národní korpus – SYN2010. Ústav Českého národního korpusu FF UK, Praha 2010. Dostupný z WWW: http://www.korpus.cz. Mluvnice češtiny II (1986). Praha: Academia. Petkevič, V. & Rosen, A. (Eds.) (2011). Korpusová lingvistika Praha 2011 – 3 Gramatika a značkování korpusů. Praha: Nakladatelství Lidové noviny. Příruční mluvnice češtiny (2003). Praha: Nakladatelství Lidové noviny. 143 Květoslava Musilová Ústav pro jazyk český AV ČR [email protected] Slovakismy v současné češtině 1. Kontaktové jazykové prostředky, slovakismy, pronikaly do češtiny již od 15. století v podobě fonologicky neadaptované a později také v podobě adaptované; intenzivnější kontakt obou jazyků ve společném státě Čechů a Slováků (1920–1992), s přerušením v letech 1939–1945) podnítil vznik dalších kontaktových jazykových jevů. 2. Náš průběžný průzkum je zaměřen na mapování výskytu slovakismů a jejich funkčnost v češtině po rozdělení ČSFR, tedy v podmínkách očekávaného divergentního vývoje obou jazyků. Z důvodu komplexnějšího pohledu na problematiku užívání slovenských přejímek v současné češtině využíváme tyto materiálové zdroje: texty mluvené a psané (v běžné soukromé, polosoukromé i oficiální komunikaci, v médiích veřejnoprávních i komerčních a na internetu), průběžný sociolingvistický průzkum zaměřený na česko-slovenské (nejen) jazykové vztahy (2002, 2004, 2007, 2008, 2010, 2013) a databáze synchronních psaných a mluvených textů Českého národního korpusu (SYN, SYN2013PUB a ORAL2013). 3. Soubor námi sledovaných kontaktových jevů tvoří především výrazy a gramatické vazby, které jsou obsaženy ve slovnících českého jazyka a dalších jazykovědných publikacích s označením jejich slovenského původu (např. palačinka, středobod, výdobytek, namyšlený, horko-těžko, hrozno, nad ránem, na čele (něčeho) aj.), a dále ty, které se v češtině šíří od 90. let minulého století, mimo jiné také v důsledku společensko-politických změn, komercionalizace některých médií a později s rozšířením užívání internetu (např. překabátit se, pikoška, rozlučka, bitkař, kukláč aj.). 3.1 Při sledování slovakismů v textech mluvených i psaných jsme u mnohých zaznamenali zvláště v posledních letech „posun“ v jejich užívání v tom smyslu, že nekodifikované výrazy se vyskytují nejen v neformální, neoficiální komunikaci, ale stále častěji pronikají do textů oficiálního charakteru ve veřejnoprávních médiích (např. lyžovačka, rozlučka, rozlučkový, dovolenkový, natěšený, bitka, bitkařský, zpravodajce, brát do úvahy aj.). Na sociálních sítích a zájmových webech se v českých (nesmíšených) textech začínají objevovat (pravděpodobně jako „módní“) výrazy hodnocené tradičně jako citátové, např. podujetí, páčit se. 144 3.2 Prostřednictvím opakovaného sociolingvistického průzkumu jsme porovnávali užívání a hodnocení slovakismů samotnými respondenty. V dotazníkových šetřeních určených široké české veřejnosti jsme pracovali s omezeným okruhem slovakismů lexikálních i gramatických, běžně užívaných i těch méně frekventovaných (podujetí, oznam, páčit se). V časovém rozmezí jedenácti let (2002–2013) jsme u většiny z nich zaznamenali zvyšující se procenta užívání (rozlučkový, dovolenka, dovolenkový, vlámat se, lyžovačka, psychiatrička, bitkař, být na vině, být na čele, horko-těžko, dosáhnout + akuzativ; nejvyšší nárůst byl o 28% – u předložkové vazby nad ránem). Se zvyšující se frekvencí užívání některých slovakismů přímo úměrně roste také procento respondentů, kteří tyto jazykové prostředky již ani jako slovakismy nepociťují. 3.3 Jazykový materiál získaný z textů (3.1) a ze sociolingvistického průzkumu (3.2) je sice svým rozsahem vcelku reprezentativní, avšak teprve kvantifikace jazykových jevů s využitím databází Českého národního korpusu umožňuje systematičtější sledování jejich výskytu. Prostřednictvím absolutní frekvence jsme zkoumali uplatnění slovakismů v jednotlivých synchronních subkorpusech ČNK na časové ose od 90. let 20. stol. po současnost (3.3.1) a také v konkurenci s jejich nekontaktovými protějšky (3.3.2). 3.3.1 Podobně jako v dotazníkových šetřeních jsme zaznamenali nárůst četností některých slovakismů také v synchronních textech ČNK, a to řádově i ve stovkách (např. lyžovačka, psychiatrička, rozlučkový, dovolenkový, dovolenkář, bitkař), nebo dokonce v tisících (např. bitka, rozlučka, nad ránem, natěšený, být na vině); zvýšená frekvence některých slovakismů souvisí s jejich rozšířením do dalších kontextů, jak ukazují kolokace těchto výrazů a zdroje výskytu. 3.3.2 Funkčnost (vybraných) slovakismů jsem hodnotili v souvislosti s tzv. mezijazykovými synonymy: na základě frekvenční distribuce těchto jazykových prostředků jsme stanovili kvantitativní poměr mezi variantou kontaktovou, tj. slovakismem (KV), a variantou nekontaktovou (NV). Podle míry konkurence KV a NV jsme vydělili 3 skupiny: skupina I: převažuje varianta nekontaktová nad slovakismem skupina II: kontaktová varianta (slovakismus) a nekontaktová varianta existují vedle sebe v celkem vyrovnaném poměru, přičemž kontaktová varianta má nižší frekvenci než nekontaktová skupina III: kontaktová varianta (slovakismus) má vyšší frekvenci než varianta nekontaktová. Většina námi sledovaných jazykových prostředků spadá do skupiny I a II. 145 4. Závěr: Na základě analyzovaného jazykového materiálu a především kvantitativního porovnání kontaktových a nekontaktových variant v ČNK můžeme sledovat pohyb těchto jazykových prostředků mezi centrem a periferií českého jazykového systému a stanovit tak určité vývojové tendence. Slovakismy zaujímají v současné češtině určitý prostor, některé dokonce vytlačují varianty původní (skupina III: psychiatrička, nad ránem). Přestože i mnohé další slovakismy zaznamenávají frekvenční nárůst, nepřevažují nad variantami nekontaktovými (skupina I a II). Do češtiny pronikají prostřednictvím sociálních sítí i slovakismy dříve málo frekventované; rozsah jejich funkčnosti bude však možné zkoumat až s rozšířením korpusových databází o texty tohoto druhu. Literatura Blanár, V. (2000). K otázke slovensko-českých jazykových a jazykovedných vzťahov v období národného brodenia. In J. Hvišč (Ed.), Slovensko-české vzťahy a súvislosti. Bratislava: T.R.I Médium, 171–178. Budovičová, V. (1984). Dvojjazyková komunikácia v slovenčine a češtine. In J. Mistrík (Ed.), Studia Academica Slovaca. 13. Prednášky XXII. letného seminára slovenského jazyka a kultúry. Bratislava: Alfa, 115–126. Kořenský, J. (1998). Čeština a slovenština. In J. Kořenský (Ed.), Český jazyk. Najnowsze dzieje języków słowiańskich. Opole: Uniwersytet Opolski Instytut Filologii Polskiej, 20–32. Měšťan, A. (1998). Jak dál ve slovakistice v České republice. In I. Pospíšil (Ed.), Brněnská slovakistika a česko-slovenské vztahy. Brno: FF MU. Musilová, K. (2011). Slovakismy v současné češtině (sociolingvistický průzkum mezi vysokoškoláky). In M. Ološtiak et al. (Eds.), Vidy jazyka a jazykovedy. Inštitút slovakistiky, všeobecnej jazykovedy a masmediálnych štúdií. 20.–21. 5. 2010. Prešov: FF PU, 389-396. Musilová, K. & Sokolová, M. (2004). Funkčnost česko-slovenských kontaktových variant v současnosti. In Sborník prací z mezinárodní vědecké konference Jazyk a literatura na Moravě. Studia Moravica 1. AUPO, Facultas Philosophica. Olomouc, 133–146. Nábělková, M. (2000). Slovakizmy v súčasnej češtine. In J. Hvišč (Ed.), Slovensko-české vzťahy a súvislosti. Bratislava: T.R.I Médium, 212–221. Nábělková, M. (2008). Slovenčina a čeština v kontakte. Pokračovanie príbehu. Bratislava: VEDA. 146 Petr Nádeníček Institut slavistiky Univerzity Christiana Albrechta v Kielu / Ústav pro jazyk český AV ČR [email protected] Různá pojetí slovotvorné konverze ve světle národních korpusů slovanských a germánských jazyků Komparativní studium slovotvorby na základě dat získaných z národních korpusů se jeví v současnosti značně problematickým především, protože se dostupné korpusy značně liší, co se informací ke slovotvorné struktuře slov týče. Ve většině národních korpusů nebyla slovotvorná struktura při značkování vůbec zohledněna, takové korpusy obsahují v aktuálních verzích pouze tvaroslovné značkování. Přesto dochází k popisu slovotvorby i na základě dat získaných z těchto korpusů (např. grant GAČR „Slovník afixů užívaných v češtině“). Při takové práci je ovšem nejen nutné vypořádat se s problémy souvisejícími s absencí informací týkajících se slovotvorných struktur slov v korpuse (např. tak není možné hledat přímo určitý afix, nýbrž můžeme najít pouze určitý řetězec a následně nález manuálně roztřídit na doklady hledaného afixu a pouhé řetězce), ale je i potřeba předem definovat některé pojmy ze slovotvorby. A i v korpusech, které už v rámci značkování obsahují i informace o slovotvorné struktuře slov (např. Ruský národní korpus), a tím z velké části předepisují i chápání většiny slovotvorných fenoménů, narážíme na problém odlišných pojetí některých z těchto fenoménů. Výborným příkladem tohoto problému je pojetí slovotvorné konverze. Rozdíly jsou patrné již v zásadním chápání konverze v různých lingvistikách. Konverze bývá na jedné straně definována jako bezafixální derivační způsob tvoření slov vyznačující se změnou paradigmatu. Při takovém pojetí se konverze nachází na stejné úrovni jako sufixace, prefixace atd. Na straně druhé bývá konverze ovšem chápána i jako onomaziologická kategorie, a sice jako přechod slovnědruhových forem od jednoho slovního druhu k jinému (v české lingvistice je tento fenomén znám spíše pod pojmem transpozice). V takovém pojetí konkuruje konverze jako proces mutaci a modifikaci. Ve většině germánských jazyků jako v jazycích s poměrně omezenou flexí převažuje logicky první pojetí konverze, jelikož změna paradigmatu v těchto 147 jazycích s sebou v zásadě přináší i změnu slovního druhu (např. angl. clean ‚čistý‘ → to clean ‚čistit‘, něm. leben ‚žít‘ → das Leben ‚život‘). Rozdíl mezi transpozicí a konverzí zde není tedy natolik transparentní. Ve slovanských jazycích, jež vykazují relativně bohatou flexi, naproti tomu dochází nezřídka ke změně paradigmatu i uvnitř jednoho slovního druhu (např. rus. супруг ‚manžel‘ → супруга ‚manželka‘, pol. logika → logik, čes. malina → maliní). Rozdíl mezi onomaziologickou kategorií (pouhá změna slovního druhu) a derivační kategorií (bezafixální odvozování) je zde tedy mnohem zřetelnějším, což vede v lingvistice mimo jiné k tomu, že je častějším (ovšem ne výhradním) pojetí druhé, tzn. omezení konverze na derivační proces a její zřetelné oddělení od pojmenovacího procesu (tedy transpozice). Ovšem i v lingvistikách, popř. teoriích a pracích, které se shodnou alespoň na tom, že konverze je derivační, ne onomaziologickou záležitostí, nalezneme dosti rozdílů. Tyto rozdíly pramení především z různého rozsahu definic pojmu „bezafixální“, jež sahají od odvození nového slova bez jakýchkoliv formálních změn (např. nemocný (jako adjektivum) → nemocný (jako substantivum)), přes odvozování pomocí změny tvaroslovné charakteristiky, a sice jak bez záměny koncovky v základním tvaru (např. průvodčí (jako substantivum mužského rodu) → průvodčí (jako substantivum ženského rodu)), tak i se záměnou koncovky v základním tvaru, tedy za použití tvaroslovných morfémů namístě derivačních morfémů (např. zlý → zlo), až k zohlednění kmenotvorné přípony a nulového sufixu (např. modrý → modrat, běhat → běh). Cílem mého příspěvku je ukázat na příkladě některých slovanských a germánských jazyků výhody a nevýhody různých pojetí slovotvorné konverze v jednotlivých jazycích a následně navrhnout pojetí nejvhodnější pro popis slovotvorby češtiny na základě dat získaných z Českého národního korpusu, konkrétně z korpusu SYN2010. Na závěr svého příspěvku bych se chtěl ovšem pokusit navrhnout i pojetí konverze vhodné pro komparativní popis zohledňující jak slovanské, tak i germánské jazyky a zakládající se na datech získaných z národních korpusů těchto jazyků. Literatura Balteiro, I. (2007). The Direkctionality of Conversion in English, a dia-synchronic study. Bern et al.: Peter Lang. Biermeier, T. (2008). Word-formation in New Englishes, a corpus based analysis. Berlin: LIT. Clark, E. & Clark, H. (1979). When nouns surface as verbs. Language, 55, 767–811. 148 Dokulil, M. (1962). Tvoření slov v češtině, 1, Teorie odvozování slov. Praha: Academia. Dokulil, M. (1968). Zur Frage der Konversion und verwandter Wortbildungsvorgänge und -beziehungen. Travaux du Cercle linguistique de Prague 3, 215–239. Dokulil, M. (1982). K otázce slovnědruhových převodů a přechodů, zvl. transpozice. Slovo a slovesnost, 43, 257–271. Filipec, J. (1972). K otázce konverze a přechodu slovních druhů v dnešní češtině. Slovo a slovesnost, 33, 122–129. Fleischer, W. (2000). Die Klassifikation von Wortbildungsprozessen. In: G. Booij et al. (Eds.), Morphologie. Ein internationales Handbuch zur Flexion und Wortbildung. Berlin: de Gruyter, 886–897. Fleischer, W. (2012). Wortbildung der deutschen Gegenwartssprache. Berlin: de Gruyter. Grzegorczykowa, R., Laskowski, R. & Wróbel, H. (Eds.) (1984). Gramatyka współczesnego języka polskiego, 2, Morfologia. Warszawa: Państwowe Wydawnictwo Naukowe. Kaliszan, J. (2005). Slovoobrazovanie i formoobrazovanie v russkom jazyke. Poznań: Wydawnictwo Naukowe Uniwersytetu im. Adama Mickiewicza. Kubrjakova, Je. S. (1974). Derivacija, transpozicija, konversija. Voprosy jazykoznanija, 5, 64–76. Kuryłowicz, J. (1974). Dérivation lexicale et dérivation syntaxique. Bulletin de la Société de linguistique de Paris, 37, 79–92. Lieber, R. (1981). Morphological conversion within a restrictive theory of the lexicon. In M. Moortgat et al. (Eds.), The scope of lexical rules, 161–200. Lopatin, V. V. & Uluchanov, I. S. (1969). K sootnošenii edinic slovoobrazovanija i morfologii. In J. N. Jarceva & N. Ju. Švedova (Eds.), Edinicy raznych urovnej grammatičeskogo stroja jazyka i ich vzaimodejstvije, 119–131. Maslov, Ju. S. (1983). Morfologičeskaja konversija v slavjanskich jazykach. In V. D. Andreev & P. A. Dmitriev (Eds.), Sravnitel’no-tipologičeskie issledovanija slavnjanskich jazykov i literatur. Leningrad: Izdatelstvo Leningradskogo universiteta. Meyer, S. (1984). Zero-derivation and inflection. MIT Working Papers in Linguistics. Cambridge, MA, 53–69. Olsen, S. (1986). Wortbildung im Deutschen. Stuttgart: Kröner. Petr, J. et al. (Eds.) (1986). Mluvnice češtiny, 1, Fonetika, Fonologie, Morfonologie a morfematika, Tvoření slov. Praha: Academia. 149 Plag, I. (2006). Word-formation in English. Cambridge: Cambridge University Press. Štěkauer, P. (1996). A Theory of Conversion in English. Frankfurt am Main: Peter Lang. Švedova, N. Ju. et al. (Eds.) (1980). Russkaja grammatika, Tom I, Fonetika, fonologija, udarenie, intonacija, slovoobrazovanie, morfologija. Moskva: Izdatelstvo Nauka. Waszakowa, K. (1993). Słowotwórstwo współczesnego języka polskiego, Rzeczowniki z formantami paradygmatycznymi. Warszawa: Wydawnictwo Uniwersytetu Warszawskiego. Olga Navrátilová Ústav českého jazyka FF MU [email protected] Slovosled nominální fráze ve staré češtině Slovosledu nominální fráze nebyla doposud v české lingvistice věnována soustavnější pozornost. V průběhu vývoje češtiny se slovosledem jmenné fráze, resp. jejích rozvíjejících členů, zabývalo jen několik prací. Jedná se zejména o stručné zmínky v kompendiích dějin češtiny J. Gebauera (1928) a F. Trávníčka (1956) a o studie V. Vondráka (1908, 1928) a A. Tomsy (1912). Jedinou ucelenější a (dle našeho soudu) metodologicky dosud nejlépe zpracovanou publikací je monografie V. Šmilauera (1930), která však detailně reflektuje slovosled pouze jedné středněčeské památky. Příspěvek si tedy klade za cíl provést první větší sondu do problematiky postavení rozvíjejících členů jmenné fráze ve staré češtině, která spočívá zejména v podání zevrubné deskripce jejich slovosledného chování a ve stanovení hlavních tendencí, které se ve slovosledu jmenné fráze ve zkoumaném období uplatňují. Stěžejní pozornost při analýze je věnována posesivním zájmenům, u nichž je možno pozorovat téměř nejvýraznější proměnu v jejich slovosledném chování. U těchto zájmen rovněž dosud nepanuje názorová 150 jednota o jejich původním postavení. Někteří z lingvistů předpokládají pro češtinu původní antepozici zájmen 1. a 2. osoby (např. Vondrák 1928), jiní se domnívají, že primárně byla umístěna za řídícím jménem fráze (např. Berneker 1900, Horálek 1962). Vzhledem k nejednoznačným a často protikladným výkladům je proto nutné vyjít ze stavu v současné češtině, postihnout základní principy slovosledu novočeských posesivních zájmen a následně ověřit, zda se tytéž principy uplatňují i v češtině 14. a 15. století. Materiálovým východiskem je korpus textů ze 14. a 15. století zahrnující vybrané biblické texty 1. a 2. staročeské redakce, prozaické texty vysokého i nízkého stylu, případně i odborná pojednání (veršované památky, jejichž slovosled podléhá rytmické, melodické a rýmové výstavbě textů, jsou vzhledem k povaze zkoumaného fenoménu vyloučeny). Analyzovány jsou tyto texty: Genesis, Skutky apoštolů, Evangelium sv. Matouše Bible olomoucké (případně Bible litoměřicko-třeboňské) a Bible mlynářčiny; Kniha rožmberská; Řád korunovánie krále českého a královny; Život Krista Pána; Tomáš Štítný: Řeči nedělní a sváteční; Spisy lékařské české a latinské; Jan Hus: Výklad Otčenáše, Dcerka nebo O poznání cesty pravé k spasení; Staré letopisy české; Kronika trojánská; Petr Chelčický: Sieť viery pravé; Tkadleček; Olomoucké povídky; Sbírka pojednání z oboru ženského a dětského lékařství. Jelikož tato materiálová základna nepostihuje všechny zkoumané jevy (či jen s nedostačující frekvencí), využíváme pro výzkum rovněž diachronní korpusy češtiny – subkorpusu Českého národního korpusu DIAKORP a korpusu Staročeská textová banka (včetně jeho interní verze), pro konfrontování zjištěných výsledků se stavem v současné češtině pak zejména korpusu SYN2010. Literatura Běličová, H. & Uhlířová, L. (1996). Slovanská věta. Praha: Euroslavica. Berneker, E. (1900). Die Wortfolge in den slavischen Sprachen. Berlin. Gebauer, J. (1929). Historická mluvnice jazyka českého. Díl IV. Skladba. Praha: nákladem České akademie věd a umění. Horálek, K. (1962). Úvod do studia slovanských jazyků. Praha: Nakladatelství Československé akademie věd. 2. dopl. vyd. Šmilauer, V. (1930). Poloha přívlastku v Kronice pražské Bartoše Písaře. Praha: nákladem Filosofické fakulty Univerzity Karlovy. Tomsa, A. (1912). O slovosledu u Dalimila. Zpráva c. k. r. gymnasia v Kolíně 1911–1912. Kolín: nákladem C. K. realného gymnasia. 151 Trávníček, F. (1956). Historická mluvnice česká III. Skladba. Praha: Státní pedagogické nakladatelství. Vondrák, V. (1908). O místě atributivního adjektiva a substantivního genitivu ve větě. Zborník u slavu Vatroslava Jagića. Berlín: Weidmannsche Buchhandlung, 151–158. Vondrák, W. (1928). Vergleichende Slavische Grammatik. Band II. Formenlehre und Syntax. Göttingen: Vandenhoeck & Ruprecht. 2. vyd. Renata Novotná Ústav Českého národního korpusu FF UK [email protected] Antropomorfický princip u konkrétních neživotných substantiv: názvy nebeských těles Cílem tohoto příspěvku je antropomorfický princip v jazyce. F. Čermák v knize „Jazyk a Jazykověda“ uvádí, že „v řadě jazyků je rozšířená především charakteristická antropomorfická metafora, spočívající v přenášení forem původních pro lidské tělo a člověka vůbec na věci, přírodu apod.“ (2011: 226). Může se týkat jak substantiv, např. ucho jehly, úpatí hory apod., tak verb, např. nebe pláče (Čermák 2001: 195). F. Čermák se dále tomuto problému věnuje v rámci frazeologie, a to v článku „Somatic Idioms Revisited“ (1995), kde uvádí, že jde o jazykovou univerzálii, při níž se v řadě jazyků užívá ve frazeologii názvů částí lidského těla (srov. příklady ze Slovníku české frazeologie a idiomatiky, být z ruky, nemít ani hlavu ani patu, jít za nosem, mít něco v oku, tahat za uši apod.), a vztahuje ji právě k antropomorfickému principu v jazyce: „somatic idioms may not be such a surprising and unique phenomenon if they are viewed on a par with and within the framework of all other and well pronounced anthropomorphic features one finds in language in general, such as major and general tendencies of polysemy growth of human vocabulary, which is based on metaphor and metonymy, cf. time goes, 152 the door leads somewhere, the foot of a hill, or the shoulder of a river“. V článku „Povaha a souvislosti některých univerzálií v sémantice a morfologii“ (1999) F. Čermák porovnává antropomorfický princip u tří typologicky odlišných jazyků: „Ve všech třech jazycích (angličtině, finštině a češtině) funguje v oblasti nominace antropomorfický princip, projevující se zřetelně i v polysémii (a symboličnosti v ní), velmi podobně.“ V tomto příspěvku se zaměříme na skupinu konkrétních neživotných substantiv a okruh sloves, která se s nimi typicky pojí. V rámci této skupiny lze vydělit několik dílčích typů: a) názvy budov, např. dům, škola, banka, divadlo apod. b)názvy osídlení, např. země, město, obec apod. c) názvy částí budov, např. pokoj, chodba, okno apod. d)názvy přírodních objektů, např. řeka, hora, les, pole apod. e) názvy nebeských těles, např. slunce, hvězda, měsíc apod. f) názvy dopravních prostředků, např. auto, vůz, kolo, loď apod. g)názvy strojů a přístrojů, např. hodiny, televize, stroj, telefon, počítač apod. Vzhledem k tomu, že v rámci tohoto krátkého příspěvku není možné věnovat pozornost všem výše uvedeným dílčím skupinám, zaměříme se pouze na jednu z těchto skupin, tedy na názvy nebeských těles. Při zpracování materiálu jsme vycházeli z frekvenčního seznamu substantiv z korpusu SYN2005. V rámci tohoto seznamu jsme se soustředili na substantiva s nejvyšší frekvencí, tj. od substantiva země s frekvencí 92260 do frekvence 2000, konkrétně po substantivum můstek s frekvencí 2013. Vyhledávali jsme slovesa na pozicích od –2 do +2 od KWIC. Jak už bylo uvedeno, příspěvek se zaměří na antropomorfický princip u názvů nebeských těles. Týká se to substantiv slunce, hvězda, měsíc a planeta. Jako příklad uvedeme slovesné kolokáty substantiva slunce: vyšlo (131), vychází (71), vyjde (68), vycházelo (44), sklánělo se (24), zašlo (14), sklání se (12), nevyjde (12), nevyšlo (11), vstává (11). Frekvence lemmatu slunce v korpusu SYN2005 je 17 477. Celkový počet výskytů sloves s antropomorfickým významem je 410, což je 2,35 % z celkové frekvence substantiva slunce. Vidíme, že škála sloves s antropomorfickým významem u tohoto substantiva je značně široká: od frekventovaných sloves pohybu vyjít/vycházet, popř. zajít, po méně frekventovaná slovesa sklánět se, vstávat. U substantiv této sémantické skupiny je typický výskyt sloves označujících pohyb tělesa po obloze, srov. slunce vyšlo (131), hvězda vyšla (16) apod. 153 Literatura Čermák, F. (1982). Idiomatika a frazeologie češtiny. Praha: Univerzita Karlova. Čermák, F. (1994). Idiomatics. In P. A. Luelsdorff (Ed.), The Prague School of Structural and Functional Linguistics. Amsterdam/Philadelphia: John Benjamins Publishing Company, 185–195. Čermák, F. (1995). Somatic Idioms Revisited. In W. Eismann (Ed.)., EUROPHRAS 95 Europäische Phraseologie im Vergleich: Gemeinsames Erbe und kulturelle Vielfalt. Bochum: Universitätsverlag, 109–119. Čermák, F. (1999). Povaha a souvislosti některých univerzálií v sémantice a morfologii. In Z. Hladká & P. Karlík (Eds.), Čeština - univerzália a specifika. Brno: Masarykova univerzita, 67–76, Čermák, F. (2011, 2001). Jazyk a jazykověda. Praha: Nakladatelství Karolinum. Čermák F. et al. (2009). Slovník české frazeologie a idiomatiky. Výrazy verbální. Praha: Leda. 154 Klára Osolsobě Filozofická fakulta Masarykovy univerzity [email protected] Korpusy jako zdroje dat pro úpravy nástrojů automatické morfologické analýzy (Slovotvorné varianty adjektiv na [(ou)|í]cí a jejich morfologické značkování) Cílem našeho příspěvku je poukázat na některá nekonzistentní řešení ve značkování slovního druhu adjektiv v korpusech řady SYN. Budeme se zabývat problémy, které se týkají nedostatků na úrovni morfologického slovníku, nikoli na úrovni disambiguace. Ukážeme, jak data získaná z korpusů mohou pomoci při úpravě morfologického značkování adjektiv, která lze formálně interpretovat jako adjektiva z kmene přítomného sloves. Adjektiva na [(ou)|í]cí jsou v korpusech řady SYN zpravidla značkována jako AG.* (přídavné jméno odvozené od slovesného tvaru přítomného přechodníku, viz http://ucnk.ff.cuni.cz/bonito/znacky.php). Podíváme-li se ovšem blíže na všechny jednotky, které splňují formální předpoklady patřit do takto vymezené kategorie, zjistíme, že ne zanedbatelný počet takovýchto adjektiv má jinou značku, a sice buď je příslušný tvar označkován jako AA.* (adjektivum obyčejné, viz http://ucnk.ff.cuni.cz/bonito/znacky.php), nebo není rozpoznán automatickou morfologickou analýzou a má značku X.*. Tento stav svědčí o jisté nekonzistenci popisu na úrovni morfologického slovníku. Popis tvarů adjektiv odvoditelných od uzavřeného slovesného kmene přítomného (nikoli jen od tvaru přechodníku přítomného viz Dokulil a kol, 1986: 321) je na úrovni morfologického slovníku řešen tak, že adjektivní tvary jsou pomocí formálních pravidel „rozgenerovány“ od slovesného kmene a je jim v důsledku takové operace přidělena značka AG.*. Uvedené řešení není ovšem uplatněno důsledně pro všechny varianty, které se v jazyce skutečně mohou vyskytovat. Řadu variant, které zůstaly opominuty, lze získat, analyzujeme-li data z korpusů. Naše analýza vyjde z pozorování dat korpusu SYN (budeme si všímat nedůsledností v morfologickém značkování tvarů na [(ou)|í]cí). Dalším zdrojem dat bude webový korpus czTenTen12 a internet. Nebudeme se (v omezené míře) vyhýbat ani intuici rodilého mluvčího, z níž budeme vy- 155 cházet v hodnocení potenciality jazyka na rovině slovotvorby. Na základě pozorování ukážeme vzájemný vztah mezi tvarovými variantami kmene prézentního a slovotvornými variantami/dubletami sledovaného adjektivního typu. Na základě takové analýzy navrhneme pravidla pro „rozgenerování“ tvarů příslušných adjektiv i jejich interpretací na úrovni morfologického slovníku. Po implementaci navržených úprav do slovníku automatického morfologického analyzátoru lze předpokládat, že se a) zvýší konzistence morfologického značkování, b) opraví některé drobné chyby ve značkování i lemmatizaci adjektiv na [(ou) |í]cí, c) rozšíří pokrytí slovníku a d) neměl by narůst (až na několik drobností) počet homonymních tvarů nabízených k disambiguaci. Výsledky tagování, které má k dispozici běžný uživatel korpusu budou v důsledku námi navržených úprav více transparentní, než tomu bylo dosud. Zobecnění pozorování korpusových dat může pomoci k formulování přesnějších pravidel popisu variant adjektiv na [(ou) |í]cí nejen pro potřeby popisu těchto variant na poli automatické morfologické analýzy češtiny, ale může být východiskem i pro kodifikační doporučení opřená o zjištění stavu úzu reprezentovaného rozsáhlými korpusovými daty. Literatura Bauer, J., Lamprecht, A. & Šlosar, D. (1986). Historická mluvnice češtiny. Praha: SPN. Cvrček, V. & Vondřička, P. (2012). Morfio. Dostupný z WWW: <http://morfio.korpus.cz/>. czTenTen12 FI MU – czTenTen12. Centrum zpracování přirozeného jazyka FI MU, Brno. Cit. 21. 11. 2013, dostupný z WWW: <http://ske.fi.muni.cz/ bonito>. Český národní korpus – SYN. Ústav Českého národního korpusu FF UK, Praha. Cit. 21. 11. 2013, dostupný z WWW: <http://www.korpus.cz>. Dokulil, M. et al. (1986). Mluvnice češtiny 1. Praha: Academia. Hajič, J. (2004). Disambiguation of Rich Inflection (Computational Morphology of Czech). Praha: Karolinum Charles University Press. Hlaváčová, J. (2009). Formalizace systému české morfologie s ohledem na automatické zpracování českých textů. Praha: UK. (Disertační práce.) Jelínek, T. (2008). Nové značkování v Českém národním korpusu. Naše řeč, 91, 1, 13–20. 156 Komárek, M. et al. (1986). Mluvnice češtiny 2. Praha: Academia. Osolsobě, K. (1996). Algoritmický popis české formální morfologie a strojový slovník češtiny. Disertační práce. Brno: MU. Osolsobě, K. (2011). Morfologie českého slovesa a tvoření deverbativ jako problém strojové analýzy češtiny. Brno: MU. Osolsobě, K. (2013). Korpusy a internet jako zdroje dat pro výzkum produktivity periferního slovotvorného typu: adjektiva typu hrůzoucí (hrůza) v korpusech a na internetu. Gramatika a korpus 2012. Hradec Králové: Gaudeamus. Petkevič, V. (2006). Reliable Morphological Disambiguation of Czech: RuleBased Approach is Necessary. In M. Šimková M. (Ed.), Insight into the Slovak and Czech Corpus Linguistics. Bratislava: Veda, 26–44. Petkevič, V. (2013). Formal Morpho(Syntax) Properties of Reflexive Particles se si as Free Morphemes. In K. Gajdošová & A. Žáková (Eds.), Natural Language Processing, Corpus Linguistics, Luedenscheid: RAM-Verlag, 206–216. Spoustová D., Hajič, J., Votrubec, J., Krbec, P., & Květoň, P. (2007): The Best of Two Worlds: Cooperation of Statistical and Rule-Based Taggers for Czech. In: Proceedings of the Workshop on Balto-Slavonic Natural Language Processing. Praha: ACL, 67–74. Šmilauer, V. (1972): Nauka o českém jazyku. Praha: SPN. Internetová jazyková příručka. Dostupná z WWW: <http://prirucka.ujc.cas.cz/>. 157 Hana Peloušková Pedagogická fakulta Masarykovy univerzity [email protected] O nepříjemných pocitech. Specifické konstrukce s několika německými slovesy a jejich protějšky v češtině Již několik let vzniká poměrně rozsáhlá kontrastivní studie o německých konstrukcích s es a jejich českých protějšcích. Nenáležité užití či neužití es patří totiž k častým jazykovým prohřeškům, jichž se dopouštějí čeští rodilí mluvčí na všech stupních pokročilosti v německém jazyce. Jejich příčinu spatřujeme v tom, že některé funkce německého es jsou češtině zcela cizí (formální subjekt, poziční es/“Platzhalter“), v jiných funkcích čeština ekvivalentní prostředek sice má, ale užívá jej odlišným způsobem a s odlišnou frekvencí (zájmeno, korelát, formální objekt). Důkladná analýza paralelního jazykového materiálu pomáhá odhalit paralely a diskrepance v ekvivalentních konstrukcích. Praktickým vyústěním teoretických podkladů jsou určitá lingvodidaktická doporučení jež mohou přispět k eliminaci výše uvedených prohřešků. Tato doporučení mohou být využita ve výuce či samostudiu němčiny, případně mohou posloužit též při sestavování učebnic a cvičebnic. Tento příspěvek tvoří velmi malý stavební kamínek výše uvedené studie. Zaměřuje se na poměrně nepočetnou skupinu německých sloves označujících nepříjemné psychosomatické stavy, převážně pocity velkého strachu či jiného diskomfortu (např. grauen, grausen, gruseln, schaudern, frösteln, ekeln…). Proživatel, tedy osoba, jež nepříjemný stav pociťuje, je označen ve větě jménem v dativu či akuzativu. Ve větách s těmito slovesy se vyskytuje nereferenční es, jež před slovesem plní obligatorně funkci tzv. „pozičního es“(umožňuje slovesu zaujmout druhou pozici ve větě), za slovesem se vyskytuje fakultativně: Es graust ihm vor der Operation. Vor der Operation graust (es) ihm. Ihm graust (es) vor der Operation. Čeština jazykový prostředek ekvivalentní tomuto typu es nemá, což může být pro české rodilé mluvčí učící se němčině zdrojem interferenčních chyb. Neobvyklé pro Čechy je rovněž označení proživatele jménem v dativu nebo akuzativu, neboť české protějšky těchto sloves označují proživatele zpravidla nominativem: Es graust jedem vor ihr. Každý se jí děsí., ale např.: Mike schauderte. Mika zamrazilo. 158 V odborné germanistické literatuře je es v těchto konstrukcích pouze zmíněno, popřípadě popsáno jen kurzoricky, neexistuje žádný seznam sloves se shodnými syntaktickými vlastnostmi, nejednotnost panuje ve vymezení funkce es, neboť vykazuje některé vlastnosti formálního subjektu, jiné pozičního es. Příspěvek se pokouší: • sestavit co nejúplnější seznam zmiňovaných sloves, • roztřídit slovesa podle významu (pocity strachu, nevolnosti, chladu, žádosti…), • popsat strukturu konstrukcí s těmito slovesy, zaměřit se na označení proživatele jménem v akuzativu a dativu, zjistit dominantní formu označení proživatele u jednotlivých sloves, • podchytit a popsat povahu es v těchto konstrukcích, • nalézt odpověď na otázku, v kterých případech/zda vůbec je es v pozicích za slovesem obligatorní, • podchytit a popsat české ekvivalentní konstrukce, • formulovat lingvodidaktická doporučení pro zařazování dané problematiky do výuky (např. která slovesa zařadit na konkrétních stupních pokročilosti). Výzkum se opírá o jazyková data vytěžená z česko-německého paralelního korpusu projektu InterCorp a rozsáhlého německého korpusu IDS Mannheim, Cosmas. Výsledky analýzy korpusových dat jsou konfrontovány s výsledky malého dotazníkového šetření. Toto šetření zjišťuje: • používanost konkrétních sloves (běžné, málo používané, stylisticky vysoké/zastaralé), • označení proživatele jménem v akuzativu nebo v dativu u jednotlivých sloves (dominující forma, jediná možná forma), • obligatornost či fakultativnost es v postavení za slovesem. Respondenty jsou němečtí rodilí mluvčí s gemanistickým vzděláním. Dotazy jsou kladeny formou „multiple choice“ (výběr z více možností). Literatura Buscha, J. (1972). Zur Darstellung des Pronomens es in einer deutschen Grammatik für Ausländer. DaF 9 (1), 99–103. 159 Kemme, H. M. (1979). Der Gebrauch des „es“ im Deutschen. Eine Darstellung für den Unterricht an Ausländer. München: Goethe-Institut. Peloušková, H. (2009). Konstruktionen mit dem deutschen Platzhalter es und ihre tschechischen Entsprechungen. In T. Káňa & H. Peloušková (Eds.), Deutsch und Tschechisch im Vergleich I. Korpusbasierte linguistische Studien. Brno: Masarykova univerzita, 90–104. Peloušková, H. (2010). Zu deutschen ,Es-Konstruktionen‘ und ihren tschechischen Äquivalenten. In I. Kratochvílová & N. R. Wolf (Eds.), Kompendium Korpuslinguistik: Eine Bestandsaufnahme aus deutsch-tschechischer Perspektive. Heidelberg: Universitätsverlag Winter, Germanistische Bibliothek 38, 265–274. Pütz, H. (1975). Über die Syntax der Pronominalform „es“ im modernen Deutsch. Tübingen: Gunter Narr. Vladimír Petkevič Ústav teoretické a komputační lingvistiky FF UK [email protected] Slovnědruhová a morfologická homonymie, homografie a homofonie v současné češtině Příspěvek budou tvořit čtyři části, z nichž část 2 a část 3 jsou ústřední: 1. Autor nejprve stručně uvede všechny hlavní typy homonymie, homografie a homofonie v současné češtině obecně (fonologická, morfonologická, morfematická/morfologická, syntaktická, lexikální) podle Panevové (1980) a pak se podrobněji zaměří na témata 2 a 3, kterými jsou: 2. Dva typy morfematické/morfologické homonymie v současném psaném jazyce 3. Problematika homofonie a homografie 4. V závěru se autor také pro úplnost zmíní o: 160 4a. klasické homonymii lexikální, kdy jedno lemma má více významů, ale jednotlivé významy nevykazují rozdíly v paradigmatu (např. „kynout_1“ vs. „kynout_2“) 4b. o homonymii mezijazykové, která komplikuje automatickou disambiguaci slov v jednojazyčném korpusu, pokud korpus obsahuje slova z cizích jazyků. Ad 2. Jde o tyto typy homonymie v současném psaném jazyce: 1a) homonymie částečná (neprázdný průnik paradigmat), nejčastěji náhodná mezi slovními druhy i uvnitř téhož slovního druhu (např. „zvířenu“ je tvarem slovesa „zvířit“ i tvarem substantiva „zvířena“; „sní“ je tvarem slovesného lexému „sníst“ i „snít“) b) homonymie morfonologická paradigmatická daná asymetrickým dualismem jazykových jednotek (např. „rukou“ je tvarem Isg nebo Gpl; „souvislosti“ je tvarem Gsg, Dsg, Npl, Apl, Vpl), kdy jeden morf jakožto forma vyjadřuje více morfologických funkcí. Autor představí přehled jednotlivých podtypů spolu s počty příslušných tvarů a pak se zaměří na způsoby, jimiž se v textu tzv. automatickou morfologickou disambiguací stanoví náležitá interpretace na základě kontextu. Z jednotlivých typů vybere ty, jež působí při automatické disambiguaci pomocí pravidel i při disambiguaci stochastické největší potíže. Pokusí se stanovit hlavní příčiny, proč se úspěšnost disambiguace dosud pohybuje na maximálně 95 % (vezmou-li se v úvahu obě míry: recall (pokrytí) a precision (přesnost)), a na základě uvedených typů, jejich frekvence i vlastních zkušeností navrhne metody, jak toto číslo zvýšit. Ad 3. Problematika homofonie a homografie V češtině je typická homonymie, kdy jedna psaná forma má víc morfologických a/nebo sémantických interpretací, které se přitom vyslovují stejně, např.: „pobudu“ (= tvar 1. os. sg. préz. slovesa „pobýt“ a zároveň tvar Asg substantiva „pobuda“) či „pranic“ (tvar Nsg a Asg zájmena „pranic“ a zároveň tvar Gpl substantiva „pranice“). Jsou však i případy: (i) homofonie, kdy forma se stejně vyslovuje, ale má různé významy a odlišně se píše (nehomografní homofona), např. „praští“ vs. „pražští“, nebo „obětí“ vs. „objetí“; tento typ je na rozdíl od typu (ii) níže poměrně častý (ii) homografie, kdy se forma stejně píše, ale má různé významy a odlišně se vyslovuje (nehomofonní homografa), např. „panice“ čteno s „i“ je Gsg, Asg, 161 Apl substantiva „panic“, čteno s „y“ je to Dsg a Lsg substantiva „panika“; tento typ je v češtině výjimečný. Autor vrhne světlo na tuto dosud neprobádanou oblast a bude klasifikovat typy nehomografních homofon a nehomofonních homograf. Navíc navrhne metody, jak v datech nalézt pokud možno všechny tyto typy, a to zvláště na základě: (i) různých typů progresívní a regresívní asimilace („spravit“ vs. „zpravit“) (ii) různých typů neutralizace znělosti na konci slov („pokud“ vs. „pokut“) (iii) opozice „ě“ vs. „je“, „ě“ vs. „ně“ („obětí“ vs. „objetí“) (iv) opozice „i“ vs. „y“, „í“ vs. „ý“, „ú“ vs. „ů“ („pilu“ vs. „pylu“) (v) geminát („nn“, „šš“ a dalších) vyslovovaných jako jeden foném („jednoduší“ vs. „jednodušší“) (vi) „di“ / „ti“ / „ni“ ve slovech českého/slovanského původu vs. „di“ / „ti“ / „ni“ ve slovech hlavně latinského původu, z moderních jazyků pak ve slovech přejatých z angličtiny, francouzštiny... (vi) odlišné morfematické segmentace slova, např. „neu-rologický“ vs. „ne-urologický“. Při identifikaci typů homofonie využije nástroje TRAN vyvinutého V. Cvrčkem. Autor uvede též praktický význam vytvořené klasifikace pro tvorbu například „chytrého“ spelling-checkeru a kontextově pojatého korektoru gramatiky. Lidé totiž často neumějí nehomografní homofona náležitě odlišit v písmu a chybují právě v nich. Týká se to hlavně psaní „i“ a „y“, obou typů asimilace, neutralizace znělosti na konci slova a nesprávně zapsaných geminát. Klasické příklady: předložka „s“ vs. „z“ „shlédnout“ vs. „zhlédnout“ „správa“ vs. „zpráva“ „spravit“ vs. „zpravit“ „obětí“ vs. „objetí“ „Břeclavi“ vs. „Břeclavy“ „vížka“ vs. „výška“ „kúra“ vs. „kůra“ „cenou“ vs. „cennou“ „veřejně činí“ vs. „veřejně činní“ Autor svůj výzkum materiálově zakládá na korpusech současné psané češtiny řady SYN, zejména na korpusech SYN2010, SYN a SYN2013PUB, 162 a na pracovních, morfologicky pouze analyzovaných, tj. nedisambiguovaných korpusech. Autor na řadě příkladů také ukáže, jak je ve zkoumaném ohledu čeština bohatá a složitá, a též na příkladech doloží známý fakt, že mluvčí / pisatel si potencialitu homonymie v jazyce (v našem případě češtiny) zřídkakdy uvědomuje, neboť slovo / větu vyslovuje vždy v kontextu (jazykovém i situačním), který slovo či větu téměř vždy zjednoznační. Práce je mj. východiskem k řešení problému zjednoznačnění (disambiguace) v psaných, popř. i mluvených korpusech a může z aplikačního hlediska sloužit - jak uvedeno výše - i zlepšení dosavadních spelling-checkerů a softwarových nástrojů pro gramatickou kontrolu jazyka. Literatura Jelínek, T. & Petkevič, V. (2011). Systém jazykového značkování současné psané češtiny. In V. Petkevič & A. Rosen (Eds.), Korpusová lingvistika Praha 2011, sv. 3: Gramatika a značkování korpusů. Praha: Nakladatelství Lidové noviny / Ústav českého národního korpusu, 154–170. Karlík, P., Nekula, M. & Pleskalová, J. (Eds.) (2002). Encyklopedický slovník češtiny. Praha: Nakladatelsví Lidové noviny, heslo Homonymie. Panevová, J. (1980). Formy a funkce ve stavbě české věty. Praha: Academia. Petkevič, V. (2006): Reliable Morphological Disambiguation of Czech: Rule-Based Approach is Necessary. In M. Šimková (Ed.), Insight into the Slovak and Czech Corpus Linguistics. Bratislava: Veda, 26–44. Těšitelová, M. (1966). O morfologické homonymii v češtině. Praha: Academia. 163 Žaneta Pixová Ústav bohemistiky FF JU [email protected] Čeština soudních rozhodnutí ve světle korpusu Předkládaný příspěvek se bude věnovat češtině soudních rozhodnutí a pokusí se za použití metod korpusové lingvistiky přiblížit některé poznatky o lexikální struktuře současné právní češtiny. Představen bude též badatelský proces, shrnutý do tří základních okruhů. Úvodní slova budou patřit problematice sestavení vlastního korpusu, vytvořeného ze zkoumané množiny dostupných textů soudních rozhodnutí (zhruba 1600 textů). V druhé části bychom se zaměřili na seznámení s využitými analýzami korpusových dat. Třetí okruh by se věnoval prezentaci dosažených výsledků. V rámci zkoumání lexikální struktury češtiny soudních rozhodnutí byla jako hlavní sféra zájmu zvolena problematika kolokací. Příspěvek by seznámil se smysluplnými spojeními s nejvyšší frekvencí výskytu napříč texty, s cílem identifikovat typické víceslovné termíny a typické neterminologické kolokace. Dále by stručně představil obsažený repertoár spojovacích výrazů, včetně četnosti jejich výskytu. Jak je patrné z odborných časopisů, věnujících se českému jazyku (Naše řeč, Slovo a slovesnost), právnická čeština byla a je četným námětem úvah, např. Bulín, H. – Právnická čeština (Bulín 1918), nebo Svobodová, I. – Ze soudní síně aneb spor o vrátka (Svobodová 1993), a analýz, např. Šťícha, F. – O jazyce soudních rozhodnutí (Štícha 1985), nebo Kořenský, J., Cvrček, F., Novák f. – Juristická a lingvistická analýza právních textů (Kořenský a kol. 1999). Byly tak definovány základní poznatky o podobě právní češtiny, které mohou být díky využití metod korpusové lingvistiky ověřeny a zároveň doplněny o nová zjištění, opírající se o analýzy poměrně rozsáhlé množiny žánrově specifického jazykového materiálu současné doby. Jako výchozí metodologický přístup můžeme označit přístup empirický, umožňující vyvození objektivních závěrů, nezávislých jen na subjektivním výběru, ale na souboru reprezentativních dat. Výzkum probíhá v rovině synchronní, v centru zájmu je současná čeština. Zkoumaná množina dostupných textů soudních rozhodnutí krajských soudů 164 pochází z období posledních patnácti let a čítá zhruba tisíc šest set textů. Výzkum je součástí rozpracovaného doktorského projektu (Styl a jazyk textů soudních rozhodnutí), mapujícího styl a jazyk textů dostupných krajských soudních rozhodnutí. Příspěvek si klade za cíl nejprve seznámit s konkrétním procesem tvorby korpusu z dostupné množiny textů soudních rozhodnutí (zhruba 1600 textů), a užitými analýzami korpusových dat. Následně plánuje představit dosažené výsledky badatelské práce, s cílem přispět k ověření a rozšíření poznatků o podobě právní češtiny soudních rozhodnutí. Literatura Bulín, H. (1918). Právnická čeština. Naše řeč, 2 (7). Čechová, M. (1989). Charakteristika administrativního stylu. Naše řeč, 72 (1). Čermák, F. (2001). Jazyk a jazykověda. Praha: Karolinum. Čermák, F. & Filipec, J. (1985). Česká lexikologie. Praha: Academia. Čermák, F. & Klímová, J., Petkevič, V. (2000). Studie z korpusové lingvistiky. Praha: Karolinum. Čermák, F. & Šulc, M. (2006). Kolokace. Praha: NLN. Daneš, F. (1957). Kapitoly z praktické stylistiky. Praha: Orbis. Jedlička, A. (1970). Základy české stylistiky. Praha: SPN. Kořenský, J., Cvrček, F. & Novák, F. (1999). Juristická a lingvistická analýza právních textů: právně-informatický přístup. Praha: Academia. McEnery, T. & Wilson, A. (1996). Corpus Linguistics. Edinburgh: Edinburgh University Press. Sinclair, J. McH. (1991). Corpus, Concordance, Collocation. Oxford: Oxford University Press. Svobodová, I. (1993). Ze soudní síně aneb spor o vrátka. Naše řeč, 76 (5). Štícha, F. (1985). O jazyce soudních rozhodnutí. Naše řeč, 68 (2). 165 Petr Plecháč Ústav pro českou literaturu AV ČR [email protected] Korpus českého verše a možnosti jeho využití Na konci roku 2013 bylo na půdě Ústavu pro českou literaturu AV ČR dokončena první fáze budování Korpusu českého verše. Kromě standardních lingvistických metadat (lemma, morfologická značka) obsahuje tento korpus i anotace roviny fonetické, metrické a strofické; ke každé slovní jednotce je připojen fonetický přepis, u každého verše je určeno metrum (jamb, trochej...), rozsah (n-stopý), typ klauzule (mužská, ženská...) a metrický vzorec. (V současnosti jsou z hlediska metriky anotovány pouze verše sylabotónické.) Na vyšších rovinách jsou pak anotovány rýmové dvojice, resp. n-tice a pevné formy (sonet, rondel...). Statistický výzkum má v české versologii bohatou tradici (připomeňme alespoň studie Miroslava Červenky a Květy Sgallové vycházející z desetitisíců analyzovaných veršů). Korpus českého verše obsahující téměř veškerou knižně publikovanou básnickou tvorbu 19. století (téměř 80 tisíc básní, přes 2,5 milionu veršů, 14,5 milionu slov) otevírá nové možnosti pro ověřování, resp. relativizaci jak dřívějších hypotéz (srov. např. Plecháč & Ibrahim 2013), tak hypotéz nově formulovaných. Oproti ručně zpracovanému materiálu se navíc badatali nabízí možnost okamžitě testovat i možné korelace sledovaného jevu a jevů z jiných jazykových/veršových rovin (např. vztah mezi užitým metrem a frekvencí slovních druhů, komplexnost intervokalických skupin v klauzulích rýmovaného a nerýmovaného verše atp.). V první části příspěvku budou nastíněny algoritmy, na jejichž základě byly jednotlivé roviny anotovány, a představeny volně přístupné nástroje, které umožňují práci s daty v korpusu obsaženými (Databáze českých meter; Eufonometr; Frekvenční slovníky české poezie; databáze rýmů Gunstick). K diskuzi pak budou předloženy metody, jejichž využitím by bylo možné automatickou anotaci vylepšit. Ve druhé části příspěvku budou probrány možnosti a limity výzkumu tzv. zvukové iradiace (srov. Červenka 2002) založeného na statistické analýze klíčových slov a binomickém testu pro detekci nenáhodných hláskových opakování (srov. např. Altmann 1966a). 166 Literatura Altmann, G. (1966a). The Measurement of Euphony. In J. Levý & K. Palas (Eds.), Teorie verše I. Brno: UJEP, 259–261. Altmann, G. (1966b). Binomial Index of Euphony for Indonesian Poetry. Asian and African Studies, 2, 62–67. Čech, R., Popescu, I. I. & Altmann, G. (2011). Euphony in Slovak lyric poetry. Glottometrics, 22, 5–16. Červenka, M. (2002). Hlásková instrumentace. In M. Kubínová & M. Vojtková (Eds.), Pohledy zblízka: zvuk, význam, obraz. Praha: Torst, 7–54. Ibrahim, R. & Plecháč, P. (2011). Toward Automatic Analysis of Czech Verse. In B. P. Scherr, J. Bailey & E. V. Kazartsev (Eds.), Formal Methods in Poetics. Lüdenscheid: RAM, 295–305. Plecháč, P. & Ibrahim, R. (2013). Phonological and Morphological Means Compensating for Non-Metricality in 19th Century Czech Verse. Prace Filologiczne, 59 (3), 31–50. Plecháč, P. & Říha, J. (v tisku). Measuring the Euphony. In Brikovskije čtenija: Metodologija i praktika russkogo formalizma. Wimmer, G., Altmann, G., Hřebíček, L, Ondrejovič, S. & Wimmerová, S. (2003). Úvod do analýzy textov. Bratislava: VEDA. Alena Polická Masarykova univerzita [email protected] K možnostem zkoumání (identitární) neologie v korpusech Neologie je bezpochyby koncept obtížně uchopitelný v synchronní dynamice jazyka (Rey 1976, Martincová 1983, Ziková 2001, Boulanger 2010), jak definičně, tak i obsahově. Avšak neologický pocit čtenáře či posluchače (Gardin et al. 1974, Sablayrolles 2000) je prokazatelně faktorem, který motivuje 167 lingvisty v otázkách anachronické reflexe nad kreativně či degenerativně chápanými lexikálními inovacemi (Odaloš 2005: 6, Polická 2012). V případě lavinového šíření neologismu vede tato reflexe k potřebě zaznamenat uhnízděný novotvar lexikograficky (Hladká & Martincová 2012), přičemž naděje, které lexikografové vkládají do již existujících korpusů, jsou uspokojeny jen částečně (Šulc 2001). V otázce reprezentativnosti jsou do centra problematiky kladeny stylové faktory, sociální původ mluvčích, aj. Pro různé kategorie neologického lexika (neologismy literární, žurnalistické, profesně odborné a substandarně identitární) je pak možné pozorovat jak různou rychlost šíření vůči autoritativnímu centru (Eckert 1997), tak i různou míru zachytitelnosti těchto jevů v rámci stávajících korpusů. Tento příspěvek si klade za cíl srovnat různé typy neologismů z hlediska sociolingvistického, na materiálu psanách i mluvených korpusů obecných (série SYN a ORAL) a specializovaných (PMK, BMK). Okrajově bude zmíněn i aspekt překladový, konkrétně na materiálu francouzsko-českého subkorpusu paralelního korpusu InterCorp a interního korpusu rapových písní RapCor. Právě identitárně příznakové neologismy (generačně či zájmově podmíněné) se zdají být kategorií, která si zaslouží zvýšenou pozornost jak v oblasti dezambiguace častých sémantických neologismů, tak i v oblasti lematizace graficky neukotveného lexika. Příspěvek poukáže na zkušenosti s těmito jevy v kontextu francouzské lingvistiky a jejích mluvených korpusů. Řešeny budou vybrané lexémy novějšího i staršího data s přihlédnutím k aktuálně řešenému projektu neologických výpůjček. Literatura Boulanger, J.-C. (2010). Sur l’existence des concepts de „néologie“ et de „néologisme“. Propos sur un paradoxe lexical et historique. In M. T. Cabré et al. (Eds.), Actes del I Congrés Internacional de Neologia de les Llengües Romàniques. Barcelona: IULA, Sèrie activitats, 22, 31-73. Gardin, B. et al. (1974). A propos du „sentiment néologique“. Langages, 36, 45-52. Hladká, Z. & Martincová, O. (2012). Slova v soukromých dopisech: lexikografická sonda. Brno: Masarykova univerzita. Martincová, O. (1983). Problematika neologismů v současné spisovné češtině. Praha: Univerzita Karlova. 168 Odaloš, P. (2005). Slang a argot v 20. a 21. storočí. In Sborník přednášek z VII. konference o slangu a argotu v Plzni 24.–25. září 2003. 1. vyd. Plzeň: Fraus, 6–11. Polická, A. (2012). O současném francouzském slangu a slangové lexikografii. Cizí jazyky, 56 (2), 13–16. Rey, A. (1976). Néologisme – un pseudo-concept? Cahiers de lexicologie, 28 (1), 3-17. Sablayrolles, J.-F. (2000). La néologie en français contemporain. Paris: Honoré Champion. Šulc, M. (2001). Tematická reprezentativnost korpusů. Slovo a slovesnost, 62 (1), 53–61. Ziková, M. (2001). Ke třem zdrojům lexikálních inovací (Na materiálu substantivních neologismů). In Sborník prací filozofické fakulty brněnské univerzity. Brno: Masarykova univerzita, 157–167. Alena Poncarová Ústav českého jazyka a teorie komunikace FF UK [email protected] Sestavování korpusu pro syntaktickou anotaci – práce na celý život? Projekt syntaktické analýzy češtiny z hlediska centeringové teorie (např. Grosz et al. 1995, Walker et al. 1998) je založen na částečně automatické, částečně manuální anotaci tzv. center pozornosti (Sidner 1981, Brennan et al. 1987). Aby bylo možné nárokovat platnost výsledků následné analýzy vzhledem k českým textům obecně, je nutné nejprve sestavit (nejen žánrově) vyvážený korpus autentických českých textů. Není možné využít korpusy již existující (ČNK, PDT) jinak než jako zdroj jednotlivých textů, neboť cílem projektu Centering a čeština – syntaktická analýza je postihnout obecné principy vý- 169 stavby českého textu bez ohledu na mluvenost vs. psanost, připravenost vs. nepřipravenost, oficiálnost vs. neoficiálnost apod. Centeringová teorie, na jejímž základě bude anotace probíhat, vykazuje několik základních rysů, které jsou určujícími kritérii pro parametry takového korpusu. Prvním z nich je fakt, že centering se zaměřuje na modelování lokálních vztahů v textu, tj. zaměřuje se na vztahy mezi bezprostředně sousedícími výpověďmi, přičemž jsou vždy modelovány zpětně: značkování aktuální výpovědi vychází ze syntaktického a textového uspořádání výpovědi předcházející. Z toho vyplývá požadavek kladený na korpus, který výrazně ovlivní jeho velikost – kritické výpovědi tvoří pouze polovinu pozic korpusu (ve smyslu počtu výpovědí, je zřejmé, že mezi dvěma bezprostředně následujícími výpověďmi nemusí panovat z hlediska délky, počtu slov, symetrie), zbytek tvoří pro anotaci nezbytné bezprostředně předcházející výpovědi, které ale nelze považovat za kritické položky analýzy, neboť k nim není k dispozici bezprostředně předcházející výpověď. Další charakteristikou, která ovlivňuje sestavovaný korpus, je metodologický postup, který centeringová teorie uplatňuje – při určování vztahů mezi výpověďmi se zaměřuje na jejich jmenné části (označujeme je jako jmenné fráze i v případech, kdy formálně jde o předložkové fráze, pronominalizované subjekty apod.). Kromě těchto dvou základních kritérií vyplývajících z aplikované teorie existují další otázky – na základě jakého přístupu (Jedlička et al. 1970, Chloupek et al. 1991, Čechová et al. 2003) stanovit škálu žánrů, funkčních stylů apod., které do korpusu zahrnout; jak technicky zpracovat korpus z hlediska spojování textů označkovaných v rámci PDT s texty korpusů ČNK, například z mluvených korpusů; kolik pozic má korpus mít, aby byla zajištěna jeho výpovědní hodnota a zároveň bylo možné ruční anotaci provést; na které stylové distinkce je možné rezignovat v zájmu usnadnění zpracování a které je naopak nutné zachovávat; apod. Všechny tyto problematické oblasti bych ve svém příspěvku ráda zachytila, pokusím se představit i parametry a postup sestavování korpusu, ke kterému se přikláníme. Literatura Brennan, S., Friedman, M. & Pollard, C. (1987). A centering approach to pronouns. In Proceedings of the 25th Annual Meeting of the ACL. Stanford: Association of Computational Linguistics, 155–162. Čechová, M. et al. (2003). Současná česká stylistika. Praha: ISV, 93–105. 170 Grosz, B., Weinstein, S. & Joshi, A. (1995). Centering: A Framework for Modeling the Local Coherence of Discourse. Computational Linguistics, 2, 203–225. Chloupek, J. et al. (1991). Stylistika češtiny. Praha: SPN, 38–45. Jedlička, A. et al. (1970). Základy české stylistiky. Praha: SPN, 22–53. Mikulová, M. et al. (2005). Anotace na tektogramatické rovině Pražského závislostního korpusu. Anotátorská příručka. Praha: ÚFAL MFF UK. Nědolužko, A. (2011). Rozšířená textová koreference a asociační anafora. Koncepce anotace českých dat v Pražském závislostním korpusu. Praha: ÚFAL MFF UK. Sidner, C. (1981). Focusing for Interpretation of Pronouns. American Journal of Computational Linguistics, 7, 217–231. Walker, M., Joshi, A. & Prince, E. F. (1998). Centering in Naturally-Occuring Discourse: An Overview. In M. Walker, A. Joshi & E. F. Prince (Eds.), Centering Theory in Discourse. Oxford: Oxford University Press (Clarendon), 1–25. Petr Pořízka Katedra bohemistiky FF UP [email protected] Olomoucký mluvený korpus – pilotní verze Příspěvek představí dlouhodobý projekt (vznikající od r. 2003 dosud) a pilotní verzi Olomouckého mluveného korpusu (dále OMK). Prostor bude věnován jak teoretickým aspektům (struktuře korpusu, způsobu zpracování transkriptů ad. aspektům), tak praktickým demonstracím (zvolenému korpusovému manažeru, možnostem vytěžování dat atp.). Představen bude rovněž formát transkriptů i tzv. SVIFT parser, který je určen pro konverzi z textového formátu do XML. Tento korpusový XML formát je základem pro pozdější praktické využití korpusu – vytěžování dat, neboť umožňuje strukturovat 171 a hierarchizovat jak samotná autentická data, tak transkripty anotovat přiřazenými metadaty. Tato metadata jsou důležitou součástí transkriptů, neboť jejich prostřednictvím je možno data (transkripty) filtrovat podle různých kritérií, nejčastěji sociolingvistických parametrů. Jedním z cílů projektu bylo od počátku vybudovat takovou databázi mluvené češtiny, která by pokud možno co nejkomplexněji a neredukcionisticky odrážela fakticitu i specifika mluvených komunikátů. Transkripty OMK proto existují ve dvou verzích – je pořizována tzv. duální forma přepisu, (1) přepis fonetický (reflexe skutečného znění komunikátů: detailní zachycení segmentální roviny, vč. hláskových změn v proudu řeči; základní aspekty roviny suprasegmentální: zejm. pauzy a intonační typy z hlediska komunikačně významového) a (2) přepis ortografický (pro potřeby lingvistické anotace: např. pro pozdější lemmatizaci či další lingvistickou anotaci, zejm. morfologické značkování): příklad ORT protože on si si fakt myslel , že musím mít důvod FON p+že von s+ si fag+ mis+e:l ->/ že musím _ míd _ dúvot Oběma textovým formám je předřazena tzv. hlavička dokumentu, v níž jsou zachyceny (krom jiných aspektů) především sociolingvistické parametry a tematická struktura komunikátů. Mezi sociolingvistické parametry mluvčích, s nimiž se v OMK pracuje, patří: pohlaví, věk a věkové kategorie, vzdělání, povolání, místo původu, všechny místa pobytu (vč. časového údaje o délce pobytu v daných lokalitách), nářeční oblast původu, nářeční oblast nejdelšího pobytu mluvčího. Se všemi parametry lze při vyhledávání v OMK pracovat a používat je jako vyhledávací filtry. K těmto parametrům jsou přiřazeny další údaje – rok pořízení komunikátu, jednotlivá témata (fungující v transkriptu na dílčí tematické sekce) a další relevantní poznámky ke komunikátům: např. vztah mezi mluvčími, popis komunikační situace (je-li pro komunikát relevantní). OMK sestává z dvou obsahově i časově odlišných částí: 1. OMK-OL: sběr z let 2003–2007 – nahrávky a transkripty olomoucké městské mluvy; FOR+NEFOR komunikáty (podobně jako v PMK a BMK - je tu tedy jistá kompatibilita) 172 2. OMK-CZ: sběr z let 2008–dosud – komunikáty s celého území Čech, Moravy i Slezska Základním formátem transkriptů je tzv. formát SVIFT (Structured Vertical and Interlinear Format of Transcription): text v prostém .TXT, strukturovaný a vícevrstvý, schopný zachytit podstatné aspekty mluvených komunikátů v samostatných vrstvách. Tento textový formát je konvertován prostřednictvím parseru (svift2xml-parser; http://corpus.upol.cz/svift2xml-parser) do finální podoby anotovaného a strukturovaného XML dokumentu (SVIFT-XML formát). Důležitým aspektem kterékoli jazykové databáze je nástroj umožňující její vytěžování. Z důvodů jisté kompatibility s mluvenými korpusy ČNK jsme se rozhodli zveřejnit OMK i ve verzi pro korpusový manažer Manatee/(Bonito, NoSketchEngine), přestože implementace do systému Manatee vyžaduje jisté (redukcionistické) úpravy a práce s paralelním přepisem není v tomto systému ideální. V systému Manatee jsou např. omezené možnosti práce s paralelním (interaktivním) vyhledáváním dat; není možno v něm zobrazit komunikát v úplnosti nebo např. vizualizovat „replikovost“ mluvených komunikátů, vč. onoho typické překrývání replik. Tato verze OMK tedy – podobně jako ostatní české mluvené korpusy v systému Manatee – umožňuje především využívat možností typického konkordančního nástroje. Hlavním korpusovým nástrojem, který byl pro vytěžování OMK vybrán, je EXMARaLDA (http://www.exmaralda.org/en_index.html); nástroj, který adekvátně vizualizuje dialogický charakter komunikátů, vč. specifik mluvenosti (simultánnost/překrývání replik, nonverbální komunikace, kontextová sémantika, metatext), a který zároveň nabízí dostatečné možnosti pro vytěžování dat. Použit je tzv. partiturní způsob zápisu. Tento multimodální nástroj je součástí sady nástrojů, která tvoří velmi komplexní korpusový manažer - viz součásti systému EXMARaLDA: • CoMa: korpusový manažer, nástroj pro tvorbu korpusu • Exact: nástroj pro vytěžování dat (vč. filtrování, práce s metadaty, pokročilého dotazovacího jazyka - reguláry, XSL i XPath) • Partitur Editor: nástroj pro přepis komunikátů • EXMARaLDA je navíc kompatibilní s většinou podobných multimodálních nástrojů (např. Transana, ELAN, ANVIL, Transcriber) – umožňuje pracovat s transkripty ve formátech jiných partiturních multimodálních nástrojů, příp. umožňuje export; implementován je i fonetický 173 nástroj Praat (což je pro foneticky orientovaný korpus velká deviza); samozřejmostí tohoto softwaru je možnost integrace audia/videa k jednotlivým transkriptům Potřebám projektu OMK bude sloužit webový portál http://corpus.upol.cz. Literatura Pořízka, P. (2009). Transkripce a sběr dat v korpusech mluvené češtiny. Disertační práce (rkp.). Olomouc. Pořízka, P. (2009). Olomouc Corpus of Spoken Czech: characterization and main features of the project. Linguistik online, 38 (2). Pořízka, P. (2008). Olomoucký mluvený korpus – stav, metodologie, charakteristika. In F. Štícha & M. Fried (Eds.), Grammar and Corpora / Gramatika a korpus 2007. Praha: Academia, 191–198. Pořízka, P. (2008). Anotace orálních korpusů. Olomoucký mluvený korpus jako model. In M. Kopřivová & M. Waclawičová (Eds.), Čeština v mluveném korpusu. Praha: NLN, 177–189. 174 Olga Richterová Ústav Českého národního korpusu FF UK [email protected] Anna Čermáková Ústav Českého národního korpusu FF UK [email protected] Jak malá je malá místnůstka? Korpusová studie deminutivnosti se zaměřením na sémantické aspekty. Potenciál vytvářet deminutiva v češtině je obrovský a představuje jednu z jejích svébytných charakteristik: v tomto rozsahu ho najdeme pouze u několika málo dalších jazyků. Škála morfologických možností tvoření deminutiv je podrobně popsána v hlavních mluvnicích češtiny (Havránek & Jedlička 1981, Daneš et al. 1987, Grepl et al. 1995, Štícha et al. 2013), avšak sémantickým aspektům tohoto jevu se věnuje pozornosti poměrně málo. Nejpodrobněji se jim věnuje Štícha et al. (2013), avšak ani zde se nenabízí systematičtější pohled. V zásadě se u všech autorů, s většími či menšími podrobnostmi, jedná o konstatování, že deminutiva vyjadřují jednak menší míru vlastnosti, jak naznačuje jejich název, a dále nabízejí možnost určitého subjektivního hodnocení (tj. vyjádření pragmatického rozměru). Deminutivní sufixy jsou také slovotvorné – jde o případy, kdy dochází ke zřetelnému posunu významu (srov. rameno – ramínko). Tato studie se věnuje specifickému jevu, kdy dochází ke dvojitému zdrobnění a setkává se vedle sebe deminutivní forma morfologická a analytická, vyjádřená samostatným lexémem. V jakých případech nastává souběh těchto dvou forem a co vyjadřuje z hlediska sémantiky? To je výchozí otázka představovaného výzkumu. Pro podrobnou korpusovou analýzu tohoto jevu bylo zvoleno spojení malá místnůstka. Deminutivnost není v korpusech ČNK označkována a pouhé vyhledání jednotlivých forem si u některých sufixů žádá časově náročnou manuální analýzu. Infix –ůst- (-ost + -ka) je jedním z těch případů, kdy výsledky získáváme s vysokou přesností; byl proto zvolen pro podrobnější zkoumání. Objevuje se především u abstrakt (radůstka, libůstka, slabůstka, drobnůstka, blbůstka, tajnůstka atd. s více než 40 hapaxy 175 – bizarnůstka, chytrůstka atd.) a méně u konkrét (což je samo o sobě netypické, srov. Daneš et al., MČ 2, str. 301). Konkréta spojující se s tímto infixem v SYNu* frekventovaněji byla pouze čtyři: místnůstka (208 výskytů), pevnůstka (40 výskytů), kůstka (31 výskytů) a bytůstka (19 výskytů). Nápadným rysem deminutivní místnůstky je přitom častá modifikace adjektivem malý (a dalšími deminutivními adjektivy: malinká, maličká, nejmenší, menší, maloulinká, malinkatá, případně miniaturní). Výsledky podrobné, a z hlediska korpusových dat vyčerpávající, sémantické analýzy spojení malá místnůstka budou dále ověřeny z kontrastivního pohledu na datech InterCorpu ve třech jazycích (angličtina, němčina, finština) (viz také Káňa 2011), z nichž ani jeden nedisponuje příliš bohatým morfologickým systémem pro tvorbu deminutiv. Hlavním cílem práce je tedy v rámci podrobné případové studie popsat některé ze sémantických funkcí deminutiv v češtině, jasněji viditelné prostřednictvím dvojitého zdrobnění. Kombinace morfologického a analytického vyjádření deminutivnosti pak, nahlédnuta prizmatem překladových řešení, ukáže, zda jsou tyto funkce natolik výrazné, aby byly v překladu (systematičtěji) reflektovány. Literatura Daneš, F. et al. (1987). Mluvnice češtiny 2. Praha: Academia. Grepl, M. et al. (1995). Příruční mluvnice češtiny. Praha: NLN. Havránek, B. & Jedlička, A. (1981). Česká mluvnice. Praha: Státní pedagogické nakladatelství. Káňa, T. (2011). Deminutiva a deminutivní vyjádření v češtině, němčině a angličtině – hledání hranic. In Korpusová lingvistika Praha 2011 – 1 InterCorp. Praha: NLN, 168–185. Štícha, F. a kol. (2013). Akademická gramatika spisovné češtiny. Praha: Academia. * Korpus SYN v době vyhledávání – prosinec 2013 – obsahoval následující korpusy: SYN2000, SYN2005, SYN2010, SYN2006pub, SYN2009pub a dosahoval velikosti 1 568 079 272 pozic. 176 Alexandr Rosen Ústav teoretické a komputační lingvistiky FF UK [email protected] Michala Adamová Ústav Českého národního korpusu FF UK [email protected] Martin Vavřín Ústav Českého národního korpusu FF UK [email protected] Extrakce lexikálních ekvivalentů z paralelního korpusu Paralelní korpusy skrývají velké množství informací, které se vyjeví teprve při srovnání dvou nebo více verzí daného textu. Informace z více verzí se navzájem doplňují, takže např. víceznačnost obsaženou ve výrazu jednoho jazyka lze vyřešit pomocí jednoznačného ekvivalentu v jazyce druhém. Běžně se pracuje se zarovnáním paralelních textů na úrovni vět, které umožňuje relativně pohodlné kontrastivní zkoumání nejrůznějších jevů na konkordancích ve dvou a více jazycích způsobem obvyklým u jednojazykových korpusů. Zarovnání na úrovni vět je však pro řadu účelů příliš hrubé. I metody a nástroje dostupné uživateli jednojazykového korpusu prostřednictvím běžného korpusového manažeru předpokládají práci na úrovni slovních forem, lemmat a morfosyntaktických značek. Pro srovnatelné využití potenciálu paralelního korpusu tak chybí odpovídající anotace (zarovnání na úrovni podvětných celků) i nástroje. Trpí tím zejména kontrastivní výzkum lexika. Automatické metody zpracování paralelních textů však už dnes nabízejí řešení. Kromě automatického zarovnání po větách lze zarovnávat i kratší celky, nejčastěji rovnou textová slova (Och & Ney 2003). Přes problémy s překladem pomocných slov, složenin, víceslovných výrazů, volných parafrází a podstatných slovosledných změn jsou metody k tomu užívané pro řadu účelů dostatečně spolehlivé. Slouží např. k automatickému hledání lexikálních překladových ekvivalentů (Tiedemann 2000) nebo promítání anotace z jednoho jazyka do druhého (Padó & Lapata 2009). Automaticky extrahované 177 překladové ekvivalence tak mohou pomáhat jednak lexikografům, překladatelům i běžným uživatelům lépe porozumět výrazům a jejich užití, ale posloužit i dalším automatickým nástrojům. V rámci pilotní studie na beletristických textech česko-polské části paralelního korpusu (asi 12 mil. slov v každém jazyce) bylo zarovnáno 8,7 mil. dvojic lemmat, z toho 528 tisíc dvojic bylo různých (Kaczmarska & Rosen 2013). Výsledný slovník (dostupný on-line na adrese http://utkl.ff.cuni. cz/~rosen/public/cspl_lex/ ) lze třídit a filtrovat podle různých kritérií, včetněfrekvence dvojice lemmat v korpusu. Zatím byl využit pro kontrastivní analýzu deminutiv, identifikaci chybějících pojmů ve druhém jazyce a hledání ekvivalentů obtížně přeložitelných lexémů. V tomto příspěvku se věnujeme extrakci překladových ekvivalentů ze všech česko-cizojazyčných částí korpusu InterCorp, které obsahují nadlimitní počet slov (limit bude ověřen empiricky – je dán vztahem mezi úspěšností zarovnání po slovech a objemem zpracovávaných textů). Výsledek bude automaticky očištěn od nežádoucích ekvivalencí, které lze detekovat automaticky (např. čísla, interpunkce). Filtrováním podle frekvence lze dále zvýšit přesnost metody, ale ve výsledku se pak neobjeví také méně frekventované, ale náležité ekvivalence. Ve výsledných slovnících, dostupných na základě licence Creative Commons, budou uvedeny frekvence dvojic ekvivalentů odděleně pro jednotlivé typy textů (beletrie, publicistika, právnické texty, filmové titulky). Uživatelům může přinést ještě větší užitek integrace vygenerovaných lexikálních ekvivalencí s vyhledávacím rozhraním. Kromě prostého vyhledávání ekvivalentů v druhém jazyce (spolu s frekvencemi/procenty podle typů textu) a zvýraznění ekvivalentu klíčového slova v paralelních konkordancích bude možné si slovník v rámci webové služby nechat vygenerovat na přání z vlastního subkorpusu. Ukázky využití vygenerovaných slovníků pomocí vyhledávacího rozhraní budou součástí prezentace. Literatura Kaczmarska, E. & Rosen, A. (2013). Między znaczeniem leksykalnym a walencją – próba opracowania metody ekstrakcji ekwiwalentów na podstawie korpusu równoległego. Studia z Filologii Polskiej i Słowiańskiej, 48, 103–121. 178 Och, F. J. & Ney, H. (2003). A systematic comparison of various statistical alignment models. Computational Linguistics, 29(1), 19–51. Padó, S. & Lapata, M. (2009). Cross-lingual annotation projection of semantic roles. Journal Artificial Intelligence Research, 36, 307–340. Tiedemann, J. (2000). Automatical lexicon extraction from aligned bilingual corpora. Master’s thesis, Otto-von-Guericke-Universität Magdeburg. Hana Skoumalová Ústav teoretické a komputační lingvistiky FF UK [email protected] Jiří Znamenáček Filozofická fakulta Univerzity Karlovy [email protected] Vladimír Petkevič Ústav teoretické a komputační lingvistiky FF UK vladimí[email protected] Využití valenčních slovníků při tvorbě českého treebanku V projektu Treebank češtiny na základě gramatiky budujeme rozsáhlý korpus syntakticky anotovaných textů. Syntaktickou anotaci provádí stochastický MaltParser, který označuje závislosti v syntaktickém stromě a u jednotlivých uzlů vyznačuje jejich syntaktickou funkci. Stochastický parser při své práci využívá pouze to, co se naučil při tréninku na trénovacích datech a nijak naopak nevyužívá lingvistické znalosti. V našem projektu jsme se rozhodli využít existující elektronické valenční slovníky k tomu, abychom jednak určili typ příslovečného určení a jednak abychom provedli kontrolu správného označení objektů a příslovečných určení. 179 K dispozici máme tyto valenční slovníky: VALLEX – velmi podrobný slovník, který obsahuje rámce tří a půl tisíce českých sloves; PDT-Vallex – slovník obsahující valenční rámce pěti a půl tisíce sloves a dále rámce substantiv a adjektiv vyskytujících se v korpusu PDT. Třetím zdrojem je slovník vznikající jako vedlejší produkt při pravidlovém značkování Českého národního korpusu. Tento slovník nemá podobu klasického slovníku, ve kterém jsou sepsána hesla a u každého je soupis jeho vlastností, ale je naopak řazen podle jednotlivých vlastností (např. sloveso je tranzitivní, vyžaduje objekt v dativu apod.) a u každé takovéto vlastnosti je seznam sloves s příslušnou vlastností. Slovníky se pochopitelně překrývají, ale jejich sjednocení obsahuje popis cca 10 tis. sloves. Výstup z MaltParseru je převeden do formátu PAULA XML, který je jednak jedním ze standardů pro lingvistickou anotaci, jednak slouží jako možný vstupní formát pro konverzi do korpusového manažeru ANNIS, ve kterém zpřístupňujeme náš korpus. Během této konverze kontrolujeme správnost lingvistických funkcí přiřazených jednotlivým uzlům a dále zjemňujeme označení příslovečných určení – místo značky Advb přiřadíme informaci, zda jde o časové, místní/směrové, kauzální nebo způsobové příslovečné určení. V budoucnosti je možné pak toto určení ještě dále zjemňovat na další podtypy těchto určení. Kontrola lingvistických funkcí a přiřazení typu u adverbiálií se provádí takto: V analyzovaném stromě zjistíme, jaká je povrchová realizace předpokládaného objektu nebo příslovečného určení, tzn. jaký má tento člen pád, pád s předložkou, nebo zda je to vedlejší věta, infinitiv atd. Potom ve slovníku vyhledáme všechna doplnění příslušného slovesa, která mohou být realizována příslušným způsobem. Pokud je takový člen pouze jeden a jeho lingvistická funkce uvedená ve slovníku se shoduje s lingvistickou funkcí v analyzovaném stromě, znamená to, že lingvistická funkce byla analyzována správně. Pokud jedné povrchové realizaci odpovídá několik členů rámce ve slovníku a přiřazená lingvistická funkce je v této množině, považujeme přiřazení lingvistické funkce za správné. V ostatních případech přepíšeme lingvistickou funkci množinou (disjunkcí) vyhovujících lingvistických funkcí ze slovníku. Přiřazení typu adverbiále se provádí takto: Nejdříve se snažíme určit, anebo vyloučit časové určení, které je oproti jiným adverbiáliím specifické v povrchové realizaci – součástí takového příslovečného určení je obvykle slovo, které má význam časového okamžiku nebo úseku (hodina, den, rok, 180 Vánoce atd.). Při práci na pravidlové desambiguaci českých textů byl pořízen vyčerpávající seznam takovýchto slov a je při tomto určování použit. Pokud nebylo tímto způsobem určeno časové adverbiále, vyhledají se ve slovníku (stejně jako bylo popsáno výše) všechny typy příslovečných určení, které odpovídají dané povrchové realizaci. Protože slovníky z řady Vallex obsahují mnohem podrobnější klasifikaci adverbiálií, než jakou chceme používat my, sloučíme „příbuzné“ typy do obecnějších nadtypů (adverbiále času, místa, způsobu, kauzální) a lingvistickou funkci Advb nahradíme množinou výsledných typů. Literatura Jelínek T. (2011). Systém pro syntaktické značkování velkých korpusů. In A. Rosen & V. Petkevič (Eds.), Korpusová lingvistika Praha 2011. 3 Gramatika a značkováníkorpusů. Praha: Nakladatelství Lidové noviny. Jelínek T., Petkevič V., Rosen A. & Skoumalová H. (2012). Czech Treebanking Unlimited. In Proceedings of the META-RESEARCH Workshop on Advanced Treebanking 2012. Istanbul: ELRA. Lopatková M., Žabokrtský Z. & Kettnerová V. (2008). Valenční slovník českých sloves. Praha: Nakladatelství Karolinum. Urešová Z. (2011). Valenční slovník Pražského závislostního korpusu (PDTVallex). Praha: Dizertační práce MFF UK. 181 Tess Slavíčková SUNY Empire State College / University of New York in Prague [email protected] Investigating nepřizpůsobivý (inadaptable) as a keyword in critical analysis of Czech press reports on Roma Media play an important role, not only in setting the agenda for public discussion of the issues of the day, but also in determining the language and argumentation strategies that are deployed in such discussion. The linguistic analysis on which this paper is based (Slavíčková & Zvagulis 2014) considers rhetorical media representations of actors, processes and actions on “the Roma issue”, and the authors argue that dysphemistic language and other exclusionary journalistic practices often pertain to reporting on Roma citizens. In this conference paper, the author looks at the representation of the Roma minority in the Czech print press , integrating the research discipline of Critical Discourse Analysis (CDA) (see Reisigl & Wodak 2001) backed up with data from SYN2013PUB of the Czech National Corpus, as a means of determining the extent to and ways in which Roma are otherized linguistically. Corpus data are an invaluable resource whose verifiability provide valuable support to the more speculative and selective analysis of CDA (see Hardt-Mautner 1995; Gabrielatos & Baker 2008). Such data play an important role at the initial stages of research, by highlighting patterns of salient keywords and collocations in large quantities of text; and secondly, at a later stage, by enabling the researcher to focus on these patterns in their actual context, which can help with empirically valid selection of a much smaller number of texts for closer examination using CDA. SYN2013PUB also enables cross-checking of keywords across different newspapers to identify variation in journalistic style. It could also, for example, be used diachronically, either using filters within the same corpus, or contrastively with older corpora to detect consistency, change or temporary fluctuation in language use over time. In this paper, I will present some of the outcomes of a short CDA study that was initiated by corpus work surrounding the keyword přizpůsobivý 182 (adaptable) and its far more frequently and controversially deployed antonym nepřizpůsobivý (inadaptable) as a typical noun/adjectival descriptor for Roma (and, to a lesser extent, other socially excluded minorities), and common collocations of its wide range of forms in the Czech print media. This small example keyword can be used as evidence that, while the concept of dysphemism typically encompasses explicitly derogatory and usually proscribed naming strategies, at the micro-text level it can also include more common “acceptable” (i.e. legally or ethically permissible, or euphemistic/ dysphemistic) stereotyping devices. The use of a corpus can also provide information such as whether a keyword occurs predominantly in quotations used by journalists as informants or in other unattributed contexts, or whether it is used more frequently in some newspapers rather than others. As a component of CDA, corpus data can be seen as an empirical tool that functions as a basis for further extended media research. This can include the semantic analysis of, for example, inclusionary/exclusionary pronoun use, topoi, weak modality or stylistic features such as metaphor and cliché, as well as broader text-related issues such as narrative structure. In this way, a single keyword can open up for analysis a more manageable but safely representative range of relevant texts. References Reisigl, M. & Wodak, R. (2001). Discourse and Discrimination: Rhetorics of Racism and Anti-semitism. London: Routledge. Gabrielatos, C. & Baker, P. (2008). Fleeing, Sneaking, Flooding: A Corpus Analysis of Discursive Constructions of Refugees and Asylum Seekers in the UK Press, 1996–2005. Journal of English Linguistics, 36 (1), 5–38. Hardt-Mautner, G. (1995). Only connect: Critical Discourse Analysis and Corpus Linguistics. UCREL Technical Papers, vol. 6, UCREL-University of Lancaster, UK. Slavíčková, T. & Zvagulis, P. (2014, forthcoming). Monitoring anti-minority rhetoric in the Czech print media: A critical discourse analysis. Journal of Language and Politics. 183 Jindra Světlá Ústav pro jazyk český AV ČR [email protected] Uvádění stupňovaných tvarů u adjektiv a adverbií v novém všeobecném výkladovém slovníku češtiny V roce 2012 byly zahájeny práce na Akademickém slovníku současné češtiny (ASSČ), který má obsahovat 120 000 až 150 000 slovníkových hesel. Ve slovníku je omezeno hnízdování (přihnízdovány jsou pouze zdrobněliny a jména přechýlená); všechna adjektiva (včetně vztahových) a adverbia budou zpracována jako samostatná hesla. Každé heslo obsahuje strukturovaný výklad významu, přiměřeně bohatou exemplifikaci dokumentující typická užití dané lexikální jednotky, propracovaný popis základních sémantických vztahů i rozšířený popis gramatických vlastností. Konkrétně u adjektiv to znamená, že vedle údaje o slovním druhu uvádíme navíc též informace o stupňování. Slovník spisovného jazyka českého (SSJČ) a Slovník spisovné češtiny (SSČ) uváděl pouze nepravidelné tvary, popř. specifika některého významu; poprvé je důsledně uvádí Slovník súčasného slovenského jazyka (SSSJ), a to v záhlaví, pokud platí pro všechny významy, nebo u konkrétního významu. V Akademickém slovníku současné češtiny u stupňovatelných adjektiv uvádíme 2. stupeň (včetně kodifikované variantní podoby) v rámci tvaroslovné charakteristiky, a to nejen na základě Internetové jazykové příručky – vše zároveň ověřujeme na materiálu psaných textů, zda je to opravdu doloženo (a v některých případech nejsme s IJP v souladu); u adjektiv vztahových uvádíme tento údaj v případě lexikalizace kvalifikačního významu (k základním typovým kvalifikačním významům primárně vztahových adjektiv patří význam charakteristické vlastnosti a význam podobnosti; indikátorem kvalifikačních významů je právě stupňovatelnost). Stejná pravidla platí pro příslovce, avšak u nich informaci o stupňovatelnosti uvádíme pouze tehdy, je-li tvar 2. nebo 3. stupně v námi používaných zdrojích opravdu doložen. Na základě podrobné analýzy materiálu u zpracovaných hesel z písmen A, B jsme došli k závěru, že u všech polysémních hesel je navíc třeba vyhodnocovat, zda lze adjektivum opravdu stupňovat ve všech významech, a podle toho se teprve rozhodujeme, kam příslušný údaj uvedeme. Tvar 2. stupně se tedy uvádí v záhlaví, pokud se vztahuje k celé lexikální jednotce, tj. platí pro 184 všechny významy. Pokud platí jen pro některý význam polysémního slova, uvádí se v tvaroslovné charakteristice na úrovni významu. Takové případy (platnost jen pro některý význam) důsledně exemplifikujeme. U ostatních stupňovatelných adjektiv rozhodujeme o uvedení příkladů na stupňované tvary v příkladové části hesla (exemplifikaci) na základě různých faktorů, nejen podle doloženosti 2. či 3. stupně v korpusu syn či jinde (Newton, internet), ale i podle celkové frekvence daného lemmatu, podle počtu a charakteru jeho významů, podle vhodnosti dokladů pro slovníkové heslo z hlediska jejich délky, typičnosti, jednoznačnosti atd. Důležitým aspektem je i časová náročnost výběru a ověřování vhodných příkladů ve vztahu k celkové zpracovatelské normě na jedno slovníkové heslo. Při analýze materiálu vycházíme především z korpusových zdrojů. Základní materiálovou základnou pro zpracování hesel v připravovaném Akademickém slovníku současné češtiny je synchronní korpus psaných textů SYN (ÚČNK). V případě nedostatečnosti korpusového materiálu pro naše potřeby, tj. dokládání úzu, čerpáme i z elektronického archivu společnosti Newton Media, a. s. (archivu celostátních i regionálních tištěných periodik a přepisů publicistických pořadů z televize a rozhlasu), v nezbytných případech dohledáváme potřebná data i na internetu (pomocí vyhledávače Google). Práce s korpusovým materiálem je při zpracování hesla založena v zásadě na kombinaci dvou postupů: 1. práce s náhodným vzorkem 300 konkordancí, na jejímž základě vyhodnocujeme sémantickou strukturu lexému v porovnání se slovníkovými zdroji; pro málo či nedostatečně doložené významy zadáváme speciální dotazy, nebo tyto významy ověřujeme a dohledáváme k nim vhodné doklady v jiných zdrojích; u lemmat s nižší frekvencí (do 400/500 výskytů v korpusu SYN) prohlížíme všechny konkordance; 2. práce s nástrojem Word Sketch (dále WS) aplikace The Sketch Engine, na jejímž základě vyhodnocujeme typické kolokace a kandidáty na víceslovná pojmenování a frazémy; 3. Základní zpracování hesel vychází z analýzy konkordancí vztahujících se k lemmatu, kdežto pro vyhodnocení stupňovatelnosti adjektiv používáme navíc blíže specifikované dotazy. V příspěvku se dále budeme podrobněji zabývat těmito tématy: • frekvence 2. a 3. stupně v korpusu a dalších zdrojích; • vhodnost korpusových dokladů pro slovníkové heslo (problémy s výběrem příkladů pro exemplifikaci, nejčastější konstrukce v použitých 185 příkladech, jednoznačnost příkladů se stupňovanými tvary v rámci konkrétního významu); • stupňovatelnost u polysémních hesel (platnost informace o stupňování na úrovni celého hesla, nebo jednotlivých významů); • paralelnost zpracování dvojic adjektivum – adverbium v rámci slovotvorného hnízda (do jaké míry bývá stupňování doloženo v úzu); • na závěr příspěvku se zaměříme na problematiku adjektiva brzký a vztahu mezi tvary brzčejší a dřívější (gramatické příručky a jednotlivé výkladové slovníky k nim přistupují různě). Literatura Bozděchová, I. (1990). Ke stupňování složených přídavných jmen. Naše řeč, 73, 241–248. Buzássyová, K. (1989). Potencie a smery pohybov v adjektívnej lexike. In Dynamika slovnej zásoby súčasnej slovenčiny. Bratislava: VEDA, 169–179. Cvrček V. a kol. (2010). Mluvnice současné češtiny. Praha: Karolinum. Jarošová, A. (2008). Spracovanie adjektív v Slovníku súčasného slovenského jazyka s osobitným zretelom na andektíva vzťahové. In Lexikografie v kontextu informační společnosti. Praha: ÚJČ AV ČR, 59–72. Karlík, P. & Hladká, Z. (2004). Kam s ním? (Problém stupňování adjektiv). In Život s morfémy. Brno: MU, 73–93. Kopřivová, M. (2005). Malé adjektivní korpusové pozorování. In Jazyky a jazykověda. Praha: FF UK – ÚČNK, 307–312. Křivan, J. (2012). Komparativ v korpusu: explanace morfematické struktury českého stupňování na základě frekvence tvarů. SaS, 1, 13–45. Nábělková, M. (2008). Futbalový, futbalovejší a iné... In Lexikografie v kontextu informační společnosti. Praha: ÚJČ AV ČR, 73–93. Nábělková, M. (1997). Slovotvorná potencialita a lexikálna norma. In Slovenčina na konci 20. storočia, jej normy a perspektívy. Sociolinguistica slovaca 3. Bratislava: VEDA. Nábělková, M. (1993). Vzťahové adjektíva v slovenčine. Bratislava: VEDA. Panevová, J. (2007). Stupňování adjektiv a valence. In Gramatika a korpus. Praha: ÚJČ AV ČR, 197–205. Štícha, F. a kol. (2013). Akademická gramatika spisovné češtiny. Praha: Academia. 186 Karel Šebesta Ústav českého jazyka a teorie komunikace FF UK [email protected] Využití speciálních korpusů Českého národního korpusu pro výzkum jazykového vývoje žáků Mezi synchronními korpusy zařazenými do Českého národního korpusu v posledních letech najdeme i specifickou skupinu speciálních korpusů zaměřených na jazyk osob, které si češtinu (dosud) neosvojily na úrovni odpovídající úrovni dospělého rodilého mluvčího. Jde primárně o korpusy (a) jazyka mládeže ve věku školním, a to mluvy vernakulární i mluvy zachycené v prostředí oficiálním či polooficiálním a rovněž písemných projevů různého stupně formálnosti, (b) jazyka nerodilých mluvčích (dětí, mládeže i dospělých, opět zachyceného v různých prostředích), (c) jazyka osob vyrůstajících v sociokulturně znevýhodňujícím prostředí; připravují se a v různém stavu rozpracovanosti jsou korpusy (d) jazyka dětí předškolního věku a (e) jazyka osob s jazykovými poruchami. Sekundárně patří do této skupiny speciálních korpusů rovněž korpusy zachycující jazyk komunikace, která je s jazykovým vývojem uvedených skupin osob přímo spjata, jako jsou (a) rozhovory rodičů s dětmi, především předškolního věku, (b) pedagogická komunikace ve škole mateřské, v základních školách i v dalších typech a stupních škol, (c) komunikace v jazykové třídě (zvláště při vyučování cizího jazyka) či jazyk učebnic, zvláště jazykových. Korpusy uvedeného typu mají význam ne pouze pro lingvisty a badatele v oblasti osvojování jazyka a jazykového vývoje (viz H. Behrens), ale rovněž pro psychology, pedagogy a sociology se zájmem o příslušné skupiny osob, resp. různé typy pedagogické komunikace, a ovšem také pro edukační praxi – zde lze uvést např. přípravu učebních materiálů, slovníků a učebnic pro žáky, které by byly lépe přizpůsobeny jejich úrovni a specifickým potřebám, přípravu testů, ale i přímé využití při výuce (viz např. A. O´Keeffe; M. McCarthy; R. Carter). Zatím bylo (resp. k datu konání konference bude) zveřejněno šest těchto korpusů: korpus přepisů nahrávek vyučovacích hodin na českých základních a středních školách SCHOLA 2010, dále korpus písemných prací 187 českých žáků základních a středních škol, a to jednak v základní verzi, bez chybového značkování (SKRIPT 2012), jednak s provedenou chybovou anotací (SKRIPT 2014), nereferenční korpus psaného jazyka nerodilých a zčásti rodilých mluvčích CZESL-PLAIN bez metadat, rozšířený korpus písemných projevů nerodilých mluvčích s metadaty a nezbytnou anotací CZESL 2013 a korpus písemných projevů žáků ze sociokulturně znevýhodněných komunit uvedených souběžně s písemnými projevy žáků týchž věkových skupin z většinové, nehandicapované komunity ROMi 2014. Příspěvek se pokusí ukázat na dvou příkladech, jaké nové možnosti poznání jazykového vývoje žáků ve věku školní docházky zveřejněné korpusy nabízejí. Půjde zejména: • o zkoumání vývoje v oblasti psané syntaxe, kde máme možnost porovnání s analogickými výzkumy zahraničními (R. Berman, M. Nippold apod.) i s některými staršími výzkumy domácími, které se ovšem nemohly opírat o využití elektronických korpusů (např. M. Klimeš, M. Kala/M. Benešová apod.); • o zkoumání toho, jak se s věkem žáka mění jeho způsob práce s některými variantními prostředky češtiny, především s prostředky označovanými jako spisovné a obecněčeské. Příspěvek zároveň ukáže na některá omezení zatím zveřejněných spe ciálních korpusů, založených v zásadě na sběrech transverzálních a pseudolongitudinálních, a představí nový, aktuálně probíhající projekt budování longitudinálních korpusů psané a mluvené češtiny školní mládeže, rodilých i nerodilých mluvčích, s důrazem na nové prvky, které tyto korpusy v porovnání s korpusy dosud existujícími přinášejí. Vedle povahy jazykového materiálu a částečně odlišné struktury metadat půjde zejména i o nový typ zpracování jazykových dat, který otevře, jak doufáme, i nové možnosti badatelského využití. Literatura Behrens, H. (Ed.) (2008). Corpora in language acquisition research. History, methods, perspectives. Amsterdam: John Benjamins. Berman, R. A. (Ed.) (2004). Language development across childhood and adolescents. Trends in language acquisition research: Vol. 3. Amsterdam: John Benjamins. Kala, M. & Benešová, M. (1989). Písemný a mluvený projev žáků ZŠ. Olomouc: Pedagogická fakulta Univerzity Palackého v Olomouci. 188 Klimeš, L. (s. n.). Vývoj písemných projevů žáků ZDŠ. Habilitační práce, nepubl. Nippold, M. A. (1998). Later language development: The school age and adolescent years. 2nd ed. Austin, TX: Pro-Ed. O´Keeffe, A., McCarthy, M. & Carter, R. (2007). From corpus to classroom. Language use and language teaching. Cambridge: Cambridge University Press. Magda Ševčíková Ústav formální a aplikované lingvistiky MFF UK [email protected] Přípona -ství/-ctví v současné češtině (korpus jako zdroj dat pro zkoumání slovotvorby) V příspěvku na příkladu přípony -ství/-ctví představíme možnosti slovotvorného výzkumu založeného na korpusových datech, navazujeme přitom na novější práce českých lingvistů z oblasti slovotvorby. Přípona -ství/-ctví je zajímavá jak z hlediska distribuce (odvozuje od adjektivních i substantivních základů domácího i cizího původu) i z hlediska sémantiky (vyjadřuje více významů než např. přípona -ost, která zkoumané příponě konkuruje ve významu vlastnosti). Při naší analýze vycházíme z popisu této přípony ve slovotvorných příručkách. Přípona -ství/-ctví bývá řazena mezi transpoziční přípony odvozující názvy vlastností (Dokulil 1962: 43n., Cvrček et al. 2010: 85, Čermák 2012: 249), a to od adjektiv s příponou -ský/-cký, zřídka od jiných adjektiv (př. bohatství, lakomství; Daneš et al. 1967, Hauser 1986: 128, Grepl et al. 2000: 138n.). Některé deriváty (př. opilství / opilectví) jsou některými autory interpretovány jako produkty desubstantivní derivace, názory jednotlivých autorů se zde ovšem různí (srov. Šmilauer 1971: 63, Dokulil et al. 1986: 297n., Cvrček et al. 2010: 95, Čermák 2012: 74n., Štícha et al. 2013: 140n.). Kromě významu vlastnosti 189 se řada substantiv s touto příponou specializuje na označení oboru činnosti, povolání, prodejny či provozovny, rodinného stavu, území, myšlenkových, uměleckých, politických a náboženských směrů ad. (př. řeznictví, instalatérství, hutnictví, sochařství, manželství, království, křesťanství). Z hlediska produktivity je analyzovaná přípona v kategorii názvů vlastností řazena na druhé místo, za příponou -ost (Dokulil a kol. 1986: 297, Hauser 1986: 128). Naši analýzu zakládáme na datech z reprezentativních korpusů češtiny (SYN2000, SYN2005 a SYN2010), pro doplnění a komparaci využíváme korpusy publicistických textů (SYN2006PUB, SYN2009PUB a SYN2013PUB). Korpusové doklady derivátů s příponou -ství/-ctví analyzujeme především z hlediska sémantického (vedle významu vlastnosti vymezujeme několik nekvalitativních významů, frekventovaný je význam myšlenkových, uměleckých, politických a náboženských; řada derivátů význam vlastnosti nevyjadřuje) a stylového. Podrobně se zabýváme stanovením základového slova: kromě derivátů, které lze vztáhnout k adjektivnímu i substantivnímu základu, si všímáme derivátů, jejichž základem mohou být dvě adjektiva (př. těhotenství: těhotný / těhotenský), a derivátů, k nimž základové adjektivum neexistuje nebo je řídké (a lze ho spíše interpretovat jako derivát substantiva na -ství/-ctví; př. výtržnictví: výtržník / ?výtržnický). Pozornost věnujeme také původu základového slova. Tato analýza je doplněna analýzou kvantitativních údajů: zjišťujeme počet výskytů slov obsahujících zkoumanou příponu, celkový počet odpovídajících lemmat a také počet lemmat, která mají v korpusových datech jediný výskyt (tedy lemmata doložená jedinou formou, tzv. „hapax legomena“, Baayen 1992). Na základě těchto údajů je s použitím etablovaných kvantitativním měr (míry P a P*, Baayen 1992, 1993; míra P je nově implementována v aplikaci Morfio pracující s daty ČNK, Cvrček & Vondřička 2013) stanovena produktivita přípony -ství/-ctví a porovnána s dalšími příponami uplatňujícími se (mimo jiné) v názvech vlastností, konkrétně s příponami -ost, -ismus a -ita. Podle míry P, která je vypočtena jako poměr počtu hapax legomena s daným formantem k celkovému počtu forem s tímto formantem v daném korpusu, je přípona -ství/-ctví méně produktivní než přípona -ost, ale také než -ismus. Na základě míry P* (poměr hapax legomena s daným formantem k počtu všech hapax legomena v daném korpusu) se přípona -ství/-ctví v porovnávané čtveřici řadí za příponu -ost na druhé místo. V příspěvku poukážeme na problémy tohoto kvantitativního přístupu k slovotvorné produktivitě – vedle obecnějších výhrad důkladně diskutovaných v evropské 190 lingvistice (srov. např. Štekauer & Lieber 2005, Bauer 2001) uvedeme i problémy specifické pro češtinu – a produktivitu zkoumané přípony se pokusíme posoudit na základě kombinace analýzy systémových aspektů s kvalitativními charakteristikami (srov. Štícha 2012, 2007; Lüdeling & Evert 2005). Zabýváme se rovněž dvojicemi (až čtveřicemi) slov, která jsou od stejných základů derivována konkurujícími si příponami (př. zoufalství vs. zoufalost, pastafariánství vs. pastafarianismus, intelektuálství vs. intelektuálnost vs. intelektualismus vs. intelektualita). Korpusový materiál ukazuje, že přípona -ství/-ctví se prosazuje i v kombinaci s cizími základy (př. pastafariánství), a to i v případech, kdy byla do češtiny převzata varianta se sufixem cizího původu (užívaná v cizích jazycích: pastafarianismus). Grantová podpora: Tento příspěvek vznikl za podpory projektu GA ČR P406/12/P175. Literatura Baayen, H. (1992). Quantitative aspects of morphological productivity. In G. E. Booij & J. van Marle (Eds.), Yearbook of Morphology 1991. Dordrecht: Kluwer, 109–149. Baayen, H. (1993). On frequency, transparency, and productivity. In G. E. Booij & J. van Marle (Eds.), Yearbook of Morphology 1992. Dordrecht: Kluwer Academic Publishers, 181–208. Bauer, L. (2001). Morphological Productivity. Cambridge: Cambridge University Press. Cvrček, V. , Kodýtek, V., Kopřivová, M., Kováříková, D., Sgall, P., Šulc, M., Táborský, J., Volín, J. & Waclawičová, M. (2010). Mluvnice současné češtiny. Praha: Karolinum. Cvrček, V. & Vondřička. P. (2013). Nástroj pro slovotvornou analýzu jazykového korpusu. In Grammar & Corpora / Gramatika a korpus 2012. Hradec Králové: Gaudeamus. Čermák, F. (2012). Morfématika a slovotvorba češtiny. Praha: NLN. Český národní korpus – SYN2000. (2000). Praha: Ústav Českého národního korpusu FF UK. Dostupný z WWW: <http://www.korpus.cz>. Český národní korpus – SYN2005. (2005). Praha: Ústav Českého národního korpusu FF UK. Dostupný z WWW: <http://www.korpus.cz>. Český národní korpus – SYN2010. (2010). Praha: Ústav Českého národního korpusu FF UK. Dostupný z WWW: <http://www.korpus.cz>. 191 Český národní korpus – SYN2006PUB. (2006). Praha: Ústav Českého národního korpusu FF UK. Dostupný z WWW: <http://www.korpus.cz>. Český národní korpus – SYN2009PUB. (2009). Praha: Ústav Českého národního korpusu FF UK. Dostupný z WWW: <http://www.korpus.cz>. Český národní korpus – SYN2013PUB. (2013). Praha: Ústav Českého národního korpusu FF UK. Dostupný z WWW: <http://www.korpus.cz>. Dokulil, M. (1962). Tvoření slov v češtině 1: Teorie odvozování slov. Praha: Nakladatelství ČSAV. Dokulil, M., Horálek, K., Hůrková, J., Knappová, M., Petr, J. et al. (1986). Mluvnice češtiny 1. Fonetika, fonologie, morfonologie a morfematika, tvoření slov. Praha: Academia. Daneš, F., Dokulil, M. & Kuchař, J. (1967). Tvoření slov v češtině 2: Odvozování podstatných jmen. Praha: Nakladatelství ČSAV. Grepl, M., Hladká, Z., Jelínek, M., Karlík, P., Krčmová, M., Nekula, M., Rusínová, Z. & Šlosar, D. (2000). Příruční mluvnice češtiny. Druhé, opravené vydání. Praha: NLN. Hauser, P. (1986). Nauka o slovní zásobě. Druhé vydání. Praha: SPN. Lüdeling, A. & Evert, S. (2005). The emergence of productive non-medical -itis. Corpus evidence and qualitative analysis. In S. Kepser & M. Reis (Eds.), Linguistic Evidence. Empirical, Theoretical and Computational Perspectives. Berlin – Boston: Mouton De Gruyter, 351–370. Šmilauer, V. (1971). Novočeské tvoření slov. Praha: SPN. Štekauer, P. & Lieber, R. (Eds.). (2005). Handbook of Word-Formation. Dordrecht: Springer. Štícha, F. (2007). Korpusové statistiky a slovotvorná produktivita. In F. Štícha & J. Šimandl (Eds.), Grammar & Corpora / Gramatika a korpus 2005. Praha: Academia, 250–257. Štícha, F. (2012). Jak v epoše elektronických korpusů následovat Miloše Dokulila (Miloši Dokulilovi ke stému výročí narození). Jazykovědné aktuality, 49, 95–107. Štícha, F., Vondráček, M., Kolářová, I., Hoffmannová, J., Bílková, J. & Svobodová, I. (2013). Akademická gramatika spisovné češtiny. Praha: Academia. 192 Mária Šimková Slovenský národný korpus JÚĽŠ SAV [email protected] Predložky s časovým významom v slovenčine a v češtine Na vyjadrenie časových významov slúžia v jazyku rôzne prostriedky, v rámci lexikálnych prostriedkov aj predložky. Predložkové systémy a podsystémy zároveň predstavujú dôležitú tému v oblasti porovnávacích výskumov, zisťovania jazykových univerzálií, ako aj zhôd a rozdielov v príbuzných jazykoch. V príspevku porovnávame podsystém predložiek s časovým významom v slovenčine a v češtine na základe slovníkových a gramatických opisov a na základe fungovania v rovnakých textoch v paralelnom slovensko-českom a česko-slovenskom korpuse. Slovenčina a čeština disponujú pomerne stabilným a do značnej miery podobným inventárom prvotných predložiek (napr. do, z, v, na, k, u, s, pred/ před, za, po, o), viaceré z nich slúžia aj na vyjadrenie časových vzťahov. Ich konkrétne významy a použitia však nie sú v týchto jazykoch vždy totožné, napr. sl. o chvíľu – čes. za chvíli, sl. o šiestej – čes. v šest, čes. o Vánocích – sl. na Vianoce, cez Vianoce. Kým „o Vianociach“ v časovom význame (= počas Vianoc) sa v slovenčine nepoužíva, predložkové spojenia „za chvíľu, za hodinu, za tri minúty sedem“ môžeme zaradiť medzi kontaktové javy, ktoré slovenskí hovoriaci používajú, hoci sú sústavne upozorňovaní, aby na dané vyjadrenie časového významu uplatňovali náležitú predložku o. Zároveň však v slovenčine funguje v časovom význame aj predložka za, ktorou sa vyjadruje v spojení s niektorými substantívami v G časový priebeh (za noci, za mlada) a v A časový rozsah (urobiť niečo za chvíľu = rýchlo // prísť o chvíľu = po uplynutí chvíle). V obidvoch jazykoch sa časové významy môžu vyjadrovať predložkovými väzbami aj príslovkovými výrazmi utvorenými pomocou predpôn (napr. za rána, zrána). V paralelných korpusoch sa neraz vyskytuje kríženie potenciálnych zhodných ekvivalentov v rovnakých textoch, napr. oproti sl. za rána je čes. zrána, sl. k večeru – čes. navečer a opačne oproti sl. zrána je čes. za rána, sl. podvečer/navečer – čes. k večeru. Môžeme pri týchto prípadoch uvažovať o snahe prekladateľa nepoužiť v preklade formálne rovnaký 193 jazykový prostriedok, hoci je systémový aj funkčný (v slovenčine a češtine ako blízkopríbuzných jazykoch je takýchto slov značné množstvo), ale aspoň trochu odlíšiť, variovať preklad oproti originálu. V rámci druhotných predložiek sledujeme výraznejšiu tendenciu k diferencovanosti, keď oproti jednému výrazu v jednom jazyku stoja/používajú sa viaceré výrazy alebo opisné spôsoby, alebo aj nulové vyjadrenia v druhom jazyku. Napr. na mieste predložky počas, ktorá sa v tejto forme vyskytuje iba v slovenčine, sa v paralelných českých textoch nachádzajú predložky a spojenia v(e), za, během, při, Ø, po čas, mezi, o. K uvedeným českým predložkám existujú v spisovnej slovenčine príslušné pendanty okrem kontaktového „behom“, ktoré v časovom význame odporúčajú slovenské slovníky nahradiť slovenskými predložkami v priebehu, počas, cez, za. Pri prekladoch nastávajú aj situácie, keď výpoveď v origináli neobsahuje časovú predložku, autor pracuje s významom miery, no prekladateľ vsunutím časovej predložky posunie význam výpovede: V treskúcej zime , v ktorej dokonca zamrzol Dunaj tak , že sa po ňom dalo prejsť , zvolil snem za uhorského kráľa Mateja Huňadyho , zvaného Korvín , podľa havrana v znaku . -- V třeskuté zimě , během níž dokonce zamrzl Dunaj tak , že se po něm dalo přejít , zvolil sněm za uherského krále Matyáše Hunyada , zvaného Korvín , podle havrana ve znaku . Pre slovenčinu typické podvojné (poza, popred), ba aj potrojné predložky (spopod, spopred) nemajú spravidla v českom jazyku zodpovedajúci jednoslovný ekvivalent, v prekladoch slovenských textov do češtiny sa musia nahrádzať jednoduchými predložkami alebo rôznymi opismi: Julčine vety v ňom znovu najprv nechtiac privolávali pachy spred desaťročí ... -- Julčiny věty mu znovu , zprvu nechtěně přivolávaly pachy staré několik desetiletí ... 194 Jana Šindlerová Ústav formální a aplikované lingvistiky MFF UK [email protected] Alternace aktoru a instrumentu v paralelním českoanglickém korpusu V příspěvku se budeme zabývat jedním typem rozdílu v zachycení valenčních struktur v českém a anglickém valenčním slovníku a paralelním českoanglickém syntakticky anotovaném korpusu. Syntakticky jde o konstrukce, které se projevují např. v tzv. alternaci subjektu a instrumentu (InstrumentSubject Alternation) (1), alternaci subjektu a abstraktní příčiny (Abstract Cause-Subject Alternation) (2) nebo alternaci subjektu a locata (Locatum Subject Alteranation) (3) (Levin 1993). Vzhledem k hloubkové valenci jde o dvojí možnou valenční strukturaci slovesa, přičemž vnější (non-core) argument přechází do pozice vnitřního (core) argumentu, a zároveň dochází k dekauzativizaci významu, tj. odsunutí původního aktora do pozadí situační perspektivy. (1a) Pavel otevřel dveře čipovou kartou. (1b) Čipová karta otevřela dveře. (2a) Pavel ohromil Petra svými znalostmi. (2b) Pavlovy znalosti Petra ohromily. (3a) Pavel zaplnil krabici věcmi. (3b) Věci zaplnily krabici. Vycházíme z dlouhodobého výzkumu rozdílů valence sloves v češtině a angličtině na materiálu paralelního Pražského česko-anglického závislostního korpusu (Hajič et al. 2011), s využitím doplňkových zdrojů valenčních charakteristik českých a anglických sloves, jmenovitě elektronických valenčních slovníků PropBank (Kingsbury et al. 2002), Verbnet (Schuler 2005), Framenet (Ruppenhoffer et al. 2006), VALLEX (Lopatková et al. 2008), Engvallex (Cinková 2006) a PDT-Vallex (Urešová 2011b). Při syntakticko-sémantické analýze valenčních vztahů budeme vzhledem k charakteru korpusových dat používat zejména terminologii funkčního generativního popisu (FGP) (Urešová, 2011a) a doplňkově též terminologii běžně užívanou v dalších známých přístupech k teorii argumentové struktury. 195 Konstrukce alternujícího aktoru (ACT) a instrumentového doplnění (MEANS) představují specifický problém v rámci vzájemného mapování valenčních struktur v paralelním korpusu. Zatímco model FGP při zpracování českých závislostních dat nepočítá s rozdílem mezi alternujícími vyjádřeními tohoto druhu jakožto se signifikantním rozdílem vynucujícím zachycení dvěma samostatnými valenčními rámci, a tudíž přiřazuje ve slovníku PDTVallex strukturám typu (1a) i (1b) tentýž valenční rámec ACT PAT (v případě slovníku VALLEX pak ACT PAT MEANStyp), anglický valenční slovník Engvallex, konvertovaný do modelu FGP z původního amerického valenčního slovníku PropBank Lexicon, tento rozdíl zachycuje dvěma valenčními rámci, ACT PAT vs. ACT PAT ?MEANS. Je proto možné v datech nalézt ekvivalentní překlady věty typu (4a) větami typu (4b) a (4c), v nichž při zachycování propojení valenčních struktur dochází ke konfliktu vzhledem k premise, že při propojování dvou konkrétních rámců lze nalézt pouze jediné možné namapování jednotlivých doplnění rámce. Tato premisa vychází z pojetí, v němž se rozlišuje strukturní a situační význam slovesa, přičemž jednomu situačnímu významu lze přiřadit více významů strukturních, které se liší např. pravdivostními podmínkami a jsou jednoznačně určeny valenčním rámcem. Změny ve valenci jsou pak vždy indikátorem změny strukturního a/nebo situačního významu. (4a) Paul astonished Peter with his knowledge. (4b) Pavel ohromil Petra svými znalostmi. (4c) Pavlovy znalosti Petra ohromily. Přitom je nutno mít na paměti, že existují slovesa, v jejichž případě je instrumentálem vyjádřený situační participant považován i v teorii FGP za argument (vnitřní doplnění slovesa), na rozdíl od doplnění typu MEANS, jež jsou v teorii FGP považována vždy za adjunkt. V takových případech pak ve valenčním slovníku existují dva samostatné valenční rámce, viz (5a) a (5b). (5a) Tomáš.ACT nahradil manželku.PAT milenkou.EFF. (5b) Milenka.ACT nahradila (Tomášovi.ADDR) manželku.PAT. Specificky se rozdílné mapování projevuje i v pasivních konstrukcích typu (6), kde při syntaktických anotacích anglických vět není jasné, zda je participant vyjádřený instrumentálem původním aktorem (ACT) nebo instrumentem (MEANS), tj. je-li podkladovou strukturou pro pasivizaci věta (1a), či (1b). (6) Dveře byly otevřeny čipovou kartou. 196 V článku se budeme věnovat detailnímu rozboru konstrukcí s alternací doplnění ACT a MEANS z hlediska syntaktického a sémantického. Zaměříme se na analýzu jednotlivých situačních participantů a jejich syntaktických ekvivalentů, zejména v pozici „neagentního subjektu“ (Alexiadou et al. 2006) a v pozici předložkové fráze v pasivní konstrukci (s přihlédnutím k typu a sémantice užitých předložek). Výše zmíněné konstrukce porovnáme s dalšími blízkými strukturami, např. obsazením aktorové pozice nepersonálním původcem děje (7a, b). (7a) Petra zabil blesk. (7b) Petr byl zabit bleskem. Pokusíme se stanovit a zdůvodnit, zda se jedná o dvě instance jednoho valenčního rámce (jak je to v současnosti zachyceno ve slovníku PDT-Vallex), nebo je-li vhodné na úrovni valenčních rámců obě alternující struktury rozlišovat (varianta dle Engvallexu), a jak tato otázka souvisí s otázkou „argumentnosti“/valenčnosti doplnění typu MEANS u sloves určitých sémantických tříd. Alternující konstrukce typu ACT-MEANS mohou mít různé pravdivostní podmínky dané různým dosahem slovesného děje. Ve větě (8a) je cílem negativní evaluace celá osoba jménem Pavel, zatímco ve větě (8b) je cílem pouze dílčí akt Pavlovy odpovědi a vztah Jany k Pavlovi jako k osobě nelze spolehlivě vyvodit. (8a) Pavel naštval Janu svou odpovědí. (8b) Pavlova odpověď Janu naštvala. To nás vede k domněnce, že se jedná o tzv. lexikalizované alternace, tj. sémanticky blízká užití jednoho slovesa mající stejný situační obsah, ale rozdílný strukturní význam (Kettnerová 2012). Literatura Alexiadou, A. & Schäfer, F. (2006). Instrument subjects are agents or causers. In D. Baumer, D. Montero & M. Scanlon (Eds.), Proceedings of WCCFL, Vol. 25. Somerville, 40–48. Cinková, S. (2006), From Propbank to Engvallex: Adapting the PropBank-Lexicon to the Valency Theory of the Functional Generative Description. In Proceedings of the Fifth International Conference on Language Resources and Evaluation (LREC 2006), Genova, Italy. Hajič, J., Hajičová, E., Panevová, J., Sgall, P., Cinková, S., Fučíková, E., Mikulová, M., Pajas, P., Popelka, J., Semecký, J., Šindlerová, J., Štěpánek, J., 197 Toman, J., Urešová, Z., & Žabokrtský, Z. (2011). Prague Czech-English Dependency Treebank 2.0. Kettnerová, V. (2012). Lexikálně-sémantické konverze ve valenčním slovníku. Dizertační práce. Prague: Charles University, Czech Republic. Kingsbury, P. & Palmer, M. (2002). From Treebank to Propbank. In Proceedings of the 3rd International Conference on Language Resources and Evaluation (LREC-2002). Citeseer, 1989–1993. Levin, B. (1993). English verb classes and alternations: A preliminary investigation. Chicago: University of Chicago press. Lopatková, M., Žabokrtský, Z. & Kettnerová, V. (2008). Valenční slovník českých sloves. Praha: Nakladatelství Karolinum. Ruppenhofer, J., Ellsworth, M., Petruck, M., Johnson, Ch. R., & Scheffczyk, J. (2006). Framenet II: Extended theory and practice. Schuler, K. K. (2005). VerbNet: A broad-coverage, comprehensive verb lexicon. PhD thesis. Philadelphia: University of Pennsylvania. Urešová, Z. (2011a). Valence sloves v Pražském závislostním korpusu. Studies in Computational and Theoretical Linguistics. Praha: Ústav formální a aplikované lingvistiky. Urešová, Z. (2011b). Valenční slovník Pražského závislostního korpusu (PDTVallex). Studies in Computational and Theoretical Linguistics. Praha: Ústav formální a aplikované lingvistiky. 198 Svatava Škodová Technická univerzita v Liberci [email protected] Michaela Kuchařová Technická univerzita v Liberci [email protected] Václav Lábus Technická univerzita v Liberci [email protected] Jasňa Pacovská Technická univerzita v Liberci [email protected] Reflexe proměn užívání češtiny na základě mluveného korpusu zpravodajského vysílání Českého rozhlasu v letech 1969–2005 Příspěvek představuje kvantitativní a kvalitativní proměny mluvené češtiny na základě korpusu automaticky přepsaných zpravodajských pořadů Českého rozhlasu. Výzkum, který prezentujeme v tomto příspěvku, je součástí rozsáhlého projektu podpořeného Ministerstvem kultury České republiky. Jeho cílem je zpřístupnění archivu historických a současných nahrávek Českého rozhlasu s možností sofistikovaného vyhledávání v automaticky přepsaných textech těchto nahrávek [1]. Použitý korpus obsahuje největší kolekci dokumentů nahraných za posledních 90 let a je na něm možno doložit vývoj vybraných jevů jazyka v tomto období. Daný korpus je specifický paralelním uložení textů na dvou rovinách: jednak samotných nahrávek pořadů, jednak příslušných přepisů těchto pořadů; v korpusu je tak možné zároveň vyhledávat v textech i příslušných zvukových záznamech. V úvodu příspěvku prezentujeme aplikaci použitou pro transkripci audiálního materiálu. Mezi nejznámější dostupné aplikace patří Transcriber AG, který však postrádá některé rysy, které byly pro transkripci rozhlasových pořadů 199 a následné vyhledávání v textech nezbytné, např. podpora pro text a foneticku transkripci v jednom dokumentu; časové dorovnávání na úrovni slova generované rozpoznávačem řeči a další. Z tohoto důvodu byl pro transkripci rozhlasových pořadů vyvinut speciální nástroj pojmenovaný Nano Trans [2, 3]. Pro jazykovou analýzu jsme vybrali zpravodajské relace Českého rozhlasu období 1969–2005, tj. období výrazných politických a sociálních proměn v České republice, které jsou reflektovány i v jazyce. Dané období jsme pro potřeby kvantitativního i kvalitativního popisu proměn rozdělili do pětiletých úseků (a zbývajícího úseku dvouletého), které umožňují i v takto dlouhém období vytvářet přehledné tabulky pro prezentaci výsledků. Zahrnutý materiál pochází z hlavní zpravodajské relace Českého rozhlasu z let 1969–2005 a Československého rozhlasu před rokem 1993, které podrobujeme analýze dlouhodobě [4]. Jmenovitě byly do výzkumu zahrnuty pořady Rozhlasové noviny (1969–1993) a Ozvěny dne (1993–2005), které shrnují domácí a zahraniční události. Ačkoliv se jedná o jeden typ pořadu, můžeme jej považovat za jazykově heterogenní: textově převažují tradiční čtená zpravodajství ve studiu (tj. typově psaná řeč realizovaná audiální formou), kromě nich se zde však vyskytují i záznamy řeči nahrávané mimo studio, a to spontánní mluvené řeči (krátká interview a spontánní komentáře) a připravená mluvená řeč (nahrávky veřejných vystoupení a připravené komentáře). Analýza tedy zahrnuje projevy profesionálních, ale i neprofesio nálních mluvčích. Výzkum prezentuje jednak proměny jazykových jevů z hlediska kvantitativního, které je podporováno možnostmi automatického přepisu řeči; ale také kvalitativní analýzy vybraných jevů. Celkový objem dat zahrnutých do analýzy tohoto příspěvku představuje statisticky reprezentativní množství, opíráme se o 6 580 hodin rozhlasových nahrávek a v přepisu o 48 721 952 oddělených lexikálních jednotek. Do samotných sledovaných jevů dokladujících řečové proměny v daném období jsou zahrnuty nejen jevy v úzkém slova smyslu jazykové, ale i jevy vázané na jazykové vysílání a produkci textu jako takovou. Statisticky dokládáme proměny rychlosti pronesení promluv v celém období; mapujeme proměny ve stylizaci úvodních a finálních frází pořadů, dále proměny v používání subordinačních a koordinačních spojovacích prostředků. Nejrozsáhlejší část práce je věnována proměnám nejfrekventovanějších lexikálních sémanticky samostatných jednotek, které jsou mapovány z hlediska statistického, na jehož základě je jejich užití vybraných jednotek interpretová- 200 no s ohledem na socio-politické události daného období. Do této lexikální analýzy zahrnujeme nejen dílčí lexikální jednotky, ale i zkratky a zkratková slova a vybrané metafory (v širokém slova smyslu). Literatura Bohac, M., Blavka, K., Kucharova, M. & Skodova, S. (2012). Post-processing of the Recognized Speech for Web Presentation of Large Audio Archive. TSP 2012, 441–445. Kucharova, M., Skodova, S., Seps, L., Labus, V., Nouza, J. & Bohac, M. (2013). On the Quantitative and Qualitative Speech Changes of the Czech Radio Broadcasts News within Years 1969–2005. TSD 2013, 360–368. Nouza, J., Blavka, K., Cerva, P., Zdansky, J., Silovsky, J., Bohac, M. & Prazak, J. (2012). Making Czech Historical Radio Archive Accessible and Searchable for Wide Public. Journal of Multimedia, 7 (2), 159–169. Skodová, S., Kucharova, M. & Seps. L. (2012). Discretion of Speech Units for the Text Post-processing Phase of Automatic Transcription (in the Czech Language). TSD 2012, 446–455. Michal Škrabal Filozofická fakulta Univerzity Karlovy [email protected] Lubomír Ďuroška [email protected] Cizojazyčné protějšky slov druh a soudruh: situace v lotyštině a slovinštině V dnešní češtině představují slova druh (se svými synonymy přítel, kamarád, společník) a soudruh („označení a vzájemné oslovení komunistů“ – SSČ) dva samostatné lexémy. Dřívější stav, zachycený ještě v SSJČ (2. … (též †spo- 201 ludruh, †spoludružka) poněk. zast., kniž. druh v zaměstnání n. v zábavě; kamarád, přítel 1, druh 1, společník 1), nicméně odpovídá současné situaci v mnoha jiných jazycích, např. lotyštině či slovinštině, kde obě skutečnosti vyjadřuje společný lexém (lot. biedrs, sl. tovariš). Polysémní charakter těchto slov včetně mnoha drobných významových nuancí je zjevný při nahlédnutí do aktuálních výkladových slovníků: Slovník současného lotyšského jazyka (http://www.tezaurs.lv/mlvv/; vzniká od r. 2003 revizí dosavadních dvou výkladových slovníků s přihlédnutím k internetovým a korpusovým datům; předpokládaný rozsah: cca 60 tisíc hesel): biedrs 1. Partner při práci či studiu, s nímž existují věcně přátelské vztahy // Spoluúčastník nějakého dění či události, za nějakých okolností // Člověk mající blízké názory, podobné životní podmínky apod.; 2. Člen (politické strany, společnosti apod.); 3. V sovětském zřízení – oslovovací forma občanů, rovněž zdvořilostní forma, připojovaná před něčí jméno, příjmení či označení funkce Slovník spisovného slovinského jazyka (http://bos.zrc-sazu.si/sskj.html; online verze pětisvazkového slovníku vycházejícího v letech 1970–91, poslední aktualizace 2008, celkem více než 93 tisíc hesel): tovariš 1. Osoba ve vztahu k druhé osobě, se kterou společně něco dělá // Osoba ve vztahu k ženě, se kterou žije ve společném svazku // Osoba ve vztahu k druhé osobě, se kterou je společně vůbec; 2. Osoba ve vztahu k druhé osobě, která patří ke stejnému společenství, má stejné povolání, stejnou pozici // Osoba ve vztahu k druhé osobě, která má stejné společenské postavení // Osoba ve vztahu k druhé osobě, která je ve stejné situaci; 3. Osoba ve vztahu k druhé osobě, se kterou je v přátelském vztahu; 4. Titul dospělého muže [… jako oslovení, přístavek ke jménu, povolání] // hovorově Politický funkcionář; 5. školní žargon Učitel, profesor; [6.] zastarale Společník Nakolik však tento slovníkový popis, neopírající se o korpusová data, odpovídá situaci v dostupných korpusech (lotyšských, slovinských a také paralelních)? Právě v nich budeme pátrat po distribuci jednotlivých významů a změnách v jejich frekvenci za poslední dvě až tři desetiletí. Zajímat nás budou rovněž nejčastější kolokační partneři (a jim odpovídající české ekvivalenty), neboť kolokační profil slova je pro jeho význam určující. Pohled do českých korpusů (série SYN, ale především k. Totalita, vzniklý na základě cílených sond /roky 1952, 1969 a 1977/ do komunistického tisku a ideologicky zatížených publikací) by nám zase mohl naznačit, nakolik bylo slovo soudruh, jakožto jedno ze „slov společensky klíčových“ (Filipec 1992, 3; srov. 202 též Dokulilova /1951, 121/ „slova kádrová“), komunistickým režimem devalvováno a jaké zaujímá postavení v jazyce dnes. V druhé, aplikované části – vycházejíce ze svých vlastních zkušeností dvojjazyčných lexikografů i ze zkoumaných korpusových dat – navrhneme, jak by mělo vypadat ideální zpracování daného lemmatu v chystaném lotyšsko-českém, respektive slovinsko-českém slovníku. To pochopitelně nemůže vzniknout prostým překladem hesla ve výkladovém slovníku zdrojového jazyka, ale musí vycházet z členění významového spektra v jazyce cílovém. Literatura Čermák, F., Cvrček, V. & Schmiedtová, V. (Eds.) (2010). Slovník komunistické totality. Praha: Nakladatelství Lidové noviny. Dokulil, M. (1951). Nová skutečnost v zrcadle slovní zásoby češtiny. Naše řeč, 35, 121–131. Fidelius, P. (2002). Řeč komunistické moci. Praha: Triáda. Filipec, J. (1992). Naše současná společnost, slovní zásoba a slovníky. Naše řeč 75, 1–11. Mūsdienu latviešu valodas vārdnīca (http://www.tezaurs.lv/mlvv/). Slovar slovenskega knjižnega jezika (http://bos.zrc-sazu.si/sskj.html). Slovník spisovného jazyka českého. (1989). Praha: Academia. Schmiedtová, V. (2013). Malý slovník reálií komunistické totality. Praha: Nakladatelství Lidové noviny. Korpusy: Řada SYN, InterCorp, Totalita; Latviešu valodas korpuss LVK2013; Gigafida. 203 Jitka Šonková The University of Iowa [email protected] Rozdíly v rozsahu slovní zásoby v Pražském mluveném korpusu: Kdo má bohatší slovník – junioři, senioři, muži nebo ženy? Jedním z cílů vybudování jazykového korpusu mluveného jazyka bylo srovnání jazykových prostředků mluvčích různého pohlaví, věku a úrovně vzdělání. Následující příspěvek se zabývá variabilitou slovní zásoby mluveného jazyka zachyceného v Pražském mluveném korpusu (ČNK – PMK, 2001). Tento mluvený korpus je založen na více než 100 hodinách nahrávek 504 mluvčích a obsahuje 548 091 slovních tvarů a 25 537 lemmat. Zkoumání jazykových rozdílů v rámci jednotlivých sociolingvistických kategorií bylo provedeno pomocí kvantitativní analýzy současné mluvené češtiny a využívalo programového prostředí Sketch Engine v rámci Českého národního korpusu. Do výzkumu bylo zařazeno celkem 504 mluvčích, z toho 217 mužů a 287 žen. Na základě pohlaví byli mluvčí zvoleni tak, aby zastoupení slov použitých muži a ženami bylo zhruba vyvážené. Pro potřeby tohoto příspěvku byly výsledky dále normalizovány, aby bylo umožněno přesné srovnání jejich relativních četností. Dalšími proměnnými byl věk a stupeň ukončeného vzdělání. Skupina 310 mladších mluvčích byla ve věkovém rozmezí 18 až 35 let a skupina 194 starších mluvčích v rozmezí 36 až 65 let. Skupinu mluvčích se středním vzděláním, které zahrnovalo učební obory i maturitu, tvořilo 268 osob a s vysokoškolským vzděláním 236 osob. Velikost slovníku mluvčích jednotlivých sociolingvistických kategorií byla založena na celkovém množství slovních lemmat použitých všemi mluvčími určité kategorie. Z porovnání velikosti aktivně použité slovní zásoby mluvčích v kategorii žen a mužů vyplývá, že ženy použily celkem 18 010 lemmat, zatímco muži 16 370 lemmat. Velikost aktivního slovníku žen byla tedy větší, než tomu bylo u mužů. Poměr rozdílu je více méně zachován i tehdy, jestliže vyloučíme lemmata, jež se vyskytovala jen ojediněle, například zaměříme-li se na lemmata s četností výskytu převyšující 10 v obou kategoriích. Velikost takto specifikovaného slovníku žen obsahuje 1965 lemmat a ve slovníku mužů 1727 lemmat. Z následné analýzy výsledku 204 vyplývá, že poměrně velká část aktivního slovníku je užívána pouze ženami nebo pouze muži. Například z 25 tisíc lemmat, která se v PMK vyskytují, je jen 9 tisíc lemmat společných mužům i ženám. Zatímco ženy použily dalších 9 tisíc odlišných lemmat, v promluvách mužů se vyskytlo dalších 7 tisíc lemmat, která se neobjevila v promluvách druhého pohlaví. Pro lemmata s četností výskytu přesahující počet 10 obsahuje slovník relativně malou společnou část 600 lemmat. Ženy použily dalších různých 1400 lemmat a muži dalších odlišných 1100 lemmat. V konečném příspěvku se budeme věnovat i ostatním sociolingvistickým kategoriím a uvedeme další podrobnosti, grafy a srovnání. Literatura Český národní korpus – PMK. Ústav Českého národního korpusu FF UK, Praha 2001. http://www.korpus.cz Kilgarriff, A., Rychly, P., Smrz, P., & Tugwell, D. (2004). The Sketch Engine. EURALEX 2004 Proceedings, Lorient, France, 105–116. Jovanka Šotolová Ústav translatologie FF UK [email protected] Olga Nádvorníková Ústav románských studií FF UK [email protected] Za hranice věty Názory překladatelů literárních textů na to, jak nakládat s větou, jsou různé – od přístupu vycházejícího z pojetí věty jako autorsky daného (a pro překlad tedy závazného) strukturního a logického prvku až po názor, že jednoznačně nadřazeným motivem řešení je cílový jazyk a jeho zvyklosti. 205 Řešením je tedy buď takřka přesné kopírování věty originálu jako ohraničeného, významového celku, anebo volné přestylizování, často i bez ohledu na hranice věty. Strategie nakládání s větou při překladu není teoreticky popsána a v praxi se neprosazuje jednotný názor (absence normativní opory); překladatel proto vychází především z vlastní zkušenosti s texty. Přístup se pohybuje mezi nevědomým – podvědomým řešením (překladatel se nad problematikou dosud nezamýšlel, postupuje víceméně instinktivně, nechá se „vést“ zdrojovým textem nebo svým citem pro jazyk, do něhož překládá) až po promyšlenou metodiku. Promyšlený přístup má ale různé podoby: vychází z interpretace zdrojového textu, ze znalosti kontextu daného žánru či tvorby autora, ale často také z přijaté argumentace okolního prostředí (kolegové překladatelé, redaktoři, znalosti ze školy), jež však může mít i charakter předsudku. V našem příspěvku se na základě dat z paralelního korpusu InterCorp pokusíme zjistit, jakým způsobem překladatelé ve francouzsko-české a česko-francouzské části korpusu nakládají s členěním textu na věty. Výzkum bude sledovat dva směry: 1. zda je v tomto ohledu jazyk překladu odlišný od jazyka zdrojového, a 2. do jaké míry se věta jako strukturně-logický prvek originálu otiskuje i do překladu. Pokusíme se popsat různorodost překladatelských přístupů a komentovat jejich důvodnost či bezdůvodnost (viz také Levého pojem překladovost či nověji definovaný efekt translationese). Nejprve definujeme principy, na jejichž základě automatické segmentátory člení texty vkládané do korpusu, a pokusíme se určit nejvýraznější případy, kdy je tato segmentace v rozporu s obvyklou lingvistickou definicí věty. Automatický segmentátor např. považuje středník za hranici věty; bude tedy nutné identifikovat a kvantifikovat tyto případy a zjistit, kdy podobný názor zastávají také překladatelé. Z našich předchozích dílčích studií přitom vyplynulo, že například středník jako členící znaménko někteří překladatelé považují za znak závazný (a přípustný pro převod do češtiny), jiní ho ve svých textech zcela (bez srovnatelné náhrady) eliminují nebo hledají zástupná řešení. Na základě tohoto porovnání technického a lingvistického přístupu vymezíme jednotky, jež budeme považovat za věty, a provedeme statistickou analýzu počtu vět v originálních a odpovídajících překladových textech ve francouzsko-české a česko‑francouzské části paralelního korpusu InterCorp. Získané výsledky porovnáme jednak s dostupnými referenčními jednojazyčnými korpusy (zejména Český národní korpus a FRANTEXT), ale také s daty obsaženými v novém korpusu překladového jazyka Jerome. 206 Tato hrubá statistická data následně upřesníme podrobnou analýzou případů, kdy jednomu segmentu ve výchozím jazyce odpovídá více segmentů v jazyce cílovém a vice versa. Při těchto analýzách se pokusíme brát v úvahu co nejvíce faktorů, které ovlivňují volbu strategie, případně samotný proces překladu, zejména pokud jde o záměr a možnost/nemožnost zachovat specifika stylu výchozího díla (jeho dobové, žánrové, autorské charakteristiky). Pokusíme se odhadnout a kvantifikovat také vliv idiolektu překladatele. Naším cílem bude vytvořit typologii případů, kdy se text členěním na věty v originále a v překladu liší, a zjistit, zda jednotlivé typy nějak odrážejí spíše specifika jazyka překladu, anebo přístupu či idiolektu určitého překladatele, anebo zda se jedná o skutečná specifika cílového jazyka. Technicko-lingvistická analýza tak bude doplněna o pohled translatologický. V poslední fázi budou teoretická východiska výzkumu a statistická data rozšířena ještě o anketní šetření mezi překladateli a redaktory. To sice pro účely této práce poslouží pouze jako dokreslení a dokumentace nejednotného přístupu překladatelů v běžné praxi a zmíněné neexistence preskriptivních modelů; anketa však bude důležitou pomůckou pro šíření závěru výzkumu mezi samotné překladatele. Tím, že je přizveme k diskusi o problematice, vzbudíme v nich snad i zájem o závěry našich rešerší – a tím se celý korpusový výzkum otevře jako užitečný příspěvek k praxi. Literatura Baker, M. (1996). Corpus-based translation studies: The challenges that lie ahead. In H. Somers (Ed.), Terminology, LSP and Translation: Studies in language engineering, In honour of Juan C. Sager. Amsterdam: John Benjamins, 175–186. Levý, J. (1998). Umění překladu. Praha: Ivo Železný. Olohan, M. (2004). Introducing Corpora in Translation Studies. London / New York: Routledge. Ponge, M. (2011). Pertinence linguistique de la ponctuation en traduction (français – espagnol). La Linguistique, 2 (47), 121–136. Rosen, A. & Vavřín, M. (2012). Building a multilingual parallel corpus for human users. In: N. Calzolari et al. (Eds), Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC´12). Instanbul: European Language Resources Association (ELRA), 2447-2452. Seguin, J.-P. (1999). Points, phrases et style dans le texte L’Esprit des lois. Revue Montesquieu, 3, 79–98. 207 Šotolová, J. (2013). Sur le point-virgule et autres détails éphémeres. Etudes Romanes de Brno, 1 (34), 28–40. Tournier, C. (1980). Histoire des idées sur la ponctuation, des débuts de l‘imprimerie à nos jours. Langue française, 45, 28–40. Vavřín, M. & Rosen, A. (2008). InterCorp: A Multilingual Parallel Corpus Project. In Proceedings of the International Conference Corpus Linguistics - 2008, St. Petersburg State University, 97–104. ˂http://utkl.ff.cuni. cz/~rosen/public/2008_intercorp_peterburg.pdf˃. Védénina, L. G. (1980). La triple fonction de la ponctuation dans la phrase : syntaxique, communicative et sémantique. Langue française, 45, 60-66. Barbora Štindlová Fakulta přírodovědně-humanitní a pedagogická Technické univerzity v Liberci [email protected] Veronika Čurdová Ústav jazykové a odborné přípravy Univerzity Karlovy [email protected] David Beneš Ústav jazykové a odborné přípravy Univerzity Karlovy [email protected] Merlin: Multilingvální platforma pro evropské referenční úrovně Autoritativním dokumentem v oblasti výuky a testování evropských jazyků jako jazyků cizích je od roku 2001 tzv. Společný evropský referenční rámec pro jazyky (SERR, angl. CEFR). SERR definuje 6 úrovní ovládání jazyka, resp. deskriptory reflektující míru osvojení cizího jazyka, tj. zdatnost v porozumění psanému či mluvenému projevu a schopnost aktivního vyjadřování. 208 V návaznosti na úrovně definované podle SERR se v současnosti vytváří učební materiály, sylaby, kurikula i certifikované zkoušky hodnotící jazykové schopnosti studenta. Z toho důvodu je nutné co nejpřesněji jednotlivé úrovně charakterizovat a odlišit a především poskytnout konkrétní jazyková data odpovídající požadavkům, které by měl student na jednotlivých úrovních osvojení jazyka splňovat. Potřeba dostatečně ilustrovat úrovně vymezené v SERR byla motivací vzniku mezinárodního projektu Merlin: Multilingvální platforma pro evropské referenční úrovně: Výzkum jazyka studentů v kontextu (2012–2014). Základem této primárně didakticky orientované platformy je trojjazyčný korpus němčiny, italštiny a češtiny jako cizích jazyků budovaný od roku 2012 ve spolupráci institucí v Německu, Rakousku, Itálii a České republice. Korpus obsahuje autentické písemné projevy studentů daných jazyků jako jazyků cizích, které vznikly při standardizovaných testech v rámci certifikovaných zkoušek (telc, UNIcert, CCE). V současnosti je k dispozici přibližně 200 textů pro každou referenční úroveň (A1 - C1) a jazyk. V první fázi zpracování dat jsou rukopisy přepisovány v souladu s podrobnými transkripčními pravidly, která umožňují zachytit i vnější charakter textu, např. vsuvky, škrty, nečitelné části, emotikony, obrázky ap. Následně jsou data lingvisticky anotována. Anotační schéma odráží zásadní koncept projektu Merlin, a to chápání žákovského jazyka jako samostatného dynamického jazykového systému, tzv. interlanguage (Corder 1981). Základem anotace textů je široká škála indikátorů, které umožňují popsat komplexní charakter žákovského jazyka, jeho standardní i nestandardní aspekty. Množina ortograficky, gramaticky, lexikálně a sociolingvisticky orientovaných indikátorů byla vymezena na základě charakteristik úrovní uváděných v SERR i v sekundární literatuře (CEFR-derived indicators; research-based indicators), podle předběžné analýzy písemných projevů studentů (inductively derived indicators), ale také v souvislosti s dotazníkovým šetřením mezi budoucími uživateli korpusu, tj. učiteli, hodnotiteli, studenty (user-based indicators). Anotace korpusu MERLIN kombinuje značkování založené na formálních typech alternace zdrojového textu (chybějící element, přebývající element, chybně spojené elementy ap.) a hierarchicky strukturovanou lingvistickou klasifikaci. Proces anotace je rozdělen do několika fází – v první řadě je prováděna analýza a značkování na rovině ortografické a gramatické, následně pak na rovinách vyšších (lexikologická rovina, rovina sociolingvistkých aspektů a rovina koheze a koherence textu). V rámci každé anotační fáze je 209 nejprve stanovena tzv. cílová hypotéza (target hypothesis) neboli rekonstrukce promluvy studenta v cílovém jazyce s minimálními zásahy (Ellis 1994: 54). Následné přiřazování tagů (tj. chybová anotace, error annotation) probíhá až na základě srovnání studentova textu s příslušnou cílovou hypotézou. Výstupem projektu bude trojjazyčný korpus zpřístupněný přes webové rozhraní, které poskytne vyučujícím i studentům vhled do písemných projevů studentů a možnost vyhledávat konkrétní jazykové rysy typické pro úrovně A1–C1 podle SERR. Příspěvek si klade za cíl představit projekt Merlin a jeho technické zázemí a poukázat na specifičnost anotace textů, která spočívá nejen v jejich cizojazyčném charakteru, ale také v orientaci na SERR a ve snaze o stanovení indikátorů do jisté míry univerzálních pro tři různé jazyky – germánský, románský a slovanský. Literatura Corder, S. P. (1981). Error Analysis and Interlanguage. Oxford: Oxford University Press. Council of Europe (2001). The Common European framework of reference for languages: Learning, teaching, assessment. Cambridge: Cambridge University Press. Ellis, R. (1994). The study of Second Language Acquisition. Oxford: Oxford University Press. Reznicek, M., Lüdeling, A., Krummes, C., Schwantuschke, F., Walter, M., Schmidt, K., Hirschmann, H. & Andreas, T. (2012). Das Falko-Handbuch. Korpusaufbau und Annotationen. Version 2.01. HU Berlin. Wisniewski, K., Schöne, K., Nicolas, L., Vettori, C., Boyd, A., Meurers, D., Abel, A. & Hana, J. (2013). MERLIN: An online trilingual learner corpus empirically grounding the European Reference Levels in authentic learner data. In ICT for Language Learning, Conference Proceedings 2013. Libreriauniversitaria.it Edizioni. Hana, J., Rosen, A., Štindlová, B. & Feldman, A. (2013). Evaluating and automating the annotation of a learner corpus. Language Resources and Evaluation, 1–28. Štindlová, B., Škodová, S., Rosen, A. & Hana, J. (2013). A learner corpus of Czech: Current state and future directions. In S. Granger, G. Gilquin & F. Meunier (Eds.), Twenty Years of Learner Corpus Research: Looking 210 back, Moving ahead. Corpora and Language in Use – Proceedings 1. Louvain-la-Neuve: Presses universitaires de Louvain, 2013, 435–446. Tamás Tölgyesi Univerzita v Segedíně, Filozofická fakulta, Slovanský ústav, Katedra slovanské filologie [email protected] Německé přejímky v běžně mluvené češtině na základě korpusu ORAL2013 V příspěvku zkoumám přejatá slova z němčiny v dnešní běžně mluvené češtině na základě ORAL2013. V korpusu jsem vyhledával lexikální germanismy, které mám doložené ze svých dvou terénních výzkumů, a německé výpůjčky, které se nacházejí ve studii Deutsche Lehnwörter in der heutigen tschechischen Umgangssprache českého germanisty Emila Skály. V roce 2004 jsem uskutečnil svůj první kontaktovělingvistický výzkum exploračně sociolingvistický u rodilých Čechů ve městech Kyjov, Rýmařov a Šumvald. Druhý terénní výzkum jsem provedl o tři roky později v Praze, Brně a ve Valašském Meziříčí. Výzkum jsem konal sám, a to výlučně podle zásad vědecké metodologie sociolingvistické: jeden explorátor, jeden informátor. Pro posouzení vývojových trendů přejímek v novém jazykovém prostředí jsem svůj výzkum aplikoval příslušníkům tří různých generací, vždy v rámci téže rodiny: 1. generace mladá (do 30 let), 2. generace střední (do 60 let), 3. generace stará (nad 60 let). Nejmladší respondent výzkumu měl tehdy 14 roků, nejstaršímu informátorovi bylo 78 let. Výzkumu se zúčastnili muži i ženy se základním nebo středním či vysokoškolským vzděláním. Skála představuje ve své stati z roku 1968 téměř 300 germanismů jako nejfrekventovanější německé výpůjčky v běžně mluvené češtině. Zhruba třetina zkoumaných slov se v korpusu ORAL2013 vůbec nevyskytuje. 211 Při výzkumu jsem valnou měrou pomíjel ty přejaté výrazy, které se v novém jazykovém prostředí časem staly nedílnou složkou celonárodní podoby národního jazyka českého, např. č. taška ze sthn. tasca, dnes Tasche. Sestavil jsem soupis německých přejímek, které se alespoň pětkrát vyskytují v korpusu ORAL2013. Tomuto kritériu vyhovělo celkem 100 germanismů (45 z mých terénních výzkumů a dalších 55 ze článku prof. Skály): furt (3098), akorát (1503), barák (900), kafe (428), fajn (276), flaška (171), krám (151), bordel (137), hajzl (132), holt (124), policajt (119), paráda (115), trefit (se) (98), hadry (81), bacha (62), ksicht (62), deka (60), fabrika (57), kšeft (54), šutr (53), flek (52), pauza (52), kór (50), štrúdl (37), frajer (33), šachta (33), špunt (31), mašina (30), helma (29), plac (28), hergot (28), šňůra (28), buřt (23), flákat (se) (23), špek (23), pasovat (22), fešák (18), hic (18), kravál (18), pantofle (18), šuple (18), bunkr (17), kredenc (17), finta (16), špitál (16), fest (15), kára (15), šrot (15), flinta (14), fofr (14), fotr (14), halda (14), špajz (14), hever (12), machr (12), šichta (12), blinkr (11), cimra (11), roura (11), futro (10), kantýna (10), knajpa (10), lautr (10), špagát (10), erteple (9), fošna (9), kanape (9), klika (9), kriminál (9), kšilt (9), pingl (9), futrál (8), háklivý (8), lump (8), flák (7), koštovat (7), aušus (6), kastrol (6), kauf (6), kvartýr (6), randál (6), sichr (6), štamgast (6), štos (6), trucovat (6), dekl (5), fasovat (5), fuška (5), grunt (5), ksindl (5), lák (5), loch (5), mančaft (5), mašle (5), pres (5), ruksak (5), škatule (5), šlak (5), šperk (5) Dané výrazy jsem podrobněji analyzoval podle sociologických faktorů: věk, pohlaví, vzdělání a původ. Ukázalo se například, že mladá generace již neužívá výrazu cimra (z raně nhn. zimmer, dnes Zimmer ,pokoj‘). Slovo erteple (z něm. dial. erdepfel, nhn. Erdapfel ,brambor‘) používají starší lidé ve věku kolem 80 let. Mančaft (z nhn. Mannschaft ,mužstvo‘) říkají muži. Pracovní směnu označují výrazem šichta (z rak.-něm. Schichte, nhn. Schicht) především lidé se středoškolským vzděláním. Ohebné tvary fajny, fajna, fajne původně nesklonného adjektiva fajn (z nhn. fein ‘jemnýʼ) se používají ve Slezsku. Literatura Bělič, J. (1969). Poznámky o postavení německých přejatých slov v dnešní češtině. In W. Krauss, Z. Stieber, J. Bělič & V. I. Borkovskij (Eds.), Slawischdeutsche Wechselbeziehungen in Sprache, Literatur und Kultur. Hans Holm Bielfeldt zum 60. Geburtstag. Berlin: Akademie-Verlag, 7–18. 212 Český národní korpus – ORAL2013 (2013). Praha: Ústav Českého národního korpusu FF UK. Dostupné z webové stránky: http://ucnk.ff.cuni.cz Eisner, P. (1996). Čeština poklepem a poslechem. Praha: Pražské nakladatelství Jiřího Poláčka a nakladatelství B. Just. Eisner, P. (2002). Rady Čechům, jak se hravě přiučiti češtině. Praha: Academia. Hugo, J. et al. (2006). Slovník nespisovné češtiny. Praha: Maxdorf. Jodas, J. (2006). Šlofík a klika. Časopis pro moderní filologii, 88, 32–35. Kluge, F. (2002). Etymologisches Wörterbuch der deutschen Sprache. Berlin: Walter de Gruyter. Kraus, J. et al. (2006). Nový akademický slovník cizích slov. Praha: Academia. Machek, V. (1971). Etymologický slovník jazyka českého. Praha: Academia. Newerkla, S. M. (2004). Sprachkontakte Deutsch – Tschechisch – Slowakisch. Wörterbuch der deutschen Lehnwörter im Tschechischen und Slowakischen: historische Entwicklung, Beleglage, bisherige und neue Deutungen. Schriften über Sprachen und Texte 7. Frankfurt am Main: Peter Lang Verlag. Ouředník, P. (2005). Šmírbuch jazyka českého. Slovník nekonvenční češtiny. Praha: Paseka. Rejzek, J. (2001). Český etymologický slovník. Praha: Leda. Skála, E. (1968). Deutsche Lehnwörter in der heutigen tschechischen Umgangssprache. In B. Havránek & R. Fischer (Eds.), Deutsch-tschechische Beziehungen im Bereich der Sprache und Kultur. Aufsätze und Studien II. Berlin: Akademie-Verlag, 127–141. Tölgyesi, T. (2008). Lexikální germanismy v dnešní mluvené češtině na základě dat z korpusu ORAL2006. In M. Kopřivová & M. Waclawičová (Eds.), Čeština v mluveném korpusu. Praha: Nakladatelství Lidové noviny, 243–248. Tölgyesi, T. (2008). Ke vztahu mezi hláskovou podobou a citovou zabarveností lexikálních germanismů v češtině. In V. P. Polách (Ed.), Jazyková interakce a jazykové rozhraní a strategie „cutting-edge”. Olomouc: Univerzita Palackého, 259–262. Tölgyesi, T. (2009). Lexikální germanismy v dnešní češtině. Studie kontaktovělingvistická. Piliscsaba: PPKE BTK. Dostupné z webové stránky Széchenyiho národní knihovny v Budapešti: http://mek.oszk.hu/08400/08488/ Tölgyesi, T. (2009). Vojenské výrazy přejaté z němčiny v českém, slovenském a maďarském jazyce. In S. Ondrejovič (Ed.), Varia XVI. Bratislava: Slovenská jazykovedná spoločnosť pri SAV, 500–506. 213 Tölgyesi, T. (2009). Středoevropská kuchyně jako zrcadlo kontaktů interkulturních. Bohemica Olomucensia 3 Philologica Juvenilia, 145–150. Tölgyesi, T. (2010). Náboženské výrazy řecko-latinského původu přejaté prostřednictvím němčiny do českého, slovenského a maďarského jazyka. In S. Ondrejovič (Ed.), Varia XVII. Ružomberok: Katolická univerzita v Ružomberku, 470–474. Tölgyesi, T. (2010). K německé řemeslnické terminologii v českém, slovenském a maďarském jazyce. In J. Hladký & Ľ. Rendár (Eds.), Varia XIX. Trnava: Trnavská univerzita v Trnavě, 390–393. Tölgyesi, T. (2011). Lexikální germanismy v původní české verzi Haškova románu Osudy dobrého vojáka Švejka za světové války a jejich ekvivalenty v německém a maďarském překladu na základě InterCorpu. In F. Čermák (Ed.), Korpusová lingvistika Praha 2011 – 1 InterCorp. Praha: Nakladatelství Lidové noviny, 29–44. Tölgyesi, T. (2011). (Ne)přítomnost mluvčího a adresáta v komunikaci 21. století. Bohemica Olomucensia 2 Philologica Juvenilia, 234–237. Tölgyesi, T. (2011). K vojenskému názvosloví habsburské armády (16201918). Acta Universitatis Szegediensis. Dissertationes Slavicae: Sectio Linguistica XXIX, 71–79. Trost, P. (1974). Slova fucmuc a fucek, flák a flek. Naše řeč, 57, 36–38. Vašek, A. (1996–97). Kontaktová lingvistika a její perspektivy I-II. Češtinář VII, 13–21, 33–44. 214 Marie Vachková Ústav germánských studií FF UK [email protected] Paradigmatika a syntagmatika v překladovém slovníku Autorka sumarizuje zkušenosti z tvorby a revizí adjektivních hesel Velké německo-české lexikální databáze, výzkumného projektu, který od roku 2006 využívá korpusově analytických metod vyvíjených na Institutu pro německý jazyk v německém Mannheimu, a jehož dlouhodobým cílem je vytvořit Velký německo-český akademický slovník (VNČAS) se 130 000 hesly, jehož adresátem je vzdělaný uživatel a překladatel jak odborných, tak literárních textů. Krátkodobými cíli je postupné zpracovávání terminologií a vytváření menších speciálních překladových slovníků na straně jedné, dílčí korpusové rešerše a metalexikografický výzkum na straně druhé. Paradigmatické a syntagmatické vztahy jsou tak včetně jejich lexikografického uchopení zkoumány na materiálu všeobecné i odborné slovní zásoby. Důležitou roli hraje fakt, že VNČAS vzniká postupným zpracováním jednotlivých slovních druhů. Slovnědruhová specifika se tak projeví ostřeji v souvislosti nejen se zde tematizovanými vztahy, ale i např. s problematikou slovotvornou. Nejzřetelněji se pak projeví ve struktuře položek tvořící organizaci té které slovnědruhové databáze. Práce na tvorbě databázových vstupů se neobejdou ani bez analýz německo-českého paralelního korpusu InterCorp. Získávané informace jsou porovnávány s nabídkou největších současných slovníků, především elektronické verze slovníku Duden Universalwörterbuch online (www.dudenonline). Z porovnávání vyplývají velmi často otázky týkající se především nevyhovujících teoretických východisek, pokud jde např. o optimální pojetí stále diskutované systematizace paradigmatických vztahů, především v oblasti opozitnosti na bázi parole. Prolínání syntagmatické a paradigmatické osy je při rozboru kookurenční analýzy tak nápadné, že ho praktická lexikografie nemůže opomenout. Tento fakt staví moderní slovníkáře před nové výzvy. Na ukázkách několika typických zástupců adjektivních hesel, která prezentují různé adjektivní třídy a rozmanité slovotvorné modely, chce pří- 215 spěvek předvést možnosti a limity způsobů, jimiž lze do makrostruktury i do jednotlivých částí mikrostruktury adjektivních hesel zapracovat co nejvíce informací nejen o syntagmatice (kolokabilitě) slova, ale i o jeho paradigmatických vazbách. Cílem je nejen zkvalitnit informační nabídku slovníku, ale pokusit se aplikovat teoretické poznatky tradiční i korpusově pojaté lexikologie a lexikografie německé, britské, švédské, slovenské a české. Příspěvek se dotýká především diskutabilních bodů, typických dilemat s výběrem položek, jejich mnohdy sporného rozsahu a verbalizuje hlavní problémy, které jsou často diskutovány v užším redakčním kruhu v rámci prvního a druhého kola revizí, jako např.: Které historické impulzy z jednojazyčné německé lexikografie lze považovat za první krok k podchycení asociačních vazeb? Jaké bylo jejich teoretické zázemí? Které závěry moderní lexikologie lze zúročit v oblasti moderní elektronické lexikografie? Které současné jednojazyčné a překladové slovníky se snaží o zapracování paradigmatiky a syntagmatiky a s jakým úspěchem? O jaké argumenty se opírají ti, kdo kritizují zapracování antonym v nich? Jaká očekávání artikulují uživatelé slovníků? Které metody jsou pro ztvárnění paradigmatických vztahů zvláště vhodné pro slovník jednojazyčný a překladový? Jak lze pro zapracování antonym a synonym využít kookurenčních profilů a která úskalí se při jejich vyhodnocování objevují? Jak lze naznačit prolínání paradigmatické a syntagmatické roviny na kolokacích a které syntaktické struktury se objevují ve vstupech nejčastěji? Jak se k těmto strukturám při internetové rešerši dostat? Které problémy se vyskytují při výběru a řazení synonym při analýze kookurenčních profilů, porovnáváme-li jejich rozsah s nabídkou jiných internetových zdrojů? S jak velkou důsledností má autor hesla zohledňovat účast slovotvorných regularit při zapracovávání antonym ? Jakou měrou má lexikograf respektovat blízká synonyma a konstrukce, v nichž se vyskytují? Která pozitiva a negativa přináší využití kookurenční analýzy v kontrastivním pohledu? Jaká je role synonymie a antonymie v české části databázového vstupu? Literatura Fellbaum, Ch. (1995). Co-occurrence and Antonymy. International Journal of Lexicography, 8 (4), 281–303. Jones, S., Paradis, C., Murphy, M. L. & Willners, C. (2007). Googling for ´opposites´: a web-based study of antonym canonicity. Corpora, 2 (2), 129– 54. 216 Justeson, J. S. & Katz, S. M. (1991). Co-occurrences of Antonymous Adjectives and Their Contexts. In Computational Linguistics, 17 (1), acl.ldc. upenn.edu/J/J91/J91-1001.pdf (9.2.2014) Marková, V. (2012). Synonyme unter dem Mikroskop. Eine korpuslinguistische Studie. Gunter Narr Verlag. Korpuslinguistik und interdisziplinäre Perspektiven auf Sprache. Bd. 2. Paradis, C. & Willners, C. (2006). Selecting antonyms for dictionary entries: methodological aspects. In Working Papers, 6, 95–106. Kateřina Veselovská Ústav formální a aplikované lingvistiky MFF UK [email protected] Sestry manžel byl kamaráda bratr – ke slovoslednému postavení neshodného atributu vyjádřeného substantivem v genitivu Příspěvek bude věnován problematice neshodného genitivního přívlastku, konkrétně možnostem jeho pronikání do antepozice. V české lingvistické tradici se často uvádí, že základním, ustáleným postavením neshodného atributu je těsná postpozice vzhledem k dominujícímu substantivu (MČ3, 1987). Uhlířová (1988) dokonce konstatuje, že „základní slovosledné pravidlo o postavení nehodného přívlastku ve větě říká, že přívlastek stojí ZA svým řídícím podstatným jménem … Pozice přívlastku ve 2. pádě se považuje ve spisovné češtině za závaznou a odchylky od ní za chybu.“ Novější příručky (Grepl & Karlík 1998) neshodný přívlastek v antepozici připouštějí, považují jej však za hovorový úkaz. V úvodu příspěvku porovnáme jednotlivé výklady tohoto jevu napříč odbornou literaturou se zaměřením na názory týkající se jeho případné spisovnosti. V hlavní části se pak chceme věnovat kategorizaci neshodných genitivních přívlastků vyskytujících se v antepozici. Analýza dat Českého národní- 217 ho korpusu není v tomto případě vhodná: dotaz na jmenné struktury s genitivem (byť s omezením na těsnou antepozici před nominativem) je příliš obecný. V Pražském závislostním korpusu (PDT, verzi 2.5) je možno příslušné genitivní přívlastky vyhledat dotazem kombinujícím charakteristiky uzlů ze všech dostupných rovin s požadavky na pozici uzlu ve stromě. Přesto jsme v těchto datech nalezli pouze třicet odpovídajících příkladů. Zajímavější výsledky (ale i více chybných struktur) přineslo prohledávání Pražské databáze mluvené češtiny (PDTSC, verze 1.0), respektive závislostních stromů, které byly automaticky vygenerovány z mluvených dat. Zkoumaná data byla dále doplněna o ručně sesbírané příklady pocházející převážně z denního tisku. Nalezené výskyty lze rozdělit do čtyř základních skupin, z nichž nejmenší představují ojedinělé struktury obsahující genitiv celkový, který se do antepozice dostává vlivem aktuálního členění: U nás jsou sněhu hromady! Druhou tvoří bezpříznakově vnímané tradicionalismy zastoupené především spojením v pravém/dobrém/jistém slova smyslu. Za bezpříznakové bývají považovány rovněž přivlastňovací genitivy tvořené od vlastních jmen s adjektivním skloňováním, např. Heyrovského ulice, Palackého most apod. Je pozoruhodné, že ve zkoumaných datech z PDT jsou tyto genitivy tvořeny výhradně od maskulin (z nichž množství pochází z oblasti sportu: Pelého pohár reprezentantů nad 35 let, Železného jablonecká euforie aj., což je pravděpodobně dáno původem textů). Čtvrtou skupinou jsou pak přivlastňovací genitivy tvořené od apelativ ženského a mužského rodu, které v rámci antepozice dosud nebyly v gramatikách češtiny popsány. V korpusu PDTSC (tedy v datech obsahujících výpovědi lidí, kteří přežili holokaust) jsme našli množství příkladů typu dcery manžel, babičky bratr, manžela otec, kamarádky dceruška apod. V rozporu s akademickou mluvnicí nejsou tyto neshodné genitivní přívlastky vždy v kontaktním postavení – nalezli jsme i příklady typu Uprostřed je muže Milady otec. Tyto výstupy budou dále podrobeny detailnější analýze. Zdá se, že v neshodném genitivním přívlastku s přivlastňovací funkcí figurují často substantivizovaná adjektiva typu hajný a průvodčí, která se v postpozici chovají stejně jako substantiva (otec rozhodčího x otec zámečníka). Jakmile se ale substantiva dostanou do antepozice, transformují se v posesivní adjektiva a přívlastek se stává shodným (otec zámečníka → zámečníkův otec). Substantivizovaná adjektiva s tvrdou ani měkkou deklinací takovou možnost posesivity nemají – tvar se tedy dostává do antepozice nezměněn a zachovává neshodnost (rozhodčího otec). Je otázkou, jak dalece toto tvrzení platí i pro 218 feminina – výskyty typu Krásnohorské ulice se v korpusových datech neobjevily. Mezi ručně sebranými příklady nalezneme například spojení Němcové Babička nebo Kvitové brejkbol, obecně je však výskyt tohoto typu mnohem řidší. U běžných substantiv se zná být poměr maskulin a feminin pronikajících do antepozice vyrovnán. V příspěvku se dále chceme věnovat otázce příznakovosti slovosledného postavení neshodného přívlastku, potažmo jeho vlivu na sémantickou strukturu věty. Nastíníme také souvislost mezi pozicí neshodného genitivního přívlastku a aktuálním členěním a rozebereme syntaktickou strukturu vět s anteponovanými neshodnými atributy. Literatura Grepl, M. & Karlík, P. (1998). Skladba češtiny. Olomouc: Votobia. Mluvnice češtiny 3. Skladba. (1987). Praha: Academia. Pražská databáze mluvené češtiny, verze 1.0. Ústav formální a aplikované lingvistiky MFF UK, Praha 2009. Dostupná z WWW http://ufal.mff.cuni.cz. Pražský závislostní korpus, verze 2.5. Ústav formální a aplikované lingvistiky MFF UK, Praha 2012. Dostupný z WWW http://ufal.mff.cuni.cz. Uhlířová, L. (1988). Knížka o slovosledu. Praha: Academia. Pavel Vondřička Ústav Českého národního korpusu FF UK [email protected] InterText: upečte si vlastní paralelní korpus InterText je softwarový nástroj, který vznikl v rámci projektu InterCorp pro účel jednoduchého zarovnávání a korektury paralelních textů. Od té doby se však vyvinul v nástroj obecnější, který může napomoci i s přípravou osobního paralelního korpusu či překladatelské databáze pro nástroje CAT či pro strojový překlad (SDL Trados, Okapi, Apertium, OmegaT atd.). 219 Vedle původní centrální aplikace s webovým rozhraním, dnes nazývané InterText server, vznikla také zcela nazávislá jednouživatelská desktopová aplikace InterText editor, kterou je možné si nainstalovat na lokálním počítači. Obě aplikace jsou navíc schopny navzájem spolupracovat, takže InterText editor je možné použít také v roli externího editoru pro InterText server, v němž je možné texty editovat i bez nutnosti permanentního připojení k internetu. Společným rysem obou aplikací je schopnost pracovat prakticky s libovolnými dokumenty XML a díky podpoře Unicode i s libovolnými jazyky. Zarovnávat mezi sebou lze libovolné jazykové páry stejného textu. Počet textů ani jejich jazykových verzí není nijak omezen. Předpokládá se zarovnávání po větách, avšak InterText je schopen pracovat s libovolnými textovými jednotkami – vždy však jen na jedné úrovni. InterText nejprve provede automatické zarovnání zvoleného páru paralelních textů pomocí některého externího automatického zarovnávače (hunalign či TCA2) a výsledek nabídne prostřednictvím editoru k ruční kontrole a korekturám – jak zarovnání, tak i samotného obsahu textu či jeho segmentace na věty (či jiné jednotky). Aplikace přitom automaticky kontroluje, aby změnou segmentace nedošlo k porušení konzistence nějakého jiného zarovnání téhož textu. Taktéž se sama stará o aktualizaci (přečíslování) identifikátorů jednotlivých zarovnávaných textových elementů. Spojovat či rozdělovat je však možné i textové struktury přímo nadřízené zarovnávaným textovým jednotkám (typicky tedy odstavce). V případě větších lakun v jednom z textů je možné provést opakovaně dodatečné automatické zarovnání jen určité části textu. Výsledné, ručně zkontrolované zarovnání se ukládá ve formě samostatného souboru (stand-off) ve formátu TEI XML. V zarovnání je možné si zakládat záložky pro pozdější revizi a sledovat stav jednotlivých segmentů (zda byly zarovnány automaticky či ručně zkontrolovány). Samozřejmostí je podpora vyhledávání v textech (včetně regulárních výrazů) a vyhledávání typicky problematických typů segmentů. Texty je možné exportovat i v podobě formátu používaného programem ParaConc. Specifikem verze InterText server je její zaměření na více uživatelů, rozvrstvených přístupovými právy k textům do tří skupin na základě struktury projektu InterCorp: administrátory, koordinátory a editory. Jednotlivým editorům (resp. jim přiděleným zarovnáním) lze navíc individuálně dle potřeby a jejich kompetence upravovat práva ke změnám obsahu zrovnávaných textů. Stav zpracování jednotlivých zarovnání je možné sledovat a při jeho 220 změně je možné automaticky spouštět další externí nástroje či skripty (např. pro verifikaci formální správnosti či provedení vyúčtování odvedené práce). Pro účely kontroly jsou také evidovány všechny změny obsahu a struktury textů. InterText server je navíc vybaven i prostředky pro snadný hromadný import a export textů a vytváření zarovnání mezi nimi. Novinky v desktopové aplikaci InterText editor se naopak orientují na jednouživatelské, osobní využití. Díky tomu, že se jedná o nativní aplikaci, je možné uživateli značně zpříjemnit práci s ním a nabídnout vícero možností způsobů práce – ať už pomocí myši nebo klávesnice. Nabízí se také možnost vracení posledních změn (undo/redo) či hromadné vyhledávání a nahrazování v textech. Aplikaci je také možné snadno nastavit podle přání uživatele (např. typ a velikost fontu, barvy textu a pozadí, zvýraznění netriviálních segmentů, nastavení vlastních klávesových zkratek, ikon na nástrojové liště atd.). InterText editor je schopen stahovat si zarovnání z centrálního InterText serveru a následně na nich pracovat i bez potřeby neustálého připojení k internetu. Výsledek je po dokončení možné odeslat zpět na server. Pokud je v průběhu práce některý text změněn jiným editorem na serveru, je o tom uživatel informován a může si provedené změny synchronizovat i do své lokální pracovní kopie. Za přítomnosti internetového připojení InterText editor také umí průběžně zabránit provádění změn, které by porušily konzistenci jiných zarovnání téhož textu na straně serveru (tj. při spojování textových segmentů) a které by server proto nemohl později přijmout. Hlavní potenciál aplikace InterText editor však spočívá v rozšiřování možností pro osobní tvorbu paralelních korpusů či překladatelských databází. InterText editor nabízí i možnost importu hrubých textů, které dokáže sám přeformovat do XML dokumentu a segmentovat na věty pomocí vestavěného segmentátoru založeného na uživatelsky konfigurovatelných pravidlech. I v případě neznalosti regulárních výrazů si uživatel může alespoň editovat seznam výjimek, kdy tečka v jeho jazyce zlom věty netvoří (typicky u zkratek). Výsledné zarovnání textů lze také exportovat do téměř libovolného textově založeného formátu, jaký si uživatel dokáže v konfiguraci nadefinovat. Mezi přednastavenými konfiguracemi je mimo jiné i možnost exportu do formátu TMX, používaného překladatelskými nástroji CAT či programy pro strojový překlad. Díky těmto bohatým možnostem se InterText začíná ujímat i v jiných zahraničních projektech a především v osobních projektech studentů i vědeckých pracovníků nejen v oboru korpusové lingvistiky, ale též translatologie. 221 V současné době je v nějaké podobě aktivně používán přinejmenším na několika univerzitách v Itálii, Španělsku, Velké Británii, Německu a Polsku a je prezentován i v několika univerzitních kurzech. Uliana Yazhinova Humboldt University of Berlin [email protected] Syntactic reduplication in Czech and Slovak (corpus-based approach) Reduplication is a universal mechanism which is present in every human language and can be used at all levels of linguistic structure (Maas 2005: 395; cf. also Pott 1862). In the last 30 years, there has been a great amount of studies and special research projects on reduplication in various languages (Graz Projekt and Database on reduplication, Hladký (1996); Minlos (2004), Antoniak (2005), Rubino (2005); Wang (2005), Hurch & Mattes (2009), Andersen (2007), Stolz et al. (2011), etc.). The traditional view of reduplication in west and east Slavic languages is that it has a productive system of morphophonological reduplication, which could have different grammatical functions and an expressive connotation (Maranzt 1982, Inkleas & Zoll 2005). This paper will deal with another form of reduplication – syntactic reduplication, which does play a significant role and is used also widely in Slavonic languages. In this study, following the terminology of T. Stolz (2009, 2011), it will be distinguished between “syndetic” (Xi Xi) and “asyndetic” (Xi a Xi) types of total reduplication. In his study (Stolz 2009) are represented some results to distribution of syndetic and asyndetic reduplicative patterns in the languages of Europe, which based on the analysis of two large parallel literary corpora. According to the results of Stolz´s work (2009), Slovak and Czech belong to two different groups: Czech is a language with “high-degree 222 syndesis” while Slovak is a language with “middle or low-degree syndesis” (like Russian) (2009:109-110) and this assertion will then be an analytic starting point for the present paper. The aim of this work is, on one hand, to find out if that hypothesis could be proved on the basis of authentic samples from large linguistic corpora CNC (http://www.korpus.cz) and SNK (http://korpus.juls.savba.sk). On the other hand, in the present study different patterns of syntactic reduplicative constructions will be discussed: their frequency, percentage coverage, their co-existence or competition and functionality in different discourse types in both languages. In the end a basic typology of Czech syntactic reduplication will be presented. References Andersen, H. (2007). Reduplication in Baltic and Slavic: Loss and Renewal. Graz Reduplication Conference 2007, University of Graz. Antoniak D. (2005). Reduplication as a Language universal. Investigationes Linguisticae, Volume XII, 2005, 1–16 Hladký J. (1996) Zdvojování jako slovotvorný prostředek v češtině a angličtinĕ. ČMF, 78 (2), 79–87. Hurch, B. & Mattes, V. (2009). Typology of Reduplication: The Graz Database. In M. Everaert, S. Musgrave & A. Dimitriadis (Eds.), The Use of Databases in Cross-Linguistic Research. Empirical Approaches to Language Typology (41). Berlin: Mouton de Gruyter, 301–327. Inkelas, Sh. & Zoll, Ch. (2005). Reduplication: Doubling in Morphology. (Cambridge Studies in Linguistics 106). Cambridge: Cambridge University Press. Maas, U. (2005). ‚Syntactic Reduplication in Arabic‘. In B. Hurch (Ed.)Studies on Reduplication. (Empirical Approaches to Language Typology 28). Berlin: Mouton de Gruyter, 395–429. Minlos, P. (2004). Reduplikacija i parnie slova v vostochnoslavjanskix jazykax. (Diss.) Moskva. Pott, A. F. (1862). Doppelung (Reduplikation, Gemination) als eines der wichtigsten Bildungsmittel der Sprache, beleuchtet aus Sprachen aller Welttheile. Lemgo & Detmold: Meyer. Rubino, C. (2005). Reduplication. In M. Haspelmath et al. (Eds.), The World Atlas of Language Structures. Oxford: Oxford University Press, 114–117. Stolz, Th. (2009). Syndetic vs. Asyndetic Reduplication in Europe. Graz Reduplication Conference 2007. 223 Stolz, Th., Stroh, C. & Urdze, A. (2011). Total Reduplication: The Areal Linguistics of a Potential Universal. (Studia Typologica 8). Berlin: Akademie Verlag. Wang, Shih-Ping. (2005). Corpus-Based Approaches and Discourse Analysis in Relation to Reduplication and Repetition. In Journal of Pragmatics 37, 505–540 Anna Zitová Ústav Českého národního korpusu FF UK [email protected] Martin Stluka Ústav Českého národního korpusu FF UK [email protected] K některým morfologickým zvláštnostem starších českých textů (především 19. století) Příspěvek se zabývá vytipovanými morfologickými jevy ze starších vývojových fází češtiny a prostřednictvím jejich analýzy se vztahuje i k širším otázkám možností a mezí výzkumu založeného na existujících diachronních korpusech. Úsilí diachronní složky Ústavu Českého národního korpusu je a v několika následujících letech ještě bude zaměřeno na zpracovávání českého jazyka 19. století a první poloviny století dvacátého. Texty tohoto časového období procházejí procesem postupné lemmatizace, která probíhá na základě předběžné analýzy textů pomocí automatických procedur (morfologické analýzy a disambiguace) určených pro současné texty (korpus SYN aj.). Primárním cílem využití těchto nástrojů je v aktuální fázi práce facilitace přiřazování adekvátních lemmat slovním tvarům, má však i zajímavé vedlejší efekty: mezi nerozpoznanými tokeny se pravidelně objevují skupiny tvarů s morfologickými formanty, které se už v nové češtině nepředpokládají, tj. formanty 224 příznakové pro starší vývojová období. Zároveň je možné zpracovávané texty v interním korpusu 19-pol20 alespoň částečně (byť s velkou nepřesností) prohledávat pomocí morfologických značek. Výskyt specifických tvaroslovných prostředků, na něž v textech devatenáctého a první poloviny 20. století upozornila automatická lemmatizace, vede k otázkám, jakým způsobem se tyto prostředky uplatňují i dříve v minulosti a zda je, na druhou stranu, můžeme sledovat až do naší současnosti. Jazyk 19. století je v mnoha ohledech spojovníkem mezi staršími vývojovými fázemi a vlastním novočeským stavem, zároveň však, vzhledem k určitým sociálním aj. faktorům, představuje svébytnou vývojovou etapu. Materiál ke konfrontační analýze nabízejí v současnosti korpusy diakorp, interní korpus 19-pol20 a reprezentativní synchronní korpusy. Vzhledem ke skutečnosti, že diachronní korpusy zatím v dostatečné míře nepokrývají žánrové rozpětí textů ze starších období a nejsou kromě zmíněné provizorní automatické lemmatizace označkovány, spočívá metoda analýzy z větší části v ručním třídění dokladů a registraci konkrétních děl, z nichž doklady pocházejí. Automatická morfologická analýza a statistické a filtrovací funkce manažeru Bonito, který je dosud jediným rozhraním, které ruční procházení konkordance umožňuje, však práci značně urychlují. Mezi jazykové jevy podrobené konfrontační analýze patří zejména distribuce z dnešního pohledu příznakových koncovek nominativu, genitivu a lokálu plurálu maskulin a instrumentálu plurálu všech rodů (srov. potokové, komisařův, krbích, nožemi, rtoma aj.), u nichž lze předpokládat jak odraz staršího jazykového stavu, tak dobové inovace. Pozornost je dále věnována slovesům (s jejichž taggováním mají automatické procedury největší problémy) – zaměřujeme se na distribuci nepůvodního zakončení -ejí/-ějí u tvaru 3. os. pl. sloves 4. infinitivní třídy k různým lemmatům a ověřujeme možnost jejího ovlivnění slovním kontextem, frekventovaností lemmatu a dalšími faktory. Zaměřujeme se také na jev, jehož povaha je na hranici morfologie a syntaxe: na užívání nesamostatné částice -ť, která se pojí s různými slovními druhy a dosud nejsou zcela jasné všechny její funkce. Je více méně jen naší domněnkou, že se její funkce alespoň částečně v průběhu historického vývoje češtiny proměňovala. S jistotou lze jen tvrdit, že její výskyt v textech je až do konce 19. století poměrně častý. Výsledkem analýzy je jednak popis jazykových jevů, vycházející z kvantitativních i kvalitativních informací vytěžitelných z korpusů, a jednak získá- 225 ní dalších hypotéz, které bude možné na doplněném historickém materiálu zkoumat. Literatura Čejka, M., Šlosar, D. & Nechutová, J. (1991). Gramatika Jana Blahoslava. Brno: Masarykova univerzita v Brně. Gebauer, J. (1963, 1960, 1958, 2007). Historická mluvnice jazyka českého. Praha: Academia. Hanka, V. (1831). Grammatika čili Mluvnice českého jazyka podlé Dobrovského: dílem skrácena, dílem rozmnožena. Praha: http://vokabular.ujc. cas.cz/moduly/mluvnice Koupil, O. (2007). Grammatykáři. Praha: Univerzita Karlova v Praze. Kučera, K. & Stluka, M. (2012). iPRESS 2012 Proceedings of the 9th International Conference on Preservation of Digital Objects, 217–220. Rosa, J. V. (2008). Thesaurus Linguae Bohemicae. Praha: http://vokabular.ujc. cas.cz/nezapojene.aspx?idz=eRosaThesN Stluka, M. (2006). Příklonné částice v textech počátků české prózy. In F. Čermák, K. Kučera & V. Petkevič (Eds.), Korpusová lingvistika: Stav a modelové přístupy. Praha: Nakladatelství Lidové noviny, 314–329. Thám, K. H. (1801). Böhmische Grammatik zum Gebrauche der Deutschen, wodurch sie diese Sprache auf eine leichte Art in kurzer Zeit gründlich erlernen können; nebst verschiedenen böhmisch-deutschen Gesprächen, auserlesenen Histörchen, Erzählungen, Fabeln, dann eigenen Namen der Länder, Städte, Flüsse, Völker, Orden, Sekten, Männer, Weiber und der heidnischen Gottheiten. Praha: http://vokabular.ujc.cas.cz/moduly/ mluvnice Tomsa, J. T. (1782). Böhmische Sprachlehre. Praha: http://vokabular.ujc.cas. cz/moduly/mluvnice (elektronická edice) 226 Richard Změlík Filozofická fakulta Univerzity Palackého [email protected] Možnosti jazykového korpusu pro literárněvědnou analýzu na příkladu autorského slovníku Jana Čepa „Autorská lexikografie“ (Autorenlexikographie) náleží pod obecnou lexikografii, avšak zejména v českém prostředí jí nebyla věnována zvláštní pozornost. Zejména od 2. poloviny 20. století se (nejen) v této oblasti začíná hojně uplatňovat strojové zpracování přirozeného jazyka, což pro autorskou lexikografii představuje nové možnosti. Ačkoli stanoviska některých zahraničních lexikografů vůči kvantitativním metodám nejsou příliš vstřícná – např. H. E. Wiegand, který nechápe autorské slovníky budované na bázi formální analýzy lexikálních jednotek (Formwörterbücher) za plnohodnotný lexikografický výstup, ale za meziprodukt (Zwischenprodukt), který má plnit zejména heuristickou funkci, zatímco finálním výsledkem má být výkladový typ autorského slovníku – moderní vývoj nejen v lingvistice klade naopak důraz na využití exaktních matematických (statistických) postupů, které jsou dostupné pro zpracování čím dál většího objemu jazykových dat díky zapojení počítačové technologie do společenskovědného výzkumu. V českém prostředí existuje několik málo autorských slovníků, které využily strojové analýzy jazykových dat (J. Štindlová, P. Holman, F. Čermák), či studií zaměřených podobným směrem (M. Těšitelová). Posledními takovými lexikografickými pracemi jsou Slovník Bohumila Hrabala (2007) a Slovník Karla Čapka (2009), jež představují typ frekvenčního lexikostatistického slovníku poskytujícího řadu důležitých formálních informací o jazyce autorů. Metodologicky se obě publikace zakládají na moderních lexikostatistických metodách a respektují princip, na kterém je budován ČNK spočívající ve vyváženosti jednotlivých textových množin (subkorpusů). Z hlediska literárněvědného užití ovšem takováto distribuce může způsobovat problém, a to zejména v nepřesném vymezení jednotlivých subkorpusů, které jsou v obou slovnících definovány na základě „žánrových“ kritérií a délky textů. Tyto kategorie jsou relevantní z pozice korpusového, nikoli literárněvědného přístupu. Oba výše jmenované slovníky tak slouží především lingvistickým potřebám, které jsou soustředěny na autorský jazyk jako na jednu z funkčních a stylových oblastí národního jazyka. 227 Jak dokládá především současný zahraniční výzkum v oblasti kvantitativní lingvistiky (Wilson 2009, Peng & Hengartner 2002, Kaplan & Blei 2007, Hoover 2008, Stewart 2003, Burrows 1992 ad.) lze jejího potenciálu a metod využívat rovněž v oblasti literárněvědného bádání. Jedná se např. o sledování podobností mezi texty a jeho částmi, o intertextuální vztahy nebo o zjišťování atribuce textu za pomocí statistického měření a analýzy (PCA – Principal Components Analysis, Discriminant Analysis apod.). Domníváme se, že korpusové nástroje, které jsou běžně využívané pro výzkum přirozeného jazyka, mohou být efektivně využity i v literární vědě. Jednou z možností je např. speciálně navržený autorský slovník. Vlastní téma konferenčního příspěvku bude zaměřeno na koncepci autorského slovníku Jan Čepa, který bude zpracován korpusovými metodami, avšak primárně bude tento slovník orientován tak, aby reflektoval literárněvědné aspekty. Projekt je založen na myšlence propojit formální analýzu jazykových dat s požadavky, které jsou uplatňovány z pozice strukturálně-sémioticky orientované literární vědy. Navrhovaný model autorského slovníku se pokouší skloubit oba tyto aspekty do funkčního celku tak, aby přitom zůstaly zachovány základní hodnoty epistemologických referencí obou metodologických postupů, tj. jazykové analýzy prováděné na bázi korpusu a jeho nástrojů a analýzy literárněvědné. Finálním cílem je především podpořit exaktnost literárněvědné analýzy, která se díky strojově zpracovaným jazykovým datům může zakládat nejen na úplné excerpci (v našem případě beletristické) tvorby autora (popřípadě skupiny autorů), ale současně je schopna se opírat o výsledky exaktní kvantitativní a korpusové analýzy účelově distribuované a segmentované jazykové materie literárních uměleckých textů. V příspěvku podrobně představíme především vlastní koncept slovníku, způsob jeho navržení a strategii a první rámcové výsledky. Na tomto pozadí pojednáme o možnostech, které se nabízí pro vzájemný kontakt korpusové lingvistiky a literární vědy, představíme a podrobně okomentujeme výchozí literárněvědný model narativní analýzy a ukážeme, do jaké míry je potřeba daný model transformovat a jaké důsledky to s sebou nese pro sledovaný cíl. Hlavní požadavek při koncipování Čepova slovníku nevyplývá (jako v případě obou výše jmenovaných autorských slovníků) ze zásad strukturace ČNK, ale z literárněvědných aspektů, které tvoří vývojová chronologie autorova díla a možnosti jeho jemnější stratifikace, konkrétně na úrovni narativních promluvových pásem. Výsledný model, který respektuje jak relativní chronologii autorova díla, kterou představují jednotlivé subkorpusy 228 (zhruba identické s hranicemi Čepových povídkových souborů, což ovšem neplatí absolutně), tak distribuci lexikálních jednotek (type, token) do jednotlivých narativních pásem, představuje možnosti využití korpusových metod i v jiné než čistě lingvistické oblasti, čímž výrazně rozšiřuje kompetence autorské lexikografie pro oblast literární vědy. Za hranicemi tohoto konkrétního projektu, na obecné rovině lze uvažovat o vybudování speciálně anotovaných korpusů české beletrie 19. a 20. století, které by sloužily dvěma aspektům: lingvistickému a literárněvědnému bádání s tím, že by umožňovaly na bázi korpusových dat generalizovat některé z literárněvědných oblastí, např. typy narativních výpovědí, tematiku, intertextuální a textologické otázky, atribuci či genezi textu atd. (Podobně zaměřený projekt by mohl najít uplatnění rovněž v praktické didaktice.) Literatura Burrows, J. F. (1992). Computers nad the Study of Literature. In C. S. Butler (Ed.), Computers and Written Texts. Oxford: Blackwell, 167–204. Čermák, F. (2009). Slovník Karla Čapka. Praha: Nakladatelství Lidové noviny. Čermák, F. & Cvrček, V. (2007). Slovník Bohumila Hrabala. Praha: Nakladatelství Lidové noviny. Doležel, L. (2014). Narativní způsoby v české literatuře. Praha: Pistorius & Olšanská. Holman, P. (1993). Frequenzwörterbuch zum lyrischen Werk von Otokar Březina. Köln – Weimar – Wien – Böhlau: Bausteine zur Slavischen Philologie und Kulturgeschichte: Reihe A, Slavistische Forschungen, Neue Folge; Bd. 4(64). Hoover, D. L. (2008). Quantitative Analysis and Literary Studies. In R. Siemens & S. Schreibman (Eds.), A Companion to Digital Literary Studies. Oxford: Blackwell. Kaplan, D. M. & Blei, D. M. (2007). A Computational Approach to Style in Maerican Poetry. Seventh IEEE Interantional Conference on Data Mining 7, 553–558. Peng, R. D. & Hengartner, N. W. (2002). Quantitative Analysis of Literary Styles. The American Statistician, 56 (3), 175–185. Stewart, L. L. (2003). Charles Brockden Brown: Quantitative Analysis and Literary Interprettion. Literary and Lingusitic Computing, 18 (2), 129–138. 229 Štindlová, J. (1957). Konkordanční a frekvenční index k Slezským písním Petra Bezruče. Praha: Mechanografiká laborator̆ Ústavu pro jazyk český ČSAV. Těšitelová, M. (1974). Otázky lexikální statistiky. Praha: Academia. Wilson, A. (2009). Vocabulary Richness and Thematic Concentration in internet fetish fantasies and literary short storie. Glottotheory: International Journal of Theoretical Linguistics, 2 (2). Trnava: University of Saints Cyril and Methodius, Faculty of Arts, 97–107. 230
Podobné dokumenty
Zpracování dat mluvené řeči v Pražském závislostním korpusu
rozdíl od výzkumu psaného textu se však výzkum mluveného jazyka soustřeďuje většinou jen na
přepis akustického signálu do textové podoby. Rozsah lingvistické anotace těchto transkripcí je
nevelký, ...
Jazykovědné aktuality 2013/3–4 - Jazykovědné sdružení České
Statistické údaje o gérondivu jsou založeny na dvou subkorpusech francouzského korpusu FRANTEXT: 1) subkorpus románových textů publikovaných po
r. 1950 (291 textů, 24 milionů slov), 2) odborné text...
Ovládání laboratorního modelu Mindstorms NXT (spike) pomocí PC
This master thesis analyzes hardware and software features of the LEGO MINDSTORMS
NXT robotics development kit. Main aim is to create the application suitable to control the
laboratory model „Spike...
Zde - Oddělení gramatiky - Akademie věd České republiky
sufixální homonymie (jsou derivována sufixy, které jsou se sufixy deminutivními
homonymní), jednak paralelní derivace (jejich deminutivní příznak vzniká na pozadí paralelně
utvářených substantiv, u...
Libreto č. 3
hory, narozeniny, padesátiny, prázdniny, Dušičky, zásnuby, líbánky, dějiny, podmínky, karty, desky, noviny, plíce,
neštovice, dveře, jesle, brýle, koleje, housle, hranice, Vánoce, Velikonoce, žně, ...
Souvislosti a aspekty vztahu informační a kognitivní vědy
Poslední kapitola je věnována praktickým aplikacím kognitivních přístupů v informační vědě,
zejména ve vztahu k vyhledávání informací. Na některých místech v textu používám pro
označení informační ...
Jazykovědné aktuality 2015/3–4 - Jazykovědné sdružení České
Pavla Kochová: Úvod k bloku příspěvků
Jazykovědné aktuality 2005/1–2 - Jazykovědné sdružení České
Redakční rada:
Jan Kořenský (hlavní redaktor)
Jana Hoffmannová (zástupkyně hlavního redaktora)
Pavla Chejnová (výkonná redaktorka)
Michaela Černá, Marián Sloboda
Adresa redakce a administrace:
Ústa...