analýza potenciálu jazykových technologií při revitalizaci
Transkript
ANALÝZA POTENCIÁLU JAZYKOVÝCH TECHNOLOGIÍ PŘI REVITALIZACI MENŠINOVÝCH JAZYKŮ SE ZAMĚŘENÍM NA ROMŠTINU Tato elektronická publikace vznikla v rámci následujícího projektu: Poskytovatel dotace: Úřad vlády České republiky Dotační titul: Podpora implementace Evropské charty regionálních či menšinových jazyků Realizace v období: r. 2015 Název projektu: Analýza potenciálu jazykových technologií při revitalizaci menšinových jazyků se zaměřením na romštinu Hlavní řešitel: PhDr. Bc. Tomáš Svoboda, PhD., garant německého oddělení, Ústav translatologie Filozofické fakulty Univerzity Karlovy, zaměřuje se na moderní technologie v překladu, institucionální překlad a problematiku překladu ve vztahu k menšinovým jazykům Spoluřešitelé: prom.fil. Ruben Pellar, soudní tlumočník/překladatel jazyka českého, nizozemského a romského Mgr. Lucie Kadeřábková, doktorandka v Ústavu translatologie Filozofické fakulty Univerzity Karlovy, se zaměřením na moderní technologie v překladu, překladatelka 1 OBSAH ÚVODEM..................................................................................................................................... 3 1) VYUŽITÍ TECHNOLOGIÍ HLT V OBLASTI MENŠINOVÝCH JAZYKŮ ................................................ 5 1.1 1.2 Obecně k využití technologií HLT v oblasti menšinových jazyků Přehled dosavadních odborných publikací k tématu HLT a menšinových jazyků 2) PŘEHLED JAZYKOVÝCH TECHNOLOGIÍ ZAHRNUJÍCÍCH INTERAKCI ČLOVĚKA A STROJE ............. 12 2.1 2.2 2.3 2.4 2.5 2.6 Digitalizace originálních textů (OCR) Převod mluveného jazyka do psané podoby Počítačem podporovaný překlad Strojový překlad Lokalizace Crowdsourcing 3) PŘÍKLADY JAZYKOVÝCH TECHNOLOGIÍ PŘI REVITALIZACI SEVEROCENTRÁLNÍHO DIALEKTU ROMŠTINY Z POHLEDU ROMSKO-ČESKÉHO PŘEKLADATELE ..................................................... 42 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 Definice romštiny Prostředky revitalizace romštiny – neúplný výčet Knihovny, publikace, slovníky a databáze, internet, Romská Wikipedie Skype Facebook Rozpoznávání řeči Syntéza řeči Překlad s pomocí počítače (CAT – Computer Aided Translation) Různé 4) URČENÍ POTŘEBY REVITALIZACE ROMŠTINY V ČR ..................................................................... 61 4.1 4.2 4.3 4.4 Revitalizace romštiny z moci úřední Revitalizace romštiny jako potřeba samotných uživatelů romštiny, tedy především Romů Situace „malého jazyka“ severocentrální romštiny Shrnutí kapitoly čtvrté ZÁVĚR ......................................................................................................................................... 66 Závěry a doporučení v oblasti využití HLT při revitalizaci menšinového jazyka, konkrétně ve vztahu k romštině SEZNAM POUŽITÉ LITERATURY ................................................................................................. 70 2 ÚVODEM Cílem projektu bylo následující: Zmapovat možnosti využití jazykových technologií zahrnujících interakci člověka a stroje (Human-Language Technologies, HLT) pro standardizaci a revitalizaci romštiny. Určit potřebu revitalizace romštiny konkrétně v ČR, včetně doporučení konkrétních kroků. Doporučit další směr podpory tvorby nástrojů HLT usnadňujících revitalizaci romštiny. Studie (elektronický dokument ve formátu *.pdf) je zpřístupněna na stránkách ÚTRL, a to na speciálně k tomu účelu zřízené webové stránce: http://utrl.ff.cuni.cz/UTRLFF-453.html Studie vznikla ve spolupráci řešitele T. Svobody a spoluřešitelů R. Pelara a L. Kadeřábkové, pod vedením a v redakci hl. řešitele. Studie obsahuje tyto stěžejní tematické oddíly: 1) Využití technologií HLT v oblasti menšinových jazyků 2) Přehled jazykových technologií zahrnujících interakci člověka a stroje 3) Příklady jazykových technologií při revitalizaci severocentrálního dialektu romštiny z pohledu romsko-českého překladatele 4) Určení potřeby revitalizace romštiny v ČR Autory jednotlivých kapitol jsou: Úvod, Kapitola 1, Závěr – Tomáš Svoboda Kapitola 2 – Lucie Kadeřábková Kapitola 3 a 4 – Ruben Pellar 3 Tento projekt navazuje na tyto předchozí projekty týkající se tématu překladu mezi romštinou a češtinou: V rámci dotačního řízení Podpora implementace Evropské charty regionálních či menšinových jazyků, vypisovaného Úřadem vlády ČR, na rok 2011 řešil tým pracovníků ÚTRL (Ústavu translatologie FF UK) pod vedením Tomáše Svobody projekt PRETHODŽIPEN – PŘEKLAD. Analýza potřeb v oblasti překladu a tlumočení mezi romštinou a češtinou. Výstupy z daného projektu ukázaly na výraznou potřebu dalšího vzdělávání překladatelů v oblasti realizace překladů mezi češtinou a romštinou (především severocentrální dialekt, avšak i olašská romština). Na základě této potřeby tým pod vedením T. Svobody v r. 2014 realizoval v rámci téhož dotačního titulu dva workshopy pro překladatele s romštinou (projekt Translatologické workshopy – Podpora romštiny prostřednictvím rozvoje jazykové a translatologické kompetence překladatelů). Výměna názorů a zkušeností mezi praktikujícími překladateli ukázala zájem ze strany účastníků o nové technologie HLT a též na potenciál jejich využití, protože účastníci workshopů byli velmi otevřeni technologickým inovacím a všemu, co může práci překladatele, ale i tvůrce původního textu, usnadnit. Jak v translatologii, tak v oboru literárních věd či v oboru komparatistiky panuje shoda v tom, že překlady hrají pro menšinové jazyky klíčovou roli. Psaná romština je jazykem, který se konstituoval teprve relativně nedávno a překladová výměna s většinovým jazykem tak postrádá výraznější překladatelskou tradici. Na druhou stranu s ohledem na pokračující asimilaci romského etnika na území ČR je mezi romisty rozšířený názor i praktická zkušenost z práce v terénu, že zejména mezi mladou generací aktivních uživatelů romštiny ubývá. Romština se tak stává jazykem, který stále naléhavěji vyžaduje jazykovou revitalizaci. 4 1) VYUŽITÍ TECHNOLOGIÍ HLT V OBLASTI MENŠINOVÝCH JAZYKŮ 1.1 Obecně k využití technologií HLT v oblasti menšinových jazyků Využití HLT (Human-Language Technologies – jazykových technologií zahrnujících interakci člověka a stroje) pro účely revitalizace menšinových jazyků je nejlépe doloženo zatím na příkladu baskičtiny (srov. např. články/publikace autorů: Dr. Kepa Sarasola z roku 2010), v r. 2007 byla tématu obecně věnována konference v Maďarsku („Language Revitalisation through Multimedia Technology“), včetně návrhů pro systémy strojového překladu na podporu menšinových jazyků. Problematikou se již delší dobu též mimo jiné zabývá institut SSLMIT v italském Forli. Využití HLT v oblasti menšinových jazyků se nabízí v těchto oblastech: a) Tématické lexikony, které výrazně usnadňují praktickou práci s jazykem, kdy uživatel v glosářích nevyhledává podle počátečních písmen hledaného slova (protože např. dané slovo nezná, nebo si na ně nemůže vzpomenout), ale tyto databáze jsou řazeny tématicky (tzv. tematická lexikografie a dialektologie umožňující tvorbu vícejazyčných tematických a terminologických zdrojů). b) Počítačem podporované nástroje HLT pro kvalitativní kontrolu textů (např. kontrola gramatiky či pravopisu), nebo též textová predikce (podobná systému T-9), kdy po napsání prvních písmen software nabízí relevantní slovíčka. Ze zahraniční zkušenosti se ukazuje, že takovéto systémy mají nedocenitelný přínos pro standardizaci často výrazně rozkolísaného pravopisu menšinového jazyka (což platí i o psané romštině v ČR). c) Strojový překlad, jehož přínos je v této oblasti spíše sekundární, avšak nezanedbatelný. Cílem tedy není vytvořit bezchybný systém, který by automaticky překládal, či dokonce tlumočil mezi češtinou a romštinou; to není v současné době možné. Spíše jde o vytvoření podpůrné technologie např. při realizaci vyhledávání na internetu či jako zdroj hrubé informace o určitém textu, jehož povšechná recepce by byla pro mluvčího menšinového jazyka zpočátku obtížná. Dále by strojový překladač založený na paralelních korpusech češtiny a romštiny posloužil jako sofistikovaný slovník (podobně jako někteří uživatelé využívají Překladač Google), kde lze k překladu zadat nejen osamocená slova, ale též kolokace, a překladač zohledňuje kontext použití výrazu. 5 1.2 Přehled dosavadních odborných publikací k tématu HLT a menšinových jazyků Níže uvádíme standardní práce z dosavadní světové publikační produkce konkrétně k tématu HLT v oblasti menšinových jazyků. Federici, Federico M. (2011) ‘Translating Dialects and Languages of Minorities. Challenges and Solutions’. Bern: Peter Lang, 233 p. Tato kolektivní monografie obsahuje úvod od editora a 10 studií. Navzdory tomu, že se jedná o stěžejní publikaci pro problematiku překladu a menšinových jazyků, otázce počítačových technologií se věnuje pouze Federico Federici v úvodní stati „Introduction: Dialects, idiolects, sociolects: Translation problems or creative stimuli?“, a to jen krátce. V oddílu „Translation problems“ konstatuje, že za posledních 10 let se v oblasti překladů menšinových jazyků stále více uplatňuje využívání korpusové lingvistiky, a to jak pro účely zjišťování termínů, tak formulací. Cronin, Michael (2001) ‘Minority’. Routledge Encyclopedia of Translation Studies. Ed. Mona Baker. 2nd ed. London: Routledge, 169 – 172. Encyklopedické dílo Routledge Encyclopedia of Translation Studies je stěžejní encyklopedií v oblasti translatologie. Problematice menšinových jazyků se zde věnuje článek pod slovníkovým heslem „Minority“. Oddíl se věnuje dynamickému pojetí menšinovosti a míře překládání mezi tzv. většinovými a menšinovými jazyky, dále k problematice odborného a literárního překladu K problematice technologií v překladatelském procesu se nevyjadřuje přímo, poukazuje však na důležitý aspekt, a to, že je potřeba přihlížet k tomu, zda a do jaké míry jsou v určitém menšinovém jazyce k dispozici jeho „strojově čitelné formy… pro účely výzkumu v oblasti překladu“1. Datary, Farimah; Grin, Francois (2003) Nation-Building, Ethnicity and Language Politics in Transition Countries. Budapešť: LGI, 314 s. Tato studie obsahuje kapitolu I. F. Hancocka, nazvanou „Language Corpus and Language Politics: The Case of the Standardization of Romani“, čili velmi relevantní text pro naši studii. V oddílu „Orthography“ (Pravopis) se zamýšlí nad potenciálem standardizace romštiny, a to z hlediska mezinárodního konsenzu či z hlediska využití počítačové technologie. Vyjadřuje se též k nejednotnosti pravopisu, zjištěné u periodik vydávaných v české variantě romštiny. Uvádí, že se zvýšeným používáním e-mailů došlo k opouštění písmen s diakritickými znaménky (např. č, š, ž) a k jejich nahrazování písmeny bez diakritiky. Tento přístup je v dané kapitole označen jako funkční, z pohledu zachování kvalit psaného jazyka však můžeme jen konstatovat, že dochází ke standardizaci nežádoucím směrem. 1 „There is the issue of the availability of machine-readable forms of the language for translation research.“ (s. 171) 6 Hall, Pat (2015) Computerised writing for small languages. The Journal of Specialised Translation. Sv. 24. s. 163–184. dostupné z: http://www.jostrans.org/issue24/art_hall.pdf cit. 11. prosince 2015 V tomto článku se P. Hall vyjadřuje k problematice souvislosti ortografie (pravopisu) určitého menšinového jazyka a počítačové podpory pro takový účel. Zabývá se nepálským jazykem, využívajícím grafické znaky, avšak dochází k pozoruhodnému závěru: V současné době se u mnoha větších jazyků pracuje na vývoji automatického překladu, a dokonce automatického tlumočení (automatický převod mluveného slova jednoho jazyka do mluveného slova jiného jazyka). Pro tento účel se využívá jako prostředník automatický překlad (čili převod písemný), jemuž předchází převod z mluvené do psané verze v jazyce výchozím (speech-to-text). Po automatickém překladu pak následuje převod z psané podoby do mluvené podoby (text-tospeech). Vzhledem k tomu, že nejsou dostupné systémy převodu přímo mezi mluveným slovem, automatický převod mluveného jazyka je zásadním způsobem závislý na převodu písemném. A zde je zapotřebí další výzkum. Dodejme, že automatický překlad (písemný) předpokládá z velké části standardizovaný pravopis, protože systém jinak nedokáže přiřadit výrazy stejného významu, jež se jinak píší. Civil Society Platform on Multilingualism (2011) „Policy Recommendations for the Promotion of Multilingualism in the European Union“ 06/06/10; FULL VERSION; dostupné z: http://www.poliglotti4.eu/docs/publications/CSPM%20Policy%20Recommendations_FU LL%20VERSION.pdf cit. 11. prosince 2015 Dokument obsahuje oddíl věnovaný technologii v překladu. Nejprve se zaměřuje na umělecký překlad a překlad dramatických děl a jeho doporučení směřují k problematice titulkování, a to jak u filmových děl, tak u divadelních představení (promítané titulky nad scénou). Dotýká se též problematiky školení v oblasti titulkování a školení pro překladatele obecně (tedy vč. problematiky technologií), včetně mobility vyučujících a studentů překladu, podpory vzdělávání v oblasti překladu již na střední škole a včetně založení překladatelských center, kde by podobná školení probíhala. Hovoří o strategiích sociální inkluze, které by se měly zaměřit na řešení nabízená moderní technologií převodu psaného jazyka na řeč a mluveného slova na psaný text (speech-to-text, textto-speech). Dále zmiňuje potřebu sběru a šíření údajů, a to jak v oblasti literárního, tak neliterárního překladu, podněcovaného či podporovaného státem. Značný důraz pak klade na oblast výzkumu a vývoje překladových technologií, kde jako potřebná opatření vyjmenovává vytvoření databáze umožňující propojení všech stávajících platforem či podporu pro technologie vstupující do tvorby a překladu mnohojazyčného obsahu. 7 HUTCHINS, W. John. The State of Machine Translation in Europe and Future Prospects. URL: http://www.hutchinsweb.me.uk/HLT-2002.pdf (cit. 9. listopadu 2015). John Hutchins je stěžejní autoritou v oblasti výzkumu strojového překladu. Tento jeho kratší text z roku 2002 zmiňuje menšinové jazyky a uvádí, že u nich „existuje potřeba jak plnohodnotných překladačů, tak překladových pomůcek, slovníků, glosářů, dvojjazyčných korpusů či autorizovaných překladů“ (str. 3, překlad TS). MIKHAILOV, Mikhail. (2015) Minor language, major challenges: the results of a survey into the IT competences of Finnish translators. The Journal of Specialised Translation, Issue 24. Ačkoli M. Mikhailov ve svém článku nepojednává výslovně o menšinovém jazyce, zabývá se finštinou, již označuje jako jazyk s relativně menším počtem uživatelů (Less Commonly Spoken Language). Ve věci technologií uvádí: „Čím méně je určitý jazyk užíván, tím méně je k dispozici jazykových zdrojů. Je-li daný trh malý, snižuje se tím ekonomická návratnost projektů vytváření slovníků… Je však důležité dodat, že databáze, překladové paměti a textové korpusy představují levnější způsob tvorby jazykových zdrojů ve srovnání s kompilováním tradičních tištěných slovníků. Ve srovnání jsou pak tyto zdroje mnohem důležitější pro jazyky s relativně menším počtem uživatelů než pro světové jazyky“ (s. 90, překlad TS). Pokud jde o školení v oblasti překladových technologií, uvádí se zde: „V rámci přípravy překladatelů by se mělo pořádat mnohem více kurzů překladových technologií. Například pokročilá schopnost využívat Word… Trados a další specializované překladové programy by se měly do kurikula zahrnout ve větší míře.“ (s. 106, překlad TS) LAZZARI, G. (2006) Human Language Technologies for Europe. ITC IRST/TC-Star project report. Tato zpráva si mimo jiné všímá tržních mechanismů, když konstatuje: „… tržní síly znevýhodňují některé jazyky, zejména ty, které mají malý počet mluvčích, nebo ty, jež jsou spojovány se slabší ekonomikou“ (s. 14, překlad TS). Z toho lze vyvodit, že takové stanovisko je argumentem pro dotační politiku státu, která bude uvedené znevýhodnění částečně kompenzovat. Soria, C., Mariani, J., Zoli, C. (2013) Dwarfs sitting on the giants’ shoulders – how LTs for regional and minority languages can benefit from piggybacking major languages. URL: http://www.smallcodes.com/ (cit. 9. listopadu 2015). Jedná se o stěžejní text k tématu, jež je předmětem této studie. Vyzývá, aby „malé“ či regionální jazyky měly své zastoupení ve smyslu technologického zázemí. Tyto jazyky čelí několika výzvám, jednak takzvané digitální propasti (digital divide), kdy se na okraji současné společnosti, jež je informační společností, ocitnou ty jazyky, které nebudou v dostatečné míře reprezentovány v digitální podobě (např. na internetu). Dalšími problémy jsou podle článku sady znaků a jejich 8 digitální kódování, problémy s terminologií atd. Dále sem patří dostupnost a vývoj jazykových technologií. Článek se zaměřuje na posledně jmenované. Článek předkládá „Plán dalšího postupu v oblasti LRT Language Ressources and Technolgies, jazykové zdroje a technologie“, který má mj. následující stádia: a) propojení a spolupráce: je důležité, aby zúčastněné strany mnohem více spolupracovaly a propojily se v rámci networkingu, než je tomu doposud; b) používání sdílených standardů: bez používání jednotných standardů v oblasti technologií je nemyslitelná interoperabilita a sdílení zdrojů; c) shromažďování a utřídění jazykových zdrojů a dostupných technologií; d) opakované využití stávajících technologií a zdrojů či jejich využití inovativním způsobem: není vždy potřeba vytvářet zcela nové postupy a nástroje či překladatelské pomůcky pro regionální či menšinové jazyky, lze použít metody, které se osvědčily u většinových jazyků; e) crowdsourcing stávajících zdrojů: stávající zdroje je potřeba dát k dispozici a využít potenciál sociálních médií k rozšiřování zdrojů; f) zpřístupnit technologickou základnu softwarových nástrojů: používání otevřených licencí, aby sdílení dat a programů bylo účinné; g) sdílení a udržitelnost: sdílení zdrojů (vč. mezinárodní spolupráce) je v současné době – s ohledem na omezené finanční zdroje – jedinou cestou, jak dosahovat hmatatelných výsledků rychleji. Zároveň je potřeba zajistit, aby shromážděné a prezentované výsledky obstály i vzhledem k vývoji technologií, aby byly udržitelné/využitelné i za určitou dobu. V tomto kontextu lze uvažovat o využití již existujících (srov. web smallcodes.com či slovník/překladač Glosbe.com) technologií pro menšinové/regionální jazyky, např. počítačové nástroje usnadňující psaní (computer-aided writing tools), kam spadá automatická kontrola pravopisu a gramatiky a dále prediktivní psaní, jako je např. technologie T9 známá z mobilních zařízení. Barnes, Janet. (1987) A user perspective on computer-assisted translation for minority languages. Machine Translation (journal), Issue 2:2–3, s. 131-134. Přínosem tohoto článku je reflexe nad možnostmi strojového překladu realizovat převod mezi menšinovými/regionálními jazyky / dialekty, které jsou si podobné. Závěr je takový, že čas investovaný do takové snahy, se vyplatí. Zde lze rozvinout uvedené reflexe dále a zamyslet se nad možností využití strojového překladu k převodu mezi jednotlivými varietami romštiny. V oblasti jazyků s větším zastoupením je známý obdobný případ, kdy se s úspěchem využívá (pravidlového) strojového překladu k převodu mezi slovenštinou a češtinou. 9 Folaron, Debbie. (2015) Introduction: Translation and minority, lesser-used and lessertranslated languages and cultures. The Journal of Specialised Translation, Issue 24, s. 16-27. Debbie Folaron z Concordia University v tomto článku odkazuje na postoje, kdy zastánci myšlenky záchrany jazyků ohrožených zánikem hledají kreativní způsoby podpory vitality jazyka. Mezi tyto postupy spadají snahy odvrátit „digitální smrt jazyka“ (digital language death), pokud by se nenašel dostatečný počet uživatelů jazyka v digitální podobě. Vyjmenovává tyto oblasti digitálního využití regionálních, menšinových a ohrožených jazyků: počítače, informační a komunikační technologie (IKT/ICT), internet a stále se vyvíjející web, spolupráce v síti (networking). Dále vyjmenovává tyto mobilní technologie: platformy sociálních médií, crowdsourceová prostředí pro spolupráci a budování komunity, komunikace v reálném čase, učení on-line, mikroblogging, používání cloudových technologií, zdroje vědomostí umožňující sdílení, webové stránky s možností nahrávání obrazového a video materiálu, sociální networking, nástroje tvorby kreativních médií, stránky pro streamování videa, videohry, publikační zdroje s otevřeným přístupem (open access), propojování informačních zdrojů a komunit a distribuované virtuální týmy. Blíže se pak věnuje se sociálním médiím a odkazuje na další článek, kde se hovoří o potřebě využití překladu k upevnění pozice určitého menšinového/regionálního jazyka. Dané pojednání uzavírá slovy, že se jedná o úkol, v němž překladové technologie hrají důležitou roli. V této souvislosti lze zmínit skutečnost, že systémy HLT lze s úspěchem použít i při podpoře uživatelů menšinového jazyka na sociálních sítích. O vzrůstající popularitě používání menšinových jazyků on-line existují různé doklady a stejně hovoří i zkušenost uživatelů sociálních médií. Úvahy směrem k revitalizaci menšinového jazyka pomocí technologických pomůcek on-line, včetně propojení se sociálními sítěmi, se objevují ve vztahu k různým jazykům, například aragonštině (srov. http://indigenoustweets.blogspot.cz/2011/12/language-revitalization-through-free.html). Somers, Harold (1997) Machine Translation and Minority Languages, in Translating and the computer, Issue 19, Papers from the Aslib conference, Londýn, s. 1–13. Jedná se o starší, avšak určující článek. Harold Somers je stěžejním protagonistou myšlenky strojového překladu a své úvahy vztáhl též k menšinovým jazykům. Nejprve se v daném článku věnuje jazykovým technologiím obecně a uvádí, že je potřeba pro menší jazyky vypracovat chybějící jazykové pomůcky, například editační programy, automatické dělení slov a sady fontů. Uvažuje též směrem k nástrojům gramaticky sensitivního hledání a záměny či k automatické kontrole stylu. Zabývá se též problematikou shromažďování, avšak též tvorby terminologických zdrojů pro menšinové jazyky. Dochází k závěru, že terminologii je zapotřebí harmonizovat, jinak její využívání pozbývá smyslu. V kapitole 4 pak přechází k jazykovým technologiím a klade otázku po možnostech vytvoření takových jazykově-technologických zdrojů, které mají k dispozici překladatelé pracující 10 s rozšířenými jazyky (jazyky „první divize“). Uvádí potřebu práce v oblasti automatického dělení slov, kontroly pravopisu apod. K tomuto účelu je však zapotřebí mít k dispozici digitalizovanou podobu psaného jazyka. Dále hovoří o paralelních korpusech a jejich alignování. Vedle toho slouží takové korpusy překladatelům při vyhledávání výrazů. V oblasti terminologie hovoří o automatické extrakci termínů. V závěru se zamýšlí nad direkcionalitou překladu ve vztahu k minoritním jazykům, tedy zda se překládá více do menšinových jazyků, nebo z nich. Konstatuje, že se patrně překládá více do těchto jazyků. 11 2) PŘEHLED JAZYKOVÝCH TECHNOLOGIÍ ZAHRNUJÍCÍCH INTERAKCI ČLOVĚKA A STROJE 2.1 Digitalizace originálních textů (OCR) O digitalizaci textů lze hovořit v souvislosti s druhou polovinou 20. století. Rozšíření počítačů a nových technologií přineslo do vývoje psaných dokumentů obrovský zlom. Převádění textů do digitální podoby předcházela metoda mikrofilmování dokumentů. Hlavním účelem mikrofilmování byla primárně ochrana původních děl, která by mohla být častou manipulací poškozena či dokonce zničena. Digitalizace nám ale nabízí mnohem více než jen ochranu původních dokumentů: - texty v digitalizované podobě mohou být jednoduchým a nenákladným způsobem dostupné širší veřejnosti, a to především díky internetu, digitalizací textů dochází k úspoře prostor, digitalizace nám usnadňuje vyhledávání, na rozdíl od analogového dokumentu máme možnost digitální dokument velice jednoduše prohledávat, dochází také k ochraně původních děl, jejichž kvalita není ohrožena opotřebováním. Zde je ovšem nutné brát v úvahu, že samotný proces digitalizace může ohrozit kvalitu originálu, a to např. přitlačováním na skenovací zařízení nebo rozvázáním vazby dokumentu. Je důležité si uvědomit, že digitalizace se netýká jen psaných dokumentů, ale i zvukových a obrazových záznamů, ale například také doposud nezaznamenaných informací předávaných pouze ústní tradicí. Je-li originální dokument např. rukopis používán, je poškozován, a není-li používán, pak je dříve nebo později zapomenut a přestává být tedy kulturním bohatstvím dané kultury. Digitalizovaný dokument však může používat kdokoli a kdykoli, a je důležité, že se tento rukopis používáním nepoškozuje. Digitální informace je možné dále šířit, v případě potřeby je přepsat na jiné digitální medium, a díky internetu přenést během okamžiku i na druhý konec světa, a to bez jakékoli ztráty obsahu informace. 2.1.1 Způsoby digitalizace písma K dispozici máme několik dostupných způsobů digitalizace písma: 12 Manuální přepis na klávesnici Jedná se o prostý přepis textu do elektronické podoby. Nástrojem digitalizace takového textu mohou být počítače, notebooky, tablety nebo mobilní telefony. Přepis na klávesnici je nejjednodušším způsobem převedení textu do digitální podoby. Tento proces je ale nejen velmi časově náročný, manuálním převodem může také vzniknout řada chyb a nepřesností. Tento způsob digitalizace je využíván především pro soukromé potřeby uživatelů. Digitální fotoaparát Tento převod lze praktikovat pomocí digitálních fotoaparátů nebo fotoaparátů zabudovaných v mobilních telefonech. Tento způsob není vhodný pro digitalizace většího množství dat, vyfocený text často není dostatečně čitelný. Grafický záznam není navíc převeden na znaky, a proto není možné v něm vyhledávat. Tento způsob je stejně jako přepis textu vhodný spíše pro soukromé účely a menší objem dat. Skenování textu Nejvhodnějším způsobem k digitalizaci textů je skenování. K dispozici máme několik druhů skenerů např. ruční, stolní nebo 3D skenery. Skenování je možné dvěma způsoby: - skenováním snímku skenování snímku bychom mohli přirovnat k fotografii, takový snímek neumožňuje následné textové úpravy. Tato metoda je vhodná pro archivaci textu a jeho zpřístupnění širší veřejnosti, - skenování s možností editace digitalizovaného textu (OCR) druhý způsob nám umožňuje editaci digitalizovaného textu. Naskenované texty je možné převést do textového editoru a dále s nimi pracovat a upravovat je. Tuto možnost nám nabízejí skenery s funkcí optického rozpoznávání znaků (Optical Character Recognition, OCR). Metodu OCR lze využívat zejména při práci s texty, které nejsou k dispozici v digitální podobě. Převod textu z tištěné do elektronické podoby je možné pro všechny tištěné výstupy z laserových, inkoustových a dalších tiskáren, a samozřejmě také texty vytištěné knihtiskem. 13 Nevýhodou OCR je, že jednotlivá písmena nemusí být rozeznána, a v textovém editoru jsou následně nahrazena čtverečky a jinými znaky. Takový text je nutné následně ručně opravit podle originálního dokumentu. Kvalita digitalizovaného textu závisí na kvalitě originální předlohy, žádný OCR nástroj nezaručí stoprocentní přesnost a digitalizované texty musí vždy projít důkladnou kontrolou. Na trhu existují i nástroje OCR nabízející možnost převodu ručně psaného textu. Kvalita digitalizovaných textů bývá však často nedostačující. Tyto nástroje jsou navíc velmi finančně náročné, a následná kontrola digitalizovaného textu vyžaduje důkladnou kontrolu. 2.1.2 Veřejně dostupné databáze digitalizovaných textů Kramerius V digitální knihovně Kramerius najdete více než 8 milionů naskenovaných stran textů kompletních periodik a monografií. Vedle dokumentů v češtině obsahuje Kramerius také řadu dokumentů v německém a ruském jazyce. Kramerius je zaměřen na mikrofilmování a digitalizaci dokumentů, kterým hrozí nebezpečí poškození nebo zničení. Kramerius je dostupný na webové stránce www.kramerius.nkp.cz. Prohlížení digitalizovaných textů je uživatelům umožněno bez registrace. Manuscriptorium Manuscriptorium je volně dostupná databáze digitalizovaných textů. Digitální knihovna je dostupná na webové stránce: http://www.manuscriptorium.com/cs. Cílem knihovny je zpřístupnit existující digitální obsah historických textů. Obsahem fondů Manuscriptoria nejsou pouze české historické dokumenty, v databázi je možné dohledat také zahraniční texty a obrazové dokumenty. Google Books Mezinárodní online databáze Google Books (Google knihy) zpřístupňuje náhledy a plná zobrazení knih nejrůznějšího tematického zaměření. Databáze Google Books je veřejně dostupná na webových stránkách www.books.google.com a nevyžaduje registraci. Společnost Google nabízí své služby čtenářům i vydavatelům bezplatně. V případě zájmu si lze knihu online koupit či zjistit v jakých knihkupectvích a knihovnách je dostupná. V souvislosti s publikováním digitalizovaných textů je nutné zmínit také autorský zákon. Právní vztahy mezi autory a uživateli děl upravuje v České republice zákon č. 121/2000 sb. Zákon o právu autorském, o právech souvisejících s právem autorským a o změně některých zákonů. 14 Autorský zákon je předpisem speciálním ve vztahu k občanskému zákoníku. V souvislosti s autorským zákonem zobrazují např. výše zmíněné Google Books jen náhledy či neúplné znění některých děl. Závěrem bychom chtěli zdůraznit, že v dnešní virtuální době, kdy se především díky internetu snižuje poptávka po tištěných dokumentech, přispívá digitalizace textů k prohlubování povědomí o knihách, periodicích a mnoha dalších typech textů. Zpřístupnění textů v digitální podobě navíc zabraňuje opotřebení a riziku ztráty či zničení originálního dokumentu. 15 2.2 Převod mluveného jazyka do psané podoby Audiovizuální překlad (Audiovisual translation, AVT) patří mezi mladé odvětví translatologie. Svou pozici v moderní společnosti si AVT upevňuje od 90. let minulého století, a to především v souvislosti s rozvojem digitálních technologií, šířením multimediálních obsahů a téměř neomezenému přístupu k internetu. 2.2.1 Titulkování Jednou z hlavních složek AVT jsou titulky. Integrováním zvuku do filmu se staly procesy spojené s titulkováním důležitou oblastí specializace v translatologii. Titulky jsou úzce spjaty s vývojem technologií, jejichž vývoj a popularita je z velké míry ovlivněn globalizací, narůstajícím počtem amatérských překladatelů a produkcí např. filmů a TV seriálů, které jsou pod vlivem globalizace dostupné nejen v zemi produkce, ale i v zahraničí. Dříve vyžadovalo vytváření nového obsahu či jeho sdílení na internetu pokročilejší technické znalosti, jednalo se navíc o proces finančně a časově náročný. Na tvorbě online obsahu se podílela jen omezená skupina uživatelů a ostatní byli v pozici pasivních příjemců. Této éře se po rozšíření aktivního a téměř neomezeného spolupodílení uživatelů na vytváření online obsahu začalo říkat Web 1.0. Internetové prostředí současnosti zvané Web 2.0 nám tedy umožňuje sdílet videa, fotografie, vytvářet blogy, spravovat obsah vlastních webových stránek nebo se podílet na vzniku online aplikací. Uživatelé mohou také překládat obsah internetu do jiných jazyků, což je dostupné široké veřejnosti bez translatologické průpravy především díky online strojovým překladačům, jako je např. Google Translate. Trendem se stává tzv. fanouškovské titulkování (fan translation nebo také fanslation), při kterém jsou audiovizuální média titulkována komunitami fanoušků a dobrovolníků. Vedle profesionálních programů existuje řada volně dostupných programů pro amatérské titulkování, např. stránka www.viki.com umožňuje uživatelům online přeložit jakýkoliv audiovizuální obsah, např. epizodu seriálu nebo hudební videoklip do cílového jazyka, můžeme zde navíc nalézt videa ve více než 200 jazycích. Dalším příkladem je YouTube, který umožňuje svým uživatelům přidávat k videím titulky a komentáře. Audiovizuální překlad je využívaný např. i pro lokalizaci software a videoher. 16 2.2.2 Automatické titulkování, překlad titulků a tlumočení v reálném čase Systém automatického titulkování rozpoznává mluvenou řeč, kterou v reálném čase přepisuje do psané podoby. Automatické titulkování je využíváno u živě vysílaných pořadů, jako jsou např. zprávy či přímé přenosy. Pro řadu uživatelů, především neslyšících či špatně slyšících by mnohá videa a záznamy bez titulků byly zcela nepřístupné. Vhodným příkladem je již výše zmíněný internetový server YouTube, který vedle možnosti přidávání titulků uživateli nabízí u každého videa možnost automatického titulkování. Vedle automatického titulkování se stále častěji setkáváme s automatickým překladem (automatických) titulků nebo také tlumočením v reálném čase. Např. YouTube nabízí automatický překlad svých (automatických) titulků do cca 100 jazyků. K automatickému překladu je využíván strojový překladač Google translator, kvalita překladu tedy odpovídá strojovému překladu. Uživatel má však možnost strojivý překlad upravit (post-editovat) a uložit k videu. Google Translate nám kromě strojového překladu do více než 90 jazyků nabízí také službu tzv. virtuálního tlumočníka, jde o simultánní překlad řeči a její následný překlad do psané podoby, další možností je převod psaného textu a jeho překladu do mluvené podoby. Skype v roce 2015 představil aplikaci Skype Translator, který v reálném čase tlumočí hlasové hovory a videohovory do 7 jazyků, a překládá rychlé zprávy do více než 50 jazyků. Skype Translator je také založený na strojovém překladu, což odpovídá stejně jako u YouTube kvalitě překladu. I přes své současné nedostatky se budou výše zmíněné technologie rozmáhat a vylepšovat, jejich podíl na zprostředkovávání komunikace mezi jazyky po celém světě se bude bezpochyby nadále zvětšovat. 17 2.3 Počítačem podporovaný překlad Nástroje počítačem podporovaného překladu, takzvané nástroje CAT (Computer Aided Translation či Computer Assisted Translation), se vyznačují především využíváním technologie překladové paměti. Je důležité si uvědomit, že nástroje CAT nemají vyhotovit překlad za překladatele, ale jak už vyplývá z názvu, mají překladatele v jeho práci podpořit. Nástroje CAT se na trhu objevily v 90. letech, v té době byly ale finančně velmi nákladné, a další nevýhodou byly jejich vysoké technické požadavky. K následnému rozšíření nástrojů CAT přispěl internet umožňující rychlou výměnu dat. Nástroje CAT jsou vhodné zejména pro překlady technických, právních, lékařských, zkrátka odborných textů s opakujícími se segmenty a ustálenou terminologií. Využití nástrojů CAT při překladu beletrie je spíše omezené. Typický nástroj CAT pracuje na bázi překladové paměti, umožňuje správu terminologie a zapojení strojového překladače, toto jsou tři nejzákladnější součásti každého nástroje CAT, v dalších aspektech se však nástroje mohou lišit. 2.3.1 Základní pojmy Překladová paměť Zásadním prvkem nástrojů CAT je překladová paměť (Translation memory, TM). Překladová paměť obsahuje předchozí překlady překladatele. Zdrojový text je rozdělen do segmentů (většinou jednotlivých vět), k nimž jsou následně přiřazeny jejich ekvivalenty v cílovém jazyce. Během překladu jsou nové segmenty (zdrojového i cílového textu) automaticky ukládány do překladové paměti. Díky tomu překladatel může využít shody s překladovou pamětí a nemusí v případě opakování překládat stejný či podobný segment znovu. Shoda překladu Shoda překládaného segmentu s překladovou pamětí může být částečná (fuzzy match) nebo úplná (exact match, 100 % match). Úplná shoda znamená naprostou shodu zdrojového segmentu se segmentem v překladové paměti. I úplnou shodu je vždy nutné překontrolovat, a to především z hlediska jazykové správnosti, obsahové přesnosti a konzistentnosti terminologie. Vykazuje-li překládaný segment a segment uložený v překladové paměti určitou míru shody jedná se o shodu částečnou. Dolní hranici (threshold) částečné shody si nastavuje překladatel dle potřeby, dolní hranice shody se nejčastěji pohybuje mezi 50-70 %. 18 Terminologická databáze Terminologická databáze (Termbase, TB) je další důležitou součástí nástrojů CAT. Terminologickou databázi si překladatel vytváří sám, neplní se tedy automaticky jako, je tomu v případě překladové paměti. Terminologická databáze nám umožňuje ukládat nejen ekvivalenty daného termínu ve zdrojovém a cílovém jazyce, ale například také přidávat definici tohoto termínu a další doprovodné informace, jako např. foto. Vytváření terminologické databáze může být časově náročné. Terminologická databáze se využívá zejména pro překlad ustálené terminologie. Program automaticky rozpoznává termíny obsažené v databázi a generuje jejich překlady. Pokud současně nedojde i ke shodě v překladové paměti, musí překladatel přeložit zbytek segmentu sám. Jednoduchou terminologickou databázi s konkrétními termíny ve zdrojovém i cílovém jazyce můžeme vytvořit například v Excelu, Wordu nebo Notepadu. Sofistikovaným nástrojem pro správu terminologie je např. SDL MultiTerm, který nám umožňuje správu vícejazyčné terminologie, dále také přidání obrázku či odkazu na webovou stránku. Obr 1 Multiterm 19 2.3.2 Integrace strojového překladu Nástroje CAT nám v současné době standardně nabízí možnost integrace strojového překladu. Pokud nedojde ke shodě s překladovou pamětí, nabízí nástroj CAT výstup ze zvoleného strojového překladače. Přestože je strojový překladač v nástroji integrován, je jen na překladateli, zda strojový překlad využije. Zde bychom chtěli upozornit na úskalí spojené s využíváním strojového překladače: - používání komerčních strojových překladačů není doporučováno v souvislosti s ochranou důvěrných dat, - překlad za pomoci strojového překladače může být považován za porušení smluvních podmínek, - z dvoujazyčného souboru, který agentury a zadavatelé často vyžadují, je patrné, zda byl strojový překladač používán. 2.3.3 Typy nástrojů CAT Nástroje CAT můžeme rozdělit na nástroje lokální či tzv. cloudové. Nástroje lokální vyžadují instalaci software na konkrétní počítač. Práce je tedy možná jen na zařízeních, na kterých je nástroj instalovaný. Naproti tomu nástroje cloudové nejsou závislé na instalaci na daném přístroji, přístup je možný odkudkoli. Požadavkem je zde ovšem připojení k internetu a webový prohlížeč. Nástroje s lokální instalací (rozšíření textového editoru) Tyto nástroje s lokální instalací jsou rozšířením textového editoru. Příkladem tohoto typu nástrojů je např. Wordfast Classic. Instalační balíček nástroje Wordfast je zdarma dostupný na stránce: https://www.wordfast.net/, balíček obsahuje stručné pokyny a samotný instalační soubor. Po dokončení instalace se v MS Word okamžitě objeví ovládací panel Wordfastu. Je nutné upozornit, že tyto nástroje nijak neovlivňují běžný chod editoru. Obr 2 Lišta CAT nástroje Wordfast, doplněk Microsoft Word 20 Výhody: - finanční dostupnost poměrně snadná instalace práce ve známém prostředí nástroj zabírá málo místa na disku vidíme, co překládáme tzv. zobrazení WYSIWYG (what you see is what you get) Nevýhody: - omezený počet překládaných formátů omezený počet funkcí Nástroje pracující v nezávislém prostředí Jedná se samostatné aplikace s lokální instalací. Tato samostatná překladová studia jsou nezávislá na dalších aplikacích, vyžadují však instalaci, konfiguraci a další specifické systémové nároky. Mezi nejznámější samostatná studia patří např. SDL Studio Trados, které je v současné době nejvyužívanějším nástrojem CAT, dále je to např. MemoQ, Wordfast Pro nebo Star Transit. Výhody: - práce v jednom integrovaném prostředí (kromě TM, také TB, MT, slovník, kontrola pravopisu a další) rozsáhlá škála podporovaných formátů možnost práce v týmu Nevýhody: - vyšší technická náročnost při překladu nevidíme, jak text vypadá, práce v prostředí WYSINWYG (What you see is not what you get) jsme vázáni na zařízení, na kterém je nástroj nainstalovaný - nástroje jsou často finančně nákladné - 21 Nástroje využívající online rozraní tzv. cloud Cloudové nástroje využívají práce v tzv. cloudu, tzn. ve virtuálním prostředí na internetu. Tyto nástroje se nenacházejí na jednom zařízeni, jako je tomu u nástrojů s lokální instalací. Nástroj můžeme po přihlášení používat na jakémkoli zařízení, dokonce i na několika zařízeních současně. Oblíbeným nástrojem je MemSource, český nástroj dostupný na trhu od roku 2010. MemSource podporuje řadu formátů a umožňuje práci v offline rozhraní, v případě, že nemáme přístup k internetu. Nástroj můžeme využívat zdarma za podmínky, že máme aktivní maximálně dva překladatelské projekty. Dalším nástrojem je např. Wordfast Anywhere nebo Google Translator Toolkit, který je zcela zdarma. Výhody: - není nutná instalace práce s nástrojem bývá jednoduchá a intuitivní překládané soubory jsou přístupné z jakéhokoli zařízení (PC, notebook, tablet, smart phone) nehrozí ztráta dat (o zabezpečení se stará výrobce produktu) nástroje jsou zdarma či finančně dostupné Nevýhody: - je nutné kvalitní internetové připojení (nástroje ale často nabízí i možnost práce v offline editoru) 2.3.4 Proces překladu v nástroji CAT Poté co si vybereme vhodný nástroj, je nutné ho nakonfigurovat. Složitost konfigurace závisí na daném nástroji. Do připraveného nástroje je následně možné nahrát či importovat překládané soubory. Abychom mohli výhody nástroje CAT plně využít, je nutné vytvořit novou překladovou paměť, případně importovat již existující paměť s uloženými segmenty. Dále můžeme importovat terminologickou databázi, nebo například zapnout strojový překladač. Zásadním prvkem je ovšem aktivní překladatelská paměť. Následně můžeme začít překládat. V případě shody zobrazuje nástroj výstupy z překladové paměti, pokud není takový výstup k dispozici, je možné využít výstup ze strojového překladače. Po dokončení překladu je nutné soubory z nástroje exportovat nebo provést tzv. „vyčištění“ dokumentu. Dokončený překlad je poté možné odevzdat klientovi. 2.3.5 Výhody / nevýhody nástrojů CAT pro překladatele a klienty: 22 Používání CAT nástrojů s sebou nese hned několik výhod. Jejich používání zaručuje: - správnost terminologie překlad je konzistentní zachování formátu urychlení procesu překladu možnost týmových překladatelských projektů sdílení překladatelských pamětí a terminologických databází klienti mají k dispozici rychlejší, kvalitnější a zároveň levnější služby Na závěr bychom chtěli zmínit několik úskalí nástrojů CAT: - termíny se zkracují, na překladatele je často vyvíjen časový tlak částečné a úplné shody s překladovou pamětí jsou často honorovány nižší sazbou nemáte-li k dispozici kvalitní OCR software, není možné tištěné dokumenty do nástrojů CAT importovat 23 2.4 Strojový překlad Strojový překlad (machine translation, MT) nebo také automatický překlad (automated translation, AT) je automaticky provedený překlad z jednoho jazyka do druhého za pomoci speciálního překladového nástroje. V současné době jsou dostupné mnohé nástroje umožňující automatický překlad, jejichž výstupy však v současné době zatím nejsou dokonalé, a musí dále revidovány (post-editovány). Je nutné si uvědomit základní rozdíl mezi strojovým překladem a počítačem podporovaným překladem (nástroje CAT). Nástroje CAT jsou založeny na technologii překladových pamětí (TM) a terminologických databází (TB). Pokud text nevykazuje shodu s TM či TB, segment musí být přeložen překladatelem, MT naproti tomu překládá celý text automaticky. Strojový překladač je automaticky integrován do většiny moderních nástrojů CAT. Pokud zde není nalezena shoda mezi překládaným segmentem a TM, nástroj nabídne strojový překlad daného segmentu. Překladatel si sám zvolí, zda chce strojový překladač během překladu využívat. 4.1 Stručný vývoj strojového překladu Zrod strojového překladu sahá do 40. let minulého století, a to do doby, kdy se objevily první výpočetní technologie. V roce 1947 americký matematik Warren Weaver poprvé zformuloval koncepci strojového překladu. Weaver představil také možná úskalí strojové překladu, a to např. víceznačnost či univerzální vlastnosti jazyka. Záhy vznikla první publikace o strojovém překladu Weaverovo memorandum z roku 1949, a byla uspořádána první konference. Hlavním zájmem byl v té době rychlý a levný překlad z ruštiny do angličtiny. První pokus o realizaci strojového překladu proběhl na Georgetownské univerzitě v USA ve spolupráci se společností IBM. Přeloženo bylo 50 pečlivě vybraných vět z ruštiny do angličtiny. Přestože byl nástroj velmi jednoduchý, slovník obsahoval 250 slov a 6 gramatických pravidel, vyvolal tento experiment velkou odezvu. Díky němu se stal strojový překlad předmětem dalšího výzkumu. Strojový překlad nevykazoval očekávané výsledky a výdaje na projekty strojového překladu se postupně začaly snižovat. Neblaze proslulá komise ALPAC (Automatic Language Processing Advisory Committee, ALPAC) roku 1966 zhodnotila dostupné systémy pro strojový překlad jako v praxi nepoužitelné. Závěry této zprávy zhodnotily strojový překlad jako pomalejší, nepřesnější a dražší než lidský překlad. Což vedlo k omezení výzkumu automatického překladu v USA na přibližně 15 let. Vývoj strojového překladu v Evropě a Japonsku však pokračoval dál. 24 V 70. letech došlo v souvislosti s rozvojem výpočetní techniky k tzv. „renesanci“ strojového překladu. Nové, reálnější cíle předpokládali účast překladatele při různých stádiích procesu překladu. Cílem již nebylo překladatele nahradit, ale ušetřit čas a lidské zdroje. V roce 1970 vznikl v Kanadě první komerční program pro překlad předpovědí počasí, Meteo. Základem úspěchu programu byly jednoduché a opakující se věty, dále omezená gramatika a slovní zásoba. Tento přístup se nazývá pravidlový (rule-based). Velmi populárním překladovým systém se v té době stal Systran, který byl od roku 1976 oficiálně používaný Evropským hospodářským společenstvím. V 80. letech se dále rozvíjely pravidlové systémy, začaly se však již objevovat první statistické systémy, fungující na principu rozsáhlých paralelních vícejazyčných korpusů. Skutečnou revoluci však přinesla až 90. léta, kdy se osobní počítače staly běžným vybavením domácností, a překladatelské systémy přestaly být doménou velkých nadnárodních korporací a institucí. Na trhu se objevila celá řada softwarových produktů usnadňujících překladatelskou činnost, došlo také k rozvoji překladových pamětí a nástrojů CAT. Mezi nejznámější komerční systémy patřil Trados, založený v roce 1984. Po roce 2000 se výzkum strojového překladu začal orientovat na hybridní překlad. Hybridní překlad se snaží kombinovat výhody pravidlových a statistických systémů. Volně dostupný automatický překlad je široké veřejnosti dostupný od roku 1997. 2.4.2 Rozdělení systémů strojového překladu Pravidlový strojový překlad Pravidlový strojový překlad (Rule based machine translation, RBMT) je založený na racionálním směru zkoumání. Tvorba systému spočívá ve vytvoření pravidel a struktur, které následně slouží k převodu ze zdrojového do cílového jazyka. Prvním pokusem byl výše zmíněný Georgetownský experiment provedený ve spolupráci se společností IBM. Jednou z prvních společností, která se vývojem pravidlových překladačů zabývala, byl Systran. 25 - Přímý model překladu Přímý model překladu (direct approach) je nejstarším a nejjednodušším přístupem ke strojovému překladu. Jak vyplývá již z názvu, zdrojový text je přímo přeložen do cílového jazyka. Tento přístup můžeme přirovnat k doslovnému překladu. Překlad tedy zahrnuje morfologickou analýzu, zcela zde ale chybí syntaktická a sémantická analýza. - Nepřímý model překladu Nepřímý model překlady (indirect approach) zahrnuje tzv. „mezistadium“ překladu, mezi hlavní metody patří: - transferový přístup (transfer approach), tato metoda spočívá ve zpracování abstraktní formy zdrojového jazyka do abstraktní formy cílového jazyka. Nevýhodou je, že tento abstraktní model je jazykově specifický, přidání nového jazykového modulu je tedy velmi časově náročné, - interlingvální model (interlingua model), cílem této metody je vytvořit samostatné mezistadium překladu tzv. abstraktní formu, která je zcela nezávislá na zdrojovém textu, a je následně dále zpracována v cílovém textu. Nevýhody pravidlových strojových překladačů: - finanční náročnost - časová náročnost - omezený počet jazyků - potřeba velkého množství jazykovědných zdrojů a specialistů 26 Statistický strojový překlad (SMT) Jako první navrhl použití statistických metod při překladu W. Weaver v roce 1955. Jak už bylo zmíněno výše, vyvíjel se však strojový překlad nejprve jiným směrem a metoda statistického strojového překladu se dostala do popředí až od 90. let. Statistický strojový překlad je založený na paralelních textech. Tyto soubory textů tvoří paralelní korpus textů ve zdrojovém jazyce a jejich překladů do cílového jazyka. Na základě statistických výpočtů vyhodnotí překladač následně nejvhodnější překlad do cílového jazyka. Mezi základní modely patří: - model založený na slovech (word-based model), který byl jedním z prvních přístupů ke statistickému překladu. Překladač zaznamenává četnost výskytu jednotlivých slov, nezohledňuje však kontext slov, v případě mnohoznačnosti, - model založený na frázích (phrase-based model) je dnes nejvyužívanějším přístupem strojového překladu. Na rozdíl od slovního modelu pracuje tento model se segmenty (frázemi či celými větami), což umožňuje správný překlad mnohoznačných slov. Výhody statistických překladačů (v porovnání s pravidlovými nástroji): - menší časová a finanční náročnost - větší jazykové pokrytí Nevýhody statistických překladačů: - nástroje bez lingvistických znalostí Hybridní strojový překlad (HMT) Vývoj strojového překladu se v současné době vyvíjí směrem k hybridním nástrojům, které kombinují pravidlové a statistické systémy za účelem dosažení lepších výsledků. Mezi nejznámější hybridní nástroje patří Systran. 27 2.4.3 Online strojové překladače Prvním volně dostupným strojovým překladačem byl Babel Fish (Yahoo) od roku 1997. Strojový překlad se mezi překladateli a širokou veřejností začal ve větším měřítku využívat od roku 2006, kdy byl na trh představen překladače Google translate. Google translate je založený na principu statistického strojového překladu, jedná se o dynamickou technologii závislou na měnícím se jazykovém materiálu v korpusu, proto se výsledky strojově generovaného překladu liší v čase. Google translate v současné době nabízí překlad z/do více než 90 jazyků. Je nutné upozornit, že překlady mezi všemi jazyky probíhají zprostředkovaně přes angličtinu, tedy např. zdrojový jazyk ↔ en ↔ cílový jazyk. V případě některých menších jazyků jako např. slovenština či katalánština, je překlad proveden zprostředkovaně přes další blízký jazyk, sk ↔ cs ↔ en ↔ cílový jazyk. Překladatele mohou využít aplikaci Google translate API, která je zpoplatněná částkou 20 USD za 1 milion znaků, což odpovídá více než 500 normostranám překládaného textu. Druhým nejvyužívanějším komerčním strojovým překladačem je Bing translator, produkt společnosti Microsoft. Bing je stejně jako Google translate založený na principu statistického strojového překladu, a v současné době překládá z/do 52 jazyků včetně češtiny. Dalším online dostupným strojovým překladačem je MyMemory. Tento nástroj nabízí češtinu, a překlady je dále možné specifikovat dle domény. MyMemory plug-in je možné zdarma integrovat do nástroje CAT. Pro akademické účely je vhodný např. open-source SMT překladač Moses, který umožňuje „vytrénování“ vlastního strojového překladače na základě vlastního paralelní korpusu pro jakoukoli jazykovou dvojici. 2.4.4 Pre-editace a post-editace strojového překladu Pre-editace předchází strojovému překladu. Zdrojový text je upraven tak, aby nedoházelo k mnohoznačnosti, je uplatněn tzv. řízený jazyk (Controlled language, CL). Obr 3 Proces pre-editace 28 Při post-editaci strojového překladu (Post-editing machine translation, PEMT) dochází k úpravě výstupu strojového překladače. Můžeme se setkat s termíny post-editace částečná a úplná. Asociace TAUS (Translation automation user society) v roce 2010 vydala zásady PEMT, kde rozlišují kvalitu „good enough” a „similar or equal to human translation“. Z těchto zásad vyplývá, že od výstupů strojového překladače nemůžeme očekávat kvalitu shodnou s lidským překladem a to především v oblasti stylistiky. Obr 4 Proces post-editace 29 2.4.5 Metody hodnocení kvality strojového překladu Vzhledem k tomu, že strojový překlad neodpovídá kvalitě lidského překladu, je nutné takový překlad před odevzdáním překontrolovat a opravit. Kvalitu strojového překladu lze ohodnotit ručně nebo automaticky, a to za pomoci tzv. metrik. Ruční hodnocení provádí anotátor, nejčastěji překladatel nebo rodilý mluvčí cílového jazyka. Metod ručního hodnocení kvality překladu je celá řada, kritéria hodnocení mohou být např. následující: - plynulost (fluency) - přesnost (adequacy) - srozumitelnost (intelligibility) Další možností hodnocení MT je analýza chyb. Hodnotitel vypíše všechny chyby a následně určí jejich závažnost. Nevýhodou ručního hodnocení je časová a finanční náročnost metody, a především subjektivita hodnotitele, shoda mezi anotátory bývá nízká. Automatické metody se nazývají metrika kvality strojového překladu (MT evaluation metrics). Automatických metrik existuje celá řada, mezi nejznámější patří např. BLEU a METEOR, metrika mají své specifické nedostatky, proto je vhodné je kombinovat. Výhodou automatických metod je jejich objektivnost, výsledky nejsou ovlivněny hodnotitelem. Nevýhodou je, že k hodnocení potřebujeme vždy minimálně jeden referenční překlad (manuálně přeložený překladatelem), podle kterého se následně vyhodnocuje kvalita strojového překladu. Čím více referenčních překladu máme k dispozici, tím je hodnocení přesnější. 30 2.5 Lokalizace S termínem lokalizace se můžeme setkat v řadě vědních disciplín, např. matematice, biologii či ekonomii. Asociace GALA (Globalization and localization association) definuje lokalizaci jako proces lingvistické, kulturní a technické adaptace produktu požadavkům cílového trhu. Cílem lokalizace je tedy adaptovat produkt podle zvyklostí cílové kultury. Asociace LISA (Localization industry standards association) činná do roku 2011, definovala lokalizaci jako proces adaptace produktu v souladu se sociokulturními zvláštnostmi cílové země. Jazykovou lokalizaci tedy můžeme chápat jako přizpůsobení produktu národnímu prostředí, a to v oblasti jazyka, měrných jednotek, kulturních zvyklostí apod. Nesmí být tedy patrné, že byl produkt primárně určený pro jiný trh. Pro lokalizaci se často používá numeronym L10n, vycházející z anglického slova Localisation (US localization), kdy je použito první a poslední písmeno slova L a N, a zbývajících deset písmen je vyjádřeno číslem 10. Podobná zkratka se využívá i v případě anglických výrazů Internationalisation (I18n) či Globalisation (G11n), které s lokalizací úzce souvisí. 2.5.1 Význam lokalizace Lokalizace je především díky globalizaci a rozšíření internetu všudypřítomná. Cílem lokalizace je zpřístupnit software, hry, internetové stránky, filmy, literaturu, manuály a další produkty a služby všem v co nejkratší době. Bariérou je jazyk a lokalizace nám tuto bariéru pomáhá odstranit. Lokalizace produktů a služeb umožňuje zahraničním firmám rychlý a úspěšný přístup na cílový trh, příkladem úspěšné lokalizace je nejpoužívanější vyhledávací nástroj Google, který je v současnosti lokalizovaný do více než 90 jazyků, stejně tak jako nejnovější verze MS Office a Windows nebo sociální síť Facebook, která byla lokalizována do více než 70 jazyků díky 300 000 uživatelům, kteří se na procesu lokalizace podíleli. 2.5.2 Lokalizace a překlad 31 Termíny lokalizace a překlad bývají často zaměňovány, nelze je však považovat za identické. Překlad je nedílnou součástí procesu lokalizace, obsahuje však více než jen překlad. Proces lokalizace zahrnuje celý tým odborníků. Lokalizace je řízena projektovým manažerem, který je zodpovědný za koordinaci projektového týmu, který se kromě překladatelů skládá z terminologů, editorů, programátorů, webdesignerů a techniků. Překlad je tedy pouze jednou z činností během procesu lokalizace. Vedle jazykového hlediska hraje v procesu lokalizace významnou roli také kulturní, technický a obchodní aspekt. Součástí procesu lokalizace je proto celá řada činností, jejichž cílem je přizpůsobení cílovému trhu: - přizpůsobení grafické stránky - úprava obsahu - přizpůsobení designu a rozvržení textu - převod měn, měrných jednotek - použití správného místního formátu pro data, adresy a telefonní čísla - dále také znalost místního daňového a právního systému Obr 5 Lokalizace hry pro americký trh Obr 6 Lokalizace hry pro japonský trh 32 2.5.3 Lokalizace a internacionalizace Nedílnou součástí procesu lokalizace je internacionalizace (i18n), která procesu lokalizace předchází. Internacionalizace je primárně technická záležitost vývojářů a programátorů. Význam lokalizace roste především díky rostoucí poptávce po vícejazyčných produktech a aplikacích. Cílem internacionalizace je odstranit specifické kulturní prvky, a vytvořit tak neutrální technicky funkční prostředí, přizpůsobené pro použití ve více jazycích. Neutrální produkt (nejčastěji software) je následně možné lokalizovat do cílových kultur. Je nutné připravit neutrální software, který je následně možné adaptovat, např. vložit do něj požadovaný počet znaků jakéhokoli cílového jazyka, jako např. arabština psaná zprava doleva, azbuka či čínské znaky. Po odstranění kulturních prvků přichází na řadu lokalizace, kdy se produkt přizpůsobuje specifikám cílové kultury. Produkt je přizpůsoben tak, aby později přidané prvky, např. barvy, obrázky a další aplikace vytvořily autentický produkt pro cílový trh. Přínos internacionalizace: - výrazné snížení celkových finančních nákladů - úspora času - snadnější přizpůsobení produktu cílovému trhu - jeden internacionalizovaný zdrojový kód produktu pro všechny cílové trhy - produkt je jazykově a kulturně nezávislý Vhodným příkladem je Wikipedie nabízející mnoho jazykových mutací, které zachycují kulturní rozdíly. V arabské mutaci je písmo a celá koncepce stránky situována způsobem obvyklým pro arabskou kulturu, a to zprava doleva, např. logo Wikipedie je na pravé straně a vyhledávání najdete na levé straně. Celá stránka na nás tedy působí zrcadlovým dojmem. Porovnáme-li pozorně českou, ruskou a arabskou verzi stránek, uvědomíme si, že písmo nebude jediným kulturním rozdílem, např. úvodní stránka v české verzi je v pestrých barvách a obsahuje barevné obrázky, arabská verze obsahuje obrázky černobílé a v ruské verzi obrázky nenajdeme vůbec. 33 Obr. 7 Arabská verze Wikipedie (https://ar.wikipedia.org/wiki/) Obr. 8 Česká verze Wikipedie (https://cs.wikipedia.org/wiki/) ¨ Obr. 9 Ruská verze Wikipedie (https://ru.wikipedia.org/wiki/) 2.5.4 Lokalizace a globalizace Globalizace (Globalisation, G10n) je široký pojem, na který se můžeme odkazovat v různých oblastech podnikání. Globalizovaný produkt je produkt, který může být bez větších úprav představen na cizím trhu v různých částech světa. Globalizace se na rozdíl od internacionalizace a lokalizace zabývá procesem uvedení produktu na cílový trh. 34 Tabulka Internacionalizace, Lokalizace, Globalizace V souvislosti s lokalizací se můžeme setkat s akronymem GILT, který se skládá z následujících konceptů: - Překlad (t9n) - Internacionalizace (I18n) - Lokalizace (L10) - Globalizace (G10) Obr 10 GILT Obrázek GILT ilustruje provázanost těchto čtyř konceptů. Globalizace se zabývá uvedením produktu na cílový trh. Internacionalizace má za úkol vytvořit neutrální produkt funkční v různých jazykových prostředích. Lokalizace následně přizpůsobuje internacionalizovaný produkt lokálním konvencím, a překlad je dále nedílnou součástí procesu lokalizace. 2.5.5 Glokalizace Pojem glokalizace vznikl spojením slov globalizace a lokalizace. Globalizovaný produkt je celosvětově jednotný, glokalizovaný produkt je také globálně distribuovaný, je však následně přizpůsobený cílovému trhu. Cílem glokalizace je rozšíření okruhu potencionálních zákazníků a zvýšení zisku. Příkladem glokalizace jsou např. řetězce rychlého občerstvení McDonald, KFC či síť kaváren Starbucks. 35 Obr 11 Produkt glokalizovaný pro český trh Obr 12 Produkt glokalizovaný pro Nový Zéland Dalším příkladem jsou loga vyhledávače Google zvané „Doodle“. Google vyhledávač je lokalizovaný do více než 100 světových jazyků. Google Doodles představují významné události dané země, např. svátky a výročí. Některá loga se zobrazují jen na domovské stránce konkrétní země, zatímco jiná se objevují celosvětově. Obr 13 Doodle glokalizovaný pro český Google Obr 14 Doodle glokalizovaný pro nizozemský Google 2.5.6 Příklady nevhodné lokalizace Vhodný název společnosti či produktu je pro mezinárodní společnost klíčovou podmínkou proto to, aby byl produkt úspěšný na všech cílových trzích. To však může být velký problém, vzhledem k tomu, že ne vždy je možné použít univerzální název pro všechny cílové trhy. Pokud se výrobce rozhodne produkt představit pod společným názvem na všechny cílové trhy, měl by si být jist, že tento název bude vhodný. Není-li název vhodně lokalizován, může v cílové kultuře vyvolat vtipné, v horším případě urážlivé či dokonce vulgární konotace. Nevhodně lokalizovaný název může následně způsobit neúspěch produktu na cílovém trhu. Dobrým příkladem je nadnárodní prodejce nábytku IKEA, který se snaží zachovávat švédské názvy svých produktů, což není vždy vhodným řešením. České zákazníky pobavil název hnědého koberce s názvem HOVEN, který byl následně nabízený v akci pod cedulkou „Doprodej Hoven“. Nedůvěru českého zákazníka vzbudí prodlužovací 36 šňůra s názvem KOPPLA, a anglicky mluvící zákazníky v roce 2005 pobavila stolička s názvem FARTFULL. Příkladem z českého prostředí je např. motto programu Severozápad podporovaného Evropskou Unií. Oficiální české motto „Vize přestane být snem“ bylo přeloženo jako „Vision ends up being a dream“ tento překlad však význam hesla zcela obrací. Oficiální adresa programu „www.nuts2severozapad.cz“ také nebyla nejšťastnější volbou, NUTS je sice zkratka evropského standardu pro označování administrativních geografických jednotek (Nomenclature of territorial units for statistics), anglické „nuts“ je však výrazem pro označení šíleného člověka. Obr. 15 České logo programu Obr. 16 Anglické logo programu 2.5.7 Současné softwarové nástroje pro lokalizaci Překladatel má k dispozici moderní překladatelské technologie jako elektronické slovníky, nástroje CAT s překladovou pamětí a terminologickou databází, dále také strojový překlad. Příkladem speciálního nástroje sloužícího pro lokalizace software je SDL Passolo. Passolo je produktem společnosti SDL stejně jako Studio Trados a Multiterm. Výhodou je, že práce s nástrojem nevyžaduje zkušenosti s programováním, překladatel se tedy může plně soustředit na překlad softwaru, aplikace či webového rozhraní. Dalším oblíbeným nástrojem je např. Alchemy Catalyst. 37 Obr 17 SDL Passolo 2015 2.5.8 Lokalizace a minoritní jazyky Vlivem globalizace jsou menšinové jazyky ohroženy více než kdy jindy. Uživatelé často dávají přednost používání rozšířeného jazyka, např. angličtiny před vlastním jazykem. Technologie a internet nám ale současně mohou pomoci zpřístupnit menšinové jazyky širšímu publiku. Dobrovolnický překlad neboli crowdsourcing je mezi uživateli velmi oblíbený a může v tomto ohledu sehrát důležitou roli, a to především díky sociálním sítím jako Facebook nebo Twitter Příkladem lokalizace minoritního jazyka díky crowdsourcingu je např. lokalizace Facebooku do velštiny. 38 2.6 Crowdsourcing Neologismus crowdsourcing použil poprvé americký novinář Jeff Howe v červnu 2006 ve svém článku „The Rise of Crowdsourcing“ v časopise Wired. Slovo crowdsourcing vzniklo kontaminací výrazů outsourcing (využívání externích zdrojů) a crowd (dav). Crowdsourcing můžeme vnímat jako „dobrovolnický“ překlad, tedy opak placených, profesionálních projektů. Neexistuje jednotná ucelená definice, můžeme najít více než 40 anglických definic tohoto výrazu, který se navíc postupně mění a získává nové rozměry, a to především díky masovému využívání sociálních sítí. Myšlenku crowdsourcingu vhodně vystihuje také české přísloví „Víc hlav, víc ví“. Práce ve skupině může přinést zajímavé a originální řešení. 2.6.1 Příklady úspěšného online crowdsourcingu Přestože se jedná o nový termín spojovaný především s internetem, mohli jsme se s příklady crowdsourcingu setkat již mnohem dříve. Roku 1714 britská vláda nabídla veřejnou odměnu za vyřešení úlohy související se zeměpisnou délkou (The Longitude Price). V 19. století byl napsaný Oxfordský slovník angličtiny (Oxford English Dictionary, OED) díky milionům útržků papíru s příspěvky od veřejnosti. Skrze otevřenou výzvu organizátoři požádali obyvatele o zaslání slov a jejich významů, které následně zaneseny do slovníku. Denně se setkáváme s řadou úspěšných crowdsourcingových projektů, aniž bychom si byli jejich poněkud netradičního vzniku vědomi. Wikipedie Wikipedie, otevřená encyklopedie, je jedním z nejznámějších příkladů crowdsourcingu. Specifikem této encyklopedie je, že kdokoli může vytvářet a upravovat články na jakékoliv téma a v jakémkoli jazyce. V roce 2015 obsahuje Wikipedie téměř 5 000 000 článků v anglickém jazyce, dalších 11 jazykových verzí má přes milion článků. Celkově se na Wikipedii vyskytuje 288 jazykových verzí. České články představují necelé 1 % z celkového počtu článků na Wikipedii. Wikipedie představuje užitečný zdroj informací pro širokou veřejnost. Je ale nutné si uvědomit, že informace zde nemusí být zcela pravdivé a objektivní. YouTube Dalším úspěšným projektem crowdsourcingu je YouTube, největší internetový server pro sdílení videosouborů. Služba YouTube byla spuštěna v květnu 2005 a umožňuje miliardám lidí po celém 39 světě objevovat, sledovat a sdílet videa. YouTube poskytuje prostor pro šíření informací a vytváření spojení mezi lidmi po celém světě. Tato platforma podporuje distribuci originálního obsahu malých i velkých autorů. YouTube má v roce 2015 dvě miliardy přístupů denně a každou minutu uživatelé na platformu nahrají 300 hodin nových videí. YouTube je tak po internetovém vyhledávači Google druhou nejnavštěvovanější webovou službou světa. OpenStreetMap Dalším příkladem crowdsourcingu je projekt OpenStreetMap. Jedná se o mapu tvořenou pouze z volně dostupných zdrojů. U většiny volně dostupných map je jejich užívání technicky a právně omezeno. Tento projekt uživatelům umožňuje volně nakládat s geografickými daty. Aktuální data jsou zde dostupná bez dalších nákladů a omezení. Projekt je založen na podobném principu jako Wikipedie, umožňuje jednoduchou editaci dat, uchovává historii provedených změn, vytvořené mapy jsou následně dostupné veřejnosti. OpenStreetMapy sehrály důležitou roli v roce 2010 během zemětřesení na Haiti. Přibližně 640 dobrovolníků z celého světa využilo prostřednictvím OpenStreetMap dostupné mapy a satelitní snímky, a vytvořilo tak detailní mapu Haiti, zachycující silnice, mosty, budovy a tábory. Výsledná mapa byla využita humanitárními organizaci, při poskytování humanitární pomoci v zasažených oblastech. 2.6.2 Crowdsourcing a překlad Překlady za pomoci crowdsourcingu by mohly být nazývány dobrovolnickým překladem. Stejně jako lokalizace může i crowdsourcing sehrát významnou roli v zachování minoritního jazyka. Sami uživatelé se mohou podílet na posilnění jazykové rozmanitosti. Příkladem crowdsourcingu může být např. lokalizace Facebooku a Google translate. Facebook Sociální síť Facebook byla v roce 2008 lokalizována do více než 70 jazyků, a to především díky 300 000 uživatelům, kteří se na lokalizaci podíleli. Uživatelé mohou i nadále přispívat svými překlady prostřednictvím aplikace Facebook translations. Google translate 40 Google translate v současné době nabízí strojový překlad z/do 90 světových jazyků, denně tuto službu využije více než 200 milionů uživatelů na celém světě, kterým tento nástroj usnadňuje komunikaci. Uživatelé ale současně (často nevědomě) připívají ke zlepšování kvality strojového překladu již podporovaných jazyků. Přispějete jednoduše tím, když se rozhodnete „vylepšit“ strojový překlad. Obr 18 Google translate Google v roce 2014 představil tzv. Google translate community (Společenství strojového překladače Google), kde nadšenci nejen pomáhají zlepšit kvalitu pro již zavedené jazyky, ale mohou se také podílet na přidávání nových jazyků. Uživatelé také přispívají lokalizaci stránek do vybraného jazyka. Uživatelé zlepšují kvalitu Google překladače např. také překládáním v CAT nástroji Google translate toolkit. 41 3) PŘÍKLADY JAZYKOVÝCH TECHNOLOGIÍ PŘI REVITALIZACI SEVEROCENTRÁLNÍHO DIALEKTU ROMŠTINY Z POHLEDU ROMSKOČESKÉHO PŘEKLADATELE 3.1. Definice romštiny V tomto kontextu budu hovořit o takzvané „slovenské romštině“, respektive o takzvaném „severocentrálním dialektu“, kterým se hovoří na území České republiky a na Slovensku. Vyjmenované jazykové technologie by však s modifikacemi mohly platit i pro tzv. „olašskou romštinu“, nebo „sintskou romštinu“, což jsou další významnější dialekty, jimiž se hovoří v České republice a ve Slovenské republice. 3.2. Prostředky revitalizace romštiny – neúplný výčet Zamýšlím-li se nad prostředky revitalizace romštiny, připadají mi na mysl především moderní technické komunikační prostředky, spojené s Internetem, který je jakýmsi jejich zastřešujícím prostředkem, rušícím informační bariéry. Informační bariéry však ruší již starší prostředky předinternetové doby, jako je písmo, klasická pošta, knihovny, rádio a televize, telefon …. 3.2.1 Písmo Odhlédneme-li od historie záznamů romštiny Neromy na našem území, kterou zahajuje Antonín Puchmajer (Puchmajer, 1821), dochází k první kodifikaci romštiny Romy samotnými nebo ve spolupráci s nimi až se vznikem až Svaz Cikánů-Romů v roce 1969. (O Svazu Cikánů-Romů viz např. Lhotka, 2009.) Zde bych se chtěl jen krátce zmínit o speciálním písmu, kterým je těsnopis. 3.2.1.1 Romský těsnopis grafický Podstatou grafického písma je používání zjednodušeného písma ručního, doplněného zkratkami a samoznaky pro záznam slov a sousloví. Protože průměrný písař dosahuje při ručním psaní rychlosti cca 20 slov za minutu, znamená již rychlost padesáti znaků značnou úsporu (Matula, 1983, s. 14). V češtině se používá těsnopis systému Herout – Mikulík. Výhodou grafického těsnopisu je nenáročnost prostředků a možnost použití takřka kdekoliv, s použitím nenáročných technických prostředků – papíru a tužky. Nevýhodou grafického těsnopisu je skutečnost, že těsnopisný záznam je dodatečně nutno přepisovat do běžného písma. Proto dnes grafický těsnopis pravděpodobně ztrácí na významu, myslím však, že při dobrém ovládání může být ještě dnes přínosný, např. pro studenta jazyků obecně, tedy i romštiny. Zkoumají se však již také možnosti, jak grafický těsnopis převést do běžného písma pomocí strojového rozpoznávání textu, jedním z příkladů může být převod anglického Pitmanova těsnopisu (Rajasekaran, 2012). Autor této stati se zamýšlel nad možností použít český grafický těsnopis Herout-Mikulík i pro romštinu. To by bylo po malých úpravách (např. psaní souhlásek s přídechem) bezpochyby možné. 42 3.2.1.2 Romský těsnopis strojový řetězcový a akordový Princip strojového těsnopisu (tj. text se zadává prostřednictvím klávesnice) spočívá v tom, že místo slova nebo sousloví přirozeného jazyka píšeme zkratku nebo znak, který se při psaní rozbalí do nezkrácené podoby, která je pro tyto účely uložena do databáze zkratek a nezkrácených tvarů. Takové zkratkové systémy existují pro řadu velkých i menších jazyků, například pro angličtinu Agilityping, Fox, Shorthand for Windows, …. V češtině je znám systém ZAVPIS autora Jaroslava Zaviačiče, s nímž čeští závodní písaři dosahují výtečných výsledků na mezinárodních soutěžích a s kterým byl také dosažen světový rekord v rychlosti psaní (Ing. Helena Matoušková, 928 znaků za minutu). Akordový těsnopis využívá možnosti stisknout na klávesnici kombinaci více kláves najednou. Akordový těsnopis lze dobře použít u jazyků s malou flexí a tedy s omezeným množstvím tvarů (např. angličtina), v češtině se přes pokusy prováděné v minulosti a v současnosti dosud jeho vytvoření nezdařilo. Pro severocentrální romštinu systém strojového těsnopisu dosud neexistuje, ale bylo by možné ho racionálně vytvořit, mimo jiné s pomocí romského korpusu. Protože je romština tvarově jednodušší než čeština, je sice jazykem flektivním s osmi pády substantiva a časováním slovesa, substantivum má koncovky u všech vzorů totožné a množné a jednotné číslo nají jen fonetickou obměnu, sloveso má na rozdíl od pěti slovesných tříd v češtině slovesné třídy tři, bylo by patrně možné vytvořit i strojový těsnopis akordový. Obrázek 19. Ukázka stenografického stroje 3.2.1.3 Počítačový korektor romského pravopisu Pokud vím, počítačový program pro pravopisnou korekci textů v severocentrální romštině neexistuje. Vhodnou pomůckou pro jeho vytvoření by byl korpus severocentrální romštiny. Nedokonalý korektor romského pravopisu si však může uživatel vytvořit např. v programu WordPerfect, nebo také pro účely rozpoznávání romských textů v rozpoznávačích textů (např. v programu ABBYY FineReader, kde je možné ukládat slova, která rozpoznávač nezná, do databáze 43 příslušného jazyka. V programu ABBYY FineReader je možno zvolit i romštinu, i když databáze slov pro ni se dodává prázdná). 3.3. Knihovny, publikace, slovníky a databáze, internet, Romská Wikipedie 3.3.1 Klasické „papírové“ knihovny Hlavní knihovnou, kde jsou uloženy romské texty a romistika, je samozřejmě Národní knihovna v Praze (stránky www.nkp.cz), u níž se ukládá tzv. povinný výtisk, knihovnu má také Muzeum romské kultury (stránky www.romske.muzeum.cz) v Brně, knihovna Katedry romistiky na Karlově univerzitě v Praze, a jistě také katedry romistiky jinde v České republice. Tím se dostáváme k položce: 3.3.2 Elektronické knihovny Ve většině knihoven je možno již vyhledávat v elektronických katalozích, např. v Národní knihovně v jejím online katalogu, ale také v Souborném katalogu České republiky (CASLIN). V Online katalogu NK i v CASLINU je mimo jiné možné hledat podle různých kritérií, např. podle hesla, kterým může být v tomto případě „romština“, ale také podle kódu jazyka, kterým je pro romštinu zkratka ROM. Rešerše na záznamy podle kódu ROM provedená 4. 11. 2015 přinesla 326 citací. Řada českých knihoven již také archivuje a půjčuje elektronické texty a půjčuje také čtečky elektronických knih. Elektronických publikací v romštině české provenience je zatím velmi málo, vím jen o jedné, zato však velmi důležité – bibliografii Ctibora Nečase (Nečas, 2012): Retrospektivní bibliografie české romistiky pod názvem „Pal o Roma – O Romech“ je údajně svého druhu nejobsáhlejší soupis bibliografických údajů romistické literatury v ČR. Nečas zpracoval k vydání téměř vyčerpávající všeobecný přehled literatury o Romech. Přehled zahrnuje publikace vydané v období 1821 – 2011. Bibliografie obsahuje 3527 záznamů. Speciální knihovna romských textů severocentrální romštiny v elektronické podobě dosud neexistuje, i když pravděpodobně bychom řadu textů nalezli v elektronických archivech vydavatelství, která vydala romské texty (např. Fortuna), případně v archivech romistických časopisů a novin (soupis těchto periodik uvádí Nečas v kapitole 5 – Seriály pro Romy a o Romech) (Nečas, 2012, str. 129). Z knihovny Katedry romistiky je možno bezplatně stáhnout Nástin mluvnice slovenské romštiny Hany Šebkové (Šebková, 1998). Možnost vyhledávat informace elektronicky a Internet nám ovšem umožňuje získávat informace z celého světa, využívat nástrojů jako jsou elektronické vyhledavače, komunikační nástroje Skype, Facebook a další, internetové překladače. 3.3.3 Papírové a elektronické slovníky 44 Kromě papírových slovníků (Hübschmannová, 1998, Koptová, 1995 a Koptová 2011) může zájemce využívat i lexikální databázi ROMLEX, vytvářenou v Rakousku na univerzitě v Grazu, jejíž součástí je údajně i slovník slovenské romštiny, vycházející podle údajů na stránkách Katedry romistiky v Praze ze slovníku Hübschmannové. 3.3.4 Databáze ROMLEX Romlex je součástí široce pojatého projektu, s nímž se čtenář může seznámit na http://romaniprojekt.uni-graz.at, a je členěn do oddílů: Romani Österreich, Dialekte / Varietäten, Publikationen, Ressourcen und Links (tj. Romština, Rakousko, Dialekty / Variety, Publikace, Zdroje a Odkazy), z toho romština je dále členěna na Úvod, Slovník, Fonologii, Morfologii, Syntax, Variety, Sociolingvistiku, Odkazy a Zkratky. Obrázek 20. Domovská stránka projektu Romani PROJECT vytvářeného Univerzitou ve Štýrském Hradci Autoři databáze ROMLEX uvádějí o databázi tuto základní informaci (v angličtině): 45 ROMLEX is not a Romani dictionary in the usual sense, it is a lexical database. It contains data that are representative of the variation in the lexicon of all Romani dialects, and offers almost complete coverage of the basic lexicon of the Romani language. At present, data are available online covering 25 different Romani dialects, see: http://romani.uni-graz.at/romlex. These entries resp. glossaries are accompanied by translations into English and, depending on the Romani dialect, into other European languages as well. 3.3.5 Multidialektní slovník romštiny MULTILEX Katedra romistiky v Praze vytváří slovník MULTILEX, který jeho autoři na stránkách katedry popisují takto: Multidialektní slovník romštiny (MULTILEX) je on-line platformou, ve které budou postupně zveřejňovány lexikální údaje z rozsáhlé dokumentace centrální romštiny, probíhající od r. 2008, resp. z dalších jazykových výzkumů Semináře romistiky FF UK. V této chvíli (leden 2012) se jedná o fragment zahrnující 780 romských hesel, která dále zahrnují na 11 000 lexémů (v zásadě dialektních variant základních hesel). Slovník je v této chvíli semibilingvní - zahrnuje v zásadě jen romsko-českou část slovníku. Kromě knihovny tištěných publikací by bylo dobré vytvořit také knihovnu elektronických textů pro severocentrální romštinu. V České republice patrně dosud taková knihovna neexistuje, pominemeli skutečnost, že jistě existují elektronické archivy časopisů, jako je Romano Džaniben, Lačho Lav, ….. Co se týče zahraničních knihoven se specializací na romistiku, neprováděl jsem systematický průzkum, rád bych však upozornil na sbírku romistik University Library of Liverpool (http://www.liv.ac.uk/library/sca/colldescs/gypsy/), zvláště pak její odkaz na knihovnu Hathi Trust Digital Library, poskytující v elektronické podobě časopis Journal of the Gypsy Lore Society, historicky asi nejvýznamnější romistický časopis na světě. Jednotlivá čísla časopisu je možno stáhnout ve formátu PDF. 46 Obrázek 21. Část stránky s odkazy na časopis Journal of the Gypsy Lore Society 3.3.6 Elektronická knihovna Gutenberg Báze dat Gutenberg (www.gutenberg.org) je jedna z bází dat zpřístupňujících v elektronické podobě zdarma díla v různých jazycích. Zjistil jsem, že ke dni 13. 11. 2015 je zde 25 anglických titulů, v jejichž názvu se vyskytuje výrazy „Gypsy“ (cikán, Rom), např. dílo, vydané poprvé v roce 1873: Borrow, George: ROMANO LAVO-LIL WORD-BOOK OF THE ROMANY OR, ENGLISH GYPSY LANGUAGE WITH SPECIMENS OF GYPSY POETRY, AND AN ACCONT OF CERTAIN GYPSYRIES OR PLACES INHABITED BY THEM, AND OF VARIOS THINGS RELATING TO GYPSY LIFE IN ENGLAND. V severocentrálním dialektu však z asi 50 000 bezplatně stažitelných knih není pravděpodobně žádná. 3.3.7 Elektronická knihovna zvukových záznamů Librivox Báze dat Librivox (https://librivox.org), zpřístupňující literaturu ve zvukovém záznamu v elektronické podobě zdarma neobsahuje žádný romský text (ostatně jen 2 texty české), oproti 19384 anglickým (ke dni 13. 11. 2015). 3.3.8 Wikipedie 3.3.8.1 Česká Wikipedie Česká Wikipedie obsahuje např. hesla romština, Romové, Romové v Česku, Romové na Slovensku, neobsahuje však zatím heslo Romská literatura a či Romští spisovatelé, z romských (českých a slovenských) spisovatelů je zde zastoupena např. Tera Fabiánová či Margita Reiznerová, patrně však většina českých slovenských romských spisovatelů není ještě heslově zpracována. Řadu údajů o romských autorech a některé romské texty v romském originále a překladu však najdeme na stránkách www.iliteratura.cz. 3.3.8.2 Slovenská Wikipedie Při hledání jazykových a dalších informací nemůže český uživatel pominout slovenskou Wikipedii . 3.3.8.3 Romská Wikipedie Jednou z asi 280 jazykových verzí Wikipedie je romská Wikipedie v dialektu, který jsem zatím neidentifikoval (kalderašština?). Má však zatím jen ke dni 8. 11. 2015 jen asi 582 hesel (na rozdíl od asi 5,005,306 článků v anglické Wikipedii a cca 336 601 článku v české Wikipedii k tomuto dni) a její jazyk se liší od „severocentrálního dialektu“. Romská Wikipedie však může být inspirací pro případnou Wikipedii v severocentrálním dialektu. 47 Obrázek 22. Úvodní strana romské Wikipedie 3.3.9 Korpusy romštiny Při první chvatné rešerši se zdá, že korpusů romštiny není zatím ve světě mnoho. Zde uvádím informace o třech. 3.3.9.1 Korpus ROMI Z adresy http://lidemesta.cz/archiv/cisla/13-2011-1/romi-prvni-rozsahla-databanka-romskehoetnolektu-cestiny.html přejímám: „ROMI je rozsáhlá databanka romského etnolektu češtiny. Vzniká jako subkorpus rozsáhlé databanky CZESL, jejímž cílem je zachytit češtinu cizinců a Romů. Databanka má sloužit především pro pedagogické účely - v první řadě jako zdroj pro analýzu jazykových kompetencí těchto skupin uživatelů češtiny a její využití ve výuce: ke zmapování hlavních problémů, při sestavování cvičebnic, při explanaci konkrétních jazykových jevů, vyhledání relevantních příkladů a podobně. Tomuto 48 zaměření odpovídá jednak uživatelská přístupnost databanky (snadné vyhledávání, široce uživatelsky zaměřený přepis nahrávek a textů ad.), jednak věkové vymezení mluvčích a další zohledňované parametry zaměřené na školní prostředí. ROMI představuje naprosto ojedinělý, rozsáhlý soubor textů a nahrávek romských mluvčích češtiny od předškolního věku do cca 26 let, který přináší poprvé v dějinách české lingvistiky a romistiky takto rozsáhlý jazykový materiál romského etnolektu. ROMI bude přístupný ve formě přepisu textů a nahrávek širší odborné veřejnosti (podobně jako např. Český národní korpus), nahrávky a originály textů pak v určitých případech (např. za účelem fonetického rozboru). Jazykový materiál je unikátní nejen svým rozsahem (k 17. 3. 2011 obsahuje 2 466 písemných textů a 497 zhruba 1020minutových nahrávek, přičemž sběr dat probíhá od října 2009 a pokračovat bude cca do října 2011), ale také celorepublikovým zaměřením (dosud jediná systematická studie romského etnolektu M. Bořkovcové [Romský etnolekt češtiny. Signeta, Praha 2006] se zaměřuje v první řadě na jednu konkrétní komunitu obývající v době výzkumu pražský Smíchov) a pestrostí zkoumaných prostředí. Do projektu se zapojila řada základních škol všech typů (běžné základní školy, základní školy speciální a praktické), ale také řada individuálních spolupracovníků z neziskových organizací romských i neromských, romští pedagogičtí asistenti i individuální výzkumníci. Jako unikátní zdroj nejen jazykových dat se osvědčila spolupráce s jedním romským sdružením, jehož členové dosud nahráli několik desítek nahrávek přímo ve své komunitě (a v nahrávkách pokračují). Cílem projektu totiž není jen shromáždit materiál „zvenku", ale zapojit do vybudování databanky i romské mluvčí. 3.3.9.2 Korpus severocentrální romštiny jako součást korpusu InterCorp Autor tohoto textu navrhl asi před čtyřmi lety pracovníkům Ústavu Českého národního korpusu (viz https://www.korpus.cz/), který je součástí Karlovy univerzity v Praze, vytvoření korpusu vytvořeného z romských textů, nebo ještě spíše korpusu romsko-českého, který by se stal součástí vícejazyčného korpusu InterCorp. Korpus InterCorp je hlavním výstupem stejnojmenného projektu, jehož cílem je vybudovat rozsáhlý paralelní synchronní korpus, pokrývající co největší počet jazyků. Byl jsem ustanoven koordinátorem tohoto korpusu pro romštinu. Práce na romském korpusu jsou ovšem na úplném počátku. Pro korpus jsem naskenoval zatím asi 10 romských děl, většinou z krásné literatury, a připravil s pomocí Elišky Bokové, spolupracovnici ČNK dvě díla pro zařazení do databáze InterKorpu. Pro zařazení do korpusu byla v roce 2015 naskenována a k dalšímu zpracování připravena tato díla: Fabiánová, Tera: Čavargoš : [romaňi paramisi] = Tulák : [romská pohádka] / Tera Fabiánová, Milena Hübschmannová ; [ilustrovala Renata Fučíková] Vyd. 1. Apeiron, 1991 God’aver lava phure Romendar = Moudrá slova starých Romů / [přísloví sebrali Milena Hübschmannová ... et al. ; přispěli Marta Bandyová ... et al. ; přeložila a uspořádala Milena Hübschmannová]. 2., rozš. vyd., v nakl. Apeiron 1. vyd. Praha : Apeiron, c1991 49 Z druhého díla uvádím ukázku výskytu slova „lav“ (slovo), vytvořenou zatím je ručně ne mém počítači: Goďaver lava phure Romendar Moudrá slova starých Romů Maribnaha na kereha čhavoreha ňič, ča Ranami dítě nevychováš - jenom slovem. laveha. Lav šaj avel tho maro the čhuri. Slovo může být chlebem i nožem. Gule lavendar na čaľoha. Sladká slova tě nenasytí. Ma dikh pro lava, dikh pro vasta. Nevšímej si slov, ale rukou. Te našťi des maro, de choča lačho lav. Nemůžeš-li dát chleba, dej alespoň dobré slovo. Tiri buťi tut bararel, na tire lava. Povýší tě činy, ne slova. Andro muj gule lava, e čhuri andre baj. V ústech sladká slova, v rukávu nůž. Lačho lav sar maro. Dobré slovo je jako chleba. Obrázek 5. Ukázka výskytu slova „lav“ v díle „Goďaver lava“. Obrázek 23. Ukázka obrazovky nástroje Intertext, s jehož pomocí se zarovnávají uložené texty. V tomto případě jde o text „Čavargoš“. V roce 2016 se plánuje zařadit dalších asi šestnáct děl. Budou to například: Fabiánová, Tera: Sar me phiravas andre škola = Jak jsem chodila do školy. 1. vyd. České Budějovice : ÚDO ve spolupráci se Společenstvím Romů na Moravě, 1992 Giňa, Andrej: Paťiv : ještě víme, co je úcta : vyprávění, úvahy, pohádky. Vyd. 1. Praha : Triáda, 2013 50 Horvátová, Agnesa: Pal e Bari Rama the aver paramisa = O Velké Ramě a jiné příběhy. Praha : Signeta, 2003 Hübschmannová, Milena: Romské hádanky : hin man ajsi čhaj, so-.Vyd. 2., přeprac., Ve Fortuně 1. Praha : Fortuna, 2003 Po Židoch Cigáni : svědectví Romů ze Slovenska 1939-1945.Vyd. 1. Triáda, 2005Oláh, Vlado: Le khameskere čhave = Děti slunce : romská próza a poezie.Vyd. 1. Praha : Matice romská, 2003 O evangelijum le Jaňustar. Vyd. 1. Praha : Česká biblická společnost, 1997 Pal oda, so kerenas le devleskere bičhade = Skutky apoštolů. 1. romsko-české vyd. Praha : G plus G : Česká biblická společnost : Matice romská, 2000 Rád bych zařadil také texty z romských a romistických časopisů a novin. Korpus může sloužit např. při praktickém používání jazyka (mimo jiné při překládání), lze s jeho pomocí sledovat a předpovídat vývoj romštiny, vytvářet jeho pomocí (pravděpodobně reprezentativnější, než klasickým způsobem) další jazykové pomůcky a nástroje, jako mimo jiné slovníky (včetně frekvenčního a retrográdního a frazeologického) a korektor pravopisu. 3.3.9.3 Korpus olašské romštiny Jako vhodné se jeví zahájit práce také na korpusu druhého významného dialektu romštiny v České republice, totiž olašské romštiny. Olašských textů je publikováno značně méně než textů v severocentrálním dialektu, je však pravděpodobné, že jich bude v budoucnu přibývat. 3.3.9.4 Korpus romštiny ve sbírce Pangloss Collection Na webové stránce http://lacito.vjf.cnrs.fr/pangloss/languages/Romani_en.htm je údaj o romském korpusu věnovaného romštině v Řecku (podle uvedené stránky se jedná o dvě varianty: olašskou romštinu a romštinu „balkánskou“. Korpus, který se nezaměřuje jen na romštinu, obsahuje 3 vyprávění zaznamenaná badatelkou Evangelia Adamou ve zvukové a grafické podobě, přičemž romský text je doprovozen souběžným anglickým překladem. Zvuková podoba je opatřena tagy. Uvedeme ukázku prvního příběhu, nazvaného The louse and the Rom (Veš a Rom). 51 Obrázek 24: Ukázka z korpusu řecké romštiny ve sbírce Pangloss Collection 3.3.9.5 Korpus Opus Bezplatný korpus Opus na stránkách http://opus.lingfil.uu.se/ obsahuje velké množství romských textů. Jak je možno tento korpus využívat, a o jaké romské texty jde, musím teprve zjistit. Obrázek 25. Začátek soupisu romských textů v korpusu Opus 3.3.9.6 Korpus AntConc 52 Uživatel romštiny, který chce romštinu, respektive texty v jiných jazycích podrobit zkoumání, může využít bezplatný korpus AntConc autora Laurence Anthonyho, působícího na Faculty of Science and Engineering na Waseda Univesity v Japonsku. Korpus lze stáhnout z adresy http://www.laurenceanthony.net/software.html spolu s dalšími užitečnými bezplatnými nástroji vytvořenými autorem. Obrázek 26. Výchozí obrazovka korpusu AntConc 3.4w 3.4. Skype Jako takřka ideální nástroj revitalizace romštiny se jeví program Skype, umožňující bezplatnou (nepočítáme-li samozřejmě náklady na pořízení hardwaru a softwaru) písemnou, hlasovou a obrazovou komunikaci počítačem nebo smartphonem dvou a více mluvčích po celém světě. Dík němu může (izolovaný) mluvčí romštiny zdarma komunikovat s jinými mluvčími romštiny, ať se nacházejí kdykoliv. Zvláště přínosné se jeví telefonování v rámci sítě Skype, Instant messaging – Zasílání zpráv a souborů mezi uživateli sítě a Skype Video Calling – Videokonference mezi uživateli sítě Skype. 3.5. Facebook Podobně významným nástrojem jako Skype je webový systém Facebook sloužící hlavně k tvorbě sociálních sítí, komunikaci mezi uživateli, sdílení multimediálních dat, udržování vztahů a zábavě“. Nevýhodou Skype a Facebooku je nutnost vlastnit komunikační zařízení jako je PC, notebook, chytrý telefon, iPad a být připojen na Internet. 3.6. Rozpoznávání řeči 53 Čeština má od jisté doby k dispozici už programy na rozpoznávání řeči, např. My Dictate, NewtonDictate, nebo ATT Toolkit nebo MegaWord. Protože tyto programy zvládají tvarově bohatou češtinu (slovník programu MegaWord má v nejobsáhlejší verzi 1 milión slov) (jistě by bylo možno vytvořit program pro rozpoznávání romštiny, která je oproti češtině tvarově chudší a její slovník je mnohem méně rozsáhlý. Totiž platí pro následující prostředek, kterým je 3.7. Syntéza řeči Pro češtinu existuje např. program pro syntézu řeči firmy SpeechTech, kterým je SpeechTech TSS. Autor tohoto textu vlastní program TextAloud pro syntézu řeči firmy NextUp Technologies, LLC, od níž zakoupil mimo jiné i český hlas ScanSoft Zuzana22. Protože pravopis romštiny vychází z českého, dokáže hlas předčítat – s určitými vadami – i romštinu. Jistě by bylo možné vytvořit syntézu řeči i přímo pro severocentrální romštinu. 3.8. Překlad s pomocí počítače (CAT – Computer Aided Translation) Dalším nástrojem pro revitalizaci romštiny může být některý z překladových systémů CAT, ať je to Across, DéjàVu, Passolo, MemSource, MemoQ, SDL Trados 2007, SDL Trados Studio, Star Transit, Wordfast, SDL Multiterm, SDLX či MateCat. Protože Google nemá ve svém jazykovém vybavení žádnou romštinu, tedy ani slovenskou, není v něm možné využívat nástroj Googlu pro automatický překlad (https://translate.google.com), ani žádný další internetový překladač. Autor tohoto textu však při svých překladech do romštiny a z romštiny využívá program TRANSIT XV a Transit NXT. 3.8.1 Překlad s pomocí programu Transit Hlavní výhodou TRANSITu, stejně jako obdobných programů CAT, je časová úspora při překladu díky překladové paměti, v níž jsou uloženy jazykové páry utvořené při starších překladech, které je možno využít při překladech aktuálních. Další výhodou CAT je jednota terminologie díky slovníkům, které lze pružně vytvářet a, a – kromě samozřejmě dalších pomůcek - nástroji „Konkordance“, kdy je možno zobrazit starší použití slova nebo sousloví. TRANSIT NTX umožňuje využívat i internetové překladače, jak již bylo řečeno, bohužel ne pro romštinu. 54 Obrázek 27. Část překladu Oznámení o době a místě konání voleb do zastupitelstev obcí v Transitu XV 55 Obrázek 28. Zobrazení několika výrazů ze slovníku neologismů použitých nebo vytvořených autorem v Transitu pro potřeby překladů úředních textů. Obrázek 29. Příklad konkordančního hledání výrazu „hlasovací lístky“. 3.8.2 Překladový nástroj Linguee Internetový „slovník“ Linguee (v internetu je vždy stránka s označením příslušného jazyka, pro češtinu tedy: http://www.linguee.cz/čeština) (je bezplatný internetový překladový nástroj kombinující redakční slovník a vyhledávač, pomocí kterého je možné vyhledávat stovky milionů dvojjazyčných textů slov a výrazů. Výsledky vyhledávání nástroje Linguee obsahují ukázkové věty z různých zdrojů, aby bylo možno získat představu o tom, jak byl hledaný výraz přeložen v kontextu. Ve srovnání s tradičními on-line slovníky, obsahuje nástroj Linguee údajně asi 1 000krát více přeložených textů, které jsou zobrazeny v celých větách. 56 V Linguee je možno vyhledávat ve dvoukombinacích různých jazyků, např. čeština - angličtina, čeština – němčina, čeština – italština, angličtina – němčina, angličtina – italština, angličtina – francouzština … Uvádím příklad vyhledání výrazu „romština“ v páru „čeština – angličtina“ Obrázek 30. Výskyt výrazu „romština“ v česko-anglických větných párech ve vyhledávacím nástroji Linguee. Žádný z dialektů romštiny, tedy ani „severocentrální romština“ ovšem mezi jazyky Linguee není. 3.9. Různé V tomto oddíle uvádím dosti nesoustavně ještě několik nástrojů, které mohou „revitalizátorovi romštiny“, nebo prostě uživateli romštiny pomoci. 3.9.1 Romština pro neslyšící Jako soudní tlumočník se setkávám poměrně často s romským klientem handicapovaným sluchově. Romské sluchově handicapované dítě (ať už zcela nebo částečně neslyšící) je v řadě případů zcela výchovně zanedbáno (zvláště na Slovensku), protože se někdy stává nebo stávalo, že je rodiče neposílají do školy, natož pak do školy pro neslyšící, nebo je naopak obecná škola odmítne přijmout (to platí ostatně i pro děti mentálně handicapované), dítě je vychováváno jen v rodině, kde si rodina vytvoří vlastní komunikační systém ať už znakový či jiný, který zůstává ovšem omezen na rodinu, a postižená osoba se pak neschopna se mimo rodinu o čemkoliv domluvit. Romský klient pak nedomluví ani s tlumočníkem romštiny, ani s tlumočníkem znakové řeči. Vytvořit znakovou či znakovanou romštinu je ovšem úkol dosti speciální a už velkým krokem by bylo, kdyby sluchově, mentálně či jinak postižené romské dítě bylo vychováváno aspoň nějak, tj. konkrétně aplikováno na problém hluchoty, aby se neslyšící dítě naučilo alespoň znakovou nebo znakovanou češtinu či slovenštinu. 3.9.2 Sledování očí (eye tracking) Jedná se o programy založené na výzkumu pohybu očí při dívání. Programy založené na sledování očí umožňuje různé zajímavé aplikace. Např. program pro čtení knih ve smartphonu eyeBook Reader údajně využívá eye tracking (sledování očí) e - např. když se někde zastaví pohled, zobrazí se překlad nebo poznámka (Rylich, 2015). 57 Obrázek 31. Stránka v Googlu pro stažení programu Ebook Reader (https://play.google.com/store/apps/details?id=com.ebooks.ebookreader&hl=cs navštíveno 26. 11. 2015) 3.9.3 Program na psaní rozpoznávání písma dévanágarí Jazyky sánskrt, hindština a další indické jazyky se jak známo zaznamenávají v jazyce dévanágarí. Lingvista, který chce srovnávat novoindický jazyk romštinu s indickými jazyky, potřebuje jednak klávesnici pro dévanágarí, případně též program OCR na rozpoznávání tohoto písma. Program pro tento účel najdeme v Googlu např. při vyhledávací kombinaci „devanagari“ AND „keyboard“ (tj. „devanagari“ a „klávesnice“, program pro rozpoznávání devangárí např. kombinací hesel „devanagari“ AND „OCR“. 58 Obrázek 32. Záznam samohlásek v písmu dévángarí (převzato z české Wikipedie, https://cs.wikipedia.org/wiki/D%C3%A9van%C3%A1gar%C3%AD) Shrnutí kapitoly třetí 59 Současný individuální uživatel severocentrální romštiny má dnes k dispozici bohatý repertoár nástrojů k její revitalizaci a dalšímu rozvíjení. 60 4) URČENÍ POTŘEBY REVITALIZACE ROMŠTINY V ČR 4.1. Revitalizace romštiny z moci úřední Revitalizace je úkolem takříkajíc ze zákona: vládní dokument „Strategie romské integrace do roku 2020“ v bodě 4.2 žádá „Poskytnout účinnou podporu užívání romského jazyka“, s tímto zdůvodněním: Podle výzkumů mapujících jazykovou situaci Romů provedených Ústavem jižní Asie Filozofické fakulty Univerzity Karlovy (v roce 2009, 2010) dochází k postupné ztrátě kompetence hovořit romským jazykem, zejména u neolašských Romů. Zároveň výsledky studií poukazují na určitou nepřipravenost pedagogických pracovníků pro práci s dětmi z jinojazyčného prostředí. Problematickou je i výuka romštiny, kterou komplikuje nedostatek lektorů. Zavedení výuky romštiny jako nepovinného předmětu na školách se nesetkalo rovněž s podporou většinové populace. Uchování jazyka je přitom pro rozvoj romské identity zcela klíčový. a navrhuje toto opatření: a) vytvořit podmínky pro efektivnější využití dotačního titulu Podpora implementace Evropské charty menšinových či minoritních jazyků ve vztahu k romštině b) podporovat výuku romštiny jako jazyka menšiny na základních školách, podporovat vývoj metodických a didaktických materiálů a pomůcek pro její výuku To je ovšem teorie, a obávám se, zda nejsme nuceni převrátit výrok autora básně “Zigeunerlied“2: Zelená je veškerá teorie, ale strom žití usychá. Deklarace potřeby „revitalizace“ a i dobře míněná podpora z vyšších míst nemusí požadovaného výsledku docílit. 4.2. Revitalizace romštiny jako potřeba samotných uživatelů romštiny, tedy především Romů Myslím, že pro potřeby tohoto textu se nelze spokojit s deklaratorním požadavkem „Strategie“, potřebu revitalizace je třeba hlouběji zdůvodnit, tj. zamyslet se nad důvody proti a pro revitalizaci. 4.2.1 Revitalizovat romštinu či nikoliv? Půjde o revitalizaci jazyka nebo jeho narození? Úvodem bych rád uvedl krátkou úvahu, v níž se zamýšlím obecně a také konkrétněji nad úlohou malých jazyků a nad tím, zda je zachovat a rozvíjet či nikoliv. Co je to malý jazyk? A od kolika mluvčích je o něm možno hovořit? Jaký je význam malých jazyků? Je třeba je uchovat a rozvíjet, nebo je vhodnější je v nejlepším případě dokumentovat a uložit do 2 Z hlediska aspoň trochu znalce romské písňové tvorby dosti neuspokojivou. (První sloka: Im Nebelgeriesel, im tiefen Schnee,/ Im wilden Wald, in der Winternacht! / Ich hörte der Wölfe Hungergeheul, / Ich hörte der Eulen Geschrei: / Wille wau wau wau! / Wille wo wo wo! / Wito hu!) Proti ní bych postavil mnohem kvalitnější původní romský a hlubiny romské duše mnohem lépe osvětlující autentický text: Andro paňi lolokici žumajla, žumajla, cinďa mange bačkorici žumajla žumajla./ Štar pari mange a paľis man čumidel, žumajla, žumajla. (Ve vodě se zrcadlí červené kytičky, žumajla, žumajla, koupil mi bačkůrky, žumajla, žumajla. Dal mi čtyři páry a pak mi dal pusu, žumajla, žumajla.) 61 muzea? Jaké odpovědi zvolíme pro „severocentrální dialekt romštiny“, jinak též slovenskou romštinu (dále jen romština)? To všechno jsou otázky, na něž je možná pouze relativní odpověď. Ve srovnání s angličtinou (podle české Wikipedie 1 miliarda mluvčích asi 990 000 slov) je čeština (13 milionů mluvčích, počet slov nezjištěn, ale Wikipedie uvádí, že Příruční slovník jazyka českého, postupně vydaný v letech 1935– 1957, má zhruba 250 000 hesel.) malý jazyk. Vzhledem k češtině je severocentrální romština malý jazyk (asi 60 romskými dialekty ve světě údajně hovoří 6 až 11 milionů, odhadovaný počet Romů v České republice je mezi 250 000 a 300 000, z toho je asi 70 až 85% tzv. Slovenských Romů a 10% Olašských Romů. Počet mluvčích, kteří ho ovládají částečně nebo dokonale, není znám. Nejrozsáhlejší slovník „severocentrální romštiny“ Mileny Hübschmannové a kol. (Hübschmannová, 1998) má v romsko-české části odhadem asi 7 – 8 tisíc hesel, tj. je 30 až 40 x „menší“ než čeština, protože v Příručním slovníku jazyka českého nejsou jistě všechny odborné výrazy z nesčetných oborů specializovaného lidského poznání a činnosti, pro které existují pro češtinu odborné slovníky, které však romština nemá a tyto specializované obory jí nebyly popsány.) 4.2.2 Důvody proti zachování a revitalizaci „malých jazyků“ Proti zachování a rozvoji (malých) jazyků však je možno mít i námitky. Pociťujeme často jejich komunikační nedostatečnost, zvláště co se týče odborné komunikace (stačí jen srovnat objem odborné literatury ve většině oborů v češtině a ve světových jazycích). Malé jazyky prostě neposkytují tak úplný popis světa jako velké a pro určité druhy komunikace nepostačují dostatečně nebo dokonce vůbec ne. Pak mají smůlu ti jazykově nenadaní, kteří nejsou schopni překonat ani jazykovou bariéru a zůstávají uzavřeni v rodném jazyce a jeho omezených obzorech jako ve vězení. Proto považuji za zcela legitimní i úvahy klonící se k závěru, že by bylo dobré malé jazyky zrušit, nebo je alespoň odkázat do patřičných mezí, snad tento nástroj uložit do muzea, ale už ho rozhodně aktivně nepoužívat. Opravdu se má zachovat k aktivnímu používání jazyk izolovaného ostrovního nárůdku o počtu třiceti lidí na úrovni doby kamenné? Nesnaží se nakonec každý spisovný jazyk nahradit omezený dosah a roztříštěnost dialektů - a tím je nutně odsouvá v komunikaci na podřízené místo? Spisovný jazyk je pak nástrojem, který pak mohou používat ke svému prospěchu všichni mluvčí dialektů (malých jazyků) ke vzájemnému dorozumění. Nejsou moudří emigranti z malých zemí, když své děti nenaučí malému jazyku, kterým se v nové zemi domluvím jen s rodinnými příslušníky, a dbají na to, aby se především naučily jazyk velkého národa, do jehož země jejich rodina emigrovala? Minijazyk jejich předků je přinejmenším ekonomicky znevýhodňuje, stejně tak jako setrvávání na identifikaci s mininárodem, z něhož vzešli. Jsou mluvčí, jejichž vztah k rodnému jazyku je zcela oprávněně jen věcný, bez citové vazby, a používají jej jen jako nástroj k dosažení nějakého zisku, který nelze označit jako „duchovní“. To je případ autora prvního motta, mého známého – paradoxně však, přestože se neidentifikuje s jazykem jako kulturní hodnotou, identifikuje se velice skupinou Českých Romů a jejich hodnotami hodnotovými a etickými, především hodnotou „paťiv“ – široký pojem zahrnující důstojnost člověka, vzájemnou úctu a také slušnost. Pochybnost však platí, dokonce i co se týče zachování věrnosti kulturní identifikaci – Neruda a Sládek nejsou možná tak docela špatní spisovatelé – ale dosahují hodnot Shakespeara, 62 Dostojevského nebo Goetha? – Národní kultura malého národa se dá také někdy pociťovat jako halda podprůměrného zboží, v níž jen tu a tam najdeme opravdu prvotřídní kvalitu, zatímco kultura velkého národa – samozřejmě díky statisticky výhodnější situaci – možnosti vybírat z většího množství materiálu – může to průměrné a podprůměrné prostě vyloučit. 4.2.3 Důvody pro zachování a revitalizaci „malých jazyků“ Význam malých jazyků, dokonce i těch kdysi velkých, ale dnes mrtvých (v evropském kontextu latina, řečtina, stará hebrejština) může být nezměrný, protože záznamy v nich zachované se staly trvalým kulturním dědictvím lidstva a využívají se nadále v určitých oblastech (např. latina a řečtina v tvorbě vědeckých terminologií). Malý jazyk nebo malým se stavší nebo dokonce „vymřelý“, přestože je ze své podstaty jako nástroj obecné a odborné komunikace nástroj omezený, může sloužit třeba jako nástroj komunikace slavnostní (latinské diplomy), jazyk náboženských textů (latina, řečtina, stará hebrejština, staroslověnština) a naopak třeba důvěrné (mluvčí, který vyrostl v nespisovné češtině, bude v určitých kontextech – např. v rodinné komunikaci a komunikaci s důvěrnými přáteli pociťovat spisovnou češtinu, jako nevhodnou, protože právě postrádá aspekt důvěrnosti. (Něco podobného bude pociťovat také člověk, který si jako důvěrný jazyk osvojil češtinu (nyní nerozlišuji spisovnou a nespisovnou) vůči cizím jazykům. Jazyk a jazykové společenství vytvářejí (i když nemusejí nutně) také společenství důvěrnosti, budí pocit zakotvenosti, kontinuity (i dějinné) a domova3. 4.3. Situace „malého jazyka“ severocentrální romštiny V pozici mezi těmito dvěma póly stojí i malý jazyk slovenská romština. Je, jak jsem již uvedl, malým jazykem nejen vzhledem k světovým jazykům a češtině, ale dokonce i jedním z menších romských dialektů. Rozhodování pro její revitalizaci, nebo lépe její rozvoj v plnohodnotný jazyk, je ještě bolestnější než v jiných případech. Při jejím rozvoji nepůjde ani tak o revitalizaci, jako spíše o narození, v lepším případě pracné "vypiplání" (zanedbaného?) batolete. Byla donedávna jazykem mluvčích na okraji společnosti – od ostatní společnosti izolovaných často diskriminovaných kočovníků a (již usazené) vesnické chudiny, jazykem negramotného lidu, který měl bezpochyby nějakou elitu4 – ale velmi úzkou, bez vědeckých ústavů (tedy ani Ústavu pro romský jazyk5), 3 Odtud například pramení obrany jazyka vytvářené obrozenců, Sládkovo „jak znělas od věků, navěky zni“ (nechtějící zřejmě nic vědět o skutečnosti, že jazyky a národy vznikají a zanikají), nebo „Chrám a tvrz“ Pavla Eisnera, kteří byli současně význačnými překladateli z „velkých“ jazyků.) a významně přispěli k „revitalizaci“ a komunikačního potenciálu češtiny . V kontextu německé literatury napsal apoteózu malého jazyka – dolní němčiny Kurt Tucholsky, z níž krátce ocitujeme: „ (…) niederdeutsch. Es ist jener Weg, den die deutsche Sprache leider nicht gegangen ist, wieviel kraftvoller ist da alles, wieviel bildhafter, einfacher, klarer - und die schönsten Liebesgedichte, die der Deutsche hat, stehen auf diesen Blättern.“ (Tucholsky,) To, čím je člověku „rodný“ jazyk, vyjádřil vášnivě v době své emigrace Heinrich Heine. Je pochopitelné, že takto zapálení uživatelé malých jazyků (ale i těch velkých) chtějí svůj jazyk zachovat a rozvíjet. 4 Zapomínáme ovšem, nebo nevíme vůbec, že k romské elitě můžeme přiřadit významné představitele „gádžovské“ kultury, jako je pýcha „české“ techniky Josef Ressel, jehož matka byla – podle některých pramenů – česká Romka (a otec Němec), brazilského presidenta Juscelino Kubitscheka (syn opět české romské matky – aspoň podle anglické Wikipedie - Julie Kubitschekové), Charlie Chaplin (jehož babička byla, 63 odborné literatury, církve a teologické literatury, bez státních orgánů, knih, časopisů a knihoven, bez mimo jiné rozvinutého úředního a právního jazyka. Ne, že tu nebyla – ostatně nečetná „věčná“ a „všelidsky platná“ díla romské kultury a umění a myšlení, ale ta zůstávala v orální podobě (přísloví, epická a lyrická tvorba a písně). Jako Romština měla a má – již jen kvůli malé slovní zásobě – omezenou schopnost vyjadřování a řada mluvčích romštiny ji jistě také neovládala dokonale a v řadě situací si raději vypomáhala jazykem majority. Za první republiky sice v Československé vlastivědě vyšel sice popis romštiny z pera Vincence Lesného (Lesný, 1934), Romové, respektive „Cikáni“ byli více méně považováni za kriminální skupinu6. Druhá světová válka přinesla romský holocaust (vyvraždění velké většiny tzv. českých Romů za druhé světové války), to znamená také fyzickou likvidaci velkého množství mluvčích romštiny. V důsledku toho takřka zmizela z užívání česká romština. Co týče „slovenské romštiny“, neměla naštěstí druhá světová válka takový vliv na postoj romských mluvčích, co se týče zatajování vlastního jazyka vůči Neromům, jako v případě německé romštiny, sintštiny: Sintové údajně svůj jazyk (většinou) vůči Neromům tají a jazykové skutečnosti a skutečnosti ze života jejich komunity jim nesdělují, údajný důvodem je, že mohli svého jazyka za druhé světové války v koncentračních táborech používat jako tajného jazyka neznámého pachatelům genocidy, což jim – nemnohým - pomohlo se zachránit. V době socialismu byla romština potlačována státem a školou. Slovenská romština byla v minulosti v nejlepším případě tím, čím jí sami Romové nazývali: domácí jazyk (kherutňi čhib). O písemné a zvukové zaznamenání romštiny se v minulosti zasloužili především neromové (počínaje u nás Antonínem Puchmajerem, autorem „Romaňi čhib“ (1821). Kodifikace pravopisu romštiny a první romské písemné texty vytvářené vědomě Romy samotnými se objevují až se vznikem Svazu Cikánů-Romů v roce 1969. Tato skutečnost do jisté míry přetrvává, v průběhu času však díky Romům (pravděpodobně také v důsledku demografických změn – mj. zvýšení procentního podílu Romů v obyvatelstvu) a neromským sympatizantům romštiny působí emancipační úsilí. Po roce 1989 již nelze říci, že by byla romština potlačována, naopak je de iure podporována, viz výše citovanou „Strategii“. Podle zákona má nyní romský účastník řízení před soudem, na policii atd. právo na komunikaci v romštině a úřady v mnoha případech soudního tlumočníka na základě vlastního uvážení nebo na žádost romského klienta přibírají. Romské texty se objevují ve sdělovacích prostředcích, především v rozhlasových a televizních vysíláních a časopisech věnovaných Romům, bylo založeno Romské muzeum, romština se konečně stala vysokoškolským oborem. Romština se tedy rozvíjí, kultivuje a přestává být pouhým „domácím“, ale stává alespoň do jisté míry spisovným jazykem jak píše česká Wikipedie – ale Chaplin potvrzuje i ve své autobiografii – „poloviční cikánka“), podle romského básníka Rajko Djuriće také rumunského spisovatele Ioana Budai-Deleanu (1760 či 1763 – 1820), autor eposu Tiganiada (Cikaniáda). 5 Tady bych rád vzpomenul zemřelého romského básníka Vlado Oláha, který založil – po vzoru Slovenské matice – Romskou matici. Zřejmě však – zatím - zemřela spolu s ním. 6 Ve své diplomové práci píše Lukáš Tůma (Tůma, 2011, str. 65) : „Cikáni“ byli za první republiky oficiálně uznáni za svébytnou národnostní menšinu. Nicméně se dá říct, že se k nim obecně přistupovalo jako k asociálnímu a kriminálnímu živlu. Podle zákona ze dne 14. července 1927 je „cikán“ nejen osoba, která náleží k „cikánskému plemeni“, ale i osoba, která žije po způsobu „cikánů“. 64 s požadavkem, aby si osvojila řadu funkcí, které dříve neměla. Jednou z těchto funkcí, kterou jsme takřka povinni rozvíjet z příkazu zákona je tvorba právnické terminologie, respektive „terminologie pro soudní tlumočníky“. Jsme však v situaci, k osvojení těchto funkcí vede cesta, která je dlouhá, obtížná a někdy se zdá i naprosto neschůdná (představme si například učebnici chemie v romštině byť jen pro střední školy, anatomický atlas či překlad Kantovy „Kritiky čistého rozumu“ v romštině). Současně ovšem působí opačná tendence: tím, jak se (aspoň část) romské populace dostala ze společenské a komunikační izolace a zvyšuje se jejich společenský statut, začínají mluvčí a jejich potomci nahrazovat romštinu češtinou. Tyto dvě tendence – snaha zachovat romštinu, kultivovat ji a rozvíjet – a její opouštění působí současně a nelze předvídat konečný výsledek. 4.4. Shrnutí kapitoly čtvrté Jsem však přesvědčen, že romštinu je třeba – a stojí to za to – uchovávat, kultivovat a rozvíjet, jakkoliv se romština paradoxně může stát v budoucnu „mrtvým“ jazykem (tak jako například z českých židů již asi dnes nikdo nemluví jako rodným jazykem jidiš či hebrejsky, a nářečí češtiny existují pouze ve zbytkové podobě). Stejně tak dobře se však může stát, že se romština zachová a dokonce se její komunikační význam zvýší. Jako příklad živého malého jazyka bych jako nizozemštinář v této souvislosti rád uvedl jako příklad fríštinu (Hofman, 2012) nebo nizozemské dialekty, které si jejich mluvčí zachovávají, přestože bychom předpokládali, že jejich malé jazyky v malé zemi bez přírodních bariér smete hladce unifikační koště spisovné a úřední nizozemštiny. Neděje se tak, mluvčí jazykových společenství si uchovávají a rozvíjejí svůj malý jazyk jako jakýsi komunikační přepych – jazyk rodinné a dějinné kontinuity, jazyk důvěrné komunikace, jazyk slavnostního vyjádření a vlastní identifikace, tedy – doplníme-li Eisnera – nejen jako chrám a tvrz, ale také místo odpočinku, prostředek vyjádření neformálního, uvolněného a citového, ale naopak také slavnostního, jazyk krásné literatury vnímané jako „ta naše“, jakkoliv je – a možná právě proto že je - „tak malička, že je tak chudička“ (abych znovu připomenul Nerudu), v neposlední řadě také jazyk zakotvení v dějinách rodiny, rodu a národa, jazyk domova 7, tedy vlastně ne přepych, ale cosi bytostně potřebného. Bude však záležet na společenství uživatelů romštiny, tedy především na Romech, jejichž je „rodným“ jazykem, zda bude mít o zachování, revitalizaci a další rozvíjení tohoto jazyka mít zájem. 7 Wolf píše v úvodu ke svému slovníku „Das Romani ist dem Zigeuner nicht allein Muttersprache, sondern auch geistige Heimat, meistens die einzige, die er hat.“ (Wolf, 1960, str. 31). K tomu poznamenávám, že Rom se nemusí romštiny vzdávat, i když bude mít (duchovních) jazykových domovů více, stejně tak my můžeme náš duchovní jazykový domov – češtinu – doplnit nejen domovem třeba nějakého světového jazyka, ale i dosud ve výstavbě se nacházejícím malým domkem romštiny. Kolik řečí člověk umí, tolikrát je člověkem paralela tohoto přísloví zní v severocentrálním dialektu: Keci čhib, ajcik manuš. 65 ZÁVĚR Tato studie se zabývá vazbou mezi jazykovými technologiemi zahrnujícími interakci člověka a stroje (Human-Language Technologies, HLT) a menšinovými či regionálními jazyky, se zaměřením na romštinu. V úvodu se uvádějí cíle projektu a jeho návaznost na některé předchozí činnosti v oblasti problematiky překladu a romštiny v ČR. První kapitola pojednává o využití technologií HLT v oblasti menšinových jazyků, a to nejprve obecně, přičemž uvádí přehled dosavadních odborných publikací k tématu. Ve druhé kapitole je prezentován přehled HLT, včetně např. technologie OCR, převodu mluveného jazyka do psané podoby, tzv. počítačem podporovaného překladu, strojového překladu, dále pak lokalizace a crowdsourcing. V kapitole třetí studie uvádí konkrétní příklady technologií při revitalizaci severocentrálního dialektu romštiny. Patří sem např. elektronické knihovny, publikace, slovníky a databáze, ale i platformy jako Skype a sociální média jako Facebook. Speciálními případy jsou pak rozpoznávání řeči, syntéza řeči a počítačem podporovaný překlad. Ve čtvrté kapitole je nastíněna problematika určení potřeby revitalizace romštiny v ČR. Tento Závěr pak níže obsahuje oddíl Závěry a doporučení v oblasti využití HLT při revitalizaci menšinového jazyka, konkrétně ve vztahu k romštině. Uvedený oddíl zahrnuje 23 doporučení, jež mohou naznačit další směr podpory tvorby nástrojů HLT usnadňujících revitalizaci romštiny. Publikace obsahuje též seznam použité literatury s uvedením bibliografických referencí, jež se používají v průběhu celého textu. Je zřejmé, že v souvislosti s romštinou v ČR je k dispozici již řada elektronických zdrojů (glosáře, korpus), ale spojení jejich potenciálu do jednotné platformy elektronických nástrojů, včetně strojového překladu, by zásadně přispělo k jejich využití nejen pro akademické účely, ale k rozšíření i mezi širokou veřejností běžných uživatelů romštiny, kteří pracují s PC nebo využívají chytrý telefon. 66 Závěry a doporučení v oblasti využití HLT při revitalizaci menšinového jazyka, konkrétně ve vztahu k romštině Závěry vyplývající buď z citovaných prací, nebo ze samotných podnětů a úvah obsažených v této studii, ve vztahu k romštině, jsou tyto8: Jazykové zdroje a technologie9 a jejich dostupnost 1) Je zapotřebí, aby byl dostatek strojově čitelných materiálů, ať už v jednojazyčné podobě (v romštině), nebo (ještě lépe) ve dvojjazyčné podobě. Toto se týká potřeby tvorby a udržování korpusů – jednojazyčných i překladových. (Kap. 1) 2) Panuje obecná potřeba sběru a šíření údajů/dat, a to jak v oblasti literárního, tak neliterárního překladu, podněcovaného či podporovaného státem. Šíření zdrojů má být co nejširší a mělo by zahrnovat crowdsourcing a používání otevřených licencí. (Kap. 1, kap. 2) 3) Kromě knihovny tištěných publikací by bylo potřeba vytvořit také knihovnu elektronických textů pro severocentrální romštinu. V České republice podle informací autorů této stati dosud taková knihovna neexistuje. (Kap. 2) 4) Doporučuje se vytvořit databázi přeložených děl, která bude dále využitelná jak pro praktikující překladatele, tak pro výzkum v oblasti translatologie se zaměřením na menšinové jazyky. Mělo by se jednat o „autorizované“ překlady. (Kap. 1) Sady písma, pravopis 5) Z důvodu nejednotnosti pravopisu u varianty romštiny používané v České republice, a aby se předešlo standardizaci nežádoucím směrem (např. opouštění písmen s diakritikou a jejich nahrazování písmeny bez diakritiky), je patrný prostor pro kroky směřující ke standardizaci písemné romštiny. (Kap. 1) 6) Je potřeba vypracovat chybějící jazykové pomůcky, například editační programy, automatické dělení slov a sady fontů, dále počítačové nástroje usnadňující psaní, kam spadá automatická kontrola pravopisu a gramatiky a dále prediktivní psaní, jako je např. technologie T9 známá z mobilních zařízení. (Kap. 1) 7) Počítačový program pro pravopisnou korekci textů v severocentrální romštině dle informací autorů této studie neexistuje. Vhodnou pomůckou pro jeho vytvoření by byl korpus severocentrální romštiny. (Kap. 2; k problematice korpusů viz výše.) 8 Doporučení jsou řazena dle tematických okruhů. Údaj „Kap.“ a číslo, uvedený v závorce za jednotlivými doporučeními, odkazuje na kapitolu, odkud je dané doporučení převzato. 9 Bližší popis technologií a jednotlivých odborných termínů je uveden v kapitole č. 2. 67 Terminologie 8) Pro oblast odborného překladu je zapotřebí pracovat na sjednocování terminologie a kvalitních terminologických databázích. (Kap. 1) 9) Romština se rozvíjí, kultivuje a stává se (alespoň do jisté míry) spisovným jazykem s požadavkem, aby si osvojila řadu funkcí, které dříve neměla. Jednou z těchto funkcí je tvorba právnické terminologie. Osvojení takových funkcí je v dnešní době obtížně představitelné bez podpory jazykovými a počítačovými technologiemi. (Kap. 2) 10) Je zapotřebí dalšího a systematického výzkumu v oblasti technologií v překladatelském procesu. Sem patří otázka titulkovací technologie, terminologie, nástrojů počítačem podporovaného a strojového překladu. (Kap. 1) Počítačem podporovaný překlad (tzv. nástroje CAT) 11) Pro oblast menšinových jazyků je potřeba využití takových nástrojů jasně dána. (Kap. 1) Strojový překlad a automatické tlumočení 12) Pro účely možné revitalizace romštiny pomocí systému automatického tlumočení (automatický převod mluveného slova jednoho jazyka do mluveného slova jiného jazyka) je nevyhnutelný automatický překlad (písemný). Ten předpokládá z velké části standardizovaný pravopis, protože systém jinak nedokáže přiřadit výrazy stejného významu, jež se jinak píší. (Kap. 1) 13) U rozkolísaných variant/variet menšinového/regionálního jazyka má velký potenciál pravidlový strojový překlad: Bude-li existovat jedna centrální varianta a strojový překlad z cizích jazyků bude relativně kvalitní, překlad do dalších variant bude realizován nikoli opět z každého cizího jazyka zvlášť, ale již z centrální varianty (takto funguje např. Překladač Google – překlad z EN do slovenštiny probíhá ve směru EN–CS–SK). (Kap. 1, kap. 2) 14) Systémy HLT lze s úspěchem použít i při podpoře uživatelů menšinového jazyka na sociálních sítích. O vzrůstající popularitě používání menšinových jazyků on-line existují různé doklady a stejně hovoří i zkušenost uživatelů sociálních médií. Jeví se proto jako účelné využít k revitalizaci menšinového jazyka technologické pomůcky on-line (např. strojový překlad) v propojení se sociálními sítěmi. (Kap. 1) 68 Technologie rozpoznávání řeči 15) Pro účely předcházení sociálního vyloučení je zapotřebí využívat moderní technologie převodu psaného jazyka na řeč a mluveného slova na psaný text (speech-to-text, text-tospeech). (Kap. 1) 16) Bylo by možné vytvořit program pro rozpoznávání romštiny, která je oproti češtině tvarově chudší a její slovník je mnohem méně rozsáhlý. Jistě by bylo možné vytvořit syntézu řeči i přímo pro severocentrální romštinu. (Kap. 2) Technika titulkování 17) Doporučuje se více užívat techniku titulkování tam, kde existují díla jazykově nedostupná (např. filmy) pro členy té či oné komunity (menšinové i většinové). Titulkování filmů a divadelních představení musí být kvalitní. (Kap. 1) Výzkum a vývoj překladových technologií 18) Je zapotřební vytvořit databázi umožňující propojení všech stávajících platforem týkajících se jazykových zdrojů či využívaných technologií. (Kap. 1) 19) Fenomén překladu má podstatný význam pro upevnění pozice určitého menšinového/regionálního jazyka. V současné době pak jsou v tomto procesu překladové technologie téměř neodmyslitelné. Je proto potřeba poskytovat podporu technologiím vstupujícím do procesu překladu. (Kap. 1) 20) Výzkum v oblasti technologií a menšinových/regionálních jazyků by měl být mezinárodní, aby se tak zvýšila produktivita takového přístupu – za předpokladu, že mezinárodní partneři budou sdílet dostupné programy a data otevřeně. (Kap. 1) Vzdělávání překladatelů 21) Je zapotřebí zajistit školení pro překladatele obecně, včetně mobility vyučujících a studentů překladu, podpory vzdělávání v oblasti překladu již na střední škole a včetně založení překladatelských center, kde by podobná školení probíhala. (Kap. 1) 22) Je potřeba zajistit kvalitní vzdělávání/školení pro překladatele pracující s technologií titulkování. (Kap. 1) 23) Je zapotřebí zajistit školení pro překladatele zejména v oblasti problematiky překladových technologií. (Kap. 1) 69 SEZNAM POUŽITÉ LITERATURY Barnes, Janet. (1987) A user perspective on computer-assisted translation for minority languages. Machine Translation (journal), Issue 2:2–3, s. 131-134. Civil Society Platform on Multilingualism (2011) „Policy Recommendations for the Promotion of Multilingualism in the European Union“ 06/06/10; FULL VERSION; dostupné z: http://www.poliglotti4.eu/docs/publications/CSPM%20Policy%20Recommendations_FULL%20VER SION.pdf cit. 11. prosince 2015 Cronin, Michael (2001) ‘Minority’. Routledge Encyclopedia of Translation Studies. Ed. Mona Baker. 2nd ed. London: Routledge, 169 – 172. Datary, Farimah; Grin, Francois (2003) Nation-Building, Ethnicity and Language Politics in Transition Countries. Budapešť: LGI, 314 s. Federici, Federico M. (2011) ‘Translating Dialects and Languages of Minorities. Challenges and Solutions’. Bern: Peter Lang, 233 p. Folaron, Debbie. (2015) Introduction: Translation and minority, lesser-used and lesser-translated languages and cultures. The Journal of Specialised Translation, Issue 24, s. 16-27. Hall, Pat (2015) Computerised writing for small languages. The Journal of Specialised Translation. Sv. 24. s. 163–184. dostupné z: http://www.jostrans.org/issue24/art_hall.pdf cit. 11. prosince 2015 HALWACHS, Dieter W. – SCHRAMMEL, / Barbara – RADER, Astrid: ROMLEX. THE LEXICAL DATABASE OF ROMANI VARIETIES.pdf https://romaniprojekt.uni-graz.at/publications.de.html naposledy navštíveno 15.11.2015 HOFMAN, Martha: Fríština / Het Fries. In: NE-BE 2012. Ročenka NE-BE, společnosti pro nizozemskou a vlámskou kulturu za rok 2012. s. 37-40. HÜBSCHMANNOVÁ, Milena ŠEBKOVÁ, Hana –ŽIGOVÁ, Anna: Romsko-český a česko-romský kapesní slovník. 2., nezměn. vyd. Praha : Fortuna, 1998. HUTCHINS, W. John. The State of Machine Translation in Europe and Future Prospects. URL: http://www.hutchinsweb.me.uk/HLT-2002.pdf (cit. 9. listopadu 2015). KOPTOVÁ, Anna - KOPTOVÁ, Martina: Slovensko-rómsky, rómsko-slovenský slovník = Slovačikoromano, romano-slovačiko lavustik = Slovaćiqo-rromano, rromano-slovaćiqo lavustik. 1. vyd. Košice : Lagarto pre Nadáciu Dobrá rómska víla Kesaj, 2011. KOPTOVÁ, Anna: romčina do vrecka. Vyd. 1. Košice : Pezolt, 1995 LAZZARI, G. (2006) Human Language Technologies for Europe. ITC IRST/TC-Star project report. LESNÝ, Vincenc: Jazyk cikanů v ČSR. In: Československá vlastivěda. 3. Praha, Sfinx, 1934, s. 605– 612. LHOTKA, Petr: Svaz Cikánů-Romů 1969-1973 : doprovodná publikace k výstavě Muzea romské kultury "Svaz Cikánů-Romů (1969-1973) - z historie první romské organizace v českých zemích". Brno : Muzeum romské kultury, 2009 70 MATULA, Miloš: Moderní těsnopis. Praha : SPN, 1983. MIKHAILOV, Mikhail. (2015) Minor language, major challenges: the results of a survey into the IT competences of Finnish translators. The Journal of Specialised Translation, Issue 24. NEČAS, Ctibor: Pal o Roma [elektronický zdroj] = O Romech : výběrový a retrospektivní soupis literatury, vzešlé z tvorby romských a neromských autorů. Brno : Muzeum romské kultury, 2012. PDF. PUCHMAJER, Antonín Jaroslav: Románi Čib, das ist, Grammatik und Wörterbuch der Zigeuner Sprache, nebst einigen Fabeln in derselben : dazu als Anhang die Hantýrka, oder, die Čechische Diebessprache / von Anton Jaroslaw Puchmayer. Prag : Auf Kosten der Josepha verwittweten Vetterl von Wildenbrunn, 1821. RAJASEKARAN, R. – RAMA, K.: Handwritten Gregg Shorthand Recognition. International Journal of Computer Applications 41(9):31-38, March 2012. RYLICH, Jan: Čtení a zprostředkování literatury v digitálním věku. Ikaros, 2015, roč. 19, č. 10 (viz http://ikaros.cz/cteni-a-zprostredkovani-literatury-v-digitalnim-veku) Somers, Harold (1997) Machine Translation and Minority Languages, in Translating and the computer, Issue 19, Papers from the Aslib conference, Londýn, s. 1–13. Soria, C., Mariani, J., Zoli, C. (2013) Dwarfs sitting on the giants’ shoulders – how LTs for regional and minority languages can benefit from piggybacking major languages. URL: http://www.smallcodes.com/ (cit. 9. listopadu 2015). Strategie romské integrace do roku 2020. Únor 2015. Viz http://ec.europa.eu/justice/discrimination/files/roma_czech_republic_strategy2_cs.pdf (naposledy navštíveno 28. 11. 2015) např. ŠEBKOVÁ, Hana – ŽLNAYOVÁ, Edita : Nástin mluvnice slovenské romštiny : (pro pedagogické účely) Vyd. 1. V Ústí nad Labem : Univerzita Jana Evangelisty Purkyně, Pedagogická fakulta, 1998. TUCHOLSKY, Kurt: Gesammelte Werke 1931, Band 9. Reinbek bei Hamburg: Rowohlt, 1987. TŮMA, Lukáš: Policejní identifikace osob v Československu mezi lety 1918 a 1938. Diplomová práce. Praha, Univerzita Karlova v Praze, 2011. Wolf, Siegmund A.: Grosses Wörterbuch der Zigeunersprache. Mannheim, Bibliographisches Institut, 1960. 287 s. 71
Podobné dokumenty
Učíme stroje česky
představovalo největší evropský převzetí od roku 1980 v New Yorku založenaMarsh & McLennan, který je největším na světě pojišťovací makléř. Je také
prvním hlavním znakem je dlouho očekávaná-konsoli...
II. Řešení sporů vznikajících ze spotřebitelských transakcí v EU MGr
vydala další Doporučení č. 310/2001 EC, které obsahuje zásady mimosoudního
řešení sporu, v němž však třetí subjekt vystupuje jako smírce, tedy vede strany ke
kompromisu, ale sám žádné řešení nepřed...
Výroční zpráva 2006 - Česká bankovní asociace
prostředí. Míru soutěživosti na bankovním trhu pak dokládá i neustálé posilování úlohy středně velkých
bank, doprovázené dopadem M&A aktivit podníceným fúzí mateřských společností v zahraničí nebo
...
Kvalita a hodnocení překladu: Modely a aplikace
a jejich testování v průběhu studia. Podle Carol Maierové (2000) byly úvahy o hodnotě
a kvalitě překladatelské práce z historického hlediska mimořádně složité. V současnosti však rostoucí potřeba p...
užitečný blbec
nároky multijazykových komunit a mezinárodního obchodu zvýšily poptávku po překladech v
Evropě, Kanadě a Japonsku nad kapacitu zavedených překladatelských služeb. Cílem se staly stroji
podporované ...
Šlapeme spolu. Instituce pouliční prostituce
V této práci jsem ovšem byl nucen orientovat se mnohem více na popis
jednotlivých aktérů, jejich chování, interakce, než na samotnou hru. Důvodem je
především neexistence popisů, ze kterých by byl...