On Some Methodological Issues of CADS
Transkript
On Some Methodological Issues of CADS
On Some Methodological Issues of CADS Language in Politics in Slavic speaking countries Václav Cvrček CADS and KWAIj Corpus-assisted Discourse Studies (CADS) Use of corpora in discourse analysis ▶ goal: text/discourse interpretation Corpus-assisted Discourse Studies (CADS) Use of corpora in discourse analysis ▶ goal: text/discourse interpretation ▶ reduce researcher’s bias (Baker 2012) Corpus-assisted Discourse Studies (CADS) Use of corpora in discourse analysis ▶ goal: text/discourse interpretation ▶ reduce researcher’s bias (Baker 2012) ▶ identification of prominent topics (⇐ prominent words) Corpus-assisted Discourse Studies (CADS) Use of corpora in discourse analysis ▶ goal: text/discourse interpretation ▶ reduce researcher’s bias (Baker 2012) ▶ identification of prominent topics (⇐ prominent words) ▶ keywords identification and analysis MethodsIj Method of identification of prominent words 1. raw or relative frequency of words in a text/corpus Method of identification of prominent words 1. raw or relative frequency of words in a text/corpus 2. thematic concentration (TC) Method of identification of prominent words 1. raw or relative frequency of words in a text/corpus 2. thematic concentration (TC) 3. keywords (KWs) Method of identification of prominent words 1. raw or relative frequency of words in a text/corpus 2. thematic concentration (TC) 3. keywords (KWs) ⇒ starting point for the interpretation Note on thematic concentration Popescu–Altmann (2006) Discussion on thematic concentration J. David et al.: Slovo a text v historickém kontextu. Host. 2013 Discussion on thematic concentration J. David et al.: Slovo a text v historickém kontextu. Host. 2013 Features and consequences of thematic concentration ▶ TC = identification based on the frequency distribution of units within a text Discussion on thematic concentration J. David et al.: Slovo a text v historickém kontextu. Host. 2013 Features and consequences of thematic concentration ▶ TC = identification based on the frequency distribution of units within a text ▶ no reference corpus is required Discussion on thematic concentration J. David et al.: Slovo a text v historickém kontextu. Host. 2013 Features and consequences of thematic concentration ▶ TC = identification based on the frequency distribution of units within a text ▶ no reference corpus is required ▶ ”interpretation without the interpreter”× different readers ⇒ different interpretations KeywordsIj Keywords and KWA Keywords ▶ homonymous term (!) Keywords and KWA Keywords ▶ homonymous term (!) ▶ words with higher relative frequency in a text Keywords and KWA Keywords ▶ homonymous term (!) ▶ words with higher relative frequency in a text ▶ based on comparison with reference corpus Keywords and KWA Keywords ▶ homonymous term (!) ▶ words with higher relative frequency in a text ▶ based on comparison with reference corpus ▶ significance testing: χ2 test, log-likelihood (G) test, Fisher test Keywords and KWA Keywords ▶ homonymous term (!) ▶ words with higher relative frequency in a text ▶ based on comparison with reference corpus ▶ significance testing: χ2 test, log-likelihood (G) test, Fisher test Keywords: Words which appear in a text or corpus that are statistically significantly more frequent than would be expected by chance when compared to a corpus which is larger or of equal size. Keyword analysis (KWA) Romeo and Juliet vs. all Shakespeare plays (Scott–Tribble 2006) Keyword analysis (KWA) Romeo and Juliet vs. all Shakespeare plays (Scott–Tribble 2006) AH ART BACK BANISHED BENVOLIO CAPULET CAPULETS CAPULET’S CELL CHURCHYARD COUNTY DEAD DEATHLY EARLY FRIAR JULIET JULIET’S KINSMAN LADY LAWRENCE LIGHT LIPS LOVE MANTUA MARRIED MERCUTIO MONTAGUE MONUMENT NIGHT NURSE O PARIS POISON ROMEO ROMEO’S SHE SLAIN THEE THOU THURSDAY THY TORCH TYBALT TYBALT’S VAULT VERONA WATCH WILT Methodological issues of KWA 1. KW identification and the question of KWs ranking 2. Role of reference corpus How to measure keynessIj Keywords identification How do we usually proceed? 1. count frequency of each word in a target text – most frequent words are the, of, was… Keywords identification How do we usually proceed? 1. count frequency of each word in a target text – most frequent words are the, of, was… 2. compare it with a frequency of the same word in a reference corpus Keywords identification How do we usually proceed? 1. count frequency of each word in a target text – most frequent words are the, of, was… 2. compare it with a frequency of the same word in a reference corpus 3. use statistical tests: χ2 , log-likelihood or Fisher to find out if the difference is significant Keywords identification How do we usually proceed? 1. count frequency of each word in a target text – most frequent words are the, of, was… 2. compare it with a frequency of the same word in a reference corpus 3. use statistical tests: χ2 , log-likelihood or Fisher to find out if the difference is significant 4. interpret top X most significant keywords Significance versus relevance Gabrielatos, C. & Marchi, A. (2012): there is a difference between (statistical) significance and (linguistic) relevance (effect size) Significance versus relevance Gabrielatos, C. & Marchi, A. (2012): there is a difference between (statistical) significance and (linguistic) relevance (effect size) Metrics used to calculate keyness ▶ significance – level of certainty we have that the difference exists (N.B. χ2 test is asymptotically true) Significance versus relevance Gabrielatos, C. & Marchi, A. (2012): there is a difference between (statistical) significance and (linguistic) relevance (effect size) Metrics used to calculate keyness ▶ significance – level of certainty we have that the difference exists (N.B. χ2 test is asymptotically true) ▶ relevance – importance of the difference (for interpretation) Significance versus relevance Gabrielatos, C. & Marchi, A. (2012): there is a difference between (statistical) significance and (linguistic) relevance (effect size) Metrics used to calculate keyness ▶ significance – level of certainty we have that the difference exists (N.B. χ2 test is asymptotically true) ▶ relevance – importance of the difference (for interpretation) crucial for the top X approach: ▶ Significance versus relevance Gabrielatos, C. & Marchi, A. (2012): there is a difference between (statistical) significance and (linguistic) relevance (effect size) Metrics used to calculate keyness ▶ significance – level of certainty we have that the difference exists (N.B. χ2 test is asymptotically true) ▶ relevance – importance of the difference (for interpretation) crucial for the top X approach: ▶ 1. identification of KWs – statistical tests Significance versus relevance Gabrielatos, C. & Marchi, A. (2012): there is a difference between (statistical) significance and (linguistic) relevance (effect size) Metrics used to calculate keyness ▶ significance – level of certainty we have that the difference exists (N.B. χ2 test is asymptotically true) ▶ relevance – importance of the difference (for interpretation) crucial for the top X approach: ▶ 1. identification of KWs – statistical tests 2. ranking of KWs – task for a different metric Metric for keyness Gabrielatos, C. & Marchi, A. (2012): ProcDiff ProcDiff = RelFq(Target) − RelFq(Reference) × 100 RelFq(Reference) Metric for keyness Gabrielatos, C. & Marchi, A. (2012): ProcDiff ProcDiff = RelFq(Target) − RelFq(Reference) × 100 RelFq(Reference) But what if RelFq(Reference) = 0? Metric for keyness Gabrielatos, C. & Marchi, A. (2012): ProcDiff ProcDiff = RelFq(Target) − RelFq(Reference) × 100 RelFq(Reference) But what if RelFq(Reference) = 0? A. Kilgarriff’s (2009) Simple math approach: add X (=1, 10…) ratio = RelFq(Target) + X RelFq(Reference) + X Different values of X yield different results DIN coefficient Variation on the Sørensen–Dice’s coefficient1 : DIN = 100 × ▶ 1 RelFq(Target) − RelFq(Reference) RelFq(Target) + RelFq(Reference) values of DIN cf. Hofland–Johansson (1982). DIN coefficient Variation on the Sørensen–Dice’s coefficient1 : DIN = 100 × ▶ values of DIN ▶ 1 RelFq(Target) − RelFq(Reference) RelFq(Target) + RelFq(Reference) -100 (= when a word is present only in the reference corpus) cf. Hofland–Johansson (1982). DIN coefficient Variation on the Sørensen–Dice’s coefficient1 : DIN = 100 × ▶ values of DIN ▶ ▶ 1 RelFq(Target) − RelFq(Reference) RelFq(Target) + RelFq(Reference) -100 (= when a word is present only in the reference corpus) 0 (=when a word occurs equally in target and reference corpus) cf. Hofland–Johansson (1982). DIN coefficient Variation on the Sørensen–Dice’s coefficient1 : DIN = 100 × ▶ values of DIN ▶ ▶ ▶ 1 RelFq(Target) − RelFq(Reference) RelFq(Target) + RelFq(Reference) -100 (= when a word is present only in the reference corpus) 0 (=when a word occurs equally in target and reference corpus) 100 (=when a word is present only in the target corpus) cf. Hofland–Johansson (1982). DIN coefficient Variation on the Sørensen–Dice’s coefficient1 : DIN = 100 × ▶ values of DIN ▶ ▶ ▶ ▶ 1 RelFq(Target) − RelFq(Reference) RelFq(Target) + RelFq(Reference) -100 (= when a word is present only in the reference corpus) 0 (=when a word occurs equally in target and reference corpus) 100 (=when a word is present only in the target corpus) represents the proportion of the difference of relative frequencies to their mean (× 50) cf. Hofland–Johansson (1982). DIN coefficient Variation on the Sørensen–Dice’s coefficient1 : DIN = 100 × ▶ values of DIN ▶ ▶ ▶ ▶ ▶ 1 RelFq(Target) − RelFq(Reference) RelFq(Target) + RelFq(Reference) -100 (= when a word is present only in the reference corpus) 0 (=when a word occurs equally in target and reference corpus) 100 (=when a word is present only in the target corpus) represents the proportion of the difference of relative frequencies to their mean (× 50) no zeroes in the denominator × identical value of DIN for words appearing in a target text only cf. Hofland–Johansson (1982). DIN coefficient Variation on the Sørensen–Dice’s coefficient1 : DIN = 100 × ▶ values of DIN ▶ ▶ ▶ ▶ ▶ ▶ 1 RelFq(Target) − RelFq(Reference) RelFq(Target) + RelFq(Reference) -100 (= when a word is present only in the reference corpus) 0 (=when a word occurs equally in target and reference corpus) 100 (=when a word is present only in the target corpus) represents the proportion of the difference of relative frequencies to their mean (× 50) no zeroes in the denominator × identical value of DIN for words appearing in a target text only useful for ranking of KWs (not for their identification!) cf. Hofland–Johansson (1982). Example values Size of a target corpus Size of a reference corpus Fq(target) Fq(reference) 1,000,000 1,000,000 5500 5000 Example values Size of a target corpus Size of a reference corpus Fq(target) Fq(reference) 1,000,000 1,000,000 5500 5000 LL = 23.82 ⇒ p < 0.001 The difference is highly significant, but… Example values Size of a target corpus Size of a reference corpus Fq(target) Fq(reference) 1,000,000 1,000,000 5500 5000 LL = 23.82 ⇒ p < 0.001 The difference is highly significant, but… DIN = 100 × 0.55 − 0.5 = 4.76 0.55 + 0.5 …almost irrelevant (the effect size of the difference is negligible) Needle in a Haystack Project Suitable data for testing the limits of KWA ▶ presidential New Year’s addresses (NYA) of Gustáv Husák (1975–1989) Needle in a Haystack Project Suitable data for testing the limits of KWA ▶ presidential New Year’s addresses (NYA) of Gustáv Husák (1975–1989) ▶ presumed to be flat, ritualistic and monotonous, full of cliches – perfect for testing limits of keyword analysis (KWA) Needle in a Haystack Project Suitable data for testing the limits of KWA ▶ presidential New Year’s addresses (NYA) of Gustáv Husák (1975–1989) ▶ presumed to be flat, ritualistic and monotonous, full of cliches – perfect for testing limits of keyword analysis (KWA) ▶ same author, same genre/situation × time (and topic) Needle in a Haystack Project Suitable data for testing the limits of KWA ▶ presidential New Year’s addresses (NYA) of Gustáv Husák (1975–1989) ▶ presumed to be flat, ritualistic and monotonous, full of cliches – perfect for testing limits of keyword analysis (KWA) ▶ same author, same genre/situation × time (and topic) ▶ manageable size of texts (1500 tokens per speech) Needle in a Haystack Project Suitable data for testing the limits of KWA ▶ presidential New Year’s addresses (NYA) of Gustáv Husák (1975–1989) ▶ presumed to be flat, ritualistic and monotonous, full of cliches – perfect for testing limits of keyword analysis (KWA) ▶ same author, same genre/situation × time (and topic) ▶ manageable size of texts (1500 tokens per speech) ▶ reference corpus: Totalita – 15 mil. words (1952–1977) of written Czech; communist newspaper Needle in a Haystack Project Suitable data for testing the limits of KWA ▶ presidential New Year’s addresses (NYA) of Gustáv Husák (1975–1989) ▶ presumed to be flat, ritualistic and monotonous, full of cliches – perfect for testing limits of keyword analysis (KWA) ▶ same author, same genre/situation × time (and topic) ▶ manageable size of texts (1500 tokens per speech) ▶ reference corpus: Totalita – 15 mil. words (1952–1977) of written Czech; communist newspaper http://kwords.korpus.cz Difference between LL and DIN (Dice) 300 200 100 0 Log−likelihood (rank) 400 500 All KWs 0 100 200 300 Dice (rank) 400 500 Example 1: Grammatical words Keywords from all Husák’s New Year’s Addresses 400 300 200 100 0 Log−likelihood (rank) 500 600 All NYA (gram. words highlighted) vlastenectví zachování světem ozbrojených dalšímu jakývědeckýchpotřeb strany postupu vědomím odpovídá prospěchu rovnosti vztahy kterým občanépotřebné lidstva hospodářského odkaz těžkosti solidaritu široká růstu aktivita hospodařit vstříc energetické odkazu s všestranného příští blaho všechny částech řešení zdravotnických všestranné našimi materiální milióny nedostatků vysokoumožností továrnách velký pracovní potvrzují přínos uspokojením zničení nezbytná starat pokrokovým tvůrčí zájmům krizových svobody našem obětavě prosinci krize spojeno pevnou orgánů si politiku zajistili duchovní správnou šesté kterém mírovému let volby ekonomického společný náročný zmařit láskou dobrá zbrojení stupních drahé díky metra podnětem mezinárodním stavbáchpozitivní důvěra bratrskými otevřela zásluhou zhodnotil zasedání složitých politiky pracovišti zdůraznit důkaz celého plnění sjezdu odhodlání přání sovětskouplní nedostatky problémů jaderných potřebám rozvíjela přispívat politice síly příznivý progresivních vývojem svou dařilo hovoříme naléhavě složek sil zasedáních konfrontace hrdosti náročných 1978 pracovištích vztazích postavení naléhavé čelit spravedlnost vysoce pozvednout národy svazu kupředu rychleji našemu angažovanost katastrofy každém spolu nemálo cen závěry vítěznou inteligence ekonomiku nadcházející vyspělost prohlubovat složitou děkuji užívání ve loňském stupňů rostoucí hladiny to dějinné společné výsledkům veškeré bratrský úspěšně kontinentě vnější školství slabá problémy nám společenské věnovat důstojně rovnováhu měny abych potvrdily rozloučili organizací které správě pracujícího současnýchbezpečnost obětavou osvobozenecký vyspělou smyslem soudružské dobrý pokrok zájmu vykonali odhodláni kultuře celém společenský otevřeně spokojeně celé historickými nezávislosti připomínat postup cíle lidstvo lidí generace sborů prostá velkou hmotné úspěšného hrdostí dynamiku školských vůle hrdí sjezd sovětského perspektivy nejvyšších všestranný pracujících vyžadovat zlepšování ovzduší službách evropě podílí úseků složitost zřízením upevnění spolupráci proto xiv příštích rozdílným záměry připomněli pevným přestavby republika návrhy socialistickásplnění vykonanou začneme obětavá podporuje činorodé příznivé spojenci překonávání přátelství celkově podíleli šťastného armádou abyste vyžadují zajištění musíme zápase udrželi osvobozování horečného bezpečnosti nových složitá mládeži stručně přestavbě mírovou efektivněji zdrojem politika vůlí minulém bratrskému pokračovat díváme pramení důsledně energičtěji udržet jednoty program tužby zlepšení povinnosti realisticky jaderné dobrých opravňuje novém krok oblastech vše přáteli plně sociální nimiž bratrské soužití usilujeme lid pokračoval samozřejmé osmé upřímné budoucnosti pozdravil cesta plodem víme úrovně přesvědčen 1981 znovu významné rozvíjet nejspolehlivější cestu opravňují bratrských pro obav Úspěšně překážek překonání vyvrcholení jednou československéholepší pracíúkolů práce plnou přáním uskutečňovat důrazmuselizdravotnictví tvořivé urychlení zabezpečit ženám generacím dialogu vzestupný rozkvětu usilovat kriticky letošním mezinárodníchzeměmi dělníkům dnešním radost socialistickými odhodláním ústavechzastupitelských společným slováků nadcházejícím životních poctivé dovolte Čechů dopravě významných dobrou podporu dosažené svým rolníkům varšavské důvěry příslušníkům občany řešit právem spolehlivou uplynulým dalším dopadynastávajícím upevnili pozitivních československé výhodnou tvořivou odpovědně úspěchy nestraníků vzpomínat udělejme uskutečňování států vážíme zlepšovat mírovýchuvolňování prošli 1982 tvořiváoceňujeme cestou mnoho reálné dalšího překonávat země konstruktivní výročí události národně výsledků mírové odzbrojení srdce upevňování pracovat vašim podmínkách 1983 spolupráce vývoj náročně další kvalitněji všude přikládáme vzájemně prohlubování úroveň opíráme osvobozeneckého inteligenci Československá sociálních úspěšný hranicemi naši vrstev dalšími svědomitou žít chceme šťastný uplynulých rodinném uplynulého všestranná považujeme domovům hodnotíme nadále jistoty přesvědčeni dále jistot hodně aby uvědomujeme rozkvétala rozvíjelo dosáhli přátelům desetiletí národností máme vás jdeme věříme zápasu výboru pevné národů úsilí rozvoje socialistických vážené hrozby pozdravuji pokročili míru přejeme rozvoji dobrým mezinárodní napětí vzkvétala podporujeme úsecích zápas lépe zřízení klademe prožili odvrácení rozvoj pohodě náročné 1986 aktivně pohodu obětavé zamýšlíme vlast spojenectví Československo životní spokojený abychom pětiletky úkoly pokroku úspěchů sovětským prahu pozdravy 1987 vstupu minulého nás občanům mírový občanů střízlivým dalších hospodářství zdravíme přičiňme novoroční práci osobním svazem říci připomeneme našim spokojenost poctivou spokojenosti dařilauplynulý chci státu všech přátele socialistické přispěli uplynulém společnosti mírového důvěrou komunistické života optimismem xviixvi štěstí rozkvět všem poděkovat náš dobré státy vážení upřímně soudruzi posíláme můžeme život výsledky zdravím srdečně naše roce rokem zdraví společenství a národní ústředního vám fronty našich životě nového vstupujeme rok světě vlasti i socialistického jménem jsme Československa našeho budeme soudružky přeji přátelé spoluobčané našílidu roku drazí 0 100 200 300 Dice (rank) 400 500 600 Example 2: Topical words našimi (”our”, Inst. pl.) × rest of the lemma náš (”our”, all cases) 600 All NYA (gram. words only) jakýkterým vstříc našimi 500 svou 1978 našemu každém veškeré abych 400 ve to nám které proto 300 abyste vše nimiž 1981 pro 200 svým 1982 1983 naši aby 100 vás 1986 1987 abychom nás našim všem vám našeho 0 Log−likelihood (rank) s všechny si našem kterém díky 0 100 200 300 Dice (rank) náš našich naší 400 všech naše i 500 600 a Reference corpus in KWAIj Reference corpus in KWA What does reference corpus affect? size: bigger reference corpus ⇒ more KWs Reference corpus in KWA What does reference corpus affect? size: bigger reference corpus ⇒ more KWs composition: different reference corpora represent different readers Reference corpus in KWA What does reference corpus affect? size: bigger reference corpus ⇒ more KWs composition: different reference corpora represent different readers ▶ balanced corpus ∼ general reader Reference corpus in KWA What does reference corpus affect? size: bigger reference corpus ⇒ more KWs composition: different reference corpora represent different readers ▶ balanced corpus ∼ general reader ▶ specialized corpus ∼ specific reader (e.g. from the past, with specific background…) Husák: Influence of the reference corpora What happens if we compare texts to different RefCs? ▶ the inventory of KWs does not differ substantially Husák: Influence of the reference corpora What happens if we compare texts to different RefCs? ▶ the inventory of KWs does not differ substantially ▶ the difference is in ranking (prominence of KWs – DIN) Husák: Influence of the reference corpora What happens if we compare texts to different RefCs? ▶ the inventory of KWs does not differ substantially ▶ the difference is in ranking (prominence of KWs – DIN) Historical reader (Totalita) → genre differences ▶ Modal verbs: want, can ▶ Verbs: 1. sg./pl. Husák: Influence of the reference corpora What happens if we compare texts to different RefCs? ▶ the inventory of KWs does not differ substantially ▶ the difference is in ranking (prominence of KWs – DIN) Historical reader (Totalita) → genre differences ▶ ▶ Contemporary reader (SYN2010) → connected with historical events Modal verbs: want, can ▶ ideology Verbs: 1. sg./pl. ▶ archaisms, historism Detailed comparison – 3 thematic groups Cold war: mír, míru, mírová, mírové, mírového, mírovému, mírovou, mírový, mírových, mírovými, mírumilovné, mírumilovných, mírumilovným; napětí; odzbrojení, výzbroje, zbrojení, zbrojením, ozbrojených Collective possession: náš, naše, našeho, našem, našemu, naši, naší, našich, našim, naším, našimi Ideo markers: socialismu, socialismus, socialistická, socialistické, socialistického, socialistickém, socialistickému, socialistickou, socialistický, socialistických, socialistickým, socialistickými; komunismu, komunisté, komunistů, ksč, komunistům, komunisty komunistická, komunistické, komunistickým Cold war 90 100 Cold War KWs in SYN−KWA and TOT−KWA 70 60 50 40 DIN 80 SYN−KWA TOT−KWA 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 Year Fidler–Cvrcek (forthcomming) Collective possession 80 85 90 95 KWs "our" in SYN−KWA and TOT−KWA 65 70 75 DIN SYN−KWA TOT−KWA 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 Year Fidler–Cvrcek (forthcomming) Ideological markers 70 80 90 100 Ideological markers KWs in SYN−KWA and TOT−KWA 30 40 50 60 DIN SYN−KWA TOT−KWA 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 Year Fidler–Cvrcek (forthcomming) ConclusionsIj Conclusions Ranking of keywords ▶ statistical significance ̸= relevance Conclusions Ranking of keywords ▶ statistical significance ̸= relevance ▶ the effect size of the difference is as important as the significance Conclusions Ranking of keywords ▶ statistical significance ̸= relevance ▶ the effect size of the difference is as important as the significance Role of reference corpus ▶ different reference corpora can be used to model different readings of the same text Conclusions Ranking of keywords ▶ statistical significance ̸= relevance ▶ the effect size of the difference is as important as the significance Role of reference corpus ▶ different reference corpora can be used to model different readings of the same text ▶ the difference is in the sensitivity (suppressed or increased) to certain topics Conclusions Ranking of keywords ▶ statistical significance ̸= relevance ▶ the effect size of the difference is as important as the significance Role of reference corpus ▶ different reference corpora can be used to model different readings of the same text ▶ the difference is in the sensitivity (suppressed or increased) to certain topics ▶ genre matters! References ▶ Baker, P. (2012): Acceptable bias? Using corpus linguistics with critical discourse analysis. Critical discourse studies 9(3): 247-256. ▶ David, J. et al.: Slovo a text v historickém kontextu. Host. 2013 ▶ Fidler, M. – Cvrček, V. (forthcoming): A data-driven analysis of reader viewpoints: Reconstructing the historical reader using keyword analysis. ▶ Gabrielatos, C. – Marchi, A. (2012) Keyness: appropriate metrics and ▶ ▶ ▶ ▶ practical issues. CADS International Conference, Bologna, Italy (www.gabrielatos.com/Presentations.htm). Hofland – Johansson (1982): Word frequencies in British and American English. Bergen: The Norwegian computing centre for the Humanities. Kilgarriff, A. (2009): Simple maths for keywords proc. Corpus Linguistics. Liverpool. UK (http://ucrel.lancs.ac.uk/publications/cl2009/171_FullPaper.doc). Popescu, I. – Altmann, G. (2006): Some aspects of word frequencies. Glottometrics 13, p. 23–46. Scott, M. – Tribble, C. (2006): Textual patterns: Keyword and corpus analysis in language education. Amsterdam: Benjamins. Thank you for your attention!
Podobné dokumenty
The Theory behind Keyword Analysis
lidstva
hospodářského
odkaz
těžkosti
solidaritu
široká
růstu
aktivita
hospodařit
vstříc
energetické
odkazu
s
všestranného
příští
blaho
všechny
částech
řešení
zdravotnických
všestranné našimi
materi...