Teorie sítí v lingvistice
Transkript
Teorie sítí v lingvistice Radek Čech www.cechradek.cz Redukcionismus vs. komplexita „Viděli jste někdy dítě rozebírat svou oblíbenou hračku? A viděli jste pak toho mrňouse, jak brečí, protože zjistil, že součástky ne a ne složit zase dohromady? Tak tady máte tajemství, které se nikdy neobjeví na prvních stránkách novin: rozebrali jsme svět na části a nemáme představu, jak ho zase složit zpět...“ (Barabási 2005) „Redukcionismus nám říká, že pokud chceme přírodu pochopit, musíme nejdříve rozšifrovat, z čeho se skládá. Předpokládá se, že jakmile pochopíme části, bude jednoduché pochopit celek.“ (Barabási 2005) Redukcionismus vs. komplexita „Ukázalo se, že skládání dílů dohromady je úkol mnohem těžší, než vědci předpokládali. (…) Poučili jsme se, že příroda není chytře vymyšlená skládačka, která se dá složit jen jedním způsobem. V komplexních systémech se součástky dají sestavit tolika různými způsoby, že by nám trvalo miliardy let, než bychom je všechny vyzkoušeli. A přece příroda skládá dílky s lehkostí a přesností, zdokonalovanou miliony let. Využívá při tom všeobsáhlé zákony samoorganizace, jejichž původ je pro nás stále do značné míry tajemstvím.“ (Barabási 2005) Sítě jednou z možností, jak zachytit a analyzovat vlastnosti jevů a vztahů mezi nimi, je analýza sítí síť → graf sestávající z bodů reprezentujících entity a hran reprezentujících vztahy mezi entitami Syntaktická síť Teorie komplexních sítí konec 90. let 20. stol. → rozvoj teorie grafů, zejména tzv. teorie komplexních sítí (TKS) odhaluje společné vlastnosti systémů nejrůznějšího původu → internet, potravní řetězce, sexuální vztahy, neurální sítě, vědecké citace, ekonomické vztahy... jazyk tyto společné statistické vlastnosti jsou výsledkem struktury systémů vývoje systémů Komplexní sítě komplexní síť → graf se specifickými vlastnostmi, zejména efektivnost (efficiency) zranitelnost (fragility, vulnerability) tyto vlastnosti důsledkem tzv. efektu malého světa heterogennosti distribuce hran u uzlů se řídí mocninným zákonem bezškálová síť Heterogennost Komplexní sítě odkud se berou tyto vlastnosti? dynamika sytému → růst nestejné vlastnosti jednotlivých uzlů → preferenční připojování Jazyk & sítě proč zkoumat jazyk prostřednictvím metod TKS? (jazykové) univerzálie vlastnosti jazyka jako komplexního systému srov. redukcionismus vs. komplexita „Unless we know something about the structure of these networks, we cannot hope to understand fully how the corresponding systems work.“ (M. Newman) evoluce jazykového systému nové interpretace jevů/procesů, např. akvizice dysfunkce – agramatismus typologie Jazyk v síti „jaký“ jazyk lze zkoumat prostřednictvím teorie sítí? jazyk jako vlastnost souboru (mluvčích) jazyk jako projev chování Jazyk & komplexní sítě analýzy jazyka prostřednictvím TKS lze chápat jako test hypotézy, podle které je evoluce jazyka a jeho struktura výsledkem vlivu univerzálních mechanismů (růst, preferenční připojování) → nejazykové univerzálie Jazyk & komplexní sítě pokud hypotéza platí, jazyk musí vykazovat následující hodnoty distribuce hran se musí řídit mocninným zákonem −γ P (k )≈k fenomén malého světa malá průměrná vzdálenost mezi uzly vysoký koeficient shlukování poměr mezi počtem hran, které existují mezi sousedy daného uzlu, a počtem všech možných hran mezi sousedy daného uzlu u náhodných sítí velmi malý pro celou síť se počítá jako aritmetický průměr koeficientů celé sítě Jednotky & vztahy kolokační sítě (cooccurence networks) uzel → slovo hrana → souvýskyt, tj. jsou spojena slova vyskytující se ve vetě vedle sebe syntaktické sítě uzel → slovo hrana → syntaktický vztah (dependence) Jednotky & vztahy sémantické sítě uzel → slovo hrana → sémantický vztah (synonymie) fonologické sítě uzel → foném hrana → fonémy jsou spojeny, pokud se vyskytují ve stejném slově slabiční sítě uzel → slabika hrana → slabiky jsou spojeny, pokud se vyskytují ve stejném slově Výsledky Důsledky výsledky odhalují nový typ univerzálních vlastností jazyka nejsou zaměřeny na tradiční jazykové vlastnosti, jako je slovosled či inventář fonémů statistické vlastnosti, které lze chápat jako výsledek komunikačního procesu (v širokém slova smyslu) rozdělení konektivit podle mocninného zákona → vztah k Zipf‘s principle of least effort jazyk podobným typem systému, jako systémy sociálních vztahů, internet atd. → předpoklad obecných zákonů řídících chování tohoto typu systémů Důsledky interpretace výsledků (syntaktické sítě) fenomén malého světa ukazuje, jak „jednoduchá“ je mentální navigace → vezmemeli libovolná 2 slova v síti, stačí nám několik málo kroků k tomu, abychom se dostali od jednoho k druhému (navzdory velikosti sítě) heterogennost nejvyšší počet konektivit mají funkční slova → odstranímeli je, síť se rozpadá... Důsledky vlastnosti komplexních sítí výsledkem dynamiky systému (růst) → analýza ontogeneze (akvizice) evoluce typologie → mohou rozdíly vlastností sítí reflektovat typologické rozdíly mezi jazyky? Preferenční připojování S. N. Dorogovtsev & J. F. F. Mendes: Language as an evolving word web (2001) Preferenční připojování Preferenční připojování – syntaktická síť (PDT 2.0) in-degrees word in-degrees word 1 15044 a 15 1670 do 2 7441 být 16 1660 za 3 3935 v 17 1593 pro 4 3677 na 18 1570 že 5 3489 mít 19 1384 muset 6 3094 s 20 1333 stát 7 2832 z 21 1027 po 8 2447 o 22 969 od 9 2288 nebo 23 914 chtít 10 2167 moci 24 901 podle 11 2112 ale 25 899 říci 12 1936 k 26 794 při 13 1882 i 27 787 než 14 1704 či 28 772 však Komplexní sítě & jazyková akvizice CorominasMurtra, B., Valverde, S., & Solé, R. V. (2010). Emergence of scalefree syntax networks. sledování jazykového vývoje u jedinců → modelování sítí v jednotlivých fázích vývoje jazyka jedince Komplexní sítě & jazyková akvizice jazykový materiál Manchester corpus spontánní řečové projevy dětí s dospělými analyzovány korpusy 2 dětí (kluci) Komplexní sítě & jazyková akvizice algoritmus vybrány pouze ty řečové projevy dětí, které nejsou imitací, neberou se v potaz onomatopoeia a neidentifikovatelné lexikální jednotky identifikace minimálních syntaktických konstrukcí → word grammar (Hudson 2006 ) slova spojena hranou, pokud je mezi nimi syntaktický vztah izolovaná slova nebrána v potaz Komplexní sítě & jazyková akvizice 22 měsíců 23 měsíců 25 měsíců Komplexní sítě & jazyková akvizice Komplexní sítě & jazyková akvizice Komplexní sítě & jazyková akvizice pokus vytvořit model který bude vykazovat ostrý přechod mezi grafy (měřeno počtem konektivit) jehož výsledkem by bude bezškálová síť modely založené na principu preferenčního připojování však nevykazují fázový přechod k stromového grafu k bezškálové síti → nutnost udělat „datadriven“ model Komplexní sítě & jazyková akvizice model z jednoho ze zkoumaných dětských korpusů využity informace o frekvenci slov a frekvenci syntaktických konstrukce o délce s = <1,11> algoritmus (nesyntaktický) 1. náhodně vygenerováno číslo <1,11> 2. na základě Zipfova zákona vybrána „slova“ 3. po sobě jdoucí slova spojena hranou 4. body 13 opakovány do té doby, dokud není naplněn počet syntaktických konstrukcí v pozorovaný v dětském korpusu Komplexní sítě & jazyková akvizice v modelu funguje změna topologie sítě (vzhledem k tomu, že nejsou implementovány syntakt. vztahy, dají se vlastnosti syntakt. sítí vidět jako vedlejší produkt Zipfova zákona) nefunguje podoba syntaktických vztahů u subgrafů změna hubs Komplexní sítě & jazyková akvizice vzhledem k tomu, že žádný dosavadní model vývoje sítí nevykazuje kvalitativní změnu, jak se projevuje při jazykovém vývoji, nelze vidět vznik syntaktické sítě jako pouze jako výsledek samoorganizace změna hubs a podoba subgrafů nemohou být vysvětlena přidáním dalších pravidel → předpokládá se vliv vnitřního mechanismu → podpora Miller & Chomsky (1965) Komplexní sítě & jazyková akvizice Anat Ninio: Language and the Learning Curve. Oxford University Press, 2006. “According to our model, children do not reinvent the linguistic network, nor they internalize it. Instead, when children begin to produce words of their own, they link into the linguistics network, becoming part of the system. Indeed, children acquiring language are just like new users ling into World Wide web: by linking into Web, users become part of it.“ Komplexní sítě & jazyková akvizice bipartite network → uzly a) mluvčí b) jazykové jednotky Komplexní sítě & jazyková akvizice „According our theory, children acquire lexicalist grammar in which information about the syntactic behaviour of individual predicates (e.g., verbs) is stored in their lexical entry, in form of valency information.“ proces modelovaní, např. VO syntaktické konstrukce jakmile mluvčí vysloví VO konstrukci („dej čaj“), je zapojen do sítě v jazykové části sítě se vytvoří uzel reprezentujíc lexikální jednotku verba Komplexní sítě & jazyková akvizice hypotéza: nové uzly (mluvčí) připojující se k síti by se měly chovat podle principu preferenčního připojování a výsledkem by měla být bezškálová komplexní síť na příkladu tranzitivních konstrukcí sleduje podobu sítě porovnává sítě matek a dětí → děti okamžitě vytvářejí síť se stejnou strukturou (srov. hodnoty exponentů), přestože vůbec nekopírují jazyk, který matky používají → např. se zde nemá vliv frekvence slov Komplexní sítě & jazyková akvizice matky 50 Number of mothers 40 30 20 10 0 0 25 50 75 100 125 150 175 200 225 250 Rank order of verbs Figure 5.5 Rank-frequency Zipf curve of number of mothers producing VI sentences with each verb, as a function of the verb's rank. Komplexní sítě & jazyková akvizice děti 1st 2 verbs 1st 3 verbs 1st 4 verbs 1st 5 verbs 1st 6 verbs 1st 7 verbs 1st 8 verbs 1st 9 verbs 1st 10 verbs Power (1st 2 verbs) Power (1st 3 verbs) Power (1st 4 verbs) Power (1st 5 verbs) Power (1st 6 verbs) Power (1st 7 verbs) Power (1st 8 verbs) Power (1st 9 verbs) Power (1st 10 verbs) 14 12 Number of children 10 8 6 4 2 0 0 5 10 15 20 25 30 35 40 45 50 55 60 Rank order of verbs Figure 5.7 Distribution of number of children by rank order of verbs, for the first 2, 3, 4, 5, 6, 7, 8, 9 and 10 different verbs in VI sentences. 65 Komplexní sítě & jazyková akvizice 2011 Syntaktické sítě Ferrer i Cancho et. al (2004) → první analýza syntaktických sítí (Němčina, Rumunština, Čeština) Syntaktické sítě „One may argue that the regularities encountered here are not significant unless it is shown that they are not a trivial consequence of some pattern already present in the syntactic structure of isolated sentences.“ Syntax for free? (Solé 2005, Nature) Role syntaxe v syntaktické síti H. Liu & F. Hu: What role does syntax play in a language network? (2008) If dependencies are built by randomly linking words in the same sentence, would the network still follow the properties similar to the syntactic one? Can the local (micro) syntactic analysis in a sentence be reflected in the global (macro) properties of a language network? Role syntaxe v syntaktické síti analýza „náhodného“ parsingu algoritmus ze syntaktického stromu reálné věty odstraněny všechny linky náhodně vybrán kořenový uzel R1 → náhodně generován každému uzlu jeho řídící uzel (kromě kořenového uzlu a sebe samého) R2 → přidána podmínka projektivity Role syntaxe v syntaktické síti R1 R2 Role syntaxe v syntaktické síti Syntaktická síť vs. náhodné sítě d D k C S 3.372 10 6.48 0.128 R1 3.147 9 7.80 0.185 R2 3.129 9 7.95 0.175 Role syntaxe v syntaktické síti „If nonsyntactic and syntactic networks are scalefree, perhaps we might not argue that syntactic rules are just a byproduct of scalefree networks (Solé 2005). Our findings probably are not enough to dismiss the claim in (Solé 2005), but they may show that the indicators of complex networks are not enough to study the syntax of human language.“ „Our study also shows that while the network analysis focuses on the global organization of a language, it may not reflect the subtle syntactic differences of the sentence structure. If we disregard the agency of the vertex (word) in a language network, it is difficult to study micro syntactic problems by macro means as a complex network.“ Role syntaxe v syntaktické síti Jak zjistit, zda syntax má či nemá vliv na podobu syntaktické sítě? východisko → najít nějakou „silnou“ vlastnost, která má výrazný vliv na podobu věty, která by mohla mít vliv i na podobu syntaktické sítě (Čech et al. 2011) Role syntaxe v syntaktické síti slovesná valence (resp. plná valence) hypotéza: lokální významnost sloves se projeví jako globální významnost v syntaktické síti, tj. slovesa by měla patřit mezi „významné“ prvky syntaktické sítě lokální významnost → slovesná valence významný vliv na strukturu věty plná valence → nerozlišuje komplementy a adjunkty, více viz Čech, R., Pajas, P., Mačutek, J. (2010). Full Valency. Verb Valency without Distinguishing Complements and Adjuncts. Journal of Quantitative Linguistics, 17, 291302. Role syntaxe v syntaktické síti globální významnost a) počet konektivit b) centralita → dáno počtem cest, které procházejí daným uzlem, když jsou počítány nejkratší cesty mezi všemi uzly v síti (používáno u sociálních sítí) → betweenness centrality c) hub/authority měření Role syntaxe v syntaktické síti proč by slovesa měla být globálně významná? alespoň jedno sloveso „nutně“ v každé větě → relativně vysoká frekvence valence (resp. plná valence) si vynucuje doplnění → roste počet konektivit ! námitka → vysoký počet konektivit u sloves dán volbou formalismu, kdy sloveso je kořenem syntaktického stromu, tudíž se dá očekávat, že bude mít relativně vysoký počet konektivit Role syntaxe v syntaktické síti PDT 2.0 → z 54022 vět obsahujících jak podst. jméno, tak sloveso měla podstatná jména vyšší počet konektivit v 4261 případů → v každé 12. větě kořenové postavení slovesa automaticky nezajistilo jeho nejvyšší počet konektivit Data & metoda 6 jazyků Čeština, Holandština, Katalánština, Maďarština, Portugalština, Italština (treebanky) lemmatické orientované sítě (tvorba pomocí Pajek 2.00) multigraf počítány pouze outdegrees lemmata seskupena podle klesajících outdegrees a sledován poměr sloves a jiných slovních druhů Syntaktické sítě & typologie porovnání hodnot slovnětvarové (STS) a lemmatické sítě (LS) východisko → jazyky bez flexe nebudou vykazovat žádné rozdíly mezi STS a LS problém → příčiny rozdílů mezi STS a LS a jejich vliv na statistické charakteristiky (Čech & Mačutek 2009) Vlastnosti syntaktických sítí → lemmata vs. slovní formy jazykový materiál → PDT 2.0 uzel sítě → lemma, resp. slovní forma hrana → syntaktický vztah závislosti (dáno anotací na arovině) lemmatická dependenční síť otázka: vykazuje lemmatická síť vlastnosti komplexní sítě? lemmata použita pouze 1x pro cooccurence síť (Caldeira et al. 2006) Vlastnosti LS n k C d LS 36037 13.34 0.18 3.58 Vlastnosti sítí n k C d STS 73989 8.19 0.12 3.84 LS 36037 13.34 0.18 3.58 konektivita (k) na základě čeho se projevují rozdíly k mezi STS a LS? STS vs. LS rozdíly v k způsobeny flexí realizací syntaktických vztahů vliv jak gramatiky, tak užití jazyka → možnosti pro analýzy žánrů, autorství atd. STS vs. LS networks based on languages with no inflection (as a highly isolating language) will have zero discrepancy, networks based on languages with low inflection (as English) will have zero discrepancy or higher average degree of WFN, for networks based on highly inflectional languages it is not possible to make theoretical hypotheses; all the three potential kinds of discrepancy could appear because the discrepancy value is significantly influenced by language usage. STS & LS koeficient shlukování (C) u syntaktického vztahu slov bez flexe CSTS = CLS u syntaktického vztahu slova bez flexe a slova flektivního může nastat CSTS < CLS CSTS = CLS CSTS > CLS Typologie Liu, H. & Xu, C. (2011). Can syntactic networks indicate morphological complexity of a language? Europhysics Letters 93, 28005. 15 jazyků; STS & LS síť pro každý jazyk parametry konektivita koeficient shlukování průměrná vzdálenost mezi dvěma uzly největší vzdálenost mezi uzly exponent počet linek determinační koeficient STS SLS LS Syntaktické sítě & synergetická lingvistika synergetická lingvistika (Köhler 1986, 2005) snaha o vytvoření jazykové teorie teorie → chápána jako soubor univerzálních zákonů z nichž je možné odvodit empiricky testovatelné hypotézy jazyk jako samoregulující se systém navazuje na G. K. Zipfa (1935, 1949) the principle of least effort Hypotézy (synergetická lingv.) vztah délky slova a počtu konektivit vztah polysémie a počtu konektivit H: čím větší počet konektivit, tím kratší slovo H: čím větší počet konektivit, tím větší polysémie vztah synonymie a počtu konektivit H: čím větší počet konektivit, tím má slovo více synonym References Barabási, A. L. (2005) V pavučině sítí. Praha: Paseka. Caldeira, S.M.G., Petit Lobão, T.C., Andrade, R.F.S., Neme, A., & Miranda, J.G.V. (2006). The network of concepts in written texts. European Physical Journal B 49, 523529. CorominasMurtra, B., Valverde, S., & Solé, R. V. (2010). Emergence of scalefree syntax networks. In: "Evolution of Communication and Language in Embodied Agents", Nolfi, E. & Mirolli, M. (eds.), Springer, pp. 8399. Čech, R. & Mačutek, J. (2009). Word form and lemma syntactic dependency networks in Czech: a comparative study. Glottometrics 19, 8598. Čech, R., Pajas, P., Mačutek, J. (2010). Full Valency. Verb Valency without Distinguishing Complements and Adjuncts. Journal of Quantitative Linguistics, 17, 291302. Čech, R., Mačutek, J., & Žabokrtský, Z. The role of syntax in complex networks: local and global importance of verbs in a syntactic dependency network, Physica A: Statistical Mechanics and its Applications 390 (20), 36143623. Dorogovtsev, S. N. & Mendes J. F. F. (2001). Language as an evolving word web. Proceedings of the Royal Sociey of London B 268, 26032606. References Ferrer i Cancho, R. & Solé, R. V. & Köhler, R. (2004). Patterns in syntactic dependency networks. Physical Review E 69, 051915. Hudson, R. (2006). Language networks. The new word grammar. New York: Oxford University Press. Köhler, R. (1986). Zur linguistischen Synergetik. Struktur und Dynamik der Lexik. Bochum: Brockmeyer. Köhler, R. (2005). Synergetic linguistics. In: Köhler, R., Altmann, G., Piotrowski, R.G. (eds.), Quantitative Linguistik. Ein internationales Handbuch. An International Handbook: 760774. BerlinNew York: de Gruyter. Liu, H. & Hu, F. (2008). What role does syntax play in a language network? Europhysics Letters 83, 18002. Liu, H. & Xu, C. (2011). Can syntactic networks indicate morphological complexity of a language? Europhysics Letters 93, 28005. Miller, G. A. & Chomsky, N. (1963). Finitary models of language users. In R. D. Luce, R. Bush, and E. Galanter, editors, Handbook of Mathematical Psychology, volume 2, pages 419–491. Wiley, New York. References Ninio, A. (2006). Language and the learning curve: a new theory of syntactic development. Oxford: Oxford University Press. Ninio, A. (2011). Syntactic development, its input and output. Oxford: Oxford University Press. Solé, R.V. (2005) Syntax for free? Nature 434, 289. Zipf, G.K. (1935/1968). The psychobiology of language. An introduction to dynamic philology. Cambridge, Mass: MIT. Zipf, G.K. (1949). Human behaviour and the principle of least effort. Reading, Mass.: AddisonWesley. vice viz: Bibliography on linguistic and cognitive networks http://www.lsi.upc.edu/~rferrericancho/linguistic_and_cognitive_n etworks.html
Podobné dokumenty
zde - ATS-TELCOM PRAHA as
Zamyslete se, kdy jste si poprvé koupili iPhone nebo zařízení s OS Android. Učil vás někdo jak jej používat? Samozřejmě
že ne. Prostě jste se chvíli rozhlíželi dokud jste na to nepřišli. Uživatelsk...
Hesla a pojmy příbuzné oboru transformační generativní
Chomsky: Struktura holé fráze
Chomsky: Bariéry
Chomsky: Kategorie a Transformace
Chomsky: Pojmy a důsledky teorie řízenosti a
vázání
Chomsky: Podmínky transformací
Chomsky: Fázová derivace
Chomsky:...
Několik teoreticko-metodologických poznámek k
jeho polysémie), polysémií a synonymií (čím je slovo polysémnější, tím více má
synonym), polysémií a polytextualitou (čím je slovo polysémnější, tím větší je počet
textů, ve kterých se v daném korp...
Zpravodaj DEMAS 4
Nové konsorcium ruských nevládních organizací, které bude implementovat druhou fázi projektu, povede German-Russian Exchange (GRE)
a dalšími členy konsorcia jsou polská Stefan Batory Founda�on, Net...
Čech, R. - Radek Čech
Čech, R. – Mačutek, J. – Žabokrtský, J. (2011): The role of syntax in complex networks:
local and global importance of verbs in a syntactic dependency network. Physica
A: Statistical Mechanics and ...
Mäkkýše hlavných typov vôd dolného Hrona
The aim of this study is to describe the main types of water bodies in the lower Hron River (Slovakia) using
Mollusca as ‘functional describers’ of the ecosystem dynamics. In European context, the ...