KYBERNETIKA A UMEL´A INTELIGENCE 2. Entropie a Informace
Transkript
KYBERNETIKA A UMĚLÁ INTELIGENCE 2. Entropie a Informace laboratory Gerstner Gerstnerova laboratoř katedra kybernetiky fakulta elektrotechnická ČVUT v Praze Popis složitých systémů V minulé přednášce: stavový popis systému. Zkusme uplatnit na systém s velkým množstvı́m interagujı́cı́ch součástı́: např. částice plynu v uzavřené komoře. Stav částice i: 6 hodnot: [xi, yi, zi, ddxti , ddyti , ddzti ]. Stav celého systému ≈ 6 × 6 · 1023 hodnot na 1 mol plynu! (Avogadrova konstanta) Dynamický model systému: řádově stejný počet rovnic zachovánı́ hybnosti. S takovým modelem nelze pracovat. Existuje jiná možnost? Ano, pokud upustı́me od deterministického popisu. Stochastické (pravděpodobnostnı́) modely “Rychlokurs pravděpodobnosti” (vı́ce v Matematice 3) Funkce Pr(A) přiřazujı́cı́ náhodnému jevu A čı́slo z intervalu [0; 1]. Interpretace: pro velký počet náhodných pokusů se relativnı́ četnost A blı́žı́ Pr(A). Přı́klad: počet výsledků 6 1 = Pr(výsledku 6) = počet hodů→∞ počet hodů 6 lim Pravděpodobnost, že nenastane jev A = Pr(¬A) = 1 − Pr(A) . Sdružená pravděpodobnost: Pr(A, B) - pravděpodobnost, že současně nastanou A i B. Nezávislost: Jevy A i B jsou nezávislé, pokud Pr(A, B) = Pr(A) · Pr(B) . Přı́klad: Pr(černá 6, červená 1) = Pr(černá 6) · Pr(červená 1) = Pravděpodobnost, že nastane alespoň jeden z A, B: Pr(A ∪ B) = Pr(A) + Pr(B) − Pr(A, B) 1 1 1 · = 6 6 36 “Rychlokurs pravděpodobnosti” (vı́ce v Matematice 3) Podmı́něná pravděpodobnost: Pr(A|B) - pravděpodobnost jevu A za předpokladu, že nastal jev B. Platı́ Pr(A|B) = Pr(A,B) Pr(B) Přı́klad: Pr(lichý, ≥ 4) Pr(5) Pr(lichý| ≥ 4) = = = Pr(≥ 4) Pr(≥ 4) 1 6 3 6 = 1 3 Náhodná veličina: funkce zobrazujı́cı́ výsledek náhodného pokusu na reálné čı́slo. Přı́klady: − Součet výsledků 100 hodů kostkou - diskrétnı́ n.v. (pouze celé hodnoty) − Rychlost náhodně zvolené částice plynu - spojitá n.v. Distribuce diskrétnı́ n.v.: P (x) ≡ Pr(X = x) (též: rozloženı́, rozdělenı́) Hustota spojité n.v. X: f (x) taková, že platı́ Pr(a ≤ X < b) = Rb a f (x)dx − Tedy Pr(a ≤ X ≤ b) = plocha pod grafem f (x) mezi a a b. − Proč ne jednoduše f (x) ≡ Pr(X = x) jako u diskrétnı́? − Protože zde Pr(X = x) = 0 pro jakékoliv x! (výběr z ∞ množstvı́ hodnot!) Přı́klad hustoty a distribuce, Střednı́ hodnota Binomiálnı́ distribuce diskrétnı́ n.v.: n − P (x) = px(1 − p)n−x x − Např: P (x) = pravděpodobnost x orlů při n hodech mincı́, kde Pr(orel) = p (zde p = 0.5). Normálnı́ hustota spojité n.v.: (x−µ)2 1 − f (x) = σ√2π exp − 2σ2 − parametry: µ - střed, σ 2 - rozptyl (rozpětı́ “zvonu”) − Přı́klad: obvyklé rozloženı́ chyb měřenı́ kolem skutečné hodnoty µ. P Střednı́ hodnota diskrétnı́ n.v.: X̄ = ∞ i=−∞ xP (x) (pro binom.: X̄ = np). Intuitivně: “průměr všech možných hodnot vážený jejich pravděpodobnostı́”. R∞ Střednı́ hodnota spojité n.v.: X̄ = −∞ xf (x)dx (pro normálnı́ X̄ = µ). X̄ se také nazývá očekávaná hodnota, někdy značená EX (E - jako Expectation). Sdružená distribuce a hustota Sdružená distribuce dvou diskrétnı́ch n.v. P (x, y) ≡ Pr(X = x, Y = y) sdružená hustota f (x, y) pro dvě spojité n.v.: RdRb Alternativnı́ zobrazenı́: 2D Kontury Pr(a ≤ X ≤ b, c ≤ Y ≤ d) = c a f (x, y)dxdy Podobně Hustota bodů náhodného vzorku Marginalizace Podmı́něná distribuce a hustota: P (x, y) f (x, y) , f (x|y) = P (y) f (y) P (x|y) ≡ Z distribuce P (x, y) nebo P (x|y) lze vypočı́tat hodnotu P (x) pro jakékoliv x: P (x) = P∞ y=−∞ P (x, y) = P∞ y=−∞ P (x|y)P (y) (Součet přes všechny možné hodnoty yj n.v. Y ) Tzv. marginalizace, pravděpodobnost. P (xi) - marginálnı́ Analogicky pro marginálnı́ hustotu spojité n.v. Z ∞ f (x) = Z ∞ f (x, y)dy = −∞ f (x|y)f (y)dy −∞ Přı́klad: tabulka pro P (xi, yj ): y1 x1 0.3 x2 0.1 x3 0.2 p(yj ) 0.6 y2 p(xi) 0.1 0.4 0.2 0.3 0.1 0.3 0.4 1 marginálnı́ = na okraji Stochastický model systému Zpět k úvodnı́mu přı́kladu: jak popsat systém částic plynu, nelze-li deterministicky? Pomocı́ hustoty pravděpodobnosti. Maxwell-Boltzmannovo rozloženı́ rychlosti částic (vám známé z Fyziky 2 !). ≤ v ≤ v2 ) 1 RPr(v v2 v1 f (x)dx = zelená plocha Model může být odvozen nebo experimentálně změřen. Podobně lze spočı́tat modely pro dalšı́ stavové veličiny: = − pravděpodobnostnı́ rozloženı́ prostorových souřadnic částice − pravděpodobnostnı́ rozloženı́ energie částice ( Boltzmannovo rozloženı́), atd. Srovnánı́: Oproti deterministickému modelu dynamiky stochastický model rozloženı́: − Nerozlišuje stavy xi(t) konkrétnı́ch částic i v konkrétnı́ch časových okamžicı́ch t. − Pouze poskytuje pravděpodobnost stavu x pro libovolnou částici v libovolném okamžiku. Stochastický model systému: širšı́ souvislosti Vı́ce stavových veličin. Uvažovaný model bral v úvahu pouze jednu stavovou veličinu. Modelem stochastického systému s n stavovými proměnnými X1, X2, . . . Xn je sdružená hustota f (x1, x2, . . . xn) pro spojité resp. sdružená distribuce P (x1, x2, . . . xn) pro diskrétnı́ veličiny. − Čı́m vı́ce proměnných, tı́m těžšı́ je hustotu/distribuci odhadnout z dat, tj. sestrojit generativnı́ systém z datového ( přednášky 8-9). − Pouze v přı́padě vzájemné statistické nezávislosti veličin se situace zjednodušı́, nebot’ f (x1, x2, . . . xn) = f (x1) · f (x2) · · · · · f (xn) (stejně tak pro P (.)). − P (x1, x2, . . . xn) lze modelovat tzv. Bayesovskými sı́těmi ( přednáška 10). Dynamika. V minulé přednášce: časový vývoj deterministických systémů. Lze popsat časový Obor stochastických procesů. Speciálnı́ přı́pad, tzv. vývoj stochastického systému? Markovské řetězce: − Předpoklad 1: Diskrétnı́ čas k a jedna diskrétnı́ stavová proměnná: x(k) − Předpoklad 2: Hustota P (x(k + 1)) závisı́ pouze na x(k), nikoliv x(k − 1), x(k − 2), . . . . − Model systému je pak podmı́něná distribuce P (x(k +1)|x(k)) a marginálnı́ distribuce P (x) (“počátečnı́ podmı́nka”). − Jednoduchá aplikace v přı́štı́ přednášce. Stochastický model systému NÁMITKA: Stochastický model zavádı́ do popisu neurčitost. Systém již nelze modelovat přesně. Odpověd 1: Záležı́ na rozlišovacı́ úrovni. Ze stochastického modelu na úrovni částic vyplývajı́ deterministické vztahy na úrovni celého systému (např. mezi p, V a T). Odpověd 2: I původně uvažovaný deterministický model vyplývá ze stochastických vztahů na vyššı́ rozlišovacı́ úrovni (kvantový popis)! Střı́dánı́ deterministických a stochastických modelů při změně rozlišovacı́ úrovně..... Nejedná se o obecný princip v kybernetice?? Ano! Jde o emergenci. Emergence determinismu Podobné žebřı́čky i pro technické, biologické, apod. systémy. (Zkuste vymyslet!) Neuspořádanost Dı́ky čemu mohou ze stochastických systémů emergovat deterministické principy (přechodem na nižı́ rozlišenı́ či v čase)? Je-li snı́žena neuspořádanost stochastického systému. Vysoká neuspořádanost Nižšı́ neuspořádanost Deterministický systém rovnoměrná hustota pravděpodobnosti výskytu částice kvantový model atomu - nerovnoměrná hustota klasický deterministický model atomu embryo - 1. týden totožné kmenové buňky embryo - 2. týden odlišné (specializované) buňky embryo - 4. týden uspořádánı́ do orgánů Termodynamická entropie Neuspořádanost = zásadnı́ kybernetická veličina. Ale jak ji matematicky definovat a měřit? Možnou mı́rou neuspořádanosti je termodynamická entropie S. Množstvı́ energie systému nevyužitelné k práci (podrobnosti ve Fyzice 2) EN - energie, TROP - měnit (řecky), tj. energie přeměněná na nevyužitelnou (= teplo). Jak to souvisı́ s neuspořádanostı́? Lazare N.M. Carnot (1753-1823) Uvažujme dva termodynamické systémy: Vysoká neuspořádanost Nı́zká neuspořádanost Nı́zká schopnost konat práci (p1 ≈ p2). Vysoká schopnost konat práci (p1 >> p2). Vysoká entropie Nı́zká entropie Termodynamická entropie tedy zjevně stoupá s neuspořádanostı́, ale..... Informace Pro kybernetiku potřebujeme obecnějšı́ definici entropie, nevázanou na pouze termodynamické systémy. Základnı́ myšlenka: neuspořádanost - entropie - je množstvı́ informace potřebné k popisu (tj. odstraněnı́ neurčitosti) stavu. Jak ale počı́tat množstvı́ informace? Uvažujme znovu systém Zvolme náhodně jednu částici a rozlišme dva možné stavy: S ∈ {l, p}. − l: částice je v levé komoře − p: částice je v pravé komoře − S je diskrétnı́ náhodná veličina s distribucı́ P (l) = Pr(S = l), P (p) = Pr(S = p). Zprávou l resp. p kódujeme výsledek náhodného pokusu, tedy zda S = l resp. S = p Jak kvantifikovat množstvı́ informace I(l) resp. I(p) v takové zprávě? Informace Uvažujme nejprve maximálně uspořádaný systém. Zde platı́ P (l) = 1. Stav l je tedy jistý a zpráva l nenese žádnou informaci. Obráceně: pokud by platilo P (p) = 1, nenesla by žádnou informaci zpráva p. Obecně pro zprávu s ∈ {l, p} tedy požadujeme: − I(s) = 0 pokud pro stav s platı́ P (s) = 1 − I(s) stoupá s klesajı́cı́ P (s) Požadavku vyhovuje funkce I(s) = − log P (s) Informace Proč právě logaritmická funkce? Vyhovuje dále požadavku aditivity: Mějme zprávu si, sj o stavu dvou částic i a j (předpokládáme jejich statistickou nezávislost). Množstvı́ informace nezávisı́ na tom, zda informujeme o stavu i a j najednou, nebo zvlášt’ (ve dvou zprávách). Mělo by tedy platit: I(si, sj) = I(si) + I(sj) Skutečně platı́: i j I(s , s ) = − log P (s , s ) = − log P (s ) · P (s ) = − log P (si)−log P (sj ) = I(si)+I(sj) i j i j Jaký základ má použitý logaritmus mı́t? Změna základu odpovı́dá pouze změně měřı́tka loga P (s) = logb P (s) · loga b kde loga b je konstanta (a 6= 1, b 6= 1). Konvence: základ je 2 a měřı́tko se pak nazývá bit. Informačnı́ entropie Uvažujme neúplně uspořádaný systém. Zde P (l) = 0.9 a P (p) = 1 − P (l) = 0.1 Je-li částice v l, pak zpráva o tomto stavu nese informaci I(l) = − log2 0.9 ≈ 0.152 Je-li částice v p, pak zpráva o tomto stavu nese informaci I(p) = − log2 0.1 ≈ 3.322. Informačnı́ entropie H je pak střednı́ hodnotou informace přes oba stavy: P s∈{l,p} −P (s) log2 P (s) = 0.9 · 0.152 + 0.1 · 3.222 ≈ 0.468 [bit] Obecně pro systém konečným počtem možných stavů S ∈ {s1, s2, . . . , sn}, n ≤ ∞ a pravděpodobnostnı́ distribucı́ P (si) je informačnı́ entropie definována jako střednı́ hodnota: H(S) = − n X P (si) log2 P (si) [bit] i=1 (Pozn.: formálně definujeme 0 · log2(0) ≡ 0.) Claude E. Shannon (1916-2001) Vlastnosti informačnı́ entropie Uvažujme systém se dvěma stavy s1, s2 (tzv. binárnı́ systém). Necht’ P (s1) = p, a tedy P (s2) = 1 − p. Entropie H je v tomto přı́padě pouze funkcı́ p. Platı́ H(p) = −p log2 p − (1 − p) log2(1 − p) H(p) = 0 pro p = 0 (odpovı́dá ) i pro p = 1 (odpovı́dá ). H(0) = −0 log2 0 − 1 log2 1 = −0 − 0 = 0 H(1) = −1 log2 1 − 0 log2 0 = −0 − 0 = 0 H(p) = 1 pro p = 0.5 (odpovı́dá ) H( 12 ) = − 12 log2 12 − 12 log2 12 = −2 · 12 log2 12 = (−1) · (−1) = 1 Vlastnosti informačnı́ entropie Obecně pro n.v. S s n < ∞ možnými stavy: Entropie je maximálnı́ pro rovnoměrné rozloženı́ P (si) = 1/n ∀i H(S) = − n X 1 i=1 n log2 1 1 = − log2 = log2 n n n Entropie je minimálnı́ pro zcela deterministický systém ∃k P (sk ) = 1 a P (si) = 0 pro ∀i 6= k H(S) = − n X 1 i=1 n log2 1 = − log2 1 = 0 n Platı́ tedy 0 ≤ H(S) ≤ log2 n Informačnı́ entropie je tedy mı́rou neuspořádanosti nezávislou na termodyn. veličinách. Narozdı́l od informace I nenı́ entropie H závislá na délce zprávy. Pouze funkcı́ rozloženı́ n.v. Spojité veličiny: diferenciálnı́ entropie Uvažujme spojitou n.v. X s pravděpodobnostnı́ hustotou f (x). Přı́klad: stav = rychlost částice v termodynamickém systému. R∞ Definujeme diferenciálnı́ entropii: h(X) = − −∞ f (x) log2 f (x)dx Diferenciálnı́ h nenı́ limitnı́m zobecněnı́m diskrétnı́ H. Uvažujme diskrétnı́ n.v. S a spojitou n.v. X. Necht’ P (s) = ∆f (s), tj. distribuce S je diskretizacı́ hustoty X s přesnostı́ (vzorkovacı́m intervalem) ∆. Oproti očekávánı́: h(X) 6= lim ∆→0 ∞ X −∆f (s) log2 ∆f (s) s=−∞ Pravá strana diverguje (ověřte), nebot’ log2 ∆ → −∞. Narozdı́l od diskrétnı́ H je hodnota h závislá na měřı́tku. Přı́klad: − Necht’ X je spojitá n.v. s normálnı́m rozloženı́m, µ = 0, σ = 1. − Necht’ Y je spojitá n.v.: Y = aX (a 6= 1 je konstanta). − Potom H(X) 6= H(Y ) = H(X) + log2 a. − Zkuste ověřit. Entropie jako počet mikrostavů odpovı́dajı́cı́ch makrostavu Uvažujme systém s N částicemi, každá ve stavu s = l, nebo s = p. Mikrostav := stavy všech částic (s1, s2, . . . sN ). Makrostav := L = počet částic v l. N ! Ω: počet možných mikrostavů pro makrostav L: = L!(NN−L)! L H: informačnı́ entropie při makrostavu L: − NL log2 NL − NN−L log2 NN−L log2 Ω pro rostoucı́ L H pro rostoucı́ L → Pozorovánı́: H ≈ konst · log2 Ω (lze také odvodit z aproximace log n! ≈ n log n − n). H roste s Ω: H je tedy také mı́ra neurčitosti mikrostavu při známém makrostavu. Srovnejte se Boltzmanovým vztahem pro termodynamickou entropii: S = k ln W (k - Bolzmannova konstanta, W - počet možných mikrostavů odpovı́dajı́cı́ch makrostavu s S). Druhá termodynamická věta Z predešlé strany: čı́m vyššı́ entropie makrostavu, tı́m vyššı́ počet odpovı́dajı́cı́ch mikrostavů. Důsledek: makrostavy s vysokou entropiı́ jsou častějšı́. 2. termodynamická věta: “Teplo nemůže přecházet ze studenějšı́ho tělesa na teplejšı́.” Jinými slovy: Systém se samovolně vyvı́jı́ ke svému nejpravděpodobnějšı́mu stavu (s nejvyššı́ entropiı́). Rudolf Clausius (1822-1888) Přı́klad: ne obráceně Přı́klad: voda + led studená voda, ne obráceně. Platı́ pro uzavřené (izolované) systémy. Entropii, neuspořádanost, neurčitost systému lze snı́žit jen dodánı́m energie z vnějšku systému. (Tvrzenı́ neplatı́ pro informačnı́ entropii, pokud je vztažena na abstraktnı́/nefyzikálnı́ systémy.) Maxwellův démon Opravdu platı́ druhá termodynamická věta? Myšlenkový experiment: Maxwellův démon (1871-1929) James C. Maxwell (1831-1879) Démon propouštı́ částice pouze z levé komory do pravé, zpět ne. (Alternativně: rychlé částice pouze z L do P, pomalé pouze z P do L.) Je tı́m snı́žena entropie uzavřeného systému?! Vysvětlenı́ (Szilárd, 1929): Na zı́skánı́ informace, tj. odstraněnı́ neurčitosti o stavu částice (polohy, rychlosti atp.) musı́ démon vynaložit energii, např. vyslánı́m fotonu. Entropie subsystému démon se tı́m zvyšuje (jeho počátečnı́ energie se měnı́ na nevyužitelnou). V součtu se entropie celého systému nesnižuje. Leó Szilárd (1898-1964) Přı́klad: entropie v přirozených jazycı́ch Informačnı́ entropie je střednı́ hodnota informace a nenı́ nutně vztažena na fyzikálnı́ systémy! P Lze spočı́tat např. entropii jazyka J, H(J) = − s P (s) log2 P (s), kde − P (s) je pravděpodobnost znaku s z abecedy {A, B, C, . . . } ∪ mezera − P (s) jsou spočı́tány jako relativnı́ četnosti znaků analýzou rozsáhlých textů. Potom např. H(angličtiny) ≈ 4.1 [bit], čestina zhruba stejně. Mı́sto znaků přirozené abecedy lze také uvažovat celá slova apod. NÁMITKA 1: Nejvı́ce informace pak nese jazyk s rovnoměrným rozdělenı́m P (i) se zprávami jako RIC SPO YUHNDROPQ LFRT FEO OSNTIEOL MCNAPCFNETTIUC N SDI ?! Odpověd’: ano, Shannonova entropie nekvantifikuje význam či užitečnost zprávy. Z hodnoty entropie ale můžeme např. zjistit, že takové zprávy nemůžeme komprimovat, zatı́mco zprávy přirozeného jazyka ano. Uvidı́me přı́šte. NÁMITKA 2: Počı́tat entropii přirozeného jazyka výše uvedeným způsobem nenı́ rozumné. Kdo vymyslı́ proč? Uvidı́me přı́šte. Souhrn přednášky Systémy s velkým množstvı́m interagujı́cı́ch součástı́ obvykle nelze modelovat deterministicky. Je nutno použı́t stochastický model, definovaný jednou čı́ vı́ce pravděpodobnostnı́mi − distribucemi - pro spojité stavové veličiny. − hustotami - spojité stavové veličiny. Mı́rou neuspořádanosti stochastického systému je informačnı́ entropie, počı́taná z pravděpodobnostnı́ distribuce resp. hustoty dané stavové veličiny. Informačnı́ entropie je střednı́ hodnotou množstvı́ informace nutného k odstraněnı́ neurčitosti stavu. Informačnı́ entropie souvisı́ s entropiı́ termodynamickou: obě jsou rostoucı́ funkcı́ počtu možných mikrostavů pro makrostav s danou entropiı́. Informačnı́ entropie je obecnějšı́ pojem: nenı́ vázána na pouze termodynamické systémy. Entropii (informačnı́ i termodynamickou) uzavřeného systému lze snı́žit jen dodánı́m energie z vnějšku systému. (Nemusı́ platit pro I.E. vztaženou na nefyzikálnı́ systémy).
Podobné dokumenty
Matematické vztahy ve vědě, v reflexi o hudbě a v hudbě I. Úvod:
když je dokonale přizpůsoben tomu, abychom mohli dojít od předpokladů k závěrům.“ (ibid. s.
50) Každý vědní obor tedy využívá i jazyk přirozený.
Za účelem větší názornosti uveďme dva konkrétní přík...
Mikrokanonický ensemble
poloh a hybností neumožňuje, je zde omezení vyplývající z relací neurčitosti.
Element fázového prostoru pro systém z N částic pak má objem h3N , kde
h = 2πh̄ = 6.626 × 10−34 Js je Planckova konstan...
témata diplomových prací rok odevzdání 2010/2011
2. Významné osobnosti evropské vědy - téma bude konkretizováno podle zájmů a jazykových
předpokladů studenta.
3. Osobnosti české vědy a techniky (podle zájmů a odborných předpokladů studenta).
4. P...
Filosofické problémy umělé inteligence
Všechny pokusy o stanovení podmínek poznání, zda stroj vědomě prožívá, narážejí na jakousi epistemologickou
„bariéru“ dospíváme k názoru, že takový poznatek nemůžeme s jistotou učinit ani o jiném...
4. Boltzmannova klasická statistika
jsou stanoveny, definovány právě jen v tomto stavu – jsou to vlastně „veličiny rovnovážného stavu“ .
Jedině v rovnovážném stavu pak pro tyto veličiny platí stavová rovnice , která umožňuje výpočty
...
Pr´ıklad 1 Mladý Galileo Galilei pri pozorovánı kyvu lucerny
Dvě lod’ky plujı́ na klidné (neproudı́cı́) vodě proti sobě rovnoběžným směrem. Když se mı́jejı́, vyměnı́
si vzájemně stejně těžký pytel hmotnosti M =50 kg. Následkem toho se druhá...
dynamical model of a flexible tube
Obrázek 4: Porovnánı́ obou modelů: vlevo teleskopické dı́lce, vpravo pseudočástice
Ačkoliv jsou zde prezentovány dva modely, pro dalšı́ studie byl použit model s teleskopickými
dı́lci, z...
Kelvinova teplotní stupnice - Obchodní Akademie Lysá nad Labem
neuspořádaný pohyb částic. Byla předpovězena na základě výpočtu.
• Teploty 0 K nelze přesně dosáhnout, pouze se
jí můžeme přiblížit, protože částice se v látkách vždy pohybují, i když nepatrně.
V s...