pdf 2,33 MB
Transkript
Mgr. Josef Šlerka Studia nových médií Digital humanities: Praktické využití volně dostupných nástrojů pro text a data mining *den vědy (2012) Overtura Normalized Compression Distance NCD function ncd ($x, $y) { $cx = strlen(gzcompress($x)); $cy = strlen(gzcompress($y)); return (strlen(gzcompress($x . $y)) min($cx, $cy)) / max($cx, $cy); } !)'St)ooo otiCrine IDstCleYSkiPocrfol IDstCJe'lS~rrOI DoskleVSkiidi:lt T_ _ TlIgeOeVGen6ej)l(s TlIQE!nevE'" T~ T~nosIi T...._ T~;wt -......""",...,... T ."""..., ""' " "" ......'"""- ---, - - -, ~ Helgm 0.925 0.965 111111111 South.Park,S13E02'oSRXviD-OTV,txt South.Park.S13E05'oSRXviD-OTV.txt South .Park.S 13E03,OSR X viD-OlV .txt South.Pa rk.S 13E06. HDlV XVI D-BAJSKORV ,txt how,i.met. your.mother.s01 e01 ,txt n ~ ~ how .i.met. your .moth er. sO 1e04. txt lir ~ ~ ~ how ,i ,met ,your ,moth er,sO 1e02,txt g how .i .met ,your .moth er.sO 1e03.txt @ Q. 3 1x03-The _Big_ Bang_Theory-The J uzzLBoots _Coroll ary .txt 1x01-The_Big_Bang_Theory-Pilot.txt 1x02-Th e_ Big_Bang_Th eory-Th e_ Big_Bra n_H ypotesis,txt 1x04 -Th e_ Big_ Bang_Theory-Th e_ Lu mi nousJi sh _Effect.txt Paradigma Paradigma (je) souhrn základních domněnek, předpokladů, představ dané skupiny vědců. Ke každému paradigmatu patří i metodická pravidla řešení, intuitivní postoje a hodnocení problémů. Proměna vědeckého paradigmatu se děje zvraty (tzv. vědeckými revolucemi). (Wikipedia) Čtyři paradigmata empirický - založený na pozorování přírody teoretický - vytváří modely, generalizuje komputační - simulace komplexních systémů datový - založený na analýze dat Data: naivně viděno vyjádření skutečností formálním způsobem tak, aby je bylo možno přenášet nebo zpracovat (např. počítačem) číselné nebo jiné symbolicky vyjádřené (reprezentované) údaje a hodnoty nějakých entit nebo událostí jakékoliv fyzicky (materiálně) zaznamenané znalosti (vědomosti), poznatky, zkušenosti nebo výsledky pozorování procesů, projevů, činností a prvků reálného světa (reality) Wikipedia Změna paradigmatu data-driven vs. knowledge-drive komputační metody vs. modelování skutečnosti Peter Norvig vs Noam Chomsky Digital Humanities The digital humanities is an area of study, research, teaching, and invention concerned with the intersection of computing and the disciplines of the humanities. Sometimes called humanities computing, the field has focused on the digitization and analysis of materials related to the traditional disciplines of the humanities. Digital Humanities první vlna: nástup korpusů, sofistikované prohledávání etc. druhá vlna: experimentování třetí vlna: “computational turn” Zdroje dat Analogový (v počátcích, ale pro uni důležitý) Digitální (velmi, velmi pokročilý díky internetu) Analogový svět nutné transformovat představitelnější pro běžné akademiky ve světě již hutně zastoupený u nás pořád bída zajímavé výsledky Příklady distant reading cultural analysis social network analysis Distant reading Franco Moretti close reading vs distant reading literaturu je třeba zkoumat jako živočišné druhy odmítnutí close readingu jako sekularizované podoby čtení Bible Analýza pohlaví ---_.----_. ------_.---------.-----, ._--_ _o """""',,, "" "- '" , _ _o [, ......, ..... '" , ~- ._ ...... "" "" = lil. Cultural analysis Lev Manovich analýza a vizualizace velkých, převážně vizuálních korpusů hledání patternů Impressionisté SNA v politologie data mining politických akcí vzorové studie jsou z oblati společných hlasování Pražský magistrát analýza hlasování za tři volební období vazba existuje při 75% shodných hlasování ukazuje skutečné hlasovací jádro ukazuje vazby napříč stranami inspirace americkým experimentem 1998 - 2002 2002 - 2006 2006 - 2010 Digitální svět vešekerá produkce na internetu záznamy z digitálních zařízení demokratizace velkých dat demokratizace technologii Co jsou to Big Data? Big Data is a term applied to data sets whose size is beyond the ability of commonly used software tools to capture, manage, and process the data within a tolerable elapsed time. Big data sizes are a constantly moving target currently ranging from a few dozen terabytes to many petabytes of data in a single data set. Co je Data Science? A data application acquires its value from the data itself, and creates more data as a result. It's not just an application with data; it's a data product. Data science enables the creation of data products. Sexy job? “Datový vědec je statistiky žijící v San Franciscu...” (source: Twitter) “I keep saying that the sexy job in the next 10 years will be statisticians...” Hal Varian, chief economist at Google. Data Science 3 000 000 000 počet hledání na Googlu denně 30 000 000 000 počet zpráv a příspěvků na Facebooku měsíčně 5 000 000 000 mobilních telefonů po celém světě 140 000 000 průměrný počet zpráv poslaných denně na Twitteru 1 000 000 počet denně vygenerovných zpráv na českém Facebooku v otevřených profilech 600 dolarů cena disku na který se vejde veškerá hudba na světě v MP3 100 dolarů cena hodiny provozu klastru 10 počítačů na Amazonu 0 dolarů cena open-source softwarů, jako je Hadoop, Lucene,Cassandra, CouchDB, Elastich Search a dalších Big Social Data deep data vs. surface data data-driven sociální a humanitní vědy Lev Manovich: The Promises and the Challenges of Big Social Data Big (Social) Data případové studie Search Engine Based normalized Google distance Google Insight search suggestion Google distance počítá se sémantická vzdálenost autory jsou Rudi Cilibrasi a Paul M. B. Vitanyi podobné věci sdílí stejné vlastnosti dvě reprezentace jsou si tím podobnější, čím méně složitých změn je třeba k převodu jedné v druhou NGD je vyjádřená vzorcem: m = log10(počet všech indexovaných stránek); fx = log10(počet výsledků pro slovo X); fy = log10(počet výsledků pro slovo X); fxy = log10(očet výsledků pro slovo X a Y); GND = ((max(fx,fy) - fxy) / (m - min(fx,fy)) 1 , ~pp l. - 5 toyo .. Additional keywords set (upto five, optional) , , , • Restrict to domain (optional) [)omajn ot no Example keyword set: SPDIe. m/~fOSOIt. bmw. chrysler. toyota Result matrix apple apple microsoft 0.11519974 b~ 0.77006889 b~ 0.11519974 0.77006889 0.54669557 chrysler toyota 0.54669557 0.73886136 0.06765933 " chrysler toyota microsoft '"",,, 0.73886136 0.06765933 0.28139269 0.28139269 0.42550257 0.42550257 http://www.mechanicalcinderella.com/ Dovolené podle jazyka Search jako signál Hyunyoung Choi, Hal Varia: Predicting the Present with Google Trends Chevrolet I ,; i i I - GoogIo T _ . - - -,- - Toyota I ,; I ! , I , , ,•• ! , I , , I Chevrolet - - - - .~ , • • Toyota ••• , • •• • - - -,- - - , , - - - - ~ (b) Act ua! &. Fitt<d Saleo Jak je to možné? Život je hledání... (taky) a dříve než se rozhodneme, hledáme...(taky) ! ,---- I -r---'""'' ' ' "-c-l I ~ I • • i I Germlln y _ i I i I 1 1,!-~~-,-J I France , i I I i • I .... ...,. """ .... I I I ! I i i i i __ i - I I I I ! Figure 2.9: Visí to... Statisti"" and Fittcd by Count ry Ind ia Google Insight statistiky vyhledávání na Google využitelné pro predikci nezaměstnanosti zajímavé výsledky pro vztahy slov Google a zaměstnanost jol".alerk&@gmall.com l MyAqp'01 I I::1m1 I $190 OUI I D Download II esy I EogIIsh ruSl .. Google Insights for Search Comp.re by 0 Searchtenns Searc:h lerm. "", UOO QOJ<" ,,... "''' _»_.., __. I'W>IO Locabons • volnoi mini. T1me Rangoes • oabldkil r.ice + MI st' tl , -., F Uter ~ -"- wm • S.. "h Web Sean;:h Interest: y oln á mlsw, nabldka prAce Tatlrl WOOdwide, 2004 - prasenl CetegOl1es: Lor.al , Sodety. Eotertalnmenl. Healtb. Buslness. Travel (J; volnll mlsta : : : : :: " nabldka pnlce 42 dl An impn:lVflfT1enl to ou' lI"OII",phical 8S$ignment was appHed I1.!lroaclively fn.>m 1/112011 . l l am ...., .... r,~"~,.~-~-~,~.~...~,~,~,~m .=-_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _~==___~"'_F~-::;:.~'.... News headlines "" " m .... ." ." , , ." Google Insight Google suggestion Google suggestion Báječný svět API Twitter Facebook Foursquare OpenSubtitles ... korupsy u nohou Twitter Facebook Foursquare OpenSubtitles _ __ 5 \ -' _0. ' _ . c._ _ _ ,"_._" • • ,-,,,,",,_~_,,-.). '1'. _ __ ' . .- •.. .. ",_",~,-o",o,., " " ." , '- • '- - ... -., -.- I\i , .•, !!!Ot -... ........................ ._.. ~-- Wikipedia více jak 500.000 kategorií více jak 5.500.000 entit pojmová síť Sémantický analyzér Text je systém, ve kterém jsou souvislosti mezi větami dány i tím, že pojmy, které se v textu vyskytují, náleží ke společnému tématu. Správné určení tématu (témat) textu je shodné s nalezením nejvyššího společného slovníku pro co největší část použitých termínů. Ukázkový text... TEHRAN — Thirty-six years after construction began under the shah, Iran finally opened its first nuclear power plant at a ceremony on Saturday. Attended by senior officials from Iran and Russia, the ceremony marked the beginning of the transfer of low-enriched uranium fuel rods from a storage site into the plant. Officials of both countries said Saturday’s events signified the opening, not the startup, of the plant near Bushehr, in southern Iran, as a working nuclear plant. “This is a special day for both Russian and Iranian specialists,” the chief of Russia’s Rosatom state nuclear power company, Sergei Kiriyenko, said, shaking hands and smiling with his Iranian counterparts, in television reports broadcast in Russia, which helped build the station through years of concern by the West that Iran was using its civilian program to mask a plan to build a bomb.... Výsledek: kategorie Energy Nuclear technology International relations Chemistry Countries Výsledek: slova russia iran uranium nuclear power nuclear power plant fuel Další studie... prediktivní analýza pomocí velkých dat v praxi Twitter a burza Mobily a cholera Facebook a filmy zmínky o Inception na českém Facebooku 2010 a divácký ohlas Facebook a filmy Harry Potter na českém Facebooku 2010 a divácký ohlas Facebook a filmy Harry Potter na českém Facebooku 2010 a divácký ohlas Indexy sociální akce Realita logy mobilů Instagram recenze 4SQ 4SQ check-in Reakce Akce statusy na Twitteu FB komentáře FB statusy členství ve FB skupinách FB likes Virtualita Co dál? Změnit imaginaci! A dát si pozor na intelektuální pasti. Na co si dát pozor? The lure of objectivity The power of visual evidence Black-boxing Institutional perturbations The quest for universalism (Rieder, Rohle: Digital Methods) Děkuji za pozornost! Čas na otázky, čas na odpovědi:-) mail: [email protected] twitter: twitter.com/josefslerka
Podobné dokumenty
prezentace
Josef Šlerka – Slovenský Facebook (28.9.2011) http://www.slideshare.net/josefslerka/slovensky-faceboook
Amazing Twitter Infographics - http://econsultancy.com/uk/blog/8049-10-twitterinfographics
Peter Richelieu
„Nepřišel jsem vás obracet na nějakou novou víru nebo filozofii. Můj Pán mě neposlal
proto, abych vám zodpověděl otázky, které vás zrovna teď trápí. Mohu to učinit jedině tak, že vám
povím o základ...
říjen - Městský Obvod Ostrava Vítkovice
obyčejnou mikrovlnku. A tak, aby výsledky
jejich práce byly co nejlepší, měl kolektiv
v prvních dnech k ruce i profesionálního
kuchaře, který jim pomáhal „komunikovat“
se všemi těmi konvektomaty, k...
Léčba dimethyletherem u condylomata accuminata u žen
analýza výsledků je založena na 15 pacientkách, které studii
dokončily. Jejich průměrný věk byl asi 22,2 let. U 14 z 15 (93 %;
95 % IS 81-100%) pacientek byly všechny bradavice se skóre
pozitivní b...
Get Social, 6. 11. 2013 Josef Šlerka, Studia nových médií, Ataxo Group
Gamification is the use of game design
techniques and mechanics to solve problems
and engage audiences.
Hyleg - sbírka horoskopů
Slunce vyhovuje v roli Hylegu, Slunce má aspekt na Jupitera, ale ten je spálený (povýšení), má aspekt i
na Lunu (vládce), ale Luna není postavena dobře, rozhoduji se pro Venuši, která je v MC (deka...