slajdy web

Transkript

slajdy web
Dobývání znalostí z databází
T15: web mining
Dobývání znalostí z webu – web mining
„Web Mining is is the application of data mining
techniques to discover patterns from the Web“
(Wikipedia)
Tři oblasti:
Web content mining (web jako kolekce
dokumentů) – analogie s text mining
Web structure mining (web jako graf)
Web usage mining (web jako „dálnice“ na
které probíhá provoz)
P. Berka, 2011
1/13
Dobývání znalostí z databází
T15: web mining
Obsah webu (web content mining)
Cílem získat znalosti na základě webovských stránek
chápaných jako dokumenty (tedy jako text mining):
vyhledávání a metavyhledávání (tj. hledání stránek
relevantních k dotazu uživatele), kategorizace
dokumentů (shlukování stránek podle obsahu) nebo
filtrování (tj. rozpoznání stránek relevantních
k uživatelově profilu),
dobývání znalostí “skrytých” ve stránkách (extrakce
informací nebo zodpovídání dotazů).
1. vyhledávání
P. Berka, 2011
2/13
Dobývání znalostí z databází
T15: web mining
2. metavyhledávání
simultánní přístup k více (klasickým) vyhledávacím
strojům:
přístup k vyhledávacím systémům neznámým pro
uživatele
jednotný interface
následné zpracování nalezených odkazů
All-in-one: seznam vyhledávačů
P. Berka, 2011
3/13
Dobývání znalostí z databází
T15: web mining
MetaCrawler: použití více (všech známých)
vyhledávačů
SavvySearch: použití více (některých) vyhledávačů
P. Berka, 2011
4/13
Dobývání znalostí z databází
T15: web mining
HuskySearch: shlukování nalezených dokumentů
AskJeeves: báze přímých odpovědí
P. Berka, 2011
5/13
Dobývání znalostí z databází
T15: web mining
3. extrakce informací
named entity recognition
comparison shopping - podpora nakupování na
Internetu (hledání cenově nejvýhodnější nabídky
v on-line katalozích)
Netbot Jango
P. Berka, 2011
6/13
Dobývání znalostí z databází
T15: web mining
Struktura webu (web structure mining)
web jako graf, kde uzly jsou dokumenty (stránky) a
hrany jsou vazby (odkazy) mezi stránkami.
HITS (Kleinberg, 1998)
hubs (rozcestníky) a authorities (autority)
a(p) :=
h(q)
q
h(p) :=
p
a(q)
p
q
rekurzivní algoritmus počítající obě hodnoty (pouze) pro
stránky získané jako výsledek konkrétního vyhledávání
(systém Clever).
Nalezením rozcestníků a autorit můžeme redukovat
část webu pokrývající dané téma do podoby
bipartitního grafu.
P. Berka, 2011
7/13
Dobývání znalostí z databází
T15: web mining
PageRank (Brin, Page, 1998)
webové stránky „bodovány“, hodnocení každé
stránky je dáno hodnocením stránek, které na tuto
stránku odkazují
PR( A)
(1 d ) d
PR(Ti )
C (Ti )
...
PR(Tn )
C (Tn )
kde:
A je stránka, pro kterou se počítá PageRank
Ti jsou stránky odkazující na stránku A
C(Ti) je počet odkazů na stránce Ti
d je tlumící faktor
rekurzivní algoritmus počítající hodnotu pro všechny webové
stránky (Google)
Webové komunity
P. Berka, 2011
8/13
Dobývání znalostí z databází
T15: web mining
Využívání webu (web usage mining)
Web jako prostor, ve kterém uživatelé prohlížejí
jednotlivé stránky
1. analýza web server logů (časová data, sekvence
navštívených stránek)
remotehost
rfc931
Auth [date]
user
"request"
status
bytes
bacuslab.pr.mcs.net - - [01/Jan/1997:12:57:45 -0600] "GET /~bacuslab/ HTTP/1.0" 304 0
bacuslab.pr.mcs.net - - [01/Jan/1997:12:57:49 -0600] "GET /~bacuslab/BulletA.gif HTTP/1.0" 304 0
bacuslab.pr.mcs.net - - [01/Jan/1997:12:57:50 -0600] "GET /~bacuslab/Email4.gif HTTP/1.0" 304 0
151.99.190.27 - - [01/Jan/1997:13:06:51 -0600] "GET /~bacuslab HTTP/1.0" 301 -4
151.99.190.27 - - [01/Jan/1997:13:06:52 -0600] "GET /~bacuslab/ HTTP/1.0" 200 1779
151.99.190.27 - - [01/Jan/1997:13:06:54 -0600] "GET /~bacuslab/BLI_Logo.jpg HTTP/1.0" 200 8210
151.99.190.27 - - [01/Jan/1997:13:06:54 -0600] "GET /~bacuslab/BulletA.gif HTTP/1.0" 200 1151
151.99.190.27 - - [01/Jan/1997:13:06:54 -0600] "GET /~bacuslab/Email4.gif HTTP/1.0" 200 3218
Předzpracování – nalezení clickstreamů, sekvencí
stánek navštívených jedním uživatelem během jedné
seance
např. Discovery Challenge ECML/PKDD 2005
unix time ;IP address
; session ID
; page request; referee
1074589200;193.179.144.2 ;1993441e8a0a4d7a;/dp/?id=124
1074589201;194.213.35.234;3995b2c0599f1782;/dp/?id=182
1074589202;194.138.39.56 ;2fd3213f2edaf82b;/
1074589233;193.179.144.2 ;1993441e8a0a4d7a;/dp/?id=148
1074589245;193.179.144.2 ;1993441e8a0a4d7a;/sb/
1074589248;194.138.39.56 ;2fd3213f2edaf82b;/contacts/
1074589290;193.179.144.2 ;1993441e8a0a4d7a;/sb/
;www.google.cz;
;
;www.seznam.cz;
;/dp/?id=124;
;/dp/?id=148;
; /;
;/sb/;
clickstream pro typ stránky: dp,dp,dp,sb,sb
clickstream pro produkt: 124,182,148
segmentace nabízených produktů
P. Berka, 2011
9/13
Dobývání znalostí z databází
T15: web mining
asociace mezi navštívenými stránkami
lidé používající fulltextové vyhledávání se méně dívají na detaily zboží
P. Berka, 2011
10/13
Dobývání znalostí z databází
T15: web mining
predikce následující stránky - lze na základě
pozorované sekvence A1A2…An-1 určit následující
stránku An?
markovský model
n
P( A1 A2 ...An )
pravidla dp, sb -> sb (0.93)
P( Ai | Ai
k 1
...Ai 1 )
i 1
podobnost mezi sekvencemi
segmentace návštěvníků
P. Berka, 2011
11/13
Dobývání znalostí z databází
T15: web mining
2. analýza nákupního košíku internetových obchodů
3. recommender systems – systémy, které doporučují
(co koupit, jaké stránky navštívit apod.) na základě
chování podobné skupiny návštěvníků – collaborative
filtering
amazon
P. Berka, 2011
12/13
Dobývání znalostí z databází
T15: web mining
MovieLens
last.fm
P. Berka, 2011
13/13

Podobné dokumenty

2009 - březen - Mistrovství světa v klasickém lyžování Liberec 2009

2009 - březen - Mistrovství světa v klasickém lyžování Liberec 2009 Advanced Web Statistics 6.5 (build 1.857) - Created by awstats (plugins: hostinfo, decodeutfkeys, geoip, tooltips)

Více

Tmavě modrá s oranžovou

Tmavě modrá s oranžovou Aktuální verze Xorg mají vypnutou podporu Security Extensions, takže ssh -X nefunguje Jak používat xauth se dočteme např. ve skriptu

Více

IKT2/47-48 - Vyhledávací nástroje na Internetu II

IKT2/47-48 - Vyhledávací nástroje na Internetu II – Informační zdroje dostupné přímo (jde o zdroje, které mají zpravidla veřejný charakter, přístup k nim je bezplatný a lze je lokalizovat pomocí různých vyhledávacích služeb). – Informační zdroje p...

Více

pdf, 650 kB

pdf, 650 kB Využití WWW jako efektivního informačního zdroje Jiří Jelínek [email protected]

Více

Sborník - Data a znalosti 2015

Sborník - Data a znalosti 2015 přístupy, často založené na pokročilých statistických a vizualizačních metodách, dovolují výsledky prezentovat v jednoduché a přehledné formě. V této přednášce podáme přehled metod visual data mini...

Více

Diplomová práce Měření úspěšnosti webových prezentací

Diplomová práce Měření úspěšnosti webových prezentací souvisí objasnění termínů týkajících se měření a proto se pokusím objasnit tyto termíny, identifikovat problémy spojené s jejich měřením a zkusím nalézt nebo navrhnout řešení těchto problémů. Objas...

Více

References - LISp

References - LISp Lín, V. – Rauch, J. – Svátek, V.: Mining and Querying in Association Rule Discovery. In: KLEMETTINEN,  Mika,  MEO,  Rosa,  GIANNOTTI,  Fosca,  DE  RAEDT,  Luc  (ed.). Knowledge Discovery in Inducti...

Více