PageRank
Transkript
PageRank 1 PageRank PageRank je algoritmus pro ohodnocení důležitosti webových stránek, navržený Larry Pagem a Sergeyem Brinem, tvořící základ vyhledávače Google. (Jméno algoritmu je přeložitelné jako “hodnocení stránky” nebo též “Pageovo ohodnocení”. Podle vyjádření společnosti Google byl algoritmus pojmenován právě po Pageovi.) Algoritmus využívá strukturu hypertextových odkazů jako vzájemné “doporučování” stránek, ne nepodobné hodnocení vědeckých prací podle počtu citací. Na rozdíl od sledování počtu citací ale dovádí tento princip ještě dál: hodnocení stránky se nepočítá z prostého počtu odkazů, které na ni vedou, ale bere se v úvahu i hodnocení odkazujících stránek. Chceme-li tedy spočítat PageRank R(a) stránky a, můžeme použít vzorec, který vypadá asi takto: kde je množina všech stran, které odkazují na a, a je počet odkazů, které vedou z u. Každá stránka tak své hodnocení v podstatě předává dál skrze odkazy. Rovnice se ještě upravuje normalizujícím faktorem c tak, aby součet všech hodnocení byl konstantní: Hodnoty PageRanku se dají spočítat pomocí přiřazení libovolných hodnot, a následným iterováním výpočtu, dokud hodnoty nezačnou konvergovat. Problémem při výpočtu PageRanku jsou uzavřené struktury stránek, u nichž vedou odkazy dovnitř, ale už ne ven. Distribuce PageRanku mezi provázanými stránkami Například dvě vzájemně propojené strany, s odkazem vedoucím zvenku na jednu z nich, by při výpočtu PageRank akumulovaly, ale nic by nepouštěly ven (protože není kudy). Tím vzniká jakási past, kterou Page a Brin nazývají rank sink. Rank sinky lze vyřešit přidáním zdroje ranku: výchozí hodnoty, kterou má každá stránka sama od sebe. Pak lze upravený PageRank definovat jako zobrazení, které splňuje rovnici kde c je pokud možno kladná konstanta a norma R' je rovna jedné. E potom označuje zdroj ranku. V maticovém zápisu zapíšeme uvedenou rovnici jako (A je přitom matice, kde na pozici [a,b] je , vede-li odkaz z b do a, v ostatních případech 0). Stabilní přiřazení PageRanku v uzavřené struktuře stránek PageRank 2 Protože norma R' je 1, můžeme rovnici přepsat jako R' je vlastní vektor (kde 1 je jednotkový vektor). Tudíž . Výpočet PageRanku Jak již bylo zmíněno, PageRank lze spočítat postupnou iterací: 1. Zvolme počáteční vektor hodnocení S (například můžeme použít E) 2. 3. Cyklus: 1. 2. 3. 4. 4. Opakujeme cyklus, dokud Faktor d ovlivňuje rychlost konvergence a zachovává celkovou normu výsledku. Neznámým prvkem ve výpočtu jsou “visící odkazy”: odkazy na stránky, z nichž už nic nevede. V praxi se často jedná o odkazy na stránky, které ještě nejsou v databázi vyhledávače nebo odkazy na stránky, ze kterých už žádný odkaz nevede (typicky např. některé fotogalerie). Problém se může řešit jednoduše tak, že se tyto odkazy při výpočtu PageRanku zanedbají, nebo složitěji tak, že se na takovou stránku přidá virtuální odkaz zpětný. Přizpůsobení PageRanku Při výpočtu PageRanku se používá vektor zdroje ranku E. Kromě řešení problému “rank sinks” je to i mocný nástroj k hodnocení stránek z “různých perspektiv” – při použití upraveného vektoru E lze například označit vybranou množinu stránek za důležité pro uživatele, a hodnocení stránek ostatních bude určeno jejich relativním postavením v síti odkazů vůči těmto vybraným stránkám. Tímto způsobem je teoreticky možné vytvořit vyhledávač přizpůsobený pro konkrétního uživatele – stačí zvolit vektor E, který bude vysoko hodnotit třeba obsah složky jeho složky “oblíbené”. Potom například dotaz “baterie” vrátí elektrotechnikovi stránky o elektrickém článku, zatímco fanouškovi vojenství informace o dělostřelbě. Vzhledem k výpočetní náročnosti přepočítávání PageRanku pro každého uživatele zvlášť se tento postup ovšem nepoužívá. Externí odkazy • Google PageRank [1] - vysvětlení na stránkách Dušana Janovského (česky) • Toolbarový PageRank [2] - vysvětlení zeleného měřítka zobrazovaného Google Toolbarem (česky) • The PageRank Citation Ranking: Bringing Order to the Web [3] (PDF); Lawrence Page, Sergey Brin, Rajeev Motwani, Terry Winograd; Stanford University, November 1999 (anglicky) • PageRank Uncovered [4] (PDF) Chris Ridings, Mike Shishigin; version 3.0, September 2002 (anglicky) PageRank Reference [1] [2] [3] [4] http:/ / www. jakpsatweb. cz/ seo/ pagerank. html http:/ / www. lupa. cz/ clanky/ zahadny-google-toolbar-pagerank/ http:/ / www. voelspriet2. nl/ PageRank. pdf http:/ / dbpubs. stanford. edu:8090/ pub/ 1999-66 3 Zdroje článků a přispěvatelé Zdroje článků a přispěvatelé PageRank Zdroj: http://cs.wikipedia.org/w/index.php?oldid=8203699 Přispěvatelé: Beren, Che, Danny B., Harold, Ioannes Pragensis, Jj14, Jklir, Kavalír Kaviár, Kozuch, Ludek, Lusas, McFly, Mercy, Minnetonka, Mormegil, Paxik, Sajacz, Slady, Tchoř, TradeCZ, X7q, Yuhů, ZK001, Zacatecnik, 32 anonymní úpravy Zdroje obrázků, licence a přispěvatelé Soubor:Pagerank1.png Zdroj: http://cs.wikipedia.org/w/index.php?title=Soubor:Pagerank1.png Licence: Creative Commons Attribution-Sharealike 2.5 Přispěvatelé: Che at cs.wikipedia Soubor:Pagerank2.png Zdroj: http://cs.wikipedia.org/w/index.php?title=Soubor:Pagerank2.png Licence: Creative Commons Attribution-Sharealike 2.5 Přispěvatelé: Che at cs.wikipedia Licence Creative Commons Attribution-Share Alike 3.0 Unported //creativecommons.org/licenses/by-sa/3.0/ 4
Podobné dokumenty
Vyhledávání na webu - Střední průmyslová škola a Vyšší odborná
• indexace webových stránek
• nalezené nové stránky nebo změny zaznamenává
– indexuje a ukládá do obrovské databáze vyhledávače
6. SEO – úvod do problematiky, terminologie, principy
Prochází jednotlivé dokumenty umístěné na webu, hledá
v nich odkazy na nové stránky, indexuje obsah
zpracovávaných stránek a umožňuje jejich následné
prohledávání
Stránky by měly být uzpůsobeny tak...
Charakteristika Google Book Search
partnerskému programu sám (nebo naopak zakázat indexaci). Pokud by se měl Google spolehnout jen na tyto
partnery, odhaduje, že by nezískal více než 15 % ze všech světových publikací.
Jediný údaj, k...
Informace
Zatímco účelem analogového přenosu informace je pouze přeměna hlasu nebo obrazu na elektrický signál, jeho
věrný (nezkreslený) přenos a opačná změna na zvuk nebo obraz, už v telegrafii se objevila ...
Optimalizace pro vyhledávače - SEO
vyhledávače (Jyxo1, Morfeo) automaticky indexují na základě registrace do
některého z katalogů (například pokud je www.example.com registrován
v Atlasu, tak ho Jyxo považuje za českou stránku a pro...
Happy Hill Sochor guide 2011
n klienti jsou rozdělováni do skupin podle svých schopností přímo na svahu
Začátečníci začínají na mírném svahu, vždy někde mimo hlavní sjezdovky.
Po zvládnutí základních oblouků a jízdy na vleku ...