Vyhľadávanie a sémantický web
Transkript
X36WWW Vyhledávání na webu a sémantický web 12. přednáška LS 2007 X36WWW: 11. přednáška 1 / XX 1. ČÁST: VYHLEDÁVÁNÍ NA WEBU úvod způsoby vyhledávání webové vyhledávače katalogy stránek neviditelný web SEO – optimalizace stránek s ohledem na vyhledávače X36WWW: 11. přednáška 2 / XX Vyhledávání na webu web je obrovský informační prostor, X miliárd dokumentů dokumenty jsou spojeny hypertextovými odkazy web neustále roste a mění se nejestvuje centrální správa dokumenty nejsou indexovány ani kategorizovány Důsledky: problematické hledání relevantních informácí vyhledávání je vždy neúplné X36WWW: 11. přednáška 3 / 30 Způsoby vyhledávání webové vyhledávače (search engines) – Google, Yahoo, ... katalogy stránek (subject directories) – Yahoo!, DMOZ... vyhledávání v neviditelném webu X36WWW: 11. přednáška 4 / 30 Webové vyhledávače 1 Vlastnosti: dokumenty indexovány na základě obsahu (fulltext) vyhledávání podle klíčových slov index tvoří stroje (robots, spiders) různý rozsah – až do 90% obsahu indexovatelného webu X36WWW: 11. přednáška 5 / 30 Webové vyhledávače 2 Princip: robot (crawler, spider) prochází stránky, následuje odkazy indexování, hodnocení uložení do databázy uživatel prohledává index pomocí klíčových slov časový cyklus – 1 měsíc (google deepbot) – niektoré stránky navštevuje častejšie (google freshbot) – důsledek: „měsíc staré“ výsledky v cache X36WWW: 11. přednáška 6 / 30 Webové vyhledávače 3 únor 2007: 6.9 mld hledání v USA Google 47% http://www.google.com Yahoo 28% http://www.yahoo.com/ Microsoft 10% http://www.live.com/ Ask.com Time Warner X36WWW: 11. přednáška 7 / 30 Google největší (10mld dokumentů, cca. 100tis. PC – rok 2005) indexuje HTML, PDF, PS, PPT... hodnotící algoritmus PageRank (nepodplatitelný) služby: Images, News, Froogle, Scholar, Answers, mapy... nejpoužívanější vyhledávací služba, mnoho lidí používá jako slovník, adresář, telefónny seznam hrozba zneužití – Google je komerční společnost – cenzura, placené odkazy, manipulace s veřejností X36WWW: 11. přednáška 8 / 30 Google PageRank určuje pořadí nalezených výsledků PR(A) = ( PR(T1)/C(T1) + ... + PR(Tn)/C(Tn) ) množství dalších faktorů demokrace a žádné platby (reklama je vedle výsledků) faktory jsou tajné: základní knowhow a záruka kvality pokusy o reverse engineering každé 3 měsíce se PageRank přepočítá X36WWW: 11. přednáška 9 / 30 Problémy vyhledávačů Problémy vyhledávání: klíčová slova ořezávájí přehledávaný prostor (mnoho vs. málo výsledků) přesnost (function in math, programming...) pokrytí (motor, engine...) národné jazyky (skloňování) Jyxo, morfeo.centrum.cz – indexují víc dokumentů v doméně .cz jako Google ??? – od začátku roku 2007: www.google.cz X36WWW: 11. přednáška 10 / 30 Vertical search vertical, local, topical search vertical search je v protikladu k broadbased search (google, yahoo) vyhledávače, zaměřené na jednu speciání oblast uživatelé jsou specialisti v dané oblasti X36WWW: 11. přednáška 11 / 30 Metavyhledávače Metavyhledávače (MetaSearch Engines) vyhledávají v několika vyhledávačích a katalogech výsledky spojí a prezentují uživateli obvykle jsou neefektivní příklady: vivisimo, answers.com seznam: – http://dmoz.org/Computers/Internet/Searching/Metasearch/ X36WWW: 11. přednáška 12 / 30 Katalogy stránek 1 odkazy na zdroje rozdělené do kategorií uživatel prochází katalog, nebo hledá klíčové slova v názvech a popisech položek kategorie nejsou standardizovány katalogy vytvářejí lidi různý rozsah a zaměření (obecné vs. specializované) X36WWW: 11. přednáška 13 / 30 Katalogy stránek 2 – DMOZ Open Directory Project (www.dmoz.org): opensource katalog budovaný komunitou čím větší web tím víc možných editorů databáze je volně přístupná ve formátu RDF Google používá DMOZ jako svůj katalog X36WWW: 11. přednáška 14 / 30 Neviditeľný web 1 invisible, deep, dark web na webu zveřejněné databáze knihovny, muzea,... 5x víc informací jako viditelný web (jiné zdroje: 500x víc) nejsou dostupné indexovacím robotům – stránky jsou dynamicky generovány – přístup prostřednictvím formulářů – potřebný výběr z formuláře nebo vyplnění textového pole – přístup pomocí hesla X36WWW: 11. přednáška 15 / 30 Neviditeľný web 2 Kde hledat? v katalogech a vyhledávačech (slovo database) speciální vyhledávače pro neviditelný web speciální katalogy pro neviditelný web http://oedb.org/library/collegebasics/researchbeyond google X36WWW: 11. přednáška 16 / 30 SEO – Návrh webu s ohledem na vyhledávání 1 ak stránka není v Google nebo v katalogech, tak neexistuje vyšší PageRank = úspešnější stránka obsah a struktura stránek může ovlivnit PageRank SEO (Search Enging Optimalization) – vytváření stránek s ohledem na vyhledávače techniky SEO: – legální: • onpage • offpage – nelegální X36WWW: 11. přednáška 17 / 30 Návrh webu s ohledem na vyhledávání 2 legální techniky: – struktura obsahu pomocí sémantických značek: title, h1h6, em, strong... – meta tagy: keywords, desctiption – každá stránka by měla být dostupná (aj bez sessionId) – text odkazů: slova s významem a NE „klikni zde!“ – nenahradzovat text obrázkami, vyplnené title a alt atributy – http://www.example.com/clanek/nazevclanku/ vs. http://www.example.com/clanek.php?id=1234 – sitemap (do 100 odkazů) – robots.txt – registrujte stránky ve vyhledávačech X36WWW: 11. přednáška 18 / 30 On Page: V hlavičce <head> tag <title> – nejdůležitější – každá stránka výstižný titul – ne jeden titul pro celý portál <meta name="description" content="Popis stránky"> – důležité, každá stránka jiné <meta name="keywords" content="klícová slova"> – ne tak důležité X36WWW: 11. přednáška 19 / 30 On Page: Struktura obsahu Takhle ano: <h1>Nadpis</h1> <p>text <em>keyword</em> <strong>keyword</strong> text</p> <h2>Podnadpis</h2> Takhle ne: <div id=”nadpis”>Nadpis</div> <div class=”odstaved”>text <b>keyword</b> <i>keyword</i> text</div> X36WWW: 11. přednáška 20 / 30 On Page: Obrázky obrázky by neměli nahrazovat text atribut alt v elementu img by měl být vyplněn textový odkaz je lepší jako obrázkový X36WWW: 11. přednáška 21 / 30 On Page: Klíčová slova a URL takhle ano: – http://www.example.com/clanek/nazev_clanku/ takhle ne: – http://www.example.com/clanek.php?id=1234 X36WWW: 11. přednáška 22 / 30 On Page: Dostupnost stránek stránky by měli být dostupné pro vyhledávač problematické oblasti: – duplicitní URL – ImageMaps – dynamické menu – JavaScript redirection – Flash – frames – nutnost session id v URL – měnící se URL – velikost stránky (Google do 100KB) X36WWW: 11. přednáška 23 / 30 On Page: Mapa webu hodí se, když může být problém při indexování robotem do 100 odkazů X36WWW: 11. přednáška 24 / 30 Anchor text – interní a externí odkazy Takhle ano: Clanek o <a href=”http://www.audi.com”>Audi A3</a> vas urcite zaujme. Takhle ne: Jestli chcete cist clanek o Audi A8, <a href=”http://www.audi.com ”>kliknete zde</a>. X36WWW: 11. přednáška 25 / 30 Postup SEO kampaně analýza webu analýza klíčových slov optimalizace webu (onpage techniky) získávání zpětných odkazů – spřizněné weby (výměna) – marketingová kampaň – registrace v katalogech analýza SEO kampaně X36WWW: 11. přednáška 26 / 30 Nelegální techniky nelegální techniky: – skryté texty a odkazy, nerelevantné texty – cloaking (jiný obsah pro lidi a jiný pro vyhledávače) – doorway stránky (množství klíčových slov na vstupní stránce) – linkfarms – tajné přesměrování (roboti JavaScript nevidí) – odkazy v diskusních příspevcích na webe – automatické programy X36WWW: 11. přednáška 27 / 30 SEO - závěr Shrnutí: legální techniky: Vytvářejte stránky pro lidí, ne pro vyhledávací roboty. Vyhledávací roboti to ocení. nelegální techniky: Jestli vyhledávač podvody odhalí, může úplně vyřadit doménu ze svého indexu. X36WWW: 11. přednáška 28 / 30 2. ČASŤ: SÉMANTICKÝ WEB úvod technológie RDF (dátový model) ontológie (slovné zásoby) použitie sémantického webu X36WWW: 11. přednáška 29 / 30 Čo je sémantický web? Sémantický web je rozšírenie súčasného webu, v ktorom sú dáta popísané tak, aby ich významu rozumeli aj počítače. • Sémantický web nie je oddelený od toho súčasného, je jeho rozšírením. • Mal by umožniť lepšiu spoluprácu medzi ľuďmi a strojmi. X36WWW: 11. přednáška 30 / 30 Web z pohľadu strojov Súčasný web link zdroj zdroj link link link zdroj link link zdroj X36WWW: 11. přednáška 31 / 30 Web z pohľadu strojov Súčasný web link Sémantický web hasAddress zdroj placeP zdroj schoolS link livesAt link studiesAt link zdroj link hasAuthor personX knows personY hasAge link zdroj documentD X36WWW: 11. přednáška 32 / 30 26 Technológie Sémantického webu X36WWW: 11. přednáška 33 / 30 Koncept RDF Dátový model je graf informácia sa vyjadruje tvrdením (statement) tvrdenie je vo forme tripletu (triple) triplet má formu jednoduchej vety – podmet, prísudok, predmet podmet prísudok predmet X36WWW: 11. přednáška 34 / 30 Koncept RDF Dátový model je graf informácia sa vyjadruje tvrdením (statement) tvrdenie je vo forme tripletu (triple) triplet má formu jednoduchej vety – podmet, prísudok, predmet personX hasAge 66 X36WWW: 11. přednáška 35 / 30 Koncept RDF Dátový model je graf informácia sa vyjadruje tvrdením (statement) tvrdenie je vo forme tripletu (triple) triplet má formu jednoduchej vety – podmet, prísudok, predmet personX hasAge 66 hasFriend personY X36WWW: 11. přednáška 36 / 30 hasAge Koncept RDF Dátový model je graf informácia sa vyjadruje tvrdením (statement) tvrdenie je vo forme tripletu (triple) triplet má formu jednoduchej vety – podmet, prísudok, predmet personX hasAge 66 hasFriend hasAge ... personY predmet môže byť ďalším podmetom a tak vzniká sieť významov X36WWW: 11. přednáška 37 / 30 ... Ontológie - definícia Ontológia je formálne, jednoznačné vymedzenie zdieľaných pojmov. (Gruber, 1993) ● ● ● Ontológia poskytuje zdieľaný slovník, ktorý popisuje vybranú doménu. Popisuje typy objektov a/alebo pojmy, ich vlastnosti a vzťahy medzi nimi. Používajú hierarchiu tried. X36WWW: 11. přednáška 38 / 30 Ontológie - príklad OWL <rdfs:Class rdf:about="Person" rdfs:label="Person"> <rdfs:subClassOf rdf:resource="Human"/> </rdfs:Class> <rdf:Property rdf:about="hasFriend"> <rdfs:domain rdf:resource="Person"/> <rdfs:range rdf:resource="Person"/> <rdfs:subPropertyOf rdf:resource="knows"/> <rdf:type rdf:resource="&owl;SymmetricProperty"/> </rdf:Property> X36WWW: 11. přednáška 39 / 30 Ontológie - odvodzovanie Ak personX je inštancia triedy Person a má priateľa (hasFriend) personY... <Person> <Name>personX</Name> <hasFriend>personY</hasFriend> <Person> ... potom odvodzovací mechanizmus dokáže zistiť, že personX aj personY sú z triedy Human a že personX pozná (knows) personY . X36WWW: 11. přednáška 40 / 30 Výhody Sémantického webu počítače „rozumejú“ významu informácií komunikácia na základe tohoto porozumenia spolupráca medzi strojmi spolupráca medzi ľuďmi a strojmi Využitie: vyhľadávanie správa znalostí Enterprise Application Integration B2B, webservices, inteligentní agenti X36WWW: 11. přednáška 41 / 30 Súčasný stav Sémantického webu technológia je považovaná za veľmi perspektívnu sú hotové základné štandardy (RDF, OWL...) vzniklo niekoľko pomerne rozšírených ontológií: – RSS, FOAF, DublinCore... sú vytvorené základné aplikácie existujú jednoduché príklady použitia do výskumu sa investuje (EU, HP, NASA, Microsoft...) Sémantický web zatiaľ nie je masovo rozšírený X36WWW: 11. přednáška 42 / 30 Děkuji za pozornost / Ďakujem za pozornosť Martin Švihla [email protected] X36WWW: 11. přednáška 43 / 30
Podobné dokumenty
Sociální média jako nástroj pro firmy
status, zaslat soukromou zprávu, odmítnou přátelství, atd.). V první části je také obsaženo
nutné minimum teorie k pochopení chování uživatelů na sociálních sítích v České republice,
se zaměřením n...
Informace a Internet
World Wide Web – WWW .......................................................................................... 28
3.6 Elektronické konference a diskusní skupiny.......................................
ŠVP oboru 18-20-M/01 – Informační technologie
do malých skupin. Žáci a žákyně tak postupně získají základní přehled o elektrotechnice, přes její
základy, elektrotechnické součástky, stroje a zařízení, jejich navrhování, instalaci až po měření ...
Školní vzdělávací program - Vyšší odborná škola a Střední odborná
do malých skupin. Žáci a žákyně tak postupně získají základní přehled o elektrotechnice, přes její
základy, elektrotechnické součástky, stroje a zařízení, jejich navrhování, instalaci až po měření ...
Petr Nevrlý seznam.cz>
• Lemma = základní tvar slova
• Věta:
„Jeden z nejlepších zdrojů o německých
tancích.“
• Lemmatizováno:
Jedna/Jíst z dobrý zdroj o německý tank/tanec.
• Disambiguace = vyloučení nejednoznačnosti
ww...
Google AdWords II.-první online kampaň
Zakoupením obou kurzů,Google AdWords I. - základy online reklamy + Google Adwords II. - moje
první online kampaň, získáte kupón v hodnotě 50€, na realizaci vlastní online kampaně
Dea GaNTRY liNe
umožňující otáčení kolem dvou os v 5° přírůstcích, což
představuje celkem 2 952 možných poloh. Zvláštní
asymetrický tvar indexovatelného ramene a možnost
stranového indexování umožňují využití plné...