Petr Nevrlý seznam.cz>
Transkript
Fulltextové vyhledávání Petr Nevrlý <[email protected]> www.seznam.cz … najdu tam, co neznám ! Obsah přednášky • • • • • Cíl vyhledávání Architektura Vyhledávání Robot Údaje z provozu www.seznam.cz … najdu tam, co neznám ! Cíl fulltextového vyhledávání • Poskytnutí odpovědi na dotaz uživatele www.seznam.cz … najdu tam, co neznám ! Cíl fulltextového vyhledávání • Poskytnutí odpovědi na dotaz uživatele – Shromažďování • Rychlý robot • Spolehlivá indexace • Zakládání „správných“ dokumentů – Zpracování • Vhodná struktura DB – Vydání (řazení) • • • • www.seznam.cz Výkon (rychlost) Dostupnost Konzistence Kvalita … najdu tam, co neznám ! Typy fulltextů • Vyhledávače jsou si velmi podobné, liší se jen v detailech • Jako… www.seznam.cz … najdu tam, co neznám ! Část 1 – Architektura 1. 2. 3. 4. www.seznam.cz Hlavní části Redundance v provozu Blokové schéma Hardware … najdu tam, co neznám ! Hlavní části www.seznam.cz … najdu tam, co neznám ! Redundance v provozu www.seznam.cz … najdu tam, co neznám ! Blokové schéma www.seznam.cz … najdu tam, co neznám ! Hardware - vyhledávání • Vyhledávání >40 serverů x 2 serverovny • Většina: 2 x quad core 2 GHz 16 GB RAM 6x140 GB 15k RPM HDD www.seznam.cz … najdu tam, co neznám ! Hardware - robot • Robot + příprava databáze – cca 10 serverů • různé konfigurace: 2x quad core 2 – 3 GHz 4 - 32 GB RAM 1x70 GB – 6x300 GB HDD www.seznam.cz … najdu tam, co neznám ! Část 2 – Vyhledávání 1. Zadávané dotazy 2. Lemmatizace 3. Hodnocení stránek www.seznam.cz … najdu tam, co neznám ! Zadávané dotazy (1) • 10 náhodných dotazů – posilovna – plné hry ke stažení zdarma – plemena koní – planovac tras – petra němcová fotky – paragrafy a zákony – papírové vystřihovánky – panenka chou chou – paintball bazar – oplocení www.seznam.cz … najdu tam, co neznám ! Zadávané dotazy (2) • Forma dotazů: Nejedná se přímo o otázky – přídavná a podstatná jména – 1. pád – jednotné i množné číslo – občas bez diakritiky www.seznam.cz … najdu tam, co neznám ! Lemmatizace • Lemma = základní tvar slova • Věta: „Jeden z nejlepších zdrojů o německých tancích.“ • Lemmatizováno: Jedna/Jíst z dobrý zdroj o německý tank/tanec. • Disambiguace = vyloučení nejednoznačnosti www.seznam.cz … najdu tam, co neznám ! Hodnocení stránek (1) • Titulek !! • Obsah stránky • URL www.seznam.cz … najdu tam, co neznám ! Hodnocení stránek (2) Citační analýza pro dotaz „Ostrava“ www.seznam.cz … najdu tam, co neznám ! Hodnocení stránek (3) • Pagerank = statická „důležitost“ stránky založená na citační analýze • Předpoklad: statisticky náhodné chování • SPAM - blackSEO www.seznam.cz … najdu tam, co neznám ! Část 3 – Robot 1. Hledání nových stránek 2. Reindexace stránek 3. Ne-HTML formáty www.seznam.cz … najdu tam, co neznám ! Hledání nových stránek (1) • Před 4 lety start na www.seznam.cz • Od té doby procházení nalezených odkazů • Domény .cz, .sk, .com, .org, .net, .info, … • Hledá stránky v českém jazyce • Alternativní zdroje: RSS, články.cz, apod. www.seznam.cz … najdu tam, co neznám ! Hledání nových stránek (2) • Robots.txt – standardní protokol pro zakázání přístupu robotů (www.robotstxt.org) • Textový soubor http://example.com/robots.txt # comment User-Agent: * Disallow: /statistiky User-Agent: Bot Disallow: / www.seznam.cz … najdu tam, co neznám ! Hledání nových stránek (3) • Sitemap.xml • http://example.com/sitemap.xml … <url> <loc>http://www.example.com/</loc> <lastmod>2007-10-30T16:31:04+00:00</lastmod> <changefreq>daily</changefreq> <priority>1.0</priority> </url> … www.seznam.cz … najdu tam, co neznám ! Reindexace stránek (1) • Každý den se vybere množina stránek pro reindexaci • Při výběru se hodnotí – Datum poslední návštěvy – Rank – Frekvence změn www.seznam.cz … najdu tam, co neznám ! Reindexace stránek (2) • Přetěžování webserverů – Shapování podle IP adresy – Omezení max počet URL / sec www.seznam.cz … najdu tam, co neznám ! Ne-HTML formáty • PDF • DOC (MS Word) • RTF • Operátor filetype: www.seznam.cz … najdu tam, co neznám ! Část 4 – Údaje z provozu www.seznam.cz … najdu tam, co neznám ! Velikost databáze (1) • Počet dokumentů www.seznam.cz … najdu tam, co neznám ! Velikost databáze (2) www.seznam.cz Počet dokumentů 250 miliónů Indexy 1,3 TB Obsah dokumentů (texty) 1 TB Průměrný text 6 kB / dokument … najdu tam, co neznám ! Zátěž během týdne • 1/4 zátěže • až 320 dotazů/s www.seznam.cz … najdu tam, co neznám ! Doba odezvy během týdne • Doba odezvy v msec www.seznam.cz … najdu tam, co neznám ! Úspěšnost query cache • Úspěšnost cache v % www.seznam.cz … najdu tam, co neznám ! Výkon robota www.seznam.cz Rychlost stahování > 400 stránek / sec Průměrná stránka ~10 kB (zdojový kód) Denní objem >30 miliónů dokumentů cca 300 GB dat … najdu tam, co neznám ! Stáří dokumentů ve dnech www.seznam.cz Minimální 1 Maximální 125 Průměr 7,4 Nejčastěji 1,3 – 10,4 … najdu tam, co neznám ! Konec Děkuji za pozornost http://fulltext.sblog.cz http://vyvojari.seznam.cz www.seznam.cz … najdu tam, co neznám !
Podobné dokumenty
Petr Nevrlý seznam.cz>
• 10 náhodných dotazů
– posilovna
– plné hry ke stažení zdarma
– plemena koní
– planovac tras
– petra němcová fotky
– paragrafy a zákony
– papírové vystřihovánky
– panenka chou chou
– paintball baz...
Load balancing
10 GigE po optice (IEEE 802.3ae)
1 GigE po optice (IEEE 802.3z) a metalice (IEEE
802.3ab)
link aggregation (IEEE 802.3ad)
dynamické směrování
OSPF, IS-IS
Autorské pokyny pre príspevky do zborníku KUŽI VI1
slovy, včetně synonymie, antonymie, generalizace,
lokalizace a specifikace. Jednotlivé pojmy jsou
hierarchicky reprezentované (hyperonyma a hyponyma) a
také sdružovány podle sémantických vlastností...
Počítadlo přístupů v PHP - 3. část
Autor: Qark
Datum: 31. 07. 2005 17:30
URL: http://www.qark.net/clanek/pocitadlo-pristupu-v-php-3-cast
Předchozí
díly
6. mezinárodní konference doktorského studia
Konference bude setkáním studentů doktorského studia z České republiky a ze Slovenska,
uspořádaným za účelem vzájemné výměny zkušeností a poznatků mezi výzkumnými pracovišti a
mladými výzkumníky. U...
Vytváření souborů Sitemap
RSS, mRSS a Atom 1.0: Google přijímá zdroje RSS (Real Simple Syndication) 2.0 a
Atom 1.0. Pokud máte blog se zdrojem RSS nebo Atom, odešlete jako soubor
Sitemap adresu URL tohoto zdroje. Většina so...
Library of Congress Classification pro Národní technickou knihovnu
originální katalogizací. Každý nově přistupující člen LCC týmu byl zapracováván vždy stejným způsobem, který začíná ukládáním přebíraných kódů
se současným vyhledáváním až k samostatné práci. Velký...