pdf, 650 kB
Transkript
Využití WWW jako efektivního informačního zdroje Jiří Jelínek [email protected] Fakulta managementu VŠE, J. Hradec Efektivní vyhledávání nacházení požadovaného s minimem úsilí a nákladů v knihovně: procházet dokud něco nenajdete procházet dokud zapomenete co chcete procházet dokud neprojdete všechno použití katalogu knihovny využití služeb někoho (něčeho), kdo ví, jak na to potřebné vybavení příprava a znalosti © Jiří Jelínek, 2004 vyhledávací systémy jak se ptát Knihovny v pavučině spolupráce, J. Hradec 24.6.2004 1 World Wide Web obsáhlost dokumenty, data, obrázky, video, atd. dynamika obsahu i stránek nespolehlivost nízká strukturovanost obsahová i formátová pestrost 6. 2004 cca 52 000 000 WWW serverů neuspořádanost nevhodné pro strojové zpracování včetně vyhledávání dostupnost nejúspěšnější publikační medium všech dob absence sémantického popisu © Jiří Jelínek, 2004 Knihovny v pavučině spolupráce, J. Hradec 24.6.2004 Vyhledávací strategie přímý odkaz odvození URL z běžných zvyklostí online databáze oborové použití vyhledávacích systémů http://www.firma.com indexové systémy adresáře a předmětové katalogy integrované systémy výsledek do 12 minut © Jiří Jelínek, 2004 Knihovny v pavučině spolupráce, J. Hradec 24.6.2004 2 Vyhledávací systémy © Jiří Jelínek, 2004 Knihovny v pavučině spolupráce, J. Hradec 24.6.2004 Indexové systémy stejně jako adresáře a katalogy se snaží vytvářet obraz WWW prostoru obraz (index) většinou tvořen automaticky jsou data strukturována, uspořádána, indexována a centrálně spravována roboti větší chybovost základem klíčová slova © Jiří Jelínek, 2004 Knihovny v pavučině spolupráce, J. Hradec 24.6.2004 3 Indexové systémy vhodné netypické a specifické zvláštní nebo málo frekventovaná témata témata na pomezí obvyklých oblastí či spadající do více oblastí vyhledávání specifických WWW stránek © Jiří Jelínek, 2004 Centrální index Knihovny v pavučině spolupráce, J. Hradec 24.6.2004 Problémy definice dotazu aktualizace indexu hodnocení důležitosti a relevance stránek rozšiřitelnost rozdíly mezi systémy konstrukce a optimalizace WWW stránek schopnost ohodnotit nalezené výsledky funkce, velikost pay-per-click (PPC) Získáno K věci Použitelný výstup WWW Prostor © Jiří Jelínek, 2004 Knihovny v pavučině spolupráce, J. Hradec 24.6.2004 4 Adresáře a předmětové katalogy vyhledávání podle témat většinou konstruovány experty hierarchická navigace selektivnější, přesnější, spolehlivější (nefunkční URL) méně stránek, důraz na kvalitu před kvantitou není jednotné uspořádání v hierarchických strukturách vhodné zkoumání tématu zkoumání logicky svázaných stránek důraz na kvalitu stránek © Jiří Jelínek, 2004 Knihovny v pavučině spolupráce, J. Hradec 24.6.2004 Integrované systémy podobná struktura jako u meta vyhledávačů přímá práce s WWW zdroji e-business Rozhraní Sběrač Zdroj 1 © Jiří Jelínek, 2004 Sběrač Sběrač Zdroj 2 Zdroj n Knihovny v pavučině spolupráce, J. Hradec 24.6.2004 5 Problémy heterogenní zdroje různé datové modely: relační, objektový různá schémata a formy zobrazení omezené schopnosti vyhledávání “Keanu Reeves” nebo “Reeves, K.” atd. méně schopností než indexové systémy vliv rozhraní paměť na dotazy © Jiří Jelínek, 2004 Knihovny v pavučině spolupráce, J. Hradec 24.6.2004 Vyhledávací systémy indexové systémy Google (www.google.com) Alltheweb (www.alltheweb.com) HotBot (www.hotbot.com) AltaVista (www.altavista.com) Yahoo (www.yahoo.com) Seznam (www.seznam.cz) Atlas (www.atlas.cz) indexové metasystémy předmětové katalogy About (www.about.com) Yahoo (www.yahoo.com) Quick (www.quick.cz) integrované systémy © Jiří Jelínek, 2004 Metacrawler (www.metacrawler.com) DogPile (www.dogpile.com) MySimon (www.mysimon.com) BizRate (www.bizrate.com) Knihovny v pavučině spolupráce, J. Hradec 24.6.2004 6 Zvláštní schopnosti shlukování výstupů důsledné užití logických operátorů Vivisimo (vivisimo.com) GigaBlast (gigablast.com) WebLogs > Daypop (www.daypop.com) maillists > Topica (www.topica.com) životopisy > Biography (www.biography.com) věda > Scirus (www.scirus.com) Soople (www.soople.com) práce s přirozeným jazykem Teoma (teoma.com) variantní rozhraní hledání ve zvláštních strukturách přibližné hledání možnosti upřesňování Ask Jeeves (www.ask.com) speciální nástroje KartOO (www.kartoo.com) © Jiří Jelínek, 2004 Knihovny v pavučině spolupráce, J. Hradec 24.6.2004 Hodnocení výstupů autoritativnost identifikace autora kvalifikace autora a vztah k tématu vazba na renomovanou instituci (URL) datum vytvoření poslední aktualizace funkčnost odkazů 0,6 0,5 com netorg edu gov 0,3 0,2 nové poznatky korektnost a přesnost citace a odkazy na jiné zdroje (i klasické) kdo stránku navštěvuje meta popis 0,4 kolekce odkazů (rozcestník) nebo autoritativní stránka hloubka a pokrytí tématu aktuálnost obsah struktura URL (TLD) název stránky META data struktura stránky 0,1 0 1day © Jiří Jelínek, 2004 1day1week 1week1month 1month4months 4months Knihovny v pavučině spolupráce, J. Hradec 24.6.2004 7 Neviditelný Web WWW prostor nezachycený ve vyhledávačích a proto pro většinu uživatelů neviditelný indexováno max. cca 40% WWW prostoru neúmyslně – rozsah WWW, neexistence odkazu úmyslně – obecný či „závadný“ obsah, dynamický web, eliminace podle nastavených pravidel cca 2 – 3 krát větší než viditelný Web Google k 23.6. 2004 indexuje 4 285 199 774 stránek Search Engine Optimization (SEO) © Jiří Jelínek, 2004 Knihovny v pavučině spolupráce, J. Hradec 24.6.2004 Podpora koncového uživatele Web Mining - shromažďování a zpracování dat dostupných na WWW nebo dat generovaných v průběhu užívání webu Web Content Mining zpracování obsahu WWW stránek Web Structure Mining predikce chování a zájmů uživatele založená na předem naučených pravidlech a uživatelských profilech získávání informací ze struktury WWW prostoru Web Usage Mining analýza chování uživatele (clickstream analýza) © Jiří Jelínek, 2004 Knihovny v pavučině spolupráce, J. Hradec 24.6.2004 8 Sémantické vyhledávání význam stránek vs. klíčová slova zasazení pojmu (URL) do struktury podle významu nutno popsat obsah stránek tak, aby nám stroje byly schopné pomoci v orientaci v nich definice vazeb taxonomie ontologie metadata a XML multimediální sémantika © Jiří Jelínek, 2004 Knihovny v pavučině spolupráce, J. Hradec 24.6.2004 Problémy existence jednotných a dostatečně obsáhlých pojmových ontologií ontologický popis současného WWW prostoru ručně vs. učení WordNet (www.cogsci.princeton.edu/~wn/) doménové ontologie (medicína) Dublin Core Metadata Initiative (www.dublincore.org) ekonomická náročnost a motivace pro úpravy sémantický popis stránek vs. sémantické vyhledávání nástroje pro vytváření sémantického popisu © Jiří Jelínek, 2004 Knihovny v pavučině spolupráce, J. Hradec 24.6.2004 9 Úloha knihoven orientace v heterogenním prostředí výběr vhodných nástrojů vyhledání relevantního obsahu obsahu do vhodné podoby ti,konverze kdo vědí (kde a jak) služby integrace obsahu (rešerše) individuální služby uživatelům správa a tvorba ontologií tvorba meta popisu © Jiří Jelínek, 2004 Knihovny v pavučině spolupráce, J. Hradec 24.6.2004 Děkuji za pozornost Tato prezentace byla vytvořena s pomocí následujících materiálů: Search Engine Watch, Tips About Internet Search Engines & Search Engine Submission, http://searchenginewatch.com/ Search Engine Showdown, The Users' Guide to Web Searching, http://www.searchengineshowdown.com Netcraft: Growth in Hostnames, IP Addresses and Web Facing Servers 1999-2004, http://news.netcraft.com/archives/2004/06/15/growth_in_hostnames_ip_addresses_and_web_facing_serv ers_19992004.html Search Strategies, http://www.searchengineshowdown.com/strat/ Invisible-web.net - Searchable databases and specialized search engines, http://www.invisible-web.net/ KartOO visual meta search engine, http://www.kartoo.com/ Tempelman-Kluit N.: Searching the Web, http://www.nyu.edu/library/resources/instruct/searchingweb.ppt Search Engine Watch: Tips About Internet Search Engines & Search Engine Submission, http://searchenginewatch.com/ Cho J.: Searching the Web, UCLA Computer Science, http://oak.cs.ucla.edu/~cho/talks/2001/CS201.ppt Williamson J.: Sure-Fire Surfing: A Crash Course in Search Techniques, King Faisal School and Brown University Partnership, http://www.brown.edu/Departments/IESE/KFS/resource/InternetSearchingforKFS.ppt Levene M.: Searching the Web, School of Computer Science and Information Systems, Birkbeck University of London, http://www.dcs.bbk.ac.uk/~mark/download/lec4_searching_the_web.ppt Bocher B.: Searching the Web – Basic and Advanced www.dpi.state.wi.us/dltcl/pld/searching.html MacColl J.: What is the Semantic Web?, HILT Workshop, University of Strathclyde, 2001, http://hilt.cdlr.strath.ac.uk/Dissemination/Presentations/John%20McColl.ppt Mazzocchi S.: Enabling Semantic Searching, http://www.betaversion.org/~stefano/papers/semanticsearching.ppt © Jiří Jelínek, 2004 Knihovny v pavučině spolupráce, J. Hradec 24.6.2004 10
Podobné dokumenty
Univerzita Karlova v Praze Ústav informační studií a knihovnictví
2.1 Vrstvový model TCP/IP ..................................................................................................... 10
2.2 Dokumenty k Internetu............................................
Informační zdroje pro HR, koučování a Pre
červen 1999 – 900 milionů www stránek
červen 2000 – 2,1 miliardy www stránek
červen 2001 – 4,5 miliardy www stránek
červen 2002 – 8 miliard www stránek
dnes již přes 10 miliard www stránek, 15.000 ...
Learning about the Internet is not something one can complete in an
2.1 Vrstvový model TCP/IP ..................................................................................................... 10
2.2 Dokumenty k Internetu............................................
Levhart
zadržuje i kořist. Připadalo jí, že cítí jeho tělesné teplo. Na co ten člověk čeká? Opět začala dýchat.
A ve stejném okamžiku ucítila na zátylku cizí dech. Bleskurychle se otočila, udeřila, zasáhla...
7 Marketingové koncepty e-commerce
− Postoje k online nákupu
− Představy o kontrole webového prostředí
− Funkce webu
• Clickstream analýza - evidenci transakcí spotřebitele, jak postupoval od vyhledávače
(vyhledávání zboží) až ke ko...
Vyhledávání na internetu
poskytovány zpravidla bezplatně, vyhledatelné skrze různé vyhledávací
služby)
2. informační zdroje dostupné nepřímo (např. profesionální a komerční
databáze)
Vyhledávací služby dělíme na 2 základní...
Pořádání netextových objektů – problémy a řešení
ztratila, kdyby byla prezentována pouze ve form ě nápisu americká vlajka. Blíže k tématu viz McLUHAN,
Marshall. Jak rozumět médiím: extenze člověka. 1. vyd. Praha: Odeon, 1991. 348 s. ISBN 80-207-0...
Bibliografické citace
Institucionální repozitáře
Autor zpřístupňuje článek nejen v časopise, ale i v
institucionálním repozitáři
Možnost uložení preprintu nebo postprintu
The Directory of Open Access Repositories OpenD...
Vyhledávání-operátory: Meta vyhledávání
domain:
domain:cz
site:
site:www.cuni.cz
link:
link:altavista.com
inurl: / allinurl:
inurl:altavista