ve formátu PDF pro off
Transkript
Vysoká škola báňská – Technická univerzita Ostrava Ústřední knihovna http://knihovna.vsb.cz/ Jak pracovat s webovými vyhledávacími službami Daniela Tkačíková [email protected] březen 2002 Jak pracovat s webovými vyhledávacími službami http://knihovna.vsb.cz/ Úvod Množství informací a služeb dostupných prostřednictvím Internetu je obrovské a narůstá neustále. Pro toho, kdo si již prožil prvotní okouzlení ze setkání s Webem i z „brouzdání“ prostřednictvím zajímavých odkazů v navštívených dokumentech, je důležitá odpověď na otázku „Jak se co nejrychleji dostanu k těm informacím, které potřebuji?“. Co byste o zdrojích na Internetu měli vědět Ať už chcete informační zdroje a služby dostupné na Internetu využívat pro práci, pro studium nebo pro zábavu, měli byste si být vědomi několika důležitých věcí. Především: Internet není knihovna. Internet sice připomíná knihovnu, ale není to knihovna. Knihovny nejsou jen budovy plné knih. Dokumenty, které jsou součástí knihovních fondů, ale také další informační zdroje – bibliografie, dokumentografické báze dat apod., které jsou čtenáři a uživateli knihovnicko-informačních služeb využívány, jsou organizovány a zpracovávány takovým způsobem, aby je bylo možné snadno vyhledat podle nejrůznějších kritérií a s co největší přesností. Pro jejich zpracování jsou používány mezinárodně platné normy a pro jejich vyhledávání jsou k dispozici rovněž mezinárodně uznávaná pravidla a postupy. Toto vše je výsledkem mnohaletého vývoje. V knihovnách navíc pracují knihovníci, kteří mají odbornou kvalifikaci a praktické zkušenosti v oblasti zpracování i vyhledávání informací. Oproti tomu na Internetu je leccos jinak – je často neuspořádaný a chaotický. Právě v oblasti zpracovávání a vyhledávání informací, které jsou na něm šířeny, je negativně poznamenán nedostatkem standardizace. Obrovský význam Internetu spočívá v tom, že jde o prostředí pro publikování a šíření informací bez bariér a omezení doprovázejících tradiční publikační aktivity. To má samozřejmě své klady i zápory. Na jedné straně Internet nabízí přístup k informacím bez ohledu na vzdálenosti a hranice států. Na druhé straně však obrovské množství zveřejňovaných informací – prakticky kýmkoliv, kdo si zamane, v nejrůznějších jazycích a s minimálními pravidly, v podstatě jen technickými – znesnadňuje nejen jejich zpracování, ale především přináší určitá úskalí při jejich vyhledávání. Chcete-li úspěšně hledat, musíte se to nejdřív naučit Přístup k informacím usnadňují výkonné vyhledávací nástroje. Na Internetu je však k dispozici stále více a více informací, neboť nové elektronické informační zdroje se objevují doslova každodenně. Neustálý nárůst informací na Internetu tak způsobuje, že i při práci s relativně jednoduchými a snadno ovladatelnými nástroji, byste měli hodně vědět, abyste dokázali možností, jež síť Internet nabízí, využívat účelně a efektivně. Zvlášť významné jsou širší znalosti tehdy, budete-li chtít informační zdroje na Internetu využívat pro seriózní práci a pro studium. Mějte na paměti, že se nástroje umožňující orientaci v informacích na Internetu neustále vyvíjejí. Objevují se nové služby a občas také některé, dokonce i ty hodně využívané, zanikají. Poměrně často dochází ke změnám designu vyhledávacích služeb, k jejich aktualizaci, k rozšíření nabídky – podobně jako je tomu u jiných internetových zdrojů. Ačkoliv jsou vyhledávací služby určeny pro širokou uživatelskou veřejnost, je do jisté míry obtížné správně je využívat. Každá z nich slouží trochu jinému účelu, liší se od sebe rovněž nabídkou prostředků, jimiž lze prohledávání Internetu provádět. Výjimkou není ani odlišné fungování shodných či podobných příkazů. 2 Jak pracovat s webovými vyhledávacími službami http://knihovna.vsb.cz/ Ze všeho, co bylo dosud uvedeno, je zřejmé, že hledání a nalézání dokumentů na Internetu – zvláště v prostředí služby WWW – může být buď velmi jednoduché nebo naopak velmi složité. Hlavní příčiny obtížnosti vyhledávání informací Jednou z hlavních příčin této situace je obrovské množství WWW dokumentů. V současnosti je jejich počet odhadován na více než jednu miliardu indexovatelných dokumentů. Tedy jednotlivých dokumentů, které mohou být podchyceny v databázích vyhledávacích služeb, jež jsou založeny na automatizovaném sběru dat. Některé zdroje dokonce uvádějí ještě větší rozsah jednotlivých veřejně přístupných webových stránek, až na více než 2 miliardy dokumentů. Kromě obrovského množství informačních zdrojů přispívá k obtížnosti hledání také fakt, že obsah informačního prostoru WWW není a nemůže být evidován v žádném „katalogu“ nebo „rejstříku“ s použitím standardního jazyka. Pod takovýmto standardním jazykem si můžete představit například předmětová hesla nebo klasifikační systémy, např. u nás rozšířené Mezinárodní desetinné třídění, MDT. Ty jsou používány pro popis a vyhledávání knih v katalozích knihoven. Podobný nástroj představují thesaury deskriptorů používané jako zdroj termínů pro popis dokumentů hlavně v oborově specializovaných bibliografických bázích dat. To vše je mimo jiné způsobeno tím, že dokumenty HTML jsou sice „technicky“ vytvářeny podle určitých pravidel, ale vlastní obsah – text a další prvky v dokumentech – závisí výhradně na jejich autorech. Řada z nich dokonce ani nerespektuje specifikace jazyka HTML a tím také přispívají k problémům při vyhledávání. Co je to neviditelný Web Kromě veřejně přístupných a indexovatelných webových dokumentů ovšem síť Internet umožňuje přístup k obrovskému množství dalších informací, pro něž se v literatuře i na webu vžil termín „neviditelný web“ (angl. invisible web). Jde o informace, jež jsou uloženy v databázích a generují se dynamicky až na základě interakce uživatele se systémem. K jiným informacím je zase přístup chráněn heslem a jsou dostupné jen autorizovaným uživatelům, často pouze na komerční bázi. Počet dokumentů, které nemohou být vyhledány prostřednictvím tradičních vyhledávacích nástrojů, je podle jedné studie společnosti BrightPlanet až pětisetnásobně vyšší než ta část informačního prostoru Webu, ke které poskytují přístup vyhledávací stroje. Zdroje tohoto typu (především báze dat) registrují některé specializované služby, např. Complete Planet, Direct Search, Invisible Web nebo Lycos Searchable Databases (Lycos Invisible Web Catalog). Co jsou to metadata Nevýhody současného způsobu publikování informací na Internetu ve vztahu k možnostem jejich účinného vyhledávání se pokoušejí řešit odborníci z různých oblastí (počítačoví specialisté, informační pracovníci, knihovníci a nakladatelé), kteří se zabývají problematikou metadat. Metadata jsou „data o datech“ a v nejrůznějších podobách jsou využívána již poměrně dlouhou dobu v oblastech zabývajících se uchováváním a zpřístupňováním informací. Jako příklad lze uvést záznamy v katalozích knihoven (v tradičních lístkových nebo v elektronických). Existuje řada různých iniciativ a aktivit, které se pokoušejí vytvořit meta- 3 Jak pracovat s webovými vyhledávacími službami http://knihovna.vsb.cz/ datové formáty a nástroje pro jejich používání. Jednou z nejvýznamnějších je Dublin Core Metadata Initiative (viz též Dublin Core Czech). Metadata podporují řadu funkcí, které by měly umožnit efektivnější vyhledávání informací na Internetu (pokud jde o přesnost a výtěžnost vyhledávání informací) ve srovnání s tím, co umožňují současné vyhledávací nástroje. Zjednodušeně řečeno, dokumenty publikované na Internetu by měly být opatřeny dalšími informacemi – metadatovými záznamy. Ty by měly zahrnovat jejich hlavní charakteristiky vztahující se například k obsahu informačního zdroje nebo k intelektuálnímu vlastnictví (tj. k autorským právům). S realizací myšlenky metadat je samozřejmě spojena řada problémů. V prvé řadě se nabízí otázka: kdo by měl metadatový záznam vytvářet? Sami autoři webových dokumentů nebo specializovaná pracoviště? I při snaze o co nejjednodušší a co nejstručnější schéma takového záznamu je jasné, že nejde o triviální záležitost. Dá se proto předpokládat, že doplnění informačních zdrojů o metadata by mohlo mít smysl především u profesionálně vytvářených a dlouhodobě uchovávaných a zpřístupňovaných zdrojů. Základní podmínky úspěšného hledání na Internetu Snad každý začínající uživatel Internetu je nejprve nadšen informačními službami a zdroji i novým přitažlivým prostředím, se kterým se na Webu setká. Toto nadšení po určité době většinou vystřídá určité rozčarování, které je důsledkem obrovské publikační exploze, jež rozvoj internetových služeb doprovází. Obrovské množství informačních zdrojů různorodé kvality znesnadňuje nezkušenému uživateli orientaci v prostředí Internetu. Při hledání kvalitních informací i při jejich využívání vám mohou pomoci předchozí zkušenosti s využíváním tradičních informačních zdrojů. Velkou roli hraje také dobrá znalost vlastní profese či zájmů, nejen odborných. Měli byste však znát také základní informace o vyhledávacích nástrojích, o jejich typech a o způsobu jejich využívání při řešení konkrétních informačních potřeb. Používání vyhledávacích nástrojů není samozřejmě jedinou možností pro hledání informačních zdrojů. Záleží totiž do značné míry na zkušenosti uživatele s internetovými i s tradičními zdroji. Často je možné i bez vyhledávacích nástrojů odhadnout, kde jsou hledané informace zveřejněny. Úspěch či nezdar hledání i skutečná efektivnost využívání internetových zdrojů jsou závislé na řadě dalších faktorů. Jaké jsou příčiny neúspěšného hledání informací na Internetu Neúspěch při hledání informací na Internetu (na Webu) může mít různé příčiny. Kromě nedostatečných znalostí a nezkušenosti na straně uživatele a nesprávného používání vyhledávacích nástrojů i dalších navigačních technik mohou vést k neúspěchu například tyto důvody: • hledáte dlouho v různých zdrojích, přesto jste nic nenašli – hledané informace na Internetu nejsou, anebo jsou, ale hledáte na nesprávném místě nevhodným způsobem, • služba vám vyhledala takové množství dokumentů, že je mezi nimi obtížné (nemožné) najít to, co potřebujete – v takovém případě jde o špatně formulovaný dotaz nebo frekventované internetové téma, • v okamžiku, kdy hledáte, špatně funguje síť, • počítač, na němž jsou hledané informace, je právě mimo provoz, • odkazy na hledané informace jste sice našli, ale při pokusu o jejich zobrazení zjistíte, že již neexistují – Internet je plný změn. 4 Jak pracovat s webovými vyhledávacími službami http://knihovna.vsb.cz/ Co je základem úspěšného hledání Abyste se vyvarovali neúspěchů nebo si dokázali poradit s překážkami, které se vám občas postaví do cesty, musíte mít určité znalosti. Z oblasti vyhledávání informací obecně, také však musíte znát dobře jednotlivé vyhledávací nástroje a jejich možnosti. Dále byste měli mít určité praktické zkušenosti s hledáním i s tím, jaké informace se vyplatí na Internetu hledat. Základem úspěšného hledání jsou tedy mj. tyto schopnosti: • dokázat odhadnout, co má smysl na Internetu hledat, • umět vybrat správná místa, kde s hledáním začít, • nevzdávat se po první odpovědi typu „Žádný takový dokument nebyl nalezen“, „nothing found“, „no results“ nebo „výsledek dotazu je zcela bezcenný“. Neočekávejte také příliš rychlý výsledek hledání. První vyhledané zdroje nemusejí být ani jediné, ani zrovna ty nejkvalitnější. Pro úspěšné hledání na Internetu je rovněž důležité přemýšlet o tom, jak jste se k informacím dostali, neboť nabyté zkušenosti se vám mohou hodit při dalším hledání. Získané zkušenosti usnadní zároveň vaši adaptaci na nové prostředí, například na zcela novou nebo poprvé používanou vyhledávací službu. Při práci s Internetem mají velký význam i znalosti z tradičního prostředí. Při práci s elektronickými síťovými zdroji však nelze vždy automaticky použít zkušenosti z práce se zdroji tradičními. Tradiční šíření informací, nejen tištěných, je zpravidla výsledkem práce profesionálů, zatímco relativní snadnost a dostupnost publikování v prostředí Webu způsobila, že se do publikačních aktivit pouštějí i ti, kdož postrádají dokonce i ty nejzákladnější znalosti a předpoklady pro podobnou činnost. Do tradičního publikování by se asi nikdo bez určitého zázemí a zkušeností neodvážil pustit, protože jde také o finančně nákladnou záležitost. Na Internetu však může prakticky kdokoliv, obrazně řečeno, publikovat bez koruny v kapse. Proto se zde tak často setkáte s „dílky“ autorů, kteří jsou schopni porušit na jediné webové stránce snad všechna existující pravidla. Ne úmyslně, ale z nevědomosti. S tím vším musíte počítat. Obecně ovšem platí, že poučený a zkušený uživatel snáze identifikuje a lokalizuje kvalitní a užitečné informační zdroje, nežli ten, kdo jen spoléhá na náhodu nebo využívá stále jedinou vyhledávací službu a ještě ke všemu tím nejprimitivnějším způsobem. Vyhledávání jako pohyb v informačním prostoru Vyhledávání informací je jedním z řady způsobů navigace – pohybu – v informačním prostoru Internetu. Pro pohyb po Internetu můžete využít například navigačních funkcí prohlížeče. K nim patří vložení konkrétní adresy, využití funkčních tlačítek umožňujících přechod zpět či vpřed, na domovskou stránku, historie, složka s oblíbenými odkazy apod. Samozřejmostí je pohyb po Webu prostřednictvím hypertextových odkazů v navštívených dokumentech. Tyto odkazy umožňují přechod na další dokumenty v rámci daného webového sídla, ale samozřejmě také na webové dokumenty na jiných serverech. Vyhledávat informace je možné v konkrétním dokumentu, viz např. funkce „Najít (na této stránce).“, v jednom webovém sídle nebo v určitém informačním prostoru (omezeném podle typu služby, aplikace nebo třeba podle zeměpisné oblasti). Nemusíte ani hledat, můžete zkusit uhádnout adresu webového zdroje, na který se potřebujete dostat. 5 Jak pracovat s webovými vyhledávacími službami http://knihovna.vsb.cz/ Jak uhádnout adresu zdroje Jednou z cest k nalezení potřebných informací může být i pokus o odhadnutí adresy serveru. Podle typu hledané informace tak můžete buď zkusit uhodnout adresu zdroje nebo ze známé adresy „oříznout“ její část. To ovšem znamená, že byste měli něco vědět o způsobu, jakým jsou vytvářeny adresy serverů a dokumentů v prostředí Internetu. Budete-li si všímat toho, jak vypadají adresy serverů, které navštěvujete, můžete se občas – ne vždy, neboť adresy jsou opravdu různorodé, pokusit uhádnout adresu serveru, který hledáte. Zjistíte možná, že je to způsob, který vás často na hledané místo dovede rychleji než hledání některou vyhledávací službou. Například lze celkem snadno správně odhadnout, jaká jména mají WWW servery firem, organizací, významných institucí, známých osobností, nakladatelství, novin, časopisů apod. Adresy webových serverů začínají často – ne však vždy – zkratkou „www“. Použijete-li pro přístup k hledanému webovému sídlu metodu hádání adresy, můžete tedy využít toho, že struktura adresy webového serveru známé firmy, města či osobnosti obvykle vypadá takto (doménami nejvyšší úrovně nemusí být jen domény .com a .cz, jak je uvedeno v příkladu): www.jmenofirmy.com nebo www.jmenomesta.cz nebo www.jmenoosoby.com apod. BMW Ferrari Toyota IBM Compaq Time Autocont Tatra Kopřivnice Škoda (Plzeň) Škoda Auto (Mladá Boleslav) Jihlava Vsetín Depeche Mode Davie Bowie Leonard Cohen www.bmw.com www.ferrari.com www.toyota.com www.ibm.com www.compaq.com www.time.com www.autocont.cz www.tatra.cz www.skoda.cz www.skoda-auto.cz www.jihlava.cz www.vsetin.cz www.depechemode.com www.davidbowie.com www.leonardcohen.com Často bývají součástí adresy – názvem domény – také zkratky názvu instituce, takže budeteli hledat podobné servery, můžete to zkusit se zkratkami (nebo akronymy) podle následujících příkladů: American Chemical Society (ACS) American Society for Quality (ASQ) Federation of Internation Football Associations (FIFA) International Ice Hockey Federation (IIHF) North Atlantic Treaty Organisation (NATO) Union of European Football Associations (UEFA) České vysoké učení technické (ČVUT) Grantová agentura (GAČR) Ministerstvo vnitra České republiky (MV ČR) Státní technická knihovna (STK) 6 www.acs.org www.asq.org www.fifa.com www.iihf.com www.nato.int www.uefa.com www.cvut.cz www.gacr.cz www.mvcr.cz www.stk.cz Jak pracovat s webovými vyhledávacími službami http://knihovna.vsb.cz/ Nesmíte se ovšem divit tomu, že podobné odhady také občas nefungují. Někdy se prostě se svým odhadem nestrefíte, jindy vás ani v zásadě správně odhadnutá adresa ke hledanému cíli nedovede. Zatímco odhadnutí adresy WWW serveru známé firmy, významného nakladatelství, vysoké školy nebo mezinárodní organizace bývá pro zkušenějšího uživatele jednou z nejrychlejších cest k internetovému zdroji, ne vždy vás ke správnému cíli dovede výše zmíněná cesta druhá. „Oříznutí“ adresy dokumentu nebo pokus o její modifikaci bohužel často končívá nezdarem. Jedním z důvodů, proč podobný postup nefunguje vždy, jsou nesprávné postupy tvůrců webových dokumentů. Absence určitých znalostí se projevuje i tím, jakým způsobem strukturují své internetové informace. To se pak odráží také v názvech souborů a cestách k informacím na některých serverech. Jde samozřejmě o složitější problém související s provozem serverů obecně, s informační architekturou webových sídel, obsahem i designem webových dokumentů a služeb. Přesto můžete podobný způsob pohybu po Webu a objevování nových informací někdy – s úspěchem – zkusit. Adresy na Internetu Pro podobné odhadování adres serverů musíte vědět alespoň to, že na Internetu existují tzv. domény. Systém doménových jmen (angl. Domain Name System, DNS) umožňuje přidělit počítačům na síti symbolické adresy. Ty jsou pro uživatele snadněji zapamatovatelné nežli číselné IP (Internet Protocol) adresy, jež jsou přidělovány všem počítačům připojeným do sítě Internet. Stěží byste si asi dokázali zapamatovat větší množství adres vypadajících takto: 208.215.201.161. Proto jsou symbolické adresy pro běžné uživatele Internetu velmi výhodné. IP adresy i domény mají hierarchickou strukturu. Není nijak těžké zapamatovat si tzv. domény nejvyšší úrovně (angl. top-level domains, zkráceně TLDs). Ty jsou buď zeměpisné nebo vycházejí z charakteru organizace, která daný server provozuje. Například v USA není zpravidla využívána zeměpisná doména .us, i když i tato doména samozřejmě existuje (viz např. Cerritos Public Library, library.ci.cerritos.ca.us). Servery organizací zde používají jako domény nejvyšší úrovně zkratky podle svého zaměření: • .com (commercial) – komerční organizace • .edu (education) – vzdělávací instituce • .gov (government) – vládní organizace • .mil (military) – armáda • .net (network) – síťově zaměřené organizace • .org (non-profit organization) – neziskové organizace K tomuto typu tzv. generických domén je možné přiřadit doménu .int (international), jež bývá používána pro servery mezinárodních organizací. Europa – oficiální webový server Evropské unie European Central Bank International Civil Aviation Organization International Telecommunication Union Universal Postal Union europa.eu.int www.ecb.int www.icao.int www.itu.int www.upu.int Pravděpodobně se časem setkáte ještě s dalšími doménami (.shop, .tel, .news aj.), neboť již bylo rozhodnuto o změnách tohoto systému. Nové domény by měly rozšířit nabídku možností současných registrací zahrnutých především pod doménu .com. 7 Jak pracovat s webovými vyhledávacími službami http://knihovna.vsb.cz/ Stejný systém jako v USA je používán pro označení domén také v Austrálii, avšak zde je v adresách používána jako doména nejvyšší úrovně zeměpisná zkratka au, například National Library of Australia: www.nla.gov.au, Australian National University: www.anu.edu.au. V některých dalších zemích je využívána poněkud modifikovaná verze tohoto systému. Zkratky pro určité typy organizací se tedy liší od zkratek používaných v USA. Platí to například pro Velkou Británii. Není zde používána jen jedna doména pro vzdělávací instituce, ale domény dvě. Pro instituce typu vysokých škol má doména zkratku ac, zkratkou domény pro školy je sch. Pro komerční organizace se používá zkratka co, pro státní správu gov, pro různé (většinou neziskové) organizace org apod. Za doménami určujícími charakter instituce následuje v tomto případě, stejně jako v Austrálii, ještě zeměpisná doména. U Velké Británie je to zkratka uk (United Kingdom), takže např. webový server nakladatelství Blackwell Science má adresu www.blacksci.co.uk, server University of Cambridge adresu www.cam.ac.uk a server Grasmere Primary School má adresu www.grasmere.hackney.sch.uk. V jiných zemích jsou občas používány ještě další úpravy tohoto systému domén. Na Novém Zélandu mají organizace z oblasti státní správy doménu se zkratkou govt (viz například National Library of New Zealand: www.natlib.govt.nz). Zeměpisné domény korespondují s dvoumístnými kódy zemí podle normy ISO. Můžete si je v tištěné podobě zjistit v normě ČSN EN ISO 3166-1. Kódy pro názvy zemí a jejich částí : část 1: kódy zemí. Zapamatovat si nejnavštěvovanější zeměpisné domény není těžké, to asi při častějším používání Internetu zjistíte sami. Budete-li potřebovat rychle zjistit zeměpisnou doménu, můžete si informace snadno vyhledat na serveru checkdomain.com. Podrobnější informace o doménách registrovaných v České republice získáte na serveru Lupa. Základní typy vyhledávacích nástrojů a jejich charakteristika Současný stav vyhledávacích nástrojů je ovlivněn jejich „historickým“ vývojem. Oba základní typy hledačů totiž vycházejí z původních potřeb orientace v informačním prostoru služby WWW. První z cest vedla k vytváření soupisů dokumentů podle jejich tematiky na základě manuálního sběru dat. Úplně na začátku byly často záložky (angl. bookmarks) v prohlížeči Netscape s adresami zajímavých a užitečných zdrojů na počítačích jejich tvůrců. Tento způsob shromažďování informací však s obrovským nárůstem zpřístupňovaných dokumentů přestal být efektivní, protože neumožňuje podchytit zdroje v dostatečném rozsahu a potřebné aktuálnosti. To vedlo ke vzniku a k rozšíření služeb využívajících pro sběr a vytváření databází automatizovaných prostředků. V současnosti jsou nejúčinnějšími vyhledávacími nástroji ty služby, které využívají vysoce výkonné technologie pro fulltextové indexování a vyhledávání. Vyhledávací nástroje se liší způsobem sběru údajů i jejich zpřístupňováním Vyhledávací služby založené na automatizovaném sběru dat jsou anglicky nazývány search engines, což je možné do češtiny přeložit jako vyhledávací stroje. Vyhledávací služby, které disponují nejrozsáhlejšími databázemi, používají ke sběru dat tzv. robotů. Pro tyto programy jsou používány také názvy spider, crawler nebo worm. Někdy mají roboty dokonce vlastní jména, například program používaný pro sběr dat AltaVistou se jmenuje „Scooter“. Roboty jsou programy, které se pohybují prostřednictvím hypertexto- 8 Jak pracovat s webovými vyhledávacími službami http://knihovna.vsb.cz/ vých odkazů po Webu od jednoho dokumentu ke druhému za účelem sběru informací o nich. Získané informace jsou zařazovány do rozsáhlých databází, které jsou pravidelně aktualizovány. Databáze jsou přitom doplňovány nejen údaji o nových informačních zdrojích, ale zároveň jsou upravovány (došlo-li ke změnám) údaje o dříve registrovaných zdrojích a vyřazovány nefunkční odkazy. Jiné vyhledávací nástroje jsou budovány ručně s využitím znalostí a zkušeností odborníků, kteří údaje nejen sbírají, ale často také doplňují svým hodnocením. Do databází těchto služeb jsou odkazy na informační zdroje zařazovány výběrově podle určitých kritérií stanovených pro hodnocení jejich kvality provozovatelem služby. Pro získávání informací o nových informačních zdrojích je v tomto případě používán dvojí způsob. Buď tyto informace poskytují vyhledávacím službám sami producenti internetových zdrojů vyplněním formuláře, který je součástí nabídky každé z vyhledávacích služeb (najdete je pod názvy přidej stránku, add URL, submit URL apod.) nebo jsou informace o nových zdrojích zjišťovány pracovníky nebo spolupracovníky vyhledávacích služeb vlastním průzkumem Internetu. Tento druhý typ vyhledávacích nástrojů reprezentují služby, jejichž hlavní funkcí je předmětově orientované vyhledávání v hierarchicky uspořádaných předmětových katalozích. Předmětově orientované vyhledávací služby založené na manuálním sběru dat lze dále rozdělit na dva typy. První typ je v zahraniční literatuře nazýván virtuální knihovny (angl. virtual libraries), druhý najdete nejčastěji pod názvem soupisy zdrojů Internetu (angl. Internet directories). Vyhledávací stroje jsou primárně určeny pro vyhledávání (angl. searching), zatímco základní funkcí druhého typu služeb je prohlížení (angl. browsing). V souvislosti s rozvojem WWW a s nárůstem počtu zpřístupňovaných informací i s vývojem vyhledávacích nástrojů došlo postupně k tomu, že většina těchto služeb v současnosti kombinuje pro zpřístupnění informačních zdrojů uživatelům oba přístupy. Často také dochází ke spojení nebo vzájemné spolupráci vyhledávacích služeb. Jak jsou vyhledávací služby nazývány Internetová terminologie se s rozvojem nových služeb a nástrojů neustále vyvíjí, není ustálená, ani jednoznačná. Týká se to pochopitelně i vyhledávacích nástrojů. Budete-li chtít sledovat rozvoj těchto služeb a být schopni si vyhledat nové či méně známé vyhledávací služby, měli byste mít přehled i o tom, jaké ekvivalentní výrazy jsou pro jednotlivé typy služeb používány. • • • • Vyhledávací stroje – search engines – jsou občas nazývány searchable indexes. Virtuální knihovny – virtual libraries – jsou zhruba totožné s výrazem subject guides. Pro Internet directories bývají používány také termíny subject catalogs nebo subject directories. Nejčastěji používanými nadřazenými výrazy jsou pak (Internet, Net, Web) search (searching) tools. Anglické výrazy byste měli znát, protože se vám mohou hodit, budete-li například potřebovat najít nějakou zahraniční specializovanou službu. Nejrychleji se k odkazům na tyto služby dostanete prostřednictvím některého z nejznámějších a nejrozsáhlejších předmětových katalogů, jako je třeba Yahoo!. Ustálená zatím pochopitelně není ani česká terminologie, takže se v tištěné literatuře i na Internetu můžete setkat s nejrůznějšími termíny. Někdy jde o novotvary zavedené jejich autory s nadějí, že se prostřednictvím čtenářů článků nebo knih právě tyto výrazy uchytí a roz- 9 Jak pracovat s webovými vyhledávacími službami http://knihovna.vsb.cz/ šíří mezi uživateli českého Internetu. Přeložit anglické výrazy stručně a jednoduše tak, aby český výraz vystihoval daný typ služby, není snadné. Angličtina má výhodu v tom, že dvěma slovy vyjádří to, pro co se v češtině musí použít dlouhá věta. Autoři českých termínů jsou proto vedeni především snahou o maximální stručnost a jednoduchost. Můžete se tak setkat např. s termíny rozcestník nebo odkazovač pro služby založené na vyhledávání v hierarchicky uspořádaných předmětových katalozích. Místo výrazu vyhledávací služby se pak používají termíny vyhledávače nebo hledače, přičemž první výraz bývá používán nejen jako souhrnné označení pro vyhledávací nástroje, ale také jako označení služeb založených na automatizovaném sběru údajů. V tomto kursu budou pro pojmenování jednotlivých typů vyhledávacích služeb používány následující výrazy: • služby založené na automatizovaném sběru údajů: vyhledávací stroje, • služby založené na manuálním sběru údajů: virtuální knihovny a předmětové katalogy, • souhrnné pojmenování: vyhledávací služby nebo vyhledávací nástroje. Co a jak vyhledávací služby nabízejí Masivní nárůst zdrojů i rostoucí počet uživatelů služby WWW neustále ovlivňuje rozvoj vyhledávacích nástrojů. Vzhledem k tomu, že Internet je dnes chápán jako informační prostředí určené široké veřejnosti, je snahou většiny poskytovatelů vyhledávacích služeb nabídnout jednoduchou a pro většinu uživatelů přijatelnou formu hledání dokumentů v prostředí WWW. Většina velkých vyhledávacích služeb nabízí proto uživateli dvě základní možnosti – buď mohou prohledávat databázi příslušné služby procházením hierarchicky uspořádaného systému menu nebo mohou zformulovat svůj dotaz prostřednictvím klíčových slov a zadat příkaz k prohledávání databáze dané služby. Služby primárně založené na automatizovaném sběru dat a zpětném vyhledávání prostřednictvím klíčových slov, tj. vyhledávací stroje, proto doplnily svoji nabídku o přístup k vybraným zdrojům procházením hierarchicky uspořádaných předmětových skupin. Zpravidla pro tento účel využívají jiných služeb přizpůsobených vlastním potřebám. Například služba Google pro tento účel používá poněkud modifikovanou podobu Open Directory. Naopak služby, u nichž je prvotní funkcí zpřístupnění odkazů na informační zdroje prostřednictvím hierarchicky uspořádaných předmětových skupin, nabízejí uživatelům také možnost prohledávání své vlastní databáze klíčovými slovy. Obsah databáze je shodný s daty zpřístupňovanými předmětově, jejich rozsah je tedy (ve srovnání s databázemi vyhledávacích strojů) poměrně omezený. Proto také pro případ, že se hledané zdroje v jejich databázi nenajdou, nabízejí tyto služby uživatelům také možnost vyhledat zadaný dotaz vybraným vyhledávacím strojem nebo alespoň odkazy na řadu dalších vyhledávacích služeb, které lze pro hledání použít. Některé z nich však hledání provedou automaticky. Jako příklad je možné uvést službu Yahoo! – ta vám v tomto případě sama nabídne výsledky hledání dotazu vyhledávacím strojem Google. Zadáte-li například Yahoo! dotaz Vysoká škola báňská, pak vám tato služba nabídne výsledky hledání službou Google, což je zřejmé z ikony v pravém horním rohu (Powered by Google). Většina velkých vyhledávacích služeb postupně rozšířila svoje základní – vyhledávací – funkce o řadu nejrůznějších dalších služeb. Bez ohledu na to, o jaký typ vyhledávací služby primárně jde, najdete na její vstupní stránce kromě standardních vyhledávacích nabídek i odkazy na aktuální denní zpravodajství, obchodní a ekonomické informace, turistické informace, informace o počasí, bezplatnou schránku elektronické pošty na free-mailovém serveru, možnost individualizace (personalizace) poskytovaných služeb, přístup k placeným informačním 10 Jak pracovat s webovými vyhledávacími službami http://knihovna.vsb.cz/ zdrojům a službám apod. Vyhledávací služby se tak proměnily ve webové portály. Naprostou většinu podobných informačních služeb v současnosti poskytují také všechny nejznámější české vyhledávací služby. Pozor na rozdílné principy práce vyhledávacích služeb Pracujete-li s vyhledávací službou, měli byste si vždy být vědomi, co je jejím základním principem. Pro začínajícího nezkušeného uživatele to dnes není tak jednoduché rozpoznat. Pustíte-li se do hledání v databázi předmětově orientované služby klíčovými slovy, nesmíte zapomenout, že se v naprosté většině případů jedná pouze o alternativní způsob práce se stejnou databází, jaká je vám k dispozici pro procházení hierarchickým systémem menu. Konečný výsledek hledání by tedy měl být v obou případech teoreticky shodný. Míra shody bude ovšem záviset nejen na tom, co a jakými klíčovými slovy budete hledat: zda konkrétně (klíčová slova: Amos Software) nebo obecně (klíčová slova: softwarové firmy – v tomto případě bude výsledek zhruba shodný s postupným procházením kategoriemi Obsah > Obchod a prodej > Technika > Počítače a sítě > Software > Softwarové firmy), ale také na způsobu, jakým je služba budována. Záleží totiž na tom, jak jsou odkazy v jednotlivých kategoriích uspořádány, a rovněž na tom, kdo je do databáze zařazuje. Naopak, rozhodnete-li se u vyhledávacího stroje využít možnost prohledávání tematicky uspořádaných údajů o zdrojích Internetu, pamatujte na to, že se jedná pouze o hledání ve vybraných zdrojích. Tyto zdroje uspořádané tematicky pochopitelně představují jen malou část z celkového počtu dokumentů registrovaných v kompletních databázích služeb tohoto typu. Ve srovnání s výsledky hledání v úplné databázi prostřednictvím klíčových slov se budou výsledky hledání takovým způsobem velmi lišit! Co byste měli o vyhledávacích službách vědět, než se pustíte do hledání Při seznamování se s možnostmi, které uživatelům jednotlivé vyhledávací služby nabízejí, byste tedy neměli přehlédnout především následující informace: • Jaký prostor Internetu daná služba prohledává – zda celý svět (Google) nebo jen zdroje v určitém regionu (český Atlas.cz), jen WWW nebo také zdroje z dalších internetových služeb (Usenet, FTP apod.). • Jaká je velikost její databáze – zda jsou zdroje registrovány automatizovaně nebo na základě ručního sběru údajů. • Jaký používá způsob indexování – zda zařazuje do své databáze jen názvy dokumentů, názvy hypertextových odkazů, vybrané prvky z dokumentů, části textů nebo plné texty dokumentů. • Jaké nabízí způsoby hledání – zda kromě jednoduchého (angl. simple) – standardního – rozhraní na vstupní stránce poskytuje také další, tzv. rozšířené nebo pokročilé (angl. advanced) možnosti pro prohledávání své databáze. • Jaké nabízí možnosti prezentace výsledků vyhledávání. Tyto informace o vyhledávacích službách by měly ovlivnit vaše rozhodování o tom, kterou ze služeb pro určitý druh hledání zvolit. 11 Jak pracovat s webovými vyhledávacími službami http://knihovna.vsb.cz/ Další typy vyhledávacích nástrojů Kromě již zmíněných dvou základních typů vyhledávacích nástrojů existuje řada služeb dalších. Principem sběru dat se však neliší od obou výše popsaných typů hledačů, používají také stejné metody pro vyhledávání informací. Odlišují se však určitou specializací. Základní dva typy hlavních vyhledávacích nástrojů jsou totiž orientovány na sběr údajů o informačních zdrojích v prostředí služby World Wide Web, případně na zdroje Usenet. Další vyhledávací služby jsou specializovány na prohledávání určitého informačního prostoru: • podle typu aplikace nebo služby, • podle typu informací, • podle geografického hlediska – lokální služby například shromažďují pouze informace o zdrojích dostupných v určité zeměpisné či jazykové oblasti. Specializace zužuje informační prostor, který služby mapují, usnadňuje sběr údajů a urychluje hledání. Specializované služby umožňují například hledání osob a adres elektronické pošty nebo osobních domovských stránek, diskusních skupin, příspěvků zaslaných do diskusních skupin, firemních informací, informačních zdrojů dostupných prostřednictvím WAP nebo vyhledávání (a stahování) software. Další specializované služby usnadňují hledání zvukových souborů, obrázků, časopisů a časopiseckých článků, knihovních katalogů apod. Některé ze služeb jsou orientovány na určité kategorie uživatelů (například na děti), jiné jsou specializovány podle tematiky sledovaných zdrojů (například na informace z oblasti chemie, architektury nebo umění). Jiné služby zase podchycují pouze zdroje z určité zeměpisné nebo jazykové oblasti (jako například české servery Atlas.cz, Centrum, Seznam). Jiný typ vyhledávacích nástrojů zase vznikl proto, aby bylo možné buď jediným příkazem nebo prostřednictvím jednotného rozhraní z jednoho dokumentu usnadnit a urychlit prohledávání co největšího prostoru Internetu. První typ představují metahledače (angl. metasearch engines nebo parallel search tools), například ProFusion, a druhý vyhledávací nástroje s jednotným rozhraním (angl. unified search tools), například český server Alenka. Virtuální knihovny Tyto vyhledávací nástroje patří mezi velmi užitečné zdroje informací o informacích na Internetu. Na rozdíl od jiných vyhledávacích nástrojů obsahují více prvků využívajících tradiční dovednosti a zkušenosti profesionálních informačních pracovníků a knihovníků, což je jejich nesporným kladem. Databáze těchto služeb jsou tedy vytvářeny odborníky, kteří informace nejen sbírají, ale také vybírají, popisují a hodnotí na základě určitých kritérií. Informační zdroje ve virtuálních knihovnách jsou zpravidla organizovány logicky, obdobně jako je tomu u tradičních informačních zdrojů, na jejichž tvorbě se informační profesionálové podílejí (např. knihovní katalogy, bibliografie, dokumentografické báze dat a jiné sekundární informační zdroje). Kromě kvalitního pořádacího systému nabízejí tyto služby uživatelům Internetu také odkazy na kvalitní informační zdroje. Virtuální knihovny poskytují informace na základě hierarchicky uspořádaných předmětových skupin, původně pouze pro prohlížení (angl. browsing). V současnosti většina z nich nabízí i rozhraní umožňující hledání prostřednictvím klíčových slov. 12 Jak pracovat s webovými vyhledávacími službami http://knihovna.vsb.cz/ Použití virtuálních knihoven je vhodné zvláště tehdy, hledáte-li kvalitní zdroje na určité téma. Hledání nejvhodnějších zdrojů vám přitom mohou usnadnit recenze, jimiž bývají odkazy na informační zdroje zpravidla doplňovány. Lidský faktor znamená na druhé straně omezení. Jednak je obtížná údržba a aktualizace zdrojů, jednak je to limitující prvek, pokud jde o množství a úplnost zdrojů ve virtuálních knihovnách registrovaných. A to nejen ve vztahu k celému Internetu, tam je to zřejmé na první pohled, ale i s ohledem na praktickou nemožnost – vzhledem k tomu, jakým způsobem jsou budovány – podchytit opravdu všechny kvalitní zdroje věnující se danému tématu. Příklady virtuálních knihoven: About.com Argus Clearinghouse Internet Public Library World Wide Web Virtual Library Předmětové katalogy – základní charakteristika Předmětové katalogy: • jsou budovány ručně, • databáze registrovaných zdrojů jsou poměrně malé, • informace o registrovaných zdrojích jsou stručné (název webového sídla nebo dokumentu, URL a stručný popis), • odkazy na zdroje jsou uspořádány podle témat na základě stanoveného hierarchického schématu, • umožňují vyhledávání informací prohlížením tematických kategorií až po konkrétní odkazy na registrované zdroje, prohledáváním databáze zdrojů (jinak registrovaných podle tématu) také klíčovými slovy prostřednictvím jednoduchého rozhraní, případně některými pokročilými metodami (zpravidla výběrem z menu a s určitými omezeními). Tyto nástroje patří mezi nejpopulárnější a nejvíce využívané vyhledávací služby. Poskytují přístup k velkému množství informačních zdrojů uspořádaných podle témat na základě určitého hierarchického schématu. Jeho základ, tj. nejvyšší úrovně (angl. top categories), jsou vytvářeny poskytovateli těchto služeb, zatímco nižší úrovně až po konkrétní adresy zdrojů jsou víceméně ponechány na uživatelích Internetu, kteří sami svými údaji do soupisů přispívají. Předmětově orientované služby dnes umožňují uživatelům vyhledávat zdroje také prostřednictvím klíčových slov. To je výhodné právě v souvislosti s výše zmíněnými problémy. Použití této funkce umožní vyhledat informační zdroje, aniž by bylo nutné přemýšlet nad hierarchickou strukturou služby a odhadovat, kam bylo hledané téma zařazeno. Hledání prostřednictvím klíčových slov můžete využít také tehdy, pokud nechcete ztrácet čas procházením jednotlivých úrovní tematických kategorií, nebo jako doplněk předchozího prohlížení, nejste-li s jeho výsledkem spokojeni. Některé předmětové katalogy vám automaticky nabídnou výsledky vyhledávání prostřednictvím některého z vyhledávacích strojů, pokud průzkum jejich vlastní databáze nebyl úspěšný (viz již uvedený příklad Yahoo! a Google). Nejvýznamnější předmětové katalogy Předmětové katalogy jsou tedy tematické soupisy vybraných zdrojů na WWW, které jsou uspořádány hierarchicky. Předmětové skupiny (kategorie) jsou uspořádány od nejvýše nadřa- 13 Jak pracovat s webovými vyhledávacími službami http://knihovna.vsb.cz/ zeného termínu až po nejvíce specializované (nejužší) téma v dané kategorii. V hypertextovém prostředí služby WWW je prohlížení zvolené kategorie směrem k detailnějšímu vymezení tématu velmi jednoduché. V závislosti na tom, jakým způsobem je daná služba organizována a jak velký rozsah zdrojů sleduje, mají jednotlivé tematické kategorie několik úrovní, některé větší počet, jiné pak třeba jen úrovně dvě. Ačkoliv jsou jednotlivé vyhledávací služby tohoto typu organizovány na podobném principu, jejich tematické kategorie pochopitelně nejsou shodné, i když je občas evidentní, kterou ze služeb se jejich poskytovatelé hlavně na počátku budování své služby inspirovali. Nejznámější a nejpopulárnější z předmětových katalogů je Yahoo! (nejstarší z těch, jež dosud fungují, je však zřejmě Galaxy). Tato služba se stala vzorem pro podobně zaměřené vyhledávací nástroje včetně těch, jež registrují údaje o informačních zdrojích na Internetu v určité geografické oblasti (viz například český server Seznam). Ve srovnání s vyhledávacími službami, které své databáze vytvářejí na základě automatizovaného sběru údajů, je rozsah registrovaných zdrojů v předmětových katalozích omezený. Zpravidla jde o několik stovek tisíc odkazů, avšak největší služby tohoto typu umožňují prohledávat podstatně větší množství zdrojů. Tak například Open Directory registruje více než 2 milióny webových sídel, LookSmart a Yahoo! okolo 1 a půl miliónu. Předmětové katalogy – nevýhody a problémy Způsob organizace záznamů i vyhledávací možnosti zřejmě vyhovují potřebám běžných uživatelů Internetu, ačkoliv – a to je nutné zdůraznit – nejde zrovna z mnoha důvodů o nejšťastnější způsob registrování a zpětného zpřístupňování informačních zdrojů. Jednou z nevýhod těchto zdrojů je kromě jejich omezené velikosti (= neúplnosti ve vztahu k množství zdrojů zpřístupňovaných na Internetu) také nedostatečná kontrola registrovaných informací. Zdroje zařazované do jednotlivých kategorií jsou často velmi různorodé, jak z hlediska kvality, tak s ohledem na rozsah poskytovaných informací. U některých služeb tohoto typu nedochází také ze strany jejich provozovatelů ke kontrole správnosti zařazení do příslušné tematické skupiny. Volba kategorie pro zařazení domovských stránek do vyhledávací služby je tak ponechána na tom, kdo informaci o daném informačním zdroji či službě poskytuje. Díky tomu při hledání a prohlížení zařazených odkazů může docházet k informačnímu šumu (tj. k získání odkazů na zdroje, které se ve skutečnosti hledanou problematikou nezabývají) nebo ke ztrátě informací. Je to i jedním z nedostatků českých vyhledávacích služeb, včetně nejoblíbenějšího Seznamu. Provozovatelé těchto vyhledávacích nástrojů se samozřejmě snaží své služby zlepšovat, limitujícím faktorem je však způsob, který byl pro sběr, zpracování a zpřístupňování údajů zvolen. Problémem při využívání těchto služeb může být rovněž skutečnost, že u řady informačních zdrojů je obtížné zvolit jedinou kategorii, do níž mají být zařazeny. Stává se také, že jsou občas podobná témata zařazena v rámci jedné služby pod různými kategoriemi nejvyšší úrovně. Odkazy na domovské stránky se stejnou nebo podobnou tematikou se tak dostanou na dvě od sebe poměrně vzdálená místa. Z pohledu uživatele, který nezná podrobně tematickou strukturu služby, pak může být problémem rozhodnutí o tom, kterou cestou se při hledání zdrojů vydat. Zařazení témat v rámci příslušné hierarchické struktury nemusí odpovídat uživatelově subjektivní představě nebo předchozím zkušenostem, kde by téma mělo být zařazeno. Částečně je tento problém ošetřen zpřístupňováním odkazů na příbuzné kategorie. Kupříkladu v Seznamu najdete kategorie (podsekce), jejichž názvy končí znakem @ (česky znám jako „zavináč“, angl. atsign). Znak @ za názvem kategorie vám sděluje zhruba totéž jako odkaz „viz též“. Znamená to, že je příslušná kategorie v katalogu Seznamu umístěna na několika místech v příbuzných sekcích nebo podsekcích. Pokud na odkaz poklepete 14 Jak pracovat s webovými vyhledávacími službami http://knihovna.vsb.cz/ myší, dostanete se na prvotní umístění kategorie v katalogu. Například v sekci Knihovny (Obsah > Instituce > Knihovny) naleznete také odkaz Knižní nakladatelství a vydavatelství@. Použijete-li jej, dostanete se ve struktuře jinam: Obsah > Průmysl a výroba > Papírenský a polygrafický průmysl, vydavatelské činnosti > Nakladatelství a vydavatelství > Knižní – tedy až na stránku sekce, na níž jsou umístěny odkazy na webová sídla nakladatelů knih. V Seznamu se pro tuto funkci používá termín symbolický link. Pokud některá sekce svým obsahem vyhovuje dvěma a více sekcím vyšší úrovně, je umístěna pouze v jedné z nich. Ve druhé (a v každé další) je vytvořen jen její „zástupce“, tedy symbolický link. Tento způsob propojení příbuzných témat v různých kategoriích používá také Yahoo!. Jistým úskalím při rozvoji předmětových katalogů může být také tematická struktura zvolená na začátku jejich budování. S nárůstem počtu informací registrovaných danou vyhledávací službou je obtížné reagovat na rozmanitost nově vznikajících informačních zdrojů a služeb a měnit hierarchickou strukturu služby tak, aby lépe vyhovovala současnému stavu Internetu – důvodem je časová náročnost a pracnost změn, při nichž hraje velkou roli lidský faktor. Největší celosvětové služby se s tímto problémem dokáží vyrovnat mnohem lépe než služby lokální díky tomu, že si mohou dovolit vynaložit značné finanční prostředky na změny, jež jsou pro ně koneckonců i životně důležité – musí obstát v opravdu silné konkurenci. Předmětové katalogy – vyhledávání klíčovými slovy K prohledávání databáze předmětového katalogu slouží jednoduché rozhraní, které najdete nejen na vstupní stránce, ale také na každé straně s jednotlivými kategoriemi. Prohledávat můžete celou databázi předmětového katalogu nebo pouze zvolenou kategorii. Většina předmětových katalogů nabízí uživatelům i poměrně jednoduché rozhraní pro vybrané funkce pokročilého vyhledávání. Pokud budete prohledávat vlastní databázi předmětového katalogu klíčovými slovy, mějte na paměti, že jde o hledání v databázi jiného typu, než u služeb založených na automatizovaném sběru dat. Použijete-li hledání prostřednictvím klíčových slov u předmětového katalogu, zjistíte možná, že se vámi zvolená slova vyskytují v názvech dokumentů, ve stručných anotacích nebo v adresách dokumentů (URL), ale nikoliv přímo v textech nalezených dokumentů. Nejde zde totiž o fulltextové indexování. V databázi předmětově orientovaných služeb jsou uloženy pouze ty údaje, které byly poskytovatelem informace o zdroji vyplněny do formuláře při registraci nového zdroje, případně jsou zde uloženy recenze (nebo anotace), kterými doplňují odkazy na vybrané kvalitní nebo populární zdroje sami provozovatelé dané služby. S tím může být spojen další problém. Někdy se při doplňování údajů o novém zdroji stává, že autor informace zkreslí popis obsahu dokumentu. Buď z neznalosti, z nedbalosti nebo dokonce úmyslně ve snaze přilákat na své stránky co nejvíce uživatelů. Nedostatečné nebo „marketingově orientované“ informace se pak mohou negativně projevit na výsledcích hledání. Kdy je vhodné využít pro hledání informací předmětový katalog Využívání předmětových katalogů je možné doporučit především tehdy, potřebujete-li zjistit, zda je hledané téma na Internetu zastoupeno. Například služba Yahoo! je velmi výhodné místo pro hledání, pokud se potřebujete seznámit s tématy, která patří k nejrozšířenějším v prostředí služby World Wide Web. Využití těchto služeb je vhodné také tehdy, nejste-li si jisti, jakým způsobem máte zformulovat správně dotaz pro hledání klíčovými slovy v rozsáhlé databázi služby založené na automatizovaném sběru údajů. Zvolíte-li nevhodný způsob hledání vyhledávacím strojem, může být výsledkem obrovské množství odkazů na dokumenty. Nejen na dokumenty, které se 15 Jak pracovat s webovými vyhledávacími službami http://knihovna.vsb.cz/ opravdu vztahují k hledané problematice, ale také na takové dokumenty, ve kterých se sice použitá klíčová slova vyskytují, avšak nevyjadřují téma, které hledáte. V takovémto případě, mj. i díky menšímu množství registrovaných dokumentů, vám mnohem lépe poslouží předmětový katalog. Vyhledávací stroje – základní charakteristika Vyhledávací stroje: • jsou budovány na základě automatizovaného sběru dat, • informační zdroje v jejich databázích jsou zpravidla registrovány fulltextově, • informace o registrovaných zdrojích jsou podrobné díky fulltextovému indexování, • databáze registrovaných zdrojů jsou rozsáhlé, • umožňují vyhledávání informací prohledáváním databáze fulltextově registrovaných zdrojů klíčovými slovy prostřednictvím jednoduchého rozhraní nebo metodami pokročilého vyhledávání (buď výběrem z menu nebo přímým zápisem dotazu) a často také prohlížením předmětového katalogu obsahujícího informace o vybraných zdrojích registrovaných v dané databázi nebo předmětového katalogu partnerské vyhledávací služby. Vyhledávací nástroje tohoto typu jsou tedy založeny na automatizovaném sběru dat. Díky tomu (a samozřejmě také díky výkonným technologiím) jejich databáze disponují největším rozsahem registrovaných zdrojů. Většina z těchto nástrojů je orientována na sledování dokumentů zpřístupňovaných na WWW, některé registrují také příspěvky ze systému Usenet. Vyhledávací stroje jsou velmi účinným pomocníkem, potřebujete-li provést vyčerpávající průzkum o zdrojích na Internetu na určité téma. S úspěchem je lze využít také při hledání velmi specializovaných informací. Vyhledávací stroje – nabídka služeb S rozvojem Internetu – a také s rozvojem vyhledávacích nástrojů – bývají základní vyhledávací služby rozšiřovány ještě o další nabídky. Na vstupní stránce těchto služeb najdete zpravidla také možnost prohledávání předmětového katalogu, vyhledání lidí, firem, zvukových či obrazových dokumentů, denní zpravodajství a řadu dalších služeb, včetně poskytování podrobnějších recenzovaných informací o některých vybraných – kvalitních nebo populárních – zdrojích. Oproti původní nabídce služeb tohoto typu, jíž byl jen stručný formulář pro jednoduché hledání a možnost přechodu na rozhraní pro pokročilé hledání, jsou v současnosti stránky těchto služeb přeplněny tak širokou nabídkou dalších informací, že se v ní málem ztrácí původní vyhledávací funkce. Poskytovatelé těchto služeb se snaží uživatelům prezentovat jako jakýsi vstupní bod takřka ke všemu, co je dnes na Internetu (na Webu) k dispozici – z vyhledávacích strojů se tak často staly webové portály. Možnost prohledávat Web díky automatizovaně vytvářeným databázím je tedy jen jednou z mnoha služeb, jež portály nabízejí. Řadu dalších služeb a informací neposkytují tyto servery z „vlastních“ zdrojů, ale přebírají je od specializovaných producentů. K typickým příkladům převzatých informací se kromě zpravodajství a ekonomických informací řadí doplňkové vyhledávací služby pro hledání webových zdrojů procházením předmětových kategorií. Uživatel, který si chce hlavně co nejrychleji a co nejjednodušeji vyhledat potřebné informace, uvítá zřejmě možnost použít pro tento účel vyhledávací nástroje, které ho nezahltí nepřehlednou nabídkou nejrůznějších personalizovaných služeb a dalších pro něho nepotřeb- 16 Jak pracovat s webovými vyhledávacími službami http://knihovna.vsb.cz/ ných informací. Jejich množství snižuje přehlednost a zhoršuje orientaci, navíc někdy dochází ke zbytečným zdržením při zobrazování reklam, které jsou na těchto stránkách umístěny. Graficky a typograficky jednoduché rozhraní orientované jen na vyhledávací funkce dnes poskytují služby Google a AllTheWeb. Tyto dvě služby jsou také v současnosti nejkvalitnějšími nástroji pro vyhledávání informací na WWW. Vyhledávací stroje – vyhledávací rozhraní Každý z vyhledávacích strojů nabízí alespoň dvě rozdílné úrovně rozhraní pro vyhledávání. Jednoduché rozhraní a rozhraní umožňující využít i pokročilé metody. Konkrétní nabídky jednotlivých služeb se samozřejmě liší, ale v podstatě jde vždy o nabídku podobných funkcí, v poslední době především výběrem z pull-down menu. Na vstupní obrazovce je k dispozici jen jednoduché rozhraní (angl. simple search, u AltaVisty: basic search) umožňující prohledávání databází klíčovými slovy s možností vyjádřit vzájemnou logickou vazbu mezi těmito slovy, buď velmi jednoduchým způsobem (znaménka plus a minus nebo uvozovky) nebo pomocí logických operátorů a složitých dotazů, včetně použití některých speciálních funkcí. Účinnější využití těchto služeb – především méně zkušeným uživatelům (tj. těm, kteří chtějí zformulovat složitější vyhledávací dotaz, ale nevědí, jak jej správně zapsat – nabízí pokročilé hledání (angl. advanced search), které je v současnosti reprezentováno určitým návodným menu. Příklady rozhraní pro pokročilé hledání: AltaVista Advanced Search AllTheWeb Advanced Search Google Advanced Search Vyhledávací nástroje jsou určeny všem uživatelům Internetu, nejen informačním specialistům. A tak je snahou jejich provozovatelů poskytnout i těm méně zkušeným větší možnost kontroly nad výsledky vyhledávání, aniž by se museli příliš zatěžovat přemýšlením nad správnou formulací svých složitějších dotazů. Proto většina služeb nabízí uživatelům pokročilé rozhraní s možností „zformulovat“ složitější dotaz výběrem příslušných položek z menu. Budete-li se chtít pustit do složitějšího hledání, vždy se předem dobře seznamte s tím, jakým způsobem lze těchto metod u dané služby využít, neboť konkrétní aplikace se poněkud liší. Všechny nejznámější celosvětové vyhledávací služby dnes poskytují poměrně podrobné informace o tom, jak s nimi pracovat. Není tedy problémem seznámit se předem – prostřednictvím nápovědy (angl. help) – se všemi možnostmi, které jsou pro hledání a konstrukci dotazů u dané služby k dispozici. Nezapomeňte však na to, že se design a vyhledávací rozhraní služeb čas od času z nejrůznějších důvodů mění. Dojde-li k významnější změně, je pravděpodobné, že byla provedena i určitá modifikace používaných vyhledávacích technik. V takovém případě byste si měli znovu prostudovat dokumenty s nápovědou, v nichž by se informace o změnách v nabídce možností pro hledání měly vyskytovat. Jak vyhledávací stroje fungují Vzhledem k tomu, že vyhledávací stroje patří ke službám, které lze nejlépe využít pro tzv. seriózní vyhledávání informací, vyplatí se podívat blíže, jakým způsobem tyto služby fungují. 17 Jak pracovat s webovými vyhledávacími službami http://knihovna.vsb.cz/ Vyhledávací stroje jsou tvořeny 4 základními funkčními částmi: • roboty, jejichž hlavním úkolem je sběr informací na Webu, • indexačním programem zpracovávajícím informace, které získají z Webu roboty, • vyhledávacím programem (vyhledávacím algoritmem a souvisejícími programy, tzv. vyhledávacím strojem, angl. retrieval engine), který na základě uživatelova dotazu vyhledává a zpracovává informace z databáze vytvořené indexačním programem tak, aby výsledky co nejlépe vyhovovaly položenému dotazu, • grafickým rozhraním, které sbírá dotazy od uživatele, předává je vyhledávacímu stroji a zobrazuje výsledky hledání uživateli. Vyhledávací program na základě uživatelova dotazu prohledává databázi vytvořenou indexačním programem s cílem nalézt a předat uživateli odkazy na dokumenty, které se s dotazem shodují. Součástí tohoto programu jsou i nástroje, které hodnotí vyhledané odkazy z hlediska jejich relevance a ovlivňují způsob setřídění odkazů při zobrazení výsledku vyhledávání. Grafické rozhraní získává informace od uživatele a předává je vyhledávacímu programu. Ten pak opět předá informace o vyhledaných odkazech pro zobrazení výsledků hledání uživateli, buď standardně nebo podle volby uživatele. Co jsou to roboty Roboty jsou programy, které „cestují” po Webu. Přitom identifikují nové zdroje, které by měly být do databáze služby přidány, a zároveň kontrolují změny, ke kterým došlo u těch zdrojů, které již jsou v její databázi registrovány. Shromažďují přitom informace o obsahu dokumentů na webových serverech a předávají je indexačnímu programu. Také u těchto služeb je možné „přidat odkaz“ (prostřednictvím funkcí submit page, add URL, přidej URL apod.), tzn. oznámit vyhledávací službě adresu nového zdroje. Odkaz však není zařazen do databáze, neboť tato oznámení slouží jen jako informace pro roboty, kam je možné se vydat pro nové informace. Teprve po prozkoumání zdroje robotem jsou informace zařazeny do databáze dané služby. Z pohledu uživatele takovéto služby je důležité, do jaké hloubky a šířky jsou informace umístěné na webových serverech, tj. obsah serverů i jednotlivých dokumentů, roboty zpracovávány. Některé z těchto robotů jsou naprogramovány tak, aby registrovaly pouze údaje z hlavních (úvodních) stran webových serverů (resp. webových sídel), jiné naopak načítají informace i z dalších dokumentů, které jsou zde zveřejněny. Cílem prvního typu služeb je zmapovat prostor Webu extenzivně z hlediska podchycení co největšího počtu webových serverů, ale nikoliv s cílem registrace celého jejich obsahu. Informační technologie se však neustále vyvíjejí, a tak je v současnosti možné zpracovávat obsah webových serverů do větší hloubky, aniž by tím utrpěl i celkový rozsah registrovaných webových sídel, resp. aktuálnost informací uložených v databázích vyhledávacích služeb. Například robot Inktomi (jeho databázi, kromě jiných poskytovatelů portálových a vyhledávacích služeb využívá například HotBot) má kapacitu více než 10 miliónů navštívených a indexovaných dokumentů denně. Do hloubky načítají webové dokumenty například roboty vyhledávacích strojů AltaVista, AllTheWeb, Google, Inktomi a NorthernLight Research. Jejich databáze také v současnosti registrují nejvíce zdrojů. Databáze Google je zároveň příkladem snahy o podchycení informací publikovaných na Webu do šířky. Více než dvě třetiny informací registrovaných v databázi Google (tj. zhruba 1,5 miliardy dokumentů, včetně asi 35 miliónů dokumentů, které jsou na Webu zveřejněny 18 Jak pracovat s webovými vyhledávacími službami http://knihovna.vsb.cz/ v jiných formátech než HTML) byly získány načtením plných textů dokumentů z webových sídel, jež její roboty prozkoumaly opravdu důkladně. Zbývající část pak představují informace získané analýzou odkazů v navštívených dokumentech. Díky tomu může tato služba poskytovat informace i o těch zdrojích, jež její roboty nikdy nenavštívily. Jaké informace roboty sbírají Většina služeb přikládá velký význam těmto údajům: • název (ve zdrojovém kódu TITLE), • adresa (URL), • metatagy – slova a fráze vyjadřující obsah dokumentů, které jsou vkládány do zvláštního pole (značka META) ve zdrojovém kódu dokumentů a které se v prohlížeči nezobrazují; tyto údaje lze zneužít pro přilákání co největšího počtu uživatelů klamnými informacemi, proto je některé služby do svých databází nezařazují nebo jim přikládají nižší váhu (např. AllTheWeb a Google), • názvy hypertextových odkazů, • počáteční odstavce z textu dokumentů, včetně prvního nadpisu (ve zdrojovém kódu H1), • úplné texty dokumentů, • některé další informace – např. o obrázcích, o zvukových souborech, o formátech souborů (PDF, GIF, JPEG, TIFF, Microsoft Office, PostScript, WordPro, WordPerfect apod.) apod. Údaje, které roboty sesbírají, se ukládají do databází vyhledávacích služeb. Umožňují, v závislosti na nabídce funkcí jednotlivých služeb, vyhledávání informací tematicky klíčovými slovy nebo podle dalších kritérií. Indexační program Z hlediska toho, jaké dokumenty nakonec služba na základě uživatelova dotazu vyhledá, je velmi důležitý indexační program. Některé vyhledávací nástroje jsou jejich provozovateli označovány jako fulltextové vyhledávače. Znamená to tedy, že by jejich databáze (indexy) měly být vytvářeny na základě zpracování úplných textů (případně dalších typů informací obsažených v dokumentech) načtených z webových serverů. Není to ovšem vždy zcela pravdivé tvrzení. Informace jsou z dokumentů získávány na základě rozhodnutí tvůrců těchto programů o tom, na kterých místech se v HTML dokumentech vyskytují důležité informace. Rozsah načítaných informací bývá ovlivněn i technologickým zázemím provozovatele vyhledávací služby. Sbírané údaje se proto u jednotlivých služeb liší, což je jedním z důvodů rozdílného zpracování téhož dotazu několika vyhledávacími službami. Všechny nejvýznamnější celosvětové vyhledávací stroje (AltaVista, AllTheWeb, Google, Inktomi nebo NorthernLight Research) načítají do svých databází plné texty viditelných částí webových dokumentů. Některé ze služeb však neindexují tzv. stop-slova a ty výrazy, jež jsou identifikovány jako „spam”. Mezi spam patří: opakující se slova, „neviditelný text“ (ve zdrojovém kódu je pro tuto část textu použita stejná barva jako pro pozadí dokumentu, takže uživatel text v prohlížeči nevidí) a velmi malé fonty. Tyto metody jsou považovány za pokus o nežádoucí reklamu, jejímž cílem je zajistit výhodnější umístění daného zdroje ve výsledcích vyhledávání. Jednou z metod hodnocení relevance vyhledaných zdrojů je totiž výskyt hledaných slov 19 Jak pracovat s webovými vyhledávacími službami http://knihovna.vsb.cz/ v dokumentech – čím vyšší četnost výskytu hledaných termínů v daném dokumentu, tím výše se webové sídlo nebo jednotlivý dokument ocitne při zobrazení výsledku vyhledávání. Pokud někdo neoprávněně na svých webových stránkách použije některou z technik, jež používají vyhledávací stroje pro setřídění výsledků hledání, sníží tím vlastně úroveň jejich kvality. Některé ze služeb proto podobné metody „trestají“. Buď slova z textu dokumentu rozpoznaná jako spam nezahrnou do databáze nebo jim nepřikládají váhu, někdy dokonce do svých databází nezařadí podobné dokumenty či webová sídla vůbec. Vyhledávací strategie Vyhledávací nástroje hledají dokumenty, které se shodují s informačními potřebami a zájmy uživatelů. Záleží jen na vás, jak se znalostí vyhledávacích nástrojů a technik dokážete vyhledávacím příkazem co nejpřesněji vyjádřit téma, které vás zajímá. Pro úspěšné použití vyhledávacích služeb je nutná vyhledávací strategie (angl. search strategy). Ta spočívá jednak ve znalosti služeb, které jsou pro hledání na Internetu k dispozici, jednak v důkladné analýze tématu, jež chcete hledat. V užším smyslu pak jde o vlastní formulaci vyhledávacího dotazu (angl. search query). Při prohledávání prostoru WWW hledáte určitou množinu dokumentů podle kritérií zvolených pro tento účel daným vyhledávacím nástrojem. Na základě těchto kritérií je prováděn sběr údajů o dokumentech a jejich zpětné vyhledání podle uživatelova dotazu. Úspěch hledání prostřednictvím vyhledávacích služeb tedy závisí na třech důležitých faktorech: • na schopnosti uživatele zformulovat co nejpřesněji dotaz tak, aby se co nejvíce shodovala zadaná klíčová slova s výrazy vyskytujícími se v textu dokumentů, případně dalších jejich součástech – patří mezi ně například URL, některé prvky zdrojového kódu apod., • na rozsahu a obsahu databáze vyhledávacího nástroje, který byl pro hledání zvolen, • na dalších vlastnostech vyhledávacího nástroje ovlivňujících úspěšnost hledání. Každý z vyhledávacích nástrojů pracuje s vlastní databází, v níž jsou registrovány údaje o dokumentech. Používáte-li vyhledávací nástroj, prohledáváte jeho databázi, nikoliv přímo samotný Web. Vzhledem k tomu, že žádný z vyhledávacích nástrojů nepokrývá celý prostor WWW (resp. dalších internetových služeb a aplikací), dostanete zpravidla při hledání shodného tématu v několika službách odlišné výsledky. Příčinou není jen rozdílná velikost databáze použité služby a její aktuálnost, ale také to, že se služby liší jak mechanismem sběru dat, tak také zpracováním získaných údajů. Velký význam mají odlišné nástroje a techniky, kterými služby hodnotí relevanci nalezených odkazů ve vztahu ke konkrétnímu uživatelovu dotazu. Pro vaše hledání jsou tedy důležité především dvě věci: jednak úroveň vašich znalostí souvisejících s tématem dotazu, jednak správná volba vhodného vyhledávacího nástroje. Ten by měl co nejvíce vyhovovat svými charakteristikami hledané informaci. Hlavní kroky vyhledávací strategie Chcete-li úspěšně hledat informace na Internetu, měli byste si osvojit základní rešeršní strategii, jež se skládá z následujících kroků: • slovní formulace tématu (souvislou větou či několika větami), • výběr vhodných klíčových slov, jež vyjadřují hledané téma, včetně synonym a příbuzných výrazů, 20 Jak pracovat s webovými vyhledávacími službami • • • • • • • http://knihovna.vsb.cz/ předběžná formulace dotazu, včetně rozhodnutí o tom, zda použít jednoduché hledání nebo pokročilé metody hledání, výběr vyhledávacího nástroje, prostudování nápovědy zvolené vyhledávací služby, formulace dotazu v souladu s funkcemi dané vyhledávací služby, průzkum a zhodnocení výsledků vyhledávání, nejste-li spokojeni s výsledkem hledání, měla by následovat úprava (oprava) dotazu a opětné zhodnocení výsledků vyhledávání, podle potřeby vyhledání stejného dotazu jinou vyhledávací službou. Není pochopitelně vždy nezbytné použít pro hledání všechny uvedené kroky. Konkrétní postup bude záviset na složitosti hledaného tématu a na vašich předchozích zkušenostech nejen s vyhledávacími nástroji, ale s internetovými zdroji obecně. Úspěšné hledání a nalézání informací na Internetu by v zásadě mělo být kombinací odhadnutí adresy zdroje a použití předmětových katalogů a vyhledávacích strojů. Než se pustíte do hledání prostřednictvím některé z vyhledávacích služeb, pokuste se nejdříve odhadnout, která organizace by mohla být zdrojem hledané informace, zkuste uhodnout adresu jejího webového sídla a navštívit je. Pokud tento pokus nebyl úspěšný, zvolte pro hledání, v souladu s typem hledané informace, některou z kvalitních vyhledávacích služeb. Jak vybrat vhodný nástroj pro hledání • • • • Jestliže chcete provést vyčerpávající průzkum nebo potřebujete-li nalézt co nejlepší odpověď na svůj dotaz z většího množství možných odpovědí, použijte nástroj s velkou databází registrovaných dokumentů, tj. některý z vyhledávacích strojů. Chcete-li se dostat jen k těm nejznámějším a nejvíce navštěvovaným zdrojům na dané téma, pak byste měli využít některého nástroje budovaného na základě manuálního sběru dat, některou z virtuálních knihoven nebo některý z předmětových katalogů. Pokud nemáte přesnou představu o tom, co hledáte, může pro vás být postupné procházení předmětovými kategoriemi užitečnou inspirací. Máte-li jasnou představu o hledaném tématu a zároveň víte, že se na Webu – někde – vyskytuje, dejte vždy přednost hledání prostřednictvím vyhledávacího stroje, který registruje informační zdroje celosvětově a který disponuje rozsáhlou databází. Budete-li chtít vyhledat informační zdroje z určité zeměpisné či jazykové oblasti mimo anglicky mluvící země, můžete se spolehnout na kterýkoliv z největších celosvětových vyhledávacích strojů. Pokud byste ovšem chtěli tyto lokální zdroje hledat prostřednictvím předmětového katalogu, raději dejte přednost nástroji, který je orientován na registrování informací v dané zeměpisné oblasti. Budete-li tedy chtít vyhledávat klíčovými slovy české zdroje (tj. metodou typickou pro hledání prostřednictvím vyhledávacího stroje), použijte například AllTheWeb nebo Google – většinou vám totiž poskytnou kvalitnější výsledky než fulltextové vyhledávače českých služeb. Budete-li však chtít použít pro hledání českých zdrojů předmětový katalog (tj. procházet postupně jednotlivé kategorie), obraťte se na Seznam, nikoliv na službu Yahoo!. 21 Jak pracovat s webovými vyhledávacími službami http://knihovna.vsb.cz/ Jakou strategii byste používat neměli Chcete-li hledat úzce specializované téma (případně konkrétní dokument, o jehož existenci předem víte) nepoužívejte hledání postupným prohlížením (angl. browsing) menu předmětově orientovaných služeb. Procházení od hierarchicky nejvýše uvedeného termínu dále až po nejnižší úroveň ke stránkám obsahujícím odkazy na konkrétní dokumenty zahrnuje nutnost odhadnout, kam bylo hledané téma (hledaný dokument) v rámci hierarchické struktury zařazeno. Navíc tyto služby zpravidla registrují webové zdroje do šířky, nikoliv do hloubky. Také celková struktura i jednotlivé kategorie se (bohužel) u jednotlivých služeb liší, pokud ovšem jejich tvůrci „neopisovali“. (V tomto případě na tom není nic špatného, pro uživatele by naopak jednotnost byla přínosem!) Někdy může být procházení jednotlivých kategorií zbytečně zdlouhavé i proto, že se pomalu zobrazují stránky s velkým množstvím odkazů, jindy zdržují reklamní pruhy. Raději proto použijte buď některý vyhledávací stroj nebo alespoň možnost prohledávání zdrojů v předmětovém katalogu klíčovými slovy. Nástroje pro formulaci vyhledávacího dotazu Vyhledávací služby nabízejí tyto nástroje, jejichž pomocí můžete zformulovat vyhledávací dotaz: • booleovské operátory, • distanční operátory, • možnost vytváření složitých dotazů, • používání znamének + a – , • vyhledání fráze, • vyhledávání podle pole nebo dalších specifických funkcí, • krácení podle slovních kořenů, • používání zástupných znaků pro maskování, • používání velkých písmen. Booleovské operátory Booleovské operátory (angl. Boolean operators) – AND, OR a NOT (případně AND NOT) – spojují slova do logických vztahů, které odpovídají požadované formulaci konkrétního dotazu. Operátor AND zužuje dotaz. Operátor OR dotaz rozšiřuje. Operátor NOT odstraňuje nežádoucí dokumenty. Příklad použití operátoru AND: knihy AND časopisy Systém vyhledá jen ty dokumenty, ve kterých se vyskytují obě uvedená klíčová slova současně. Nevyskytuje-li se některé ze slov v databázi, je výsledkem prázdná množina, není tedy nalezen žádný odpovídající odkaz. Pokud vyhledávací služby umožňují zvolit spojení klíčových slov v dotazu výběrem příslušné funkce z pull-down menu, pak operátoru AND odpovídá položka all of the words (všechna slova). Příklad použití operátoru OR: knihy OR časopisy 22 Jak pracovat s webovými vyhledávacími službami http://knihovna.vsb.cz/ Systém vyhledá všechny dokumenty, ve kterých se vyskytuje alespoň jedno ze dvou uvedených klíčových slov. Výsledkem hledání jsou tedy odkazy na zdroje, ve kterých se vyskytuje buď slovo knihy nebo slovo časopisy nebo obě slova současně. Mějte na paměti, že použití operátoru OR vede k nárůstu počtu vyhledaných informací. Použití operátoru OR pro formulaci vztahu mezi slovy má význam hlavně v tom případě, když je nezbytné do dotazu vložit synonyma, příbuzné výrazy a různé pravopisné formy slov. Pokud vyhledávací služby umožňují zvolit spojení klíčových slov v dotazu výběrem příslušné položky z menu, pak operátoru OR odpovídá položka any of the words (kterékoliv ze slov). Příklad použití operátoru NOT: knihy NOT časopisy Systém vyhledá všechny dokumenty, ve kterých se vyskytuje první slovo, ale nikoliv slovo druhé. Výsledkem hledání budou odkazy na zdroje, v nichž se vyskytuje slovo knihy, avšak současně s ním nikoliv slovo časopisy. Znamená to, že jsou z výsledku hledání vyloučeny všechny dokumenty, v nichž se vyskytují obě uvedená slova současně. Operátor NOT byste tedy měli používat velmi opatrně, jen v opravdu odůvodněných případech, protože jeho zařazení do dotazu může způsobit, že se zbytečně připravíte o užitečné dokumenty. Operátor NOT můžete použít tehdy, stojí-li za to odstranit z výsledků hledání odkazy obsahující homonyma. Budete-li například hledat informace o zámcích (stavbách, historických památkách), mohou se vám mezi vyhledané odkazy dostat i dokumenty, které se věnují zámkům u dveří. V tomto případě se můžete pokusit tyto dokumenty odstranit z výsledků hledání například podobným příkazem: zamky NOT ((zabezpecovaci AND zarizeni) OR uzamykaci OR FAB OR vstup OR dvere OR dverni OR skrine OR klice) Musíte si ovšem uvědomit, že databáze vyhledávacích strojů obsahují slova z textů dokumentů publikovaných na Webu. Nepracují tedy s řízeným slovníkem, takže vaše fantazie by musela být takřka bezmezná, abyste opravdu vyloučili všechny nežádoucí odkazy. Je s tím spojeno rovněž nebezpečí, že byste se zároveň mohli připravit o užitečné zdroje. Nezapomeňte proto na to, že operátor NOT sice zpravidla významně zmenšuje velikost vyhledané množiny, ale často na úkor ztráty určitého množství relevantních informací. Některé vyhledávací služby používají pro odstranění nežádoucích dokumentů operátor AND NOT, dotaz pak vypadá takto: knihy AND NOT časopisy. Tento způsob formulace dotazu vyžaduje například AltaVista. Distanční operátory Distanční operátory (angl. proximity operators) – NEAR, ADJACENT(ADJ) a FOLLOWED BY – specifikují posloupnost a vzdálenost mezi dvěma vyhledávacími výrazy. Umožňují nalézt dokumenty, v nichž se hledaná slova vyskytují nedaleko sebe nebo v těsném sousedství. Vyskytují-li se slova v textu blízko sebe, je větší pravděpodobnost, že se dokument hledaným tématem zabývá, než kdyby tato slova sice obsahoval, ale na místech od sebe hodně vzdálených. U webových vyhledávacích nástrojů se v současnosti můžete setkat takřka bez výjimky jen s možností zformulovat dotaz s operátorem NEAR, i když v počátcích rozvoje vyhledávacích služeb byly podporovány také oba další distanční operátory. Jejich funkce jsou v současnosti zajištěny jiným způsobem, například umístěním slov mezi uvozovky při hledání fráze. 23 Jak pracovat s webovými vyhledávacími službami http://knihovna.vsb.cz/ Operátor ADJACENT, zkráceně ADJ, se používá k hledání slov, která se v textu dokumentu nacházejí vedle sebe, tj. sousedí spolu, ovšem nezávisle na pořadí, zatímco operátor FOLLOWED BY bývá používán, je-li nutné zajistit vyhledání slov v přesném pořadí. Spojení dvou výrazů operátorem NEAR znamená, že se hledaná slova musí vyskytovat v textu dokumentu v určité vzdálenosti od sebe. Použití tohoto operátoru je u různých služeb odlišné. Někde si může uživatel sám nastavit přijatelnou vzdálenost mezi slovy, někde je tato vzdálenost standardní a nelze ji změnit. Například u služby AltaVista jde o vzdálenost 10 slov, takže příkaz web NEAR design vyhledá dokumenty, v nichž se uvedená klíčová slova vyskytují ve vzdálenosti max. 10 slov od sebe. Použití distančních operátorů při formulaci dotazu je výhodné například při hledání vlastních jmen nebo názvů. Totéž vyhledávání lze sice zpravidla zajistit příkazem, který umožňuje vyhledat zadaná slova jako frázi, někdy je však účinnější formulace dotazu právě pomocí operátoru NEAR. U fráze totiž musíte uvést pouze hledaná slova v odpovídajícím pořadí. Dejme tomu, že byste měli zájem o informace o Karlu Havlíčkovi Borovském. Občas bývá jeho jméno chybně uváděno takto: Karel H. Borovský. Pokud byste si chtěli vyhledat všechny odkazy, bez ohledu na to, jak je v dokumentech jméno uvedeno, máte několik možností. Buď byste museli v dotazu uvést všechny varianty jména a spojit je logickým operátorem OR, nebo můžete použít právě operátor NEAR. V dotazu s tímto operátorem je vhodné uvést ta slova, která se s největší pravděpodobností budou vyskytovat všude. V tomto případě: Karel NEAR Borovský. Složité dotazy Ze slov nebo frází vyjadřujících hledané téma můžete pomocí logických operátorů a kulatých závorek (angl. parentheses) vytvářet složité dotazy (angl. complex queries, nested queries). Příklad: Dejme tomu, že byste chtěli získat informace o tom, jakým způsobem se na amerických univerzitách organizují distanční online kursy matematiky a fyziky. V zájmu vyčerpávajícího hledání je možné použít složitý dotaz, který zahrne také synonyma, příbuzné výrazy a různé pravopisné tvary. Například v rozhraní pro pokročilé hledání (angl. advanced search) u služby AltaVista můžete dotaz položit takto (nejdůležitější slova uvádějte vždy na začátku dotazu): distance AND (learning OR teaching OR education) AND mathemat* AND physics (course OR courses) AND (online OR net OR Internet OR Web OR electronic) AND (academic OR university OR edu) AND ((United AND States) OR USA OR America*) AND NOT com Vzhledem k tomu, že se všechna uvedená klíčová slova zcela jistě vyskytují na Internetu ve velkém počtu (i současně), neboť jde o poměrně obecné a frekventované termíny, vyplatí se u služby AltaVista uvést, na které slovo má být kladen důraz při třídění výsledků hledání (angl. sort by) – v tomto případě jde o slovo distance. Poznámka: Dotaz byl takto zformulován pouze s cílem uvést příklad složitého dotazu. Pokud by hledal podobné informace odborník na danou problematiku, zřejmě by jej zformuloval jinak, konkrétněji. Výsledkem takto zformulovaného dotazu je příliš velké množství nalezených odkazů. Výsledky by bylo možné použít spíše jako zdroj informací pro zpřesnění a zúžení vyhledávacího dotazu. 24 Jak pracovat s webovými vyhledávacími službami http://knihovna.vsb.cz/ Obecně platí, že by se uživatel bez hlubších zkušeností s hledáním informací (nejen na Internetu) neměl do složitých formulací dotazů pouštět. Tyto možnosti jsou sice užitečné pro informační profesionály, pro naprostou většinu běžných uživatelů Internetu – a zvlášť pro začátečníky – je zpravidla zbytečné ztrácet čas přemýšlením o tom, jak komplikovaný kombinovaný dotaz zformulovat tak, aby jeho použití vedlo opravdu k žádoucímu výsledku. Vyplývá to mj. i z povahy internetových zdrojů, z jejich obrovského množství i ze způsobu, jakým jsou vytvářeny. Pokud se přesto pokusíte této možnosti využít, nepoužívejte příliš složité dotazy obsahující hodně slov. Zvolte jedinečné výrazy a vyjádřete hledané téma co nejpřesněji. Nepoužívejte tento způsob pro hledání obecných témat. A nezapomeňte přitom na správné použití závorek! Při hledání lze sice použít i dotaz s různými operátory, aniž byste seskupili hledané výrazy odpovídajícím způsobem pomocí závorek, museli byste však ještě vědět, jakým způsobem daný vyhledávací nástroj jednotlivé operátory vyhodnocuje. Používání znamének + a – Většina vyhledávacích nástrojů všech typů podporuje používání znamének + (plus) a - (minus) pro rychlé a jednoduché vyjádření toho, že hledané dokumenty musí (angl. must contain) nebo naopak nesmí obsahovat (angl. must not contain) slova nebo fráze, před nimiž se znaménko vyskytuje. Jinak řečeno, výrazy se znaménkem + jsou požadovány (angl. require), naopak výrazy se znaménkem - mají být vyloučeny (angl. exclude). Jde vlastně o obdobu booleovských operátorů AND a NOT, proto se také v angličtině pro tuto funkci používají termíny implied Boolean operators, případně pseudo-Boolean operators. Použijete-li znaménka při formulaci dotazu, nezapomeňte na to, že mezi slovem a znaménkem nesmí být mezera. Znaménka plus a minus můžete použít u vyhledávacích strojů pouze v jednoduchém režimu hledání. U některých předmětových katalogů (např. u Yahoo! nebo u Open Directory) je můžete využít i v rozhraní pro pokročilé hledání. Hledání fráze Hledání fráze (angl. phrase searching) je velice užitečnou funkcí, jejíž použití zvyšuje pravděpodobnost, že vyhledané odkazy budou odpovídat hledané tematice. Tuto funkci podporují snad všechny vyhledávací nástroje. Je možné ji použít v jednoduchém i v pokročilém režimu vyhledávání. Fráze je řetězec slov, které se v textu dokumentu musí vyskytovat v přesně stanoveném pořadí vedle sebe. Výhodné je použití této funkce při hledání vlastních jmen nebo názvů. Aby byla slova vyhledána jako fráze, je třeba je dát do dvojitých uvozovek (angl. double quotation marks). U některých služeb (například u AltaVisty) lze pro vyhledání fráze použít mezi hledanými slovy také spojovník (angl. hyphen), středník (angl. semicolon), dvojtečku (angl. colon) nebo čárku (angl. comma). Mezi slovy a spojovníkem (středníkem, dvojtečkou, čárkou) nesmí být mezera. Frázi zde tedy můžete vyjádřit takto: "John Lennon" John-Lennon John;Lennon John:Lennon John,Lennon 25 Jak pracovat s webovými vyhledávacími službami http://knihovna.vsb.cz/ Nabízí-li vyhledávací služba pokročilé hledání, je možné pro vyhledání fráze zvolit v pulldown menu příslušnou nabídku. Volba Exact phrase říká systému, že slova mají být vyhledána ve specifikovaném pořadí a tvarech jako fráze. Hledání podle pole Vyhledávací stroje nabízejí také možnost prohledávání své databáze podle pole (angl. field nebo fielded searching). Znamená to, že lze omezit hledání pouze na ty zdroje, v nichž se hledané výrazy vyskytují v určité části dokumentu nebo informace o něm. Na tento způsob hledání jsou zvyklí uživatelé knihovních katalogů nebo bází dat. Pole (autor, název, nakladatel, rok vydání apod.) je zde podmnožinou strukturovaného záznamu. Uživatel může omezit prohledávání databáze podle jmen autorů, roku vydání, typu publikace, podle jazykového hlediska nebo dalších kritérií. Je to jedna z možností, jak dosáhnout co nejpřesnějších výsledků vyhledávání. HTML dokumenty jsou vlastně také určitým způsobem strukturované dokumenty, a tak lze alespoň některých možností, které nabízí zdrojový kód, využít i při jejich indexování a vyhledávání. Většina vyhledávacích nástrojů proto standardně umožňuje určitý typ hledání dokumentů podle polí. Je možné omezit hledání podle názvu dokumentu nebo podle jeho adresy (URL nebo jeho části, například podle domény nejvyšší úrovně). Některé vyhledávací služby však poskytují podstatně širší nabídku. Omezit prohledávání podle polí je možné (v závislosti na konkrétní nabídce dané služby) buď volbou příslušného kritéria z menu nebo přímým zápisem v dotazu. Například AltaVista umožňuje hledání WWW dokumentů podle těchto polí: anchor, applet, domain, host, image, like, link, text, title, url. Zadáte-li příkaz image:beatles, měla by vám služba vyhledat odkazy na dokumenty, v nichž se vyskytují fotografie skupiny Beatles, přičemž výraz „Beatles“ by měl být součástí názvu souboru (například beatles.gif). I když jde o metodu formulace příkazu, která patří k pokročilému hledání, je možné použít hledání podle pole u služby AltaVista ve všech úrovních vyhledávání. Zároveň můžete toto hledání kombinovat s klíčovými slovy do složitějšího dotazu (viz příklad u hledání podle domény). Další příklady hledání podle pole: • anchor:text příkaz vyhledá odkazy na zdroje, v nichž se v textu, který je hypertextovým odkazem, vyskytuje dané slovo nebo fráze – anchor:meta-hledace • applet:class příkaz vyhledá odkazy na dokumenty, které obsahují java-applety s uvedeným názvem – • • • • applet:kecafon domain:domainame příkaz vyhledá odkazy na dokumenty z dané domény – domain:cz +knihovna +katalog host:hostname vyhledá odkazy na webové dokumenty umístěné na počítači s uvedeným názvem – host:knihovna image:filename příkaz vyhledá odkazy na dokumenty, v nichž se vyskytuje obrázek s uvedeným názvem – image:pelisky.jpg like:URLtext 26 Jak pracovat s webovými vyhledávacími službami • • • • http://knihovna.vsb.cz/ příkaz vyhledá odkazy na dokumenty, které jsou podobné dokumentům s uvedenou adresou – like:http://knihovna.vsb.cz/ link:URLtext příkaz vyhledá odkazy na dokumenty, z nichž vedou odkazy na uvedenou adresu – link: knihovna.vsb.cz text:text příkaz vyhledá odkazy na dokumenty, kde se zadaná slova vyskytuj přímo v jejich textu (nikoliv v polích image, link a URL) – text:"katalog knihovny" title:text příkaz vyhledá odkazy na zdroje, v jejichž názvu se vyskytuje uvedené slovo nebo fráze – title:vyhledavaci nastroje url:text příkaz vyhledá odkazy na zdroje, v jejichž URL se vyskytuje zadaný výraz – url:hledace Krácení podle slovních kořenů Pro souběžné vyhledání různých tvarů slov můžete využít funkci krácení podle slovních kořenů (angl. truncation). Jde o vynechávání počátečních nebo koncových částí slov a jejich nahrazení znakem hvězdička * (angl. asterisk). Tímto znakem můžete u příbuzných slov nahradit předpony (angl. prepositions) a koncovky (angl. endings). V praxi je častěji používán pro nahrazení koncovek. Například místo několika výrazů retrieval, retrieving, retrieve a retrieved je možné v dotazu uvést pouze jediný výraz: retriev*. Systém vyhledá všechna slova začínající výrazem retriev. Tento způsob zápisu zjednodušuje a usnadňuje formulaci dotazu. Jinak byste totiž pro zajištění podobného hledání museli vzít v úvahu všechny tvary hledaných slov a spojit je v dotazu operátorem OR. Některé vyhledávací služby však samy automaticky vyhledají všechna příbuzná slova, dokonce i takové výrazy, pro jejichž současné vyhledání by vám použití hvězdičky nestačilo. Pokud například v dotazu uvedete výraz think (myslet), najde vám taková služba automaticky i dokumenty, v nichž se vyskytuje výraz thought (příčestí minulé slovesa think nebo podstatné jméno myšlenka, nápad) a samozřejmě i další příbuzné výrazy nebo gramatické tvary. Této funkci se anglicky říká stemming. Znamená to, že bez ohledu na to, jaký tvar slov uvedete v dotazu, systém v databázi sám vyhledá možné další variace. Tuto funkci používá služba HotBot jen v rozhraní pro pokročilé hledání, kde si ji můžete přepínačem zvolit, pokud to budete považovat za užitečné (viz funkce: Enable Word Stemming, umožnit krácení slov). Zatímco Yahoo! zkracuje slova automaticky, při práci se službou Google tuto funkci nelze použít vůbec. Pokud je tato funkce používána automaticky (aniž byste o tom sami rozhodli), nemusí být vždy výhodná, neboť rozšiřuje množinu vyhledaných odkazů, často o nežádoucí (irelevantní) dokumenty. Naštěstí je možné ji obejít tím, že se požadovaný výraz vloží do uvozovek jako fráze. Stejně je nutné se dívat i na funkci umožňující zkrátit slova pomocí hvězdičky. Má smysl ji použít tehdy, když budete hledat úzce specializované téma a bude potřebovat zajistit, aby vám systém opravdu něco vyhledal. Krácení slov vede k nárůstu počtu vyhledaných odkazů a zvyšuje pravděpodobnost, že se mezi výsledky budou vyskytovat odkazy na zdroje, jež s hledanou problematikou nesouvisejí. Používání zástupných znaků Další funkcí, kterou nabízejí vyhledávací služby, je používání zástupných znaků (angl. wild cards). Mezi ně patří kromě hvězdičky také otazník ? (angl. question mark), dolar $ nebo 27 Jak pracovat s webovými vyhledávacími službami http://knihovna.vsb.cz/ procento % (angl. percent). Způsob používání zástupných znaků pro maskování je nutné si zjistit v nápovědě vyhledávacích služeb, neboť takřka každá z nich používá pro tuto funkci jiné znaky. U některých služeb však maskování nelze použít vůbec (například u Google). Zástupné znaky lze použít pro nahrazení písmen (jednoho nebo více) uprostřed slov. Například zápisem wom*n říkáme systému, že chceme vyhledat jak slovo woman, tak women (tedy jednotné i množné číslo). Pro používání této funkce při formulaci dotazu platí totéž, co bylo uvedeno u funkce předchozí (krácení podle slovních kořenů). Využijte ji jen tehdy, pokud budete hledat úzce specializované téma a budete chtít hledáním zajistit vyčerpávající průzkum. Používání velkých písmen Ovlivnit výsledky hledání můžete také používáním VELKÝCH písmen (angl. capital letters, upper case), pokud ovšem daný systém rozlišuje mezi malými a velkými písmeny (angl. case sensitivity). Jejich použití může zpřesnit výsledky hledání při vyhledávání vlastních jmen nebo názvů. Většina vyhledávacích služeb však velká písmena nerozeznává (angl. case insensitivity). Týká se to i českých fulltextových vyhledávacích nástrojů. Znamená to tedy, že je úplně jedno, zda v dotazu (například u vlastních jmen) použijete malá nebo velká písmena. Budete-li do výrazu zařazovat vlastní jména nebo názvy, můžete používat malá písmena (angl. lower case) i na začátku slov (jmen, názvů), neboť systém vám vyhledá jak odkazy, v nichž se vyskytují hledaná slova s malými písmeny, tak s písmeny velkými. Nemusíte si tedy pamatovat, u kterých služeb je velká písmena pro hledání možné použít. Občas se ovšem vyplatí zúžit vyhledanou množinu a zpřesnit hledání (zvlášť hledáte-li dokumenty, kde jsou výrazy ve jménech a názvech i běžnými, hodně se vyskytujícími slovy) a tedy omezit hledání použitím správného pravopisu. V tomto případě můžete využít toho, že ji v rozhraní pro pokročilé hledání podporuje služba AltaVista. Co jsou to stop-slova Jsou to slova, která jsou při indexování databáze ignorována na základě předem stanoveného slovníku stop-slov (ten může být samozřejmě upravován – doplňován – o další výrazy). Bývají jimi zpravidla členy, spojky, předložky, booleovské operátory, číslovky, velmi obecné a často se opakující výrazy nebo hodně používané internetové výrazy (například slova jako search, Web, http nebo HTML). Důvodem pro používání stop-slov je jednak úspora místa, jednak snaha o urychlení procesu vyhledávání. Je-li některé ze stop-slov součástí fráze, pak je ovšem možné je pro hledání použít. Identifikuje-li indexační program části textů jako fráze, zařadí je v databázi do slovníku frází (nebo informace o jejich výskytu v dokumentech propojí s převzatým slovníkem frází), a tak se mohou použít v dotazu i členy, spojky, předložky nebo číslovky (například v názvech organizací apod.). A samozřejmě i často používaná slova. Bohužel, každá ze služeb má vlastní seznam stop-slov, který navíc nebývá uživatelům Internetu k dispozici. Přitom výsledkem použití některého z takových slov může být třeba podobná zpráva: Sorry-- your search yielded no results (Vaše hledání bohužel nepřineslo žádné výsledky). Z takto formulované odpovědi se ovšem nedozvíte, co bylo příčinou nulového výsledku hledání. Je-li standardním (skrytým) logickým operátorem použité služby AND nebo použijete-li tento operátor v dotazu vy sami, pak právě přítomnost stop-slova v něm může vést k nulovému výsledku hledání. Některé vyhledávací služby (například Google) však stop-slova samy vyřadí z uživatelova dotazu, a tím podobnou situaci vyloučí. Je-li vyřazené slovo pro 28 Jak pracovat s webovými vyhledávacími službami http://knihovna.vsb.cz/ výsledek hledání významné, pak nezbývá než dotaz přeformulovat: například vložit před slovo znaménko + nebo je spojit s dalším výrazem do fráze (pomocí dvojitých uvozovek). Google vyhledává stop-slova automaticky, rozpozná-li je jako součást fráze. Stop-slova do svých databází nezařazují AltaVista (pouze u jednoduchého hledání, u pokročilého hledání lze tato slova ve vyhledávacím dotazu použít), Inktomi (tj. např. HotBot) a Google. Naopak stop-slova nepoužívají – indexují všechna slova z dokumentů – AllTheWeb a NorthernLight Research. Vyhledávání podle časových údajů Jednou z možností, jež vyhledávací nástroje nabízejí, je omezení prohledávané databáze podle časového hlediska. Problémem ovšem je, co je datem míněno: datum vytvoření dokumentů, data aktualizace nebo datum, kdy byl odkaz do databáze zařazen (či v databázi aktualizován)? Datum vytvoření a aktualizace webových dokumentů často ve zdrojovém kódu schází, proto pokud budete časové omezení využívat, počítejte s tím, že se tento údaj spíše než k vlastnímu obsahu dokumentů vztahuje k datu, kdy daná služba odkaz do své databáze zařadila nebo k datu, kdy byl dokument naposledy navštíven jejím robotem. Proto volte toto kritérium pouze v případě, že hledáte opravdu jen nejnovější informace k danému tématu, nebo tehdy, pokud nepotřebujete provést vyčerpávají hledání. Jak si poradit s diakritikou Při hledání informačních zdrojů se jistě setkáte také s problémem diakritických znamének (netýká se samozřejmě jen češtiny). Použít ve vyhledávacím dotazu diakritiku nebo ne? Máte dvě možnosti: buď použijete pro zápis slov správný pravopis s diakritikou nebo diakritická znaménka nepoužijete. Buď vám služba informace vyhledá nebo bude výsledkem hledání chybová zpráva. Podle výsledku hledání se můžete rozhodnout, jak dále. To je samozřejmě ten nejjednodušší přístup k dané problematice. Nejčastěji zřejmě budete hledat české zdroje. Opět máte dvě možnosti: buď je můžete hledat prostřednictvím celosvětových vyhledávacích služeb (AllTheWeb, AltaVista, Google, HotBot, NorthernLight Research aj.) nebo použijete vyhledávací nástroje specializované na český Internet Atlas.cz, Centrum, Seznam aj.). Můžete přitom použít vyhledávací rozhraní předmětových katalogů nebo fulltextové vyhledávače. Vyhledávání českých zdrojů v celosvětových vyhledávacích strojích Budete-li chtít například hledat české zdroje prostřednictvím klíčových slov v celosvětové vyhledávací službě – Google, AllTheWeb, AltaVista apod., hledejte je samozřejmě česky, nikoliv např. anglicky. Můžete si nejdříve vyzkoušet hledání bez diakritických znamének. Vyhledávací služba vám (pokud ovšem existují zdroje, v nichž se hledaná slova vyskytují) najde odkazy na dokumenty se správným kódováním a dovede vás na stránky s českou diakritikou i s kódováním odpovídajícím nastavení vašeho prohlížeče (nebo si ve vyhledaném zdroji odpovídající kódovou stránku najdete sami). Můžete také zkusit zadat dotaz správně česky bez jakéhokoliv předchozího nastavování parametrů dané služby. Na základě odpovědi systému se pak rozhodnete, jak dál. Zadáte-li například službě Google dotaz rešeršní služby, aniž byste upravovali volbu jazyka pro prohledávání, tato služba vám vyhledá zdroje, v nichž se zadaná slova vyskytují. To, že možná výsledky svého hledání zobrazí s chybami (v kódové stránce neodpovídající nastavení vašeho prohlížeče), pravděpodobně vadit nebude. Důležité je, že vám našla zdroje, které potřebujete. 29 Jak pracovat s webovými vyhledávacími službami http://knihovna.vsb.cz/ Pokud ovšem stejný příkaz zadáte „správně česky“ službě HotBot, její odpovědí bude, že nic nenalezla (Sorry, your search yielded no results. ) a že jste se patrně při psaní spletli. Pokud tedy budete chtít tuto službu přesto pro hledání českých zdrojů využít, odstraňte ze slov diakritická znaménka. Na příkaz resersni sluzby už bude HotBot reagovat a zdroje na dané téma v češtině vám najde. Některé vyhledávací služby umožňují nastavit parametry pro hledání informačních zdrojů v jiných jazycích než je angličtina. Například u služby AltaVista si můžete nastavit její parametry pro vyhledávání dokumentů v češtině (Tools > Search Settings > Languages to search in: > Czech). U služby Google si můžete nastavit češtinu v nabídce Preferences (vyhledá vám však české zdroje se správnou diakritikou i tehdy, pokud v dotazu použijete slova bez diakritických znamének). Pokud si ovšem nastavíte parametry služby na hledání v češtině, nezapomeňte, že vám toto nastavení ovlivní i vyhledávání zdrojů daným systémem v jiných jazycích. Vhodnější je po vyhledání českých zdrojů opět změnit funkce dané služby na její standardní nastavení (pokud ji ovšem nebudete používat výhradně na vyhledávání zdrojů v češtině). Službou NorthernLight Research můžete hledat česky s diakritikou, aniž byste museli cokoliv nastavovat, je však vhodnější hledat české zdroje bez diakritických znamének, neboť jinak vám služba vyhledá větší množství nerelevantních odkazů. Výsledky hledání klíčových slov se správnou diakritikou a současným nastavením vyhledávacího nástroje podle vaší volby a výsledky hledání se standardním nastavením dané služby a bez diakritických znamének se budou s největší pravděpodobností lišit. Záleží tedy na tom, co hledáte a zda potřebujete provést vyčerpávající hledání. Pokud tedy budete chtít hledat české zdroje prostřednictvím zahraničních celosvětových služeb, použijte nejdříve jejich standardní nastavení a hledané české výrazy v dotazu zapište bez diakritických znamének. V závislosti na odpovědi systému na takto zadaný dotaz se rozhodněte, zda se vám vyplatí hledat ještě jednou se správným českým pravopisem. Pokud odpovědí systému na váš dotaz bude sdělení, že nic nebylo nalezeno, pak buď vyzkoušejte hledání s korektní češtinou a s odpovídajícím nastavením parametrů dané služby nebo zkuste rovnou hledat jinou vyhledávací službou (opět jednoduše bez diakritiky a beze změn v jejím standardním nastavení). Počítejte však s tím, že pro opravdu vyčerpávající nebo co nejpřesnější hledání bude vždy vhodnější u zahraniční služby podporu korektního vyhledávání v českém jazyce nastavit, pokud to daná služba umožňuje. Diakritika a české vyhledávací služby Při práci s českými vyhledávacími nástroji pro fulltextové vyhledávání si starosti se správným nastavením češtiny nemusíte dělat. Dotazy můžete zadávat s diakritikou i bez ní. Výsledky hledání by se měly v obou případech shodovat, použijete-li stejný způsob formulace dotazu. Je však zřejmé, že je značný rozdíl např. mezi významem slov kleč a klec. Zatímco výše zmíněný český fulltextový vyhledávač vám na dotaz kleč vyhledá dokumenty, v nichž se většinou píše o klecích, americká služba Google vám spolehlivě (pokud si nastavíte správné vyhledávání češtiny) na prvních místech výsledků hledání nabídne zdroje, v nichž se vyskytuje hledaný výraz kleč (ve významu kosodřevina, nejen formálně slovo kleč, například jméno Kleč). Velkou výhodou zahraničních celosvětových vyhledávacích nástrojů (kromě jejich rozsahu a aktuálnosti – i ve vztahu ke zdrojům z českého Internetu) oproti českým službám je, že z výsledků hledání odstraní odkazy na tytéž dokumenty v různých kódových stránkách. Pokud chcete použít pro vyhledání českých webových zdrojů některý z předmětových katalogů, pak v českých předmětových katalozích (Atlas.cz, Centrum, Seznam apod.), používejte výrazy s diakritikou či bez ní, záleží na tom, co pro vás bude výhodnější. Tento 30 Jak pracovat s webovými vyhledávacími službami http://knihovna.vsb.cz/ způsob vyhledávání můžete použít i pro hledání v zahraničních předmětových katalozích (Open Directory, Yahoo! apod.), ovšem nezapomeňte na to, že tyto služby registrují české zdroje v podstatně menším rozsahu, než české předmětové katalogy a nejsou tedy samy o sobě pro podobný způsob vyhledávání českých zdrojů vhodné (pokud ve své databázi hledané zdroje nenajdou, „pověří“ ovšem zpravidla zpracováním dotazu partnerskou službu, takže výsledky hledání zprostředkovaně obdržíte, například místo Yahoo! vám je poskytne Google.) Vyhledávací rozhraní vyhledávacích služeb Předmětové katalogy jsou určeny především k vyhledávání informací procházením hierarchicky uspořádaných předmětových hesel. Současně tyto služby nabízejí jednoduché rozhraní pro hledání klíčovými slovy jako alternativní způsob prohledávání databáze registrovaných zdrojů. Některé ze služeb tohoto typu umožňují přejít také na rozhraní pro pokročilé hledání, v tomto případě jde však většinou o poměrně jednoduchou nabídku několika dalších kritérií (například prohledávání vybrané kategorie místo celého katalogu, výběr logického operátoru pro spojení klíčových slov apod.), zpravidla volbou příslušné funkce z menu. Oproti tomu standardní funkcí vyhledávacích strojů je průzkum jejich databáze na základě jednoduchého dotazu v přirozeném jazyce. K tomuto účelu slouží jednoduché rozhraní na jejich vstupní domovské stránce. Použijete-li jednoduché hledání, ponecháváte průběh zpracování výsledků hledání danému systému. Možnost ovlivnit výsledky hledání v závislosti na vašich konkrétních potřebách vám poskytují další funkce vyhledávacích strojů, které umožňují využít metod pokročilého hledání. Současné vyhledávací nástroje používají pro pokročilé hledání především možnost výběru požadovaných funkcí z připraveného menu. Jednoduché hledání Jednoduché hledání (angl. simple search) představuje: • vyhledávací formulář (angl. search box, query box) na vstupní obrazovce pro zápis jednoduchého dotazu klíčovými slovy v přirozeném jazyce s možností jejich spojení do logického vztahu pomocí znamének (plus nebo minus, uvozovky), lze použít také hvězdičku pro pravostranné zkrácení slov (potřebujete-li vyhledat různé tvary slov se stejným základem), • pull-down menu pro volbu jazyka hledaných dokumentů, • možnost nastavit parametry, především pro zobrazení výsledků hledání (angl. customize settings). Rozhraní pro jednoduché hledání je standardní nabídkou nejen u všech vyhledávacích strojů, ale také u předmětově orientovaných vyhledávacích služeb. Proto je také najdete vždy na jejich vstupní stránce. Interakce mezi uživatelem a vyhledávacím nástrojem se děje prostřednictvím „příkazového řádku“, který je v tomto případě představován velmi jednoduchým formulářem. Do okénka formuláře lze vepsat jednoduchý dotaz tvořený několika klíčovými slovy, které je možné spojit do vzájemných vztahů pomocí znamének plus a minus nebo uvozovkami. Uživatelům je občas ještě nabídnuta možnost (volbou v pull-down menu nebo přepínačem) ovlivnit počet zobrazených odkazů na jedné stránce s výsledky nebo zvolit oblast, jež má být dotazem prohledávána, například omezit hledání jen na dokumenty v určitém jazyce. Poklepání myší na příslušné tlačítko (search, go, hledej apod.) odešle dotaz systému ke zpracování. 31 Jak pracovat s webovými vyhledávacími službami http://knihovna.vsb.cz/ Hledání prostřednictvím jednoduchého rozhraní vás dovede zpravidla k velmi dobrému výsledku, a proto se ve většině případů nemusíte příliš zatěžovat přemýšlením nad možnostmi využití pokročilých metod hledání. Někdy je však výsledkem jednoduchého způsobu hledání příliš rozsáhlá množina vyhledaných dokumentů. Dokonce se vám občas bude zdát, že snad systém ani nepoužil pro hledání vámi zadaná klíčová slova. Použijete-li pro hledání pouze jeden obecný či frekventovaný výraz, je to celkem pochopitelné. Ani zadání více slov pro hledání vyjadřujících podrobněji vaše potřeby však občas nepovede k žádoucímu výsledku. Vyhledávací služby vás přitom k takové jednoduché formulaci dotazu vyzývají. V čem je tedy problém? Jednou z příčin je skryté standardní nastavení pro logické spojování zadaných slov operátorem OR. Standardní operátor OR Při jednoduchém hledání vkládáte do formuláře klíčová slova v přirozeném jazyce. Zpravidla nepoužijete pro vyjádření jejich vzájemného vztahu žádný operátor. Ovšem systém, aniž byste si to uvědomovali, to provede za vás v souladu s tím, jaký je tzv. předem určený (default) operátor konkrétní vyhledávací služby. Zpočátku používala naprostá většina vyhledávacích nástrojů standardně operátor OR, v současnosti však již převládá nastavení na operátor AND. Například jednoduše zformulovaný dotaz vyhledávací nástroje může být v různých službách interpretován odlišným způsobem: vyhledávací OR nástroje vyhledávací AND nástroje vyhledávací NEAR nástroje "vyhledávací nástroje" Spojení slov operátorem OR způsobí, že budou nalezeny jak odkazy na dokumenty, v nichž budou informace o vyhledávacích nástrojích, tak také na dokumenty vztahující se k nejrůznějším nástrojům dalším. I z tohoto jednoduchého příkladu je zřejmé, že se výsledky vyhledávání v závislosti na interpretaci dotazu systémem nemusí vždy shodovat s vašimi představami. Je proto užitečné vědět předem, jaký je standardní operátor použité služby. Můžete tím předejít možné dezinterpretaci vašeho dotazu daným systémem. Budete-li znát standardní funkce vyhledávacích nástrojů, můžete se lépe rozhodnout, kterou ze služeb použít. Buď si zvolíte službu, která nejlépe vyhovuje pro formulaci dotazu v přirozeném jazyce, nebo budete vědět, kdy se vyplatí použít znaménka plus nebo minus, případně hledání fráze (vložením slov do dvojitých uvozovek), abyste zajistili, že vyhodnotí vzájemný vztah zadaných slov způsobem, jaký potřebujete. Použití booleovských operátorů AND, OR a NOT nebo distančního operátoru NEAR při jednoduchém hledání většina vyhledávacích nástrojů neumožňuje). Standardní (default) operátor vyhledávacích nástrojů při jednoduchém hledání: • operátor AND – AllTheWeb, Google, HotBot, NorthernLight Research, LookSmart, Overture • operátor OR – AltaVista (pokud výrazy nerozpozná jako frázi), Atlas.cz, Centrum, NAJDI.TO, Seznam (při hledání v předmětovém katalogu i fulltextem) Vyhledávací program služby AltaVista nejdříve předpokládá, že jste pro hledání použili frázi. Pokud zadaná slova ve svém slovníku frází nenalezne, spojí je operátorem OR. 32 Jak pracovat s webovými vyhledávacími službami http://knihovna.vsb.cz/ Nejste-li si jisti, jaký standardní operátor vyhledávací služba používá, můžete si to rychle zjistit sami i bez nápovědy (zde se zpravidla tyto informace také nedozvíte). Stačí zadat jednoduchý dotaz se dvěma klíčovými slovy, z nichž jedno je nesmyslné, například: dogs xhjfglllmnopk. Nebo česky: psi xhjfglllmnopk. Pokud vám systém odpoví, že nic nenalezl, jde o nástroj se standardním operátorem AND. Pokud vám služba vyhledá odkazy na zdroje, ve kterých najdete zmínku o psech, pak jde o službu se skrytým operátorem OR. Proč je používán standardní operátor OR Budete-li pro své hledání používat dotaz vyjádřený v podstatě přirozeným jazykem (tak jak vám to ostatně služby doporučují), budete tedy chtít, aby se ve vyhledaných dokumentech vyskytovala všechna slova současně. To vám zajistí operátor AND spolehlivě, operátor OR jen někdy. Proč tedy některé služby používají standardně operátor OR? Poněkud zjednodušeně řečeno, při hodnocení relevance vyhledaných odkazů vycházejí některé služby ze statisticko-pravděpodobnostních metod. Na prvních místech výsledků hledání jsou zobrazeny odkazy na dokumenty s nejvyšším výskytem použitých klíčových slov. Často jsou opravdu v dokumentech zařazených ve výsledcích výše obsažena všechna hledaná slova. Teprve se snižující se relevancí nalezených odkazů můžete pozorovat, že v nich některé z použitých klíčových slov chybí. Hledáte-li nějaké frekventované téma nebo příliš obecně, nemáte možnost uvědomit si, že jste se při formulaci dotazu vlastně dopustili chyby, protože se zřejmě spokojíte jen s prvními vyhledanými odkazy. Jestliže vám systém vyhledá a na prvních místech výsledků nabídne odkazy, které vám budou vyhovovat, pak je to sotva možné považovat za chybu. Pokud vám ovšem systém nic nenajde, pak to může být způsobeno právě standardním operátorem OR. Při prezentaci výsledků se vám může zdát – zvlášť při použití obecných výrazů nebo při hledání nějakého frekventovaného tématu, že systém vámi zadané výrazy spojil operátorem AND, tedy tak, jak jste si to nejspíš přáli. Vzhledem k tomu, že všechny vyhledávací služby umožňují použít alespoň znaménka plus nebo minus jako podmínku pro výskyt nebo vyloučení slov z hledání, a také dvojitých uvozovek pro vyhledání fráze, můžete tedy jejich pomocí částečně „obejít“ nežádoucí standardní operátor a zajistit si tak určitou kontrolu nad tím, jak má být váš dotaz systémem interpretován. Zvlášť výhodné (a nijak komplikované) je spojení slov do frází pomocí dvojitých uvozovek. Budete-li hledat například informace o vyhledávacích nástrojích, pak použijte pro hledání výraz "vyhledávací nástroje". Vyhnete se tak nejsnáze odkazům na dokumenty, které se zabývají jinými nástroji. Pokročilé hledání Pokročilé hledání (angl. advanced search) vychází vstříc méně zkušeným uživatelům, kteří však mají zájem hledat informace takovým způsobem, aby mohli ovlivnit proces vyhledávání. Toto rozhraní nabízí zpravidla: • vyhledávací formulář pro zápis dotazu je doplněn o další možnosti výběrem z pull-down menu, případně volbou příslušného kritéria přepínačem, • hledání podle polí – uživatel může určit, ve kterých prvcích ve zdrojovém kódu dokumentů se mají hledaná klíčová slova vyskytovat, • dále lze výběrem položek z menu omezit prohledávání databáze podle kritérií, jako jsou datum, jazyk dokumentů, umístění dokumentů (zeměpisně nebo podle domény apod.), možnost určit konkrétní webové sídlo, jež má být prohledáváno, zvolit počet zobrazených odkazů (= výsledků hledání) na jedné stránce a rozhodnut, zda má být v případě vyhledání více odkazů z jednoho webového sídla zařazen do výsledků hledání jen jeden nalezený dokument. 33 Jak pracovat s webovými vyhledávacími službami http://knihovna.vsb.cz/ Uživatel má možnost využít všech nabídek podle své konkrétní potřeby, pokud některou z nabízených funkcí nevyužije, systém zpracuje dotaz podle svého standardního nastavení. Součástí rozhraní pro pokročilé hledání může být i pole pro vložení (složitého) dotazu zformulovaného prostřednictvím logických operátorů (např. AltaVista Advanced Search). Použití rozšířených možností pro vyhledávání (oproti jednoduchému standardnímu nastavení většiny vyhledávacích služeb) usnadňuje prohledávání obrovského informačního prostoru Internetu, šetří čas při vyhodnocování výsledků hledání a především zpřesňuje výsledky hledání. V závislosti na konstrukci dotazu získáte tímto hledáním zpravidla přiměřenou množinu vyhledaných odkazů, v níž je snadné lokalizovat nejvhodnější informační zdroje odpovídající vašim potřebám. Použití pokročilejších vyhledávacích technik díky výběrům z menu není nijak složité, musíte však respektovat některé odlišnosti u jednotlivých služeb, abyste skutečně dospěli k požadovaným výsledkům. Díky změnám vyhledávacího rozhraní (přechod od původní přímé formulace dotazu k výběru z menu), je situace mnohem jednodušší. Rozdíly mezi nabídkou jednotlivých služeb se týkají spíše některých specializovaných funkcí, zvláště tehdy, pokud je nutné zformulovat příkaz pro určitou funkci přímo v dotazu (například u AltaVisty při hledání podle polí). Kdy použít jednoduché a kdy pokročilé rozhraní pro hledání Při jednoduchém hledání využíváte výhod standardního nastavení vyhledávacího mechanismu dané služby. Rozhodnutí o tom, které webové stránky jsou relevantní vašemu dotazu, tedy ponecháváte na vyhledávacím nástroji. Pokročilé metody vyhledávání vám poskytují možnost převzít určitou kontrolu nad vyhledáváním a vyhodnocením nalezených zdrojů. Při práci s nimi máte možnost použít vlastní znalosti vyhledávacích technik i znalost jazyka a hledané problematiky pro co nejpřesnější vyhledání potřebných informačních zdrojů. Rozhodnutí o tom, které rozhraní použít, záleží na tom, co v daném okamžiku hledáte. Je závislé na povaze dotazu, ale také na vašich schopnostech využít v maximální míře možností, jež dané vyhledávací rozhraní (použitého vyhledávacího nástroje) nabízí. Jde-li o obecný dotaz, kdy se dá očekávat, že výsledkem průzkumu bude více relevantních zdrojů, než jste schopni zpracovat (a než potřebujete), pak je vhodné zvolit jednoduché hledání. Pro ostatní potřeby je možné doporučit v podstatě stejný postup s tím, že prvotní výsledky hledání můžete použít jako určitý zdroj informací, buď pro úpravu dotazu nebo pro další hledání s využitím rozšířeného hledání (především pro zúžení dotazu podle určitých kritérií – jazyk, zeměpisná oblast, prvky ve zdrojovém kódu, datum apod.). Nejdůležitější totiž není použité rozhraní, ale vaše schopnost vybrat ty nejvhodnější termíny pro vyjádření hledaného tématu. Každý zkušený uživatel (a zvlášť to platí pro informační profesionály) by měl znát pokročilé metody hledání dostatečně, aby byl schopen je účinně využít pro hledání zdrojů na Internetu. měl by umět ocenit i další možnosti, jež mu vyhledávací nástroje nabízejí. Méně zkušený uživatel, především začátečník, by se měl raději spolehnout na vyhledávací mechanismy dané služby, případně využít určitých možností, které jsou mu nabídnuty prostřednictvím menu. Jak postupovat při práci s jednoduchým hledáním Pokud se rozhodnete využít standardních funkcí vyhledávacích strojů, tedy jednoduché hledání, začněte nejdříve výběrem vhodných klíčových slov. Zvolená slova použijte pro hledání v přirozeném jazyce. Na prvních místech v dotazu uveďte slova, jež mají pro výsledek hledání 34 Jak pracovat s webovými vyhledávacími službami http://knihovna.vsb.cz/ největší význam. Některé vyhledávací služby totiž přikládají slovům na začátku dotazu větší váhu při hodnocení výsledků vyhledávání. Pokud je to nutné, použijte v dotazu synonyma a příbuzné výrazy, ale ne ve velkém množství, neboť to může vést ke zkreslení výsledků hledání. (Raději proveďte několik samostatných hledání, je-li to nezbytné.) Pokud výsledek neodpovídá vašemu očekávání, změňte pořadí slov v dotazu. Užitečné je použití znamének plus a minus, případně uvozovek pro označení fráze. Znaménka plus a minus však nepotlačí standardní operátor. Je-li standardním operátorem OR, pak to neznamená, že znaménko plus změní tuto standardní funkci na operátor AND. Použití znaménka však ovlivní způsob setřídění výsledků vyhledávání. Pokud výsledky hledání nebudou odpovídat vašemu záměru, pak zkuste přeformulovat dotaz nebo použít rozhraní pro pokročilé vyhledávání. Samozřejmě zvažte, zda se nevyplatí vyzkoušet hledání prostřednictvím některé další vyhledávací služby. Po získání určitých zkušeností s hledáním informací na Webu opravdu zjistíte, že dotaz zformulovaný v podstatě v přirozeném jazyce a skládající se jen z několika klíčových slov vystihujících hledanou problematiku je překvapivě tou nejrychlejší a nejjednodušší cestou k nalezení potřebných informací. Musíte si ovšem umět zvolit vhodný nástroj pro hledání, znát některé jeho standardní funkce a také dokázat vybrat vhodná klíčová slova. Výběr klíčových slov souvisí hlavně se znalostí hledané problematiky a způsobu, jakým jsou vytvářeny webové dokumenty. Při výběru vhodných slov nezapomeňte na to, že je důležité vybrat jedinečné výrazy a vyjadřovat se co nejpřesněji. Obecné formulace vedou k výsledkům, ve kterých se obtížně identifikují odkazy vedoucí opravdu na stránky s hledaným tématem. Zobrazení výsledků vyhledávání Pro zhodnocení výsledků vyhledávání má velký význam i způsob zobrazení nalezených odkazů. Každá z vyhledávacích služeb má své vlastní standardní nastavení pro zobrazování výsledků hledání (angl. results, hits), uživatel má však možnost je změnit volbou zobrazení (angl. display options) podle vlastní potřeby. Zpravidla jde o volbu počtu vyhledaných odkazů zobrazených na jedné straně (standardně 10 nalezených odkazů, možnost zvýšení zpravidla na 25, 50, 75 a 100) a o výběr rozsahu popisných údajů o vyhledaných odkazech. Pro zkušeného uživatele může být výhodná například kombinace velkého počtu odkazů na jedné straně pouze se zobrazením adres (URL) dokumentů, neboť takový uživatel dokáže již z adresy zdroje odhadnout užitečnost a vhodnost nalezených odkazů. Zobrazení většího počtu odkazů na jedné straně navíc šetří čas, ovšem za předpokladu kvalitního připojení k Internetu. Naopak méně zkušenému uživateli mohou pomoci stručné anotace nebo shrnutí, jež bývají součástí zobrazených výsledků. Někdy totiž nelze z pouhého názvu dokumentu rozpoznat (zvlášť když se mezi nalezenými odkazy vyskytnou i takové, u nichž tvůrci dokumentů zapomněli názvy ve zdrojovém kódu uvést), zda jeho obsah skutečně odpovídá tematice, kterou hledáte. Například u služby HotBot můžete zvolit v menu Return Results (v Advanced Search) kromě počtu zobrazených odkazů na jedné straně také rozsah informací o nalezených odkazech: full descriptions (úplné popisy), brief descriptions (krátké popisy), URLs only (pouze URL). AltaVista Advanced Query umožňuje ovlivnit způsob seřazení (angl. sorting, sort by) nalezených výsledků hledání podle určitých slov. Odkazy na nalezené dokumenty pak budou seřazeny sestupně podle největšího počtu výskytu těchto slov. Slova, na něž má být při řazení kladen důraz, mohou být slova z dotazu nebo je možné použít další termíny upřesňující dotaz. V rozhraní pro rozšířené hledání (zde angl. Power Search) u NorthernLight Research si můžete vybrat zobrazení výsledků podle relevance nebo podle data. 35 Jak pracovat s webovými vyhledávacími službami http://knihovna.vsb.cz/ Nápovědy k vyhledávacím službám Většina vyhledávacích služeb poskytuje poměrně podrobné návody, jak s nimi pracovat, takže není problémem si tyto informace při vlastní práci s jednotlivými službami zjistit. Zpravidla je najdete pod nabídkou help (nápověda). Užitečné mohou být rovněž informace, které lze nalézt v dokumentech typu FAQs (angl. Frequently Asked Questions – často kladené dotazy). Výhodné je vytisknout si stránky s nápovědou a mít je po ruce vždy, když se do nějakého hledání budete chtít pustit. Zvlášť užitečná pomůcka to pro vás bude při komplikovanějším hledání, budete-li nuceni použít složitější formulaci dotazu. Díky neustálým změnám, kterými procházejí i nejpoužívanější vyhledávací nástroje, je udržování přehledu o aktuálních vyhledávacích technikách jednotlivých služeb dosti náročnou záležitostí. Změny jsou zpravidla vedeny snahou o zkvalitnění a rozšíření nabídky služeb. Mnohdy tyto novinky doprovázejí změnu majitele nebo sloučení několika služeb. Jakákoliv změna designu oblíbeného a odzkoušeného vyhledávacího nástroje by pro vás měla být signálem k opětovnému prozkoumání návodu pro práci s ním. Jinak se při dalším hledání můžete zbytečně ochudit o případné novinky usnadňující přístup k informacím na Internetu. Můžete se ovšem také dopustit chyby při formulaci dotazu a tím se rovněž připravit o odkazy na dokumenty k tématu, které hledáte. Hodnocení výsledků vyhledávání Hodnocení výsledků vyhledávání bývá často ovlivněno subjektivními představami uživatele. V případě nulového výsledku hledání nejdříve zvažte, zda jste správně zformulovali dotaz nebo se nedopustili pravopisné chyby. Zkusíte-li dotaz přeformulovat a výsledek bude přesto shodný s původním výsledkem hledání, pokuste se ještě o hledání prostřednictvím některé další vyhledávací služby. Ohromný rozvoj Internetu ani zdaleka neznamená, že na něm lze opravdu nalézt cokoliv na jakékoliv téma. Čím více budete mít předchozích zkušeností se zdroji na Internetu i s hledáním, tím snadněji budete moci posoudit, zda nulový výsledek hledání skutečně znamená, že na Internetu na dané téma opravdu nic (dosud) není publikováno. Hledáte-li nějaké obecné téma, zpravidla získáte více odkazů, než budete moci využít. Může se samozřejmě stát, že nalezené dokumenty budou obsahovat zadaná slova v požadovaném vztahu, ale kvalita nalezených dokumentů bude ve skutečnosti velmi nízká. Bohužel se to stává často, ale z hlediska kvality obsahu si musí vždy každý uživatel nalezené odkazy vyhodnotit sám. V tom vám v naprosté většině případů samy vyhledávací nástroje příliš nebudou nápomocny, protože ty mohou většinou vyhodnotit jen formální relevanci dokumentů. Určité hodnocení kvality sice nabízejí recenzované zdroje ve virtuálních knihovnách, ale ty registrují relativně malé množství zdrojů, buď populárních v celosvětovém měřítku nebo v určité oblasti, na kterou jsou specializovány, a proto je stěží můžete využít pro úzce specializované hledání nebo pro vyhledávání zdrojů dostupných na českém Internetu. Jak ovlivňují výsledky hledání vyhledávací služby Vzhledem k tomu, že služby založené na fulltextovém indexování pracují s rozsáhlými texty dokumentů v přirozeném jazyce, musí se uživatelé při hodnocení výsledků vyhledávání v určitých případech sami vyrovnat s některými jazykovými problémy ovlivňujícími výsledky hledání. Používané statisticko-pravděpodobnostní metody vyhledávacích systémů totiž při zpracování takového množství zdrojů nemohou vždy uspokojivě vyřešit některé jazykové problémy, jako jsou například polysémie, synonymie, dvojznačnost apod. Takže se občas 36 Jak pracovat s webovými vyhledávacími službami http://knihovna.vsb.cz/ nejspíš stane, že se hledaná slova skutečně v textu budou vyskytovat a vyjadřovat dokonce hlavní téma dokumentu. Sám dokument se přesto bude zabývat něčím jiným, než vámi hledaným tématem. Řada slov má totiž dva nebo dokonce více významů. Kromě toho záleží význam slov i na tom, v jakém kontextu jsou použita.Vyhledávací nástroj by měl tedy porozumět významu slov, nejen hledat pravopisně shodné termíny. Očekávat něco podobného od webových vyhledávacích služeb však není možné. Tyto služby jsou založeny především na tom, že určují relevanci na základě výskytu slov uvedených v dotazu v textech dokumentů. Předpokládá se tedy: Čím vyšší počet výskytů těchto slov dokument obsahuje, tím je větší pravděpodobnost, že se zabývá hledaným tématem. Jestliže při formulaci svého dotazu použijete přirozený jazyk, pak nejjednodušší postup systému spočívá v tom, že vyhledávací program spojí klíčová slova v dotazu operátorem OR nebo AND podle toho, jaké je standardní nastavení dané vyhledávací služby. Pokud použijete sami určité možnosti pro logické spojení zadaných slov (znaménka plus, minus, dvojité uvozovky) podle vlastního uvážení, částečně tím obejdete standardní algoritmus daného systému. Můžete tím získat větší kontrolu nad zpracováním svého dotazu. Bude ovšem záležet na tom, zda máte dostatečné zkušenosti a znalosti, aby tento postup vedl k lepšímu výsledku, než jaký vám nabídne standardní vyhledávací algoritmus a třídící mechanismus systému. Jak probíhá setřídění výsledků hledání V první fázi zpracování dotazu systém vyhledá dokumenty, jež obsahují zadaná klíčová slova v požadovaném vztahu. Další postup spočívá zpravidla v tom, že systém setřídí výsledky tak, aby odkazy zobrazené ve výsledcích na prvních místech co nejvíce odpovídaly dotazu. Program se tedy snaží odhadnout, které dokumenty jsou nejvhodnější. Vyhledávací algoritmy si ovšem služby přísně střeží, ačkoliv (nebo snad právě proto?) z pohledu uživatele jde o jednu z nejdůležitějších funkcí vyhledávacích nástrojů. Lze se tedy jen dohadovat, na základě čeho, jsou vlastně odkazy setřiďovány. K faktorům, které na seřazení mají vliv, patří především kombinace těchto kritérií: • četnost výskytu slov z dotazu v dokumentu (čím více, tím lépe), • počet výrazů v dotazu, jež se shodují s nalezeným dokumentem (u těch služeb, jež používají standardně operátor OR), • váha podle pole, v němž se ve zdrojovém kódu výrazy vyskytují (například slovům v názvech dokumentů je přikládán větší význam), • vzájemná blízkost slov v dokumentech, • současný výskyt příbuzných slov a různých pravopisných variant, • pořadí slov v dotazu uživatele apod. Při vyhodnocování nalezených odkazů hraje roli také oblíbenost a vysoká návštěvnost zdrojů, berou se v úvahu i způsoby chování uživatelů, kteří kladli podobné nebo stejné dotazy. Do hry občas vstupují i komerční zájmy apod. Hlavní zásady při vyhledávání informací Při hledání byste neměli zapomenout na několik zásad: • Věnujte pozornost správné volbě klíčových slov a frází. V tomto případě pro vás budou užitečné především předchozí zkušenosti z práce s internetovými zdroji, ale nejen s nimi. 37 Jak pracovat s webovými vyhledávacími službami • • • • • • • • • • http://knihovna.vsb.cz/ Všímejte si proto, jaké výrazy v dokumentech nejlépe vystihují vaše potřeby a představy o tom, co chcete hledáním nalézt. Při formulaci dotazu používejte synonyma, příbuzné výrazy i různé pravopisné tvary slov. Například: colour OR color, sulphur OR sulfur apod. Vyhledávací služby pracují s obsahem dokumentů vytvářených přirozeným jazykem a ten pochopitelně není nijak lexikálně řízen. Použitá slovní zásoba zcela závisí na autorech dokumentů. Pečlivě zkontrolujte správnost pravopisu použitých klíčových slov i správnost formulace dotazu. Před zadáním příkazu k hledání, tj. před kliknutím na tlačítko hledej nebo search (nebo také submit, seek apod.) pečlivě zkontrolujte správnost pravopisu u všech slov, jež jste vepsali do formuláře. Pozornost věnujte také správnosti dotazu, pokud pro hledání použijete složitější formulaci (zápis booleovských nebo distančních operátorů, použití závorek a dalších možností konstrukce dotazu v souladu s pravidly dané vyhledávací služby). Pravopisné chyby nebo nesprávná formulace dotazu bývají častou příčinou neúspěšného hledání. Vyvarujte se používání stop-slov. Při formulaci dotazu pamatujte na to, že není vhodné používat pro hledání některé obecné výrazy a slova, tzv. stop slova. Pokud je odpovědí na váš dotaz nulový výsledek, pak v případě, že hledáte téma, o němž víte, že se na Internetu vyskytuje, a pokud jste se nedopustili chyby v pravopisu nebo ve formulaci dotazu, zkontrolujte, zda váš dotaz neobsahoval právě některé z nejpravděpodobnějších stop-slov. Pokud ano, vyřaďte je z dotazu a zkuste příkaz k hledání zadat znovu. Pokud se váš dotaz, na který jste obdrželi nulový výsledek, skládal z více klíčových slov, můžete si jednoduše vyzkoušet, zda některé z nich není právě stop slovem. Použijte každé z nich jako samostatný dotaz. Nulový výsledek jako odpověď na některé ze slov s největší pravděpodobností znamená, že jste narazili právě na stop-slovo. Je proto nezbytné dotaz přeformulovat. Pokud byl stop-slovem některý frekventovaný výraz, který je ovšem nezbytný pro vyjádření tématu vašeho dotazu, je vhodné jej použít ve frázi. Pro hledání českých zdrojů nepoužívejte jen české vyhledávací služby, ale také velké celosvětové vyhledávací stroje. Dávejte pozor na standardní nastavení vyhledávacích služeb. Při hledání si vždy ověřte, jakou standardní funkci pro spojování zadaných výrazů v základní nabídce jednotlivé služby používají. Používejte pokročilých metod vyhledávání a rozhraní pro pokročilé hledání. Při formulaci vyhledávacího dotazu je vhodné využívat všech možností, které vyhledávací služby nabízejí pro spojení klíčových slov nebo frází do vztahů odpovídajících cíli hledání. Nespokojte se jen s jediným hledáním. Vyzkoušejte různé formulace dotazu i různé služby. Poznejte velmi dobře několik nejvýznamnějších vyhledávacích nástrojů a ty pro hledání používejte. Nezapomeňte však na to, že se i vyhledávací nástroje vyvíjejí a mění a že se může objevit i zcela nová kvalitní vyhledávací služba. Sledujte proto občas novinky i z této oblasti. Nejste-li zkušenými uživateli Internetu, raději se vyhněte metahledačům. Hlavním problémem při práci s meta-hledači je, že musíte poměrně jednoduše zformulovat svůj dotaz vzhledem k tomu, že je rozeslán ke zpracování vyhledávacím službám s rozdílnou syntaxí dotazu a někdy také s odlišnou interpretací shodných vyhledávacích prvků. Buďte opatrní při posuzování nalezených zdrojů. Nezapomeňte na to, že byste je měli hodnotit stejně (spíše však více) kriticky jako tištěné dokumenty. 38 Jak pracovat s webovými vyhledávacími službami http://knihovna.vsb.cz/ Jak mohou autoři HTML dokumentů ovlivnit jejich vyhledání Tvorba webových dokumentů souvisí také s problémem jejich hledání a nalézání. Proto by jejich autoři měli využívat všech možností, které jim nabízí jazyk HTML. Jednou z cest je odpovídajícím způsobem použitý prvek dokumentu – jeho název (ve zdrojovém kódu párová značka – tag – TITLE). Budete-li pozorně sledovat webové dokumenty, všimnete si asi často, že jejich tvůrci buď úplně zapomínají názvy dokumentů vytvořit nebo je formulují nevhodným způsobem (například Home Page, Welcome, Vítejte, Domovská stránka…, New Page apod.). Názvy dokumentů by měly být stručné, jednoduché a měly by vystihovat obsah konkrétního dokumentu. Každý dokument, který je součástí webového sídla (angl. website), by měl mít vlastní název, který ho odlišuje od ostatních stránek, jež jsou spolu s ním součástí daného webového sídla. Název dokumentu je totiž významným prvkem nejen pro vyhledávací nástroje, ale je důležitý také pro práci s oblíbenými položkami, pro offline prohlížení, ukládání webových dokumentů apod. Velmi důležitou roli hrají také názvy hypertextových odkazů, které jsou součástí webových dokumentů, ať už jde o odkazy, jež jsou hlavními navigačními prvky pro pohyb po celé struktuře webového sídla, nebo další odkazy, jež jsou součástí informací obsažených v dokumentech. Názvy těchto odkazů by neměly být zbytečně dlouhé, protože mohou mj. zhoršit čitelnost textu. Hypertextovým odkazem by tedy měly být pouze nejdůležitější výrazy, které jsou nositeli informace o tom, kam – k jakým dalším informacím – odkaz vede. Názvy odkazů by samozřejmě měly být výstižné – nejen proto, aby přitáhly pozornost uživatele, který stránky právě navštívil. Na názvech odkazů by si autoři webových dokumentů měli dát záležet také proto, že jde o prvek dokumentu, který má velký význam při hledání informací prostřednictvím vyhledávacích služeb. Názvy odkazů patří totiž mezi ty části dokumentu, jež se načítají do databází vyhledávacích služeb. Z tohoto pohledu je zřejmé, jak nesmyslné jsou odkazy typu „klikněte zde“, „jděte tudy“ apod. Takovéto výrazy mají pro hledání informací, ke kterým odkaz vede, nulovou hodnotu. Navíc v případě prvního z uvedených odkazů je to dvojnásobný nesmysl: poklepáním myší se přece po Webu nepohybují ani zdaleka všichni uživatelé. Význam pro hledání informací na Internetu mají samozřejmě i další prvky v dokumentech, například nadpisy (angl. headings) nebo značka META. Tento prvek je součástí zdrojového kódu dokumentu HTML a informace v něm uvedené se v prohlížeči nezobrazují. Na rozdíl od standardních značek HTML nemá prvek META ani vliv na způsob zobrazení dokumentu v prohlížeči, nýbrž poskytuje doplňující informace o dokumentu a o jeho obsahu prostřednictvím klíčových slov. Závěr Při práci se síťovými zdroji je nutné nezapomínat na to, že Internet je jen jedním z mnoha prostředí, kde lze hledat a nalézat informace. Pro určitý účel mohou být zdroje na Internetu velmi užitečné, zatímco pro jiný naprosto bezcenné. Při hledání informací na určité téma je proto vhodné kombinovat zdroje na Internetu s ostatními (klasickými) zdroji. Nejen proto, že informace na Internetu mohou být pochybné kvality, ale především proto, že v síti není ani zdaleka vše k dispozici. Chcete-li hledat a úspěšně nalézat zajímavé a užitečné zdroje, musíte se tedy nejdříve alespoň s některými z nesčetných možností, které orientaci v záplavě dokumentů a služeb usnadňují, seznámit. Nejjednodušším způsobem je začít hledat – nejlépe témata, která jsou vám blízká. Při jejich hledání budete schopni nejsnáze posoudit nejen to, zda jste hledali správně, ale zároveň i možnosti, které vám pro vaši práci (nebo zábavu) Internet nabízí. 39
Podobné dokumenty
Www poprvé - Masarykovo gymnázium Plzeň
nebo zadáním klíčových slov. K nejznámějším vyhledávacím serverům patří např. www.yahoo.com,
www.altavista.com, www.google.com, www.lycos.com z českých potom www.seznam.cz, www.atlas.cz
Zde - Od rozvoje znalostí k inovacím
Google mi nenabídl relevantní výsledky, neumím španělsky a oficiální vládní stránky Kuby se moc svým dluhem nechlubí. Jaká
organizace by mohla mít dostupné relevantní informace o všech zemích světa...
Skripta Informatika pro veřejnou správu 2
jsou pro dnešní potřeby příliš zastaralé a určitě nebude možné na nich používat nejmodernější
operační systém. U procesorů nás zajímá hlavně jeho rychlost udávaná v MHz nebo v GHz.
Dnešní standard ...
Výroční zpráva Národní Technické Knihovny 2011
se blíží 430 tisícům, do knihovny tak přijde denně více než 1 400
návštěvníků, kteří tu stráví v průměru takřka dvě hodiny. Letos jsme
jim nabídli – a hned s velkým úspěchem – čtečky elektronických...
bizers vize svět
vazby příbuzné – hesla spolu souvisí, ale ve struktuře se nachází na různých
místech.
Termíny tvořící provázanou strukturu pro nás samozřejmě mají mnohem větší
hodnotu než samostatná hesla. Určují ...
Úvod do Maplu 7
distančního vzdělávání společně s ostatním softwarem na CD-ROM.
Dříve než se budeme věnovat informačním technologiím pro symbolické výpočty, tak si
připomeňme, jak chápeme výpočty na počítačích, kt...
stav drogové problematiky v evropě
11. výroční zpráva Evropského monitorovacího centra
pro drogy a drogovou závislost je letos k dispozici ve
23 evropských jazycích. Při pohledu na zprávy, které
agentura za roky své působnosti vydal...
Satisfakce 04/2008 - Unie pro rozhodčí a mediační řízení ČR
Pokud by se na tato centra pozornost zaměřila,
děkujeme vám za účast - Od rozvoje znalostí k inovacím
Význam pojmu citační etika přesně popsal Petr Boldiš (3, s.5):
„Citační etika vyžaduje, aby autor zveřejnil veškeré informační prameny,
které použil pro svoji práci tak, aby je bylo možné identifik...