Co je Hadoop
Transkript
3.12.2013 Hadoop a HDFS Bc. Milan Nikl Co je Hadoop: • • • • www.company.com Open-Source Framework Vyvíjený Apache Software Foundation Pro ukládání a zpracovávání velkých objemů dat Big Data – trojrozměrný růst dat (3V) • • • Objem (Volume) – množství dat se zvyšuje Typ (Variety) – roste různorodost Rychlost (Velocity) – zrychluje se vytváření dat – roste potřeba rychlé analýzy (real time) Vývoj Hadoopu: www.company.com • • • • Vyvíjen od r. 2006 04.09.2007 – verze 0.14.1 27.12.2011 – verze 1.0.0 15.10.2013 – verze 2.2.0 • • Odvozený od Google File System (GFS) Založený na programovacím modelu MapReduce Struktura Hadoopu: www.company.com Komponenty Hadoopu: 1. MapReduce - přehled • • • • • www.company.com Framework zajišťující distribuci a paralelizaci úloh Dělí komplexní úlohy (Job) na dílčí (Task) Dále obstarává veškerou komunikaci a datové přenosy Řeší redundantní ukládání aktuálně zpracovávaných dat a s tím související problematiku přidávání a odebírání uzlů Sort dat v objemu PB za pár hodin Komponenty Hadoopu: 1. MapReduce - princip • • • • www.company.com Snaha je dostat výpočet co nejblíže datům – minimalizuje zbytečné přenosy JobTracker (Master) • • Přijímá úkoly od klienta Rozděluje tasky, monitoruje, obnovuje TaskTracker (Slave) • • vykoná zadanou úlohu a vrátí odpověď Každý task se spouští na nové JVM Z jednotlivých odpovědí slave uzlů se sestavuje odpověď na původní dotaz Komponenty Hadoopu: 1. MapReduce - princip • • • www.company.com Uživatel řeší pouze co se s daty děje, nikoli jak se to dělá. Tedy: Funkci Map() • • Vybere z dat relevantní údaje Dvojice <Klíč, hodnota> Funkci Reduce() • • • Nad vybranými údaji provádí nějaký výpočet Obvykle nějaká forma analýzy, statistiky, atd. Vrátí opět <Klíč, hodnota> ale jiný typ – např. výsledek statistiky Komponenty Hadoopu: 2. HDFS - vlastnosti • • • • • • • www.company.com Distribuovaný, škálovatelný souborový systém Vysoce odolný proti chybám Velká míra redundance – nevyžaduje RAID Navržený pro použití na běžném HW Naprogramovaný v Javě Využívá TCP/IP pro komunikaci Pro práci vzdálené volání procedur (RPC) Komponenty Hadoopu: 2. HDFS - struktura www.company.com Komponenty Hadoopu: 2. HDFS - struktura • • www.company.com Řídící prvek - Namenode (Master) • • • • Spravuje FS namespace, mapuje bloky 64MB Řídí požadavky klientů Otevření, uzavření, přejmenování souboru Obsahuje všechna metadata Pracující prvky – Datanode (Slave) • • • • • Zařizuje práci s bloky podle instrukcí Čtení, zápis, vytváření a mazání bloků Zajišťuje replikaci bloků Standard jsou 3 repliky na blok HeartBeat, BlockReport Komponenty Hadoopu: 2. HDFS – Bezpečnost • • • • www.company.com Namenode zaznamenává všechny změny do EditLogu • Vytváření souborů, ale i změna replikace Popis celého FS namespace uložen v souboru FsImage na Namenode Checkpoint • • • • Namenode načte EditLog a FsImage Provede změny popsané v EditLogu Vytvoří nové verze souborů Zatím pouze při startu Snapshoty Komponenty Hadoopu: 2. HDFS – omezení a výhody • • • • • • www.company.com Nejedná se o klasický FS – fyzický mount pod OS není možný Jde o použití FUSE Zaměřený na čtení dat – u většiny se předpokládá, že se nebudou měnit Nevhodný pro potřeby vícenásobného současného zápisu souborů /trash – možnost obnovení souborů (6h) Používá Java API, ale pomocí Thrift API lze používat i v jiných jazycích Komponenty Hadoopu: 3. Hive • • • • • www.company.com Použití SQL-like dotazů nad daty v HDFS Vlastní jazyk HQL Převádí dotazy na MapReduce úlohy Oproti SQL značně omezen (pouze čtení, vyšší latence) Vytvořen ve Facebooku Komponenty Hadoopu: 4. Pig • • • • www.company.com Vyvinut společností Yahoo! Pro jednoduché analyzování rozsáhlých dat – paralelizaci neřeší uživatel Používá vlastní jazyk Pig Latin • • • Zaměřen na jednoduchost psaní kódu Struktura kódu umožňuje dobrou čitelnost, udržovatelnost a snadnou optimalizaci Snadno rozšiřitelný Převádí Pig Latin na MapReduce úlohy Komponenty Hadoopu: 5. Mahout • • Knihovna pro strojové učení Základní typy úloh: • • • • www.company.com Recommendation mining – analyzuje chování uživatele a provádí doporučení Clustering – seskupuje obsahově podobné dokumenty Klasifikace neoznačených dokumentů Frequent itemset mining – analyzuje výskyt určitých objektů – které položky se nejčastěji vyskytují společně – např. nákupní košík Komponenty Hadoopu: 6. Cassandra • • • • • • • • www.company.com Alternativa k HDFS NoSQL databázový systém Využívá decentralizaci a replikaci dat Odolnost proti poruchám a výpadkům Výkonný, přesto přizpůsobitelný systém Adaptabilní – snadná rozšiřitelnost V praxi používá např. Ebay, Twitter Největší Cluster 300 TB na 400 strojích Komponenty Hadoopu: 7. HBase • • • • • www.company.com Sloupcově orientovaný přístup Vhodné pro náhodný Read/Write přístup k Big Datům Nadstavba nad HDFS, která umožňuje práci s rozsáhlými tabulkami (mld x mil) Není relační databázový systém, ani nepodporuje SQL Postavena na Javě, psána podobně jako MapReduce Podporované FS: • • • • • www.company.com Amazon S3 filesystem – používané u clusterů založených na Amazon Cloudu FTP file servery – ukládání dat na vzdálené servery HTTP a HTTPS file systémy – pouze pro čtení Teoreticky provozovatelný na jakémkoli distribuovaném FS podporujícím file:// URL Hrozí ale ztráta výkonnosti Významní uživatelé: • • • • www.company.com Ebay • 532 Nodů v clusteru, 8x532 jader, 5,3 PB Facebook • • 1100 Nodů, 8800 jader, 12 PB 300 Nodů, 2400 jader, 3 PB Spotify • 690 Nodů, 8280 jader, 28 PB Yahoo! • • • Přes 40000 počítačů 4500 Nodů, 36000 jader, 18 PB Přes 60% tvoří Pig Použití Hadoop: • • • • • www.company.com Nativní řešení pouze pro linuxové distribuce (nejčastěji Red Hat, CentOS) Na windows přes Cygwin Příp. přes WMware Základní verze od ASF X Enterprise řešení různých firem (IBM, HortonWorks, Cloudera, Oracle, …) Závěrem: Děkuji za pozornost. www.company.com Zdroje: • • • • • www.company.com http://hadoop.apache.org/ http://www.linuxexpres.cz/software/kdyzse-rekne-hadoop http://www.systemonline.cz/clanky/bigdata.htm http://www01.ibm.com/software/data/infosphere/bigi nsights/ http://en.wikipedia.org/wiki/Hadoop a další odkazy zde nalezené
Podobné dokumenty
DIVIZE SOLUTION SALES AND DELIVERY
Strategie cloudových služeb
Možnosti nasazení cloudových služeb v rámci firmy
Spektrum dnes dostupných cloudových služeb nabízí obrovský potenciál pro zvýšení efektivity IT služeb koncovým uživatel...
Dostupné škálovateľné riešenia pre spracovanie veľkého objemu
obsahujúcim už dané zmeny. GFS bol navrhnutý tak, aby údaje do neho nahraté už neboli
nikdy vymazané (toto je možné dosiahnuť aj pridaním časových značiek k súborom),
pretože podľa Google je jednod...
stáhout - Sophia Solutions
které obsahují velké datové sady.
Cassandra – nejedná se o souborový
systém, ale o NoSQL (klíč-hodnota) úložiště. Cassandra je vhodnou alternativou
k HDFS v aplikacích, které vyžadují rychlý
přístu...
Licenční modely TSM křížem krážem
Licence je dle množství dat v záloze (obecné pravidlo zní: zálohovaná
data x 3 s uvažovanou deduplikací)
Počet dat v záloze: 3 x 2 TB = 6TB
Cena za 1 TB: 2377 EUR
Cena za licence celkem = 2377 x 6 ...
Specifikace Název: Capybaras vs. Crocodiles Jazyk: C# Platforma
Specifikace: Hra ve Windows na námět Worms (2D) s pár úpravami. Stále se bude jedna o tahovou
bitvu „červíků“ různých týmů, ale budou rozděleni do dvou frakcí, přibude například boj o území
v podob...
Predmluva - Zborník konferencie ITAT 2016
boty předzpracováno a reprezentováno tak, aby v něm byla
možná rychlá navigace. Pro tento účel se v UT04 reprezentuje prostředı́ jako orientovaný graf navigačnı́ch bodů.
Mı́sta, která...