Jak nainstalovat Hadoop Single Node Cluster (Pseudonode) na CentOS 7

Hadoop je rámec s otevřeným zdrojovým kódem, který se široce používá k řešení Bigdata. Většina Bigdata/analýza dat projekty se staví na vrcholu Eko-systém Hadoop. Skládá se ze dvou vrstev, jedna je pro Ukládání dat a další je pro Zpracování dat.

Úložný prostor se o něj postará vlastní souborový systém s názvem HDFS (Distribuovaný souborový systém Hadoop) a zpracovává se postará se o PŘÍZE (Ještě jeden vyjednavač zdrojů). Mapreduce je výchozí procesor pro zpracování souboru Eko-systém Hadoop.

Tento článek popisuje proces instalace Pseudonoda instalace Hadoop, kde všechny démoni (JVMs) poběží Jeden uzel Cluster on CentOS 7.

Toto je hlavně pro začátečníky, aby se naučili Hadoop. V reálném čase, Hadoop bude nainstalován jako klastr s více uzly, kde budou data distribuována mezi servery jako bloky a úloha bude provedena paralelně.

Předpoklady

  • Minimum instalace serveru CentOS 7.
  • Vydání Java v1.8.
  • Stabilní vydání Hadoop 2.x.

Na této straně

  • Jak nainstalovat Javu na CentOS 7
  • Nastavte přihlášení bez hesla v CentOS 7
  • Jak nainstalovat jeden uzel Hadoop v CentOS 7
  • Jak konfigurovat Hadoop v CentOS 7
  • Formátování systému souborů HDFS pomocí NameNode

Instalace Javy na CentOS 7

1.Hadoop je ekosystém, ze kterého se skládá Jáva. Potřebujeme Jáva nainstalován v našem systému povinně k instalaci Hadoop.

# yum nainstalovat java-1.8.0-openjdk. 

2. Dále ověřte nainstalovanou verzi Jáva na systému.

# java -verze. 
Ověření verze Java
Ověření verze Java

Konfigurujte přihlášení bez hesla v CentOS 7

Musíme mít v našem počítači nakonfigurovaný ssh, Hadoop bude spravovat uzly pomocí SSH. Hlavní uzel používá SSH připojení k připojení svých podřízených uzlů a provádění operací jako start a stop.

Musíme nastavit ssh bez hesla, aby master mohl komunikovat s otroky pomocí ssh bez hesla. Jinak pro každé navázání připojení je třeba zadat heslo.

V tomto jediném uzlu Mistr služby (Namenode, Sekundární Namenode & Správce zdrojů) a Otrok služby (Datanode & Nodemanager) poběží samostatně JVMs. I když je to jediný uzel, potřebujeme k vytvoření ssh bez hesla Mistr komunikovat Otrok bez autentizace.

3. Nastavte přihlašování SSH bez hesla pomocí následujících příkazů na serveru.

# ssh-keygen. # ssh-copy-id -i localhost. 
Vytvořte SSH Keygen v CentOS 7
Vytvořte SSH Keygen v CentOS 7
Zkopírujte klíč SSH do CentOS 7
Zkopírujte klíč SSH do CentOS 7

4. Jakmile nakonfigurujete přihlášení SSH bez hesla, zkuste se přihlásit znovu, budete připojeni bez hesla.

# ssh localhost. 
SSH Přihlášení bez hesla do CentOS 7
SSH Přihlášení bez hesla do CentOS 7

Instalace Hadoop v CentOS 7

5. Přejděte na web Apache Hadoop a stáhněte si stabilní verzi Hadoop pomocí následujícího příkaz wget.

# wget https://archive.apache.org/dist/hadoop/core/hadoop-2.10.1/hadoop-2.10.1.tar.gz. # tar xvpzf hadoop-2.10.1.tar.gz. 

6. Dále přidejte Hadoop proměnné prostředí v ~/.bashrc soubor podle obrázku.

HADOOP_PREFIX =/root/hadoop-2.10.1. PATH = $ PATH: $ HADOOP_PREFIX/bin. export PATH JAVA_HOME HADOOP_PREFIX. 

7. Po přidání proměnných prostředí do ~/.bashrc soubor, zdrojový soubor a ověřte Hadoop spuštěním následujících příkazů.

# zdroj ~/.bashrc. # cd $ HADOOP_PREFIX. # bin/hadoop verze. 
Zkontrolujte verzi Hadoop v CentOS 7
Zkontrolujte verzi Hadoop v CentOS 7

Konfigurace Hadoop v CentOS 7

Abychom se vešli do vašeho počítače, musíme níže konfigurační soubory Hadoop nakonfigurovat. v Hadoop, každá služba má své vlastní číslo portu a vlastní adresář pro ukládání dat.

  • Konfigurační soubory Hadoop-core-site.xml, hdfs-site.xml, mapred-site.xml & yarn-site.xml

8. Nejprve musíme aktualizovat JAVA_HOME a Hadoop cesta v hadoop-env.sh soubor podle obrázku.

# cd $ HADOOP_PREFIX/etc/hadoop. # vi hadoop-env.sh. 

Na začátek souboru zadejte následující řádek.

export JAVA_HOME =/usr/lib/jvm/java-1.8.0/jre. export HADOOP_PREFIX =/root/hadoop-2.10.1. 

9. Dále upravte core-site.xml soubor.

# cd $ HADOOP_PREFIX/etc/hadoop. # vi core-site.xml. 

Vložte následující mezi značky podle obrázku.

fs.defaultFShdfs: // localhost: 9000

10. Vytvořte níže uvedené adresáře pod tecmint domovský adresář uživatele, pro který bude použit NN a DN úložný prostor.

# mkdir -p/home/tecmint/hdata/ # mkdir -p/home/tecmint/hdata/data. # mkdir -p/home/tecmint/hdata/name.

10. Dále upravte hdfs-site.xml soubor.

# cd $ HADOOP_PREFIX/etc/hadoop. # vi hdfs-site.xml. 

Vložte následující mezi značky podle obrázku.

dfs.replication1dfs.namenode.name.dir/home/tecmint/hdata/namedfs .datanode.data.dirhome/tecmint/hdata/data

11. Znovu upravte mapred-site.xml soubor.

# cd $ HADOOP_PREFIX/etc/hadoop. # cp mapred-site.xml.template mapred-site.xml. # vi mapred-site.xml. 

Vložte následující mezi značky podle obrázku.

mapreduce.framework.namepříze

12. Nakonec upravte příze-site.xml soubor.

# cd $ HADOOP_PREFIX/etc/hadoop. # vi yarn-site.xml. 

Vložte následující mezi značky podle obrázku.

yarn.nodemanager.aux-servicesmapreduce_shuffle

Formátování systému souborů HDFS pomocí NameNode

13. Před spuštěním Shluk, musíme formátovat Hadoop NN v našem místním systému, kde byl nainstalován. Obvykle se to provede v počáteční fázi před prvním spuštěním clusteru.

Formátování souboru NN způsobí ztrátu dat v NN metastore, takže musíme být opatrnější, neměli bychom formátovat NN pokud je cluster spuštěn, pokud to není vyžadováno záměrně.

# cd $ HADOOP_PREFIX. # bin/hadoop namenode -format. 
Formátujte systém souborů HDFS
Formátujte systém souborů HDFS

14. Start NázevNode démon a DataNode démon: (port 50070).

# cd $ HADOOP_PREFIX. # sbin/start-dfs.sh. 
Spusťte NameNode a DataNode Daemon
Spusťte NameNode a DataNode Daemon

15. Start ResourceManager démon a NodeManager démon: (port 8088).

# sbin/start-yarn.sh. 
Spusťte ResourceManager a NodeManager Daemon
Spusťte ResourceManager a NodeManager Daemon

16. Zastavit všechny služby.

# sbin/stop-dfs.sh. # sbin/stop-dfs.sh. 
souhrn

souhrn
V tomto článku jsme prošli procesem krok za krokem k nastavení Hadoop Pseudonode (Jeden uzel) Shluk. Pokud máte základní znalosti Linuxu a budete postupovat podle těchto kroků, cluster bude UP za 40 minut.

To může být pro začátečníka velmi užitečné, když se začne učit a cvičit Hadoop nebo tato vanilková verze Hadoop lze použít pro účely vývoje. Pokud chceme mít klastr v reálném čase, buď potřebujeme mít alespoň 3 fyzické servery v ruce, nebo musíme zřídit Cloud pro více serverů.

Teachs.ru