Nainstalujte Hadoop Multinode Cluster pomocí CDH4 v RHEL/CentOS 6.5

Hadoop je open source programovací rámec vyvinutý Apache pro zpracování velkých dat. Používá HDFS (Distribuovaný souborový systém Hadoop) distribučním způsobem uložit data napříč všemi datanody v clusteru a model mapreduce zpracovat data.

Nainstalujte Hadoop Multinode Cluster do CentOS
Nainstalujte Hadoop Multinode Cluster

Namenode (NN) je hlavní démon, který ovládá HDFS a Jobtracker (JT) je hlavní démon pro engine mapreduce.

Požadavky

V tomto tutoriálu používám dva CentOS 6.3 VM 'mistr' a 'uzel‘Viz. (hlavní a uzel jsou moje jména hostitelů). „Hlavní“ IP je 172.21.17.175 a IP uzlu je „172.21.17.188‘. Následující pokyny také fungují RHEL/CentOS 6.x verze.

Na mistra
[[chráněno emailem] ~]# název hostitele mistr
[[chráněno emailem] ~]# ifconfig | grep 'inet addr' | head -1 inet addr:172.21.17.175 Bcast: 172.21.19.255 Maska: 255.255.252.0
Na uzlu
[[chráněno emailem] ~]# název hostitele uzel
[[chráněno emailem] ~]# ifconfig | grep 'inet addr' | head -1 inet addr:172.21.17.188 Bcast: 172.21.19.255 Maska: 255.255.252.0

Nejprve se ujistěte, že jsou tam všichni hostitelé klastru ‘/Etc/hosts‘Soubor (na každém uzlu), pokud nemáte nastavený DNS.

Na mistra
[[chráněno emailem] ~]# cat /etc /hosts 172.21.17.175 master. 172.21.17.188 uzel
Na uzlu
[[chráněno emailem] ~]# cat /etc /hosts 172.21.17.197 qabox. 172.21.17.176 Ansible-Ground

Instalace clusteru Hadoop Multinode v CentOS

Používáme oficiální CDH úložiště k instalaci CDH4 na všech hostitelích (hlavní a uzel) v klastru.

Krok 1: Stáhněte si Instalovat úložiště CDH

Přejít na oficiální Stažení CDH stránku a uchopte CDH4 (tj. 4.6) nebo můžete použít následující wget příkaz ke stažení úložiště a jeho instalaci.

Na RHEL/CentOS 32bitové
# wget http://archive.cloudera.com/cdh4/one-click-install/redhat/6/i386/cloudera-cdh-4-0.i386.rpm. # yum --nogpgcheck localinstall cloudera-cdh-4-0.i386.rpm
Na RHEL/CentOS 64bitové
# wget http://archive.cloudera.com/cdh4/one-click-install/redhat/6/x86_64/cloudera-cdh-4-0.x86_64.rpm. # yum --nogpgcheck localinstall cloudera-cdh-4-0.x86_64.rpm

Před instalací Hadoop Multinode Cluster přidejte do svého úložiště veřejný GPG klíč Cloudera spuštěním jednoho z následujících příkazů podle architektury vašeho systému.

## na 32bitovém systému ## # rpm -import http://archive.cloudera.com/cdh4/redhat/6/i386/cdh/RPM-GPG-KEY-cloudera
## na 64bitovém systému ## # rpm -import http://archive.cloudera.com/cdh4/redhat/6/x86_64/cdh/RPM-GPG-KEY-cloudera

Krok 2: Nastavení JobTracker & NameNode

Dále spusťte následující příkaz k instalaci a nastavení JobTracker a NameNode na hlavní server.

[[chráněno emailem] ~]# yum vyčistit vše [[chráněno emailem] ~]# yum install hadoop-0.20-mapreduce-jobtracker
[[chráněno emailem] ~]# yum vyčistit vše. [[chráněno emailem] ~]# yum install hadoop-hdfs-namenode

Krok 3: Nastavení uzlu sekundárního jména

Znovu spusťte následující příkazy na hlavním serveru a nastavte uzel sekundárního názvu.

[[chráněno emailem] ~]# yum vyčistit vše [[chráněno emailem] ~]# yum install hadoop-hdfs-secondarynam

Krok 4: Nastavení Tasktracker & Datanode

Dále nastavte tasktracker a datanode na všech hostitelích clusteru (Node) kromě hostitelů JobTracker, NameNode a Secondary (nebo Standby) NameNode (v tomto případě na uzlu).

[[chráněno emailem] ~]# yum vyčistit vše. [[chráněno emailem] ~]# yum install hadoop-0.20-mapreduce-tasktracker hadoop-hdfs-datanode

Krok 5: Nastavení klienta Hadoop

Klienta Hadoop můžete nainstalovat na samostatný počítač (v tomto případě jsem jej nainstaloval na datanode, můžete jej nainstalovat na jakýkoli počítač).

[[chráněno emailem] ~]# yum install hadoop-client

Krok 6: Nasazení HDFS na uzly

Nyní, když jsme hotovi s výše uvedenými kroky, přejděme k nasazení hdfs (bude provedeno na všech uzlech).

Zkopírujte výchozí konfiguraci do /etc/hadoop adresář (na každém uzlu v klastru).

[[chráněno emailem] ~]# cp -r /etc/hadoop/conf.dist /etc/hadoop/conf.my_cluster
[[chráněno emailem] ~]# cp -r /etc/hadoop/conf.dist /etc/hadoop/conf.my_cluster

Použití alternativy nastavte svůj vlastní adresář následujícím způsobem (na každém uzlu v clusteru).

[[chráněno emailem] ~]# alternatives --verbose --install/etc/hadoop/conf hadoop-conf /etc/hadoop/conf.my_cluster 50. čtení/var/lib/alternatives/hadoop-conf [[chráněno emailem] ~]# alternatives --set hadoop-conf /etc/hadoop/conf.my_cluster
[[chráněno emailem] ~]# alternatives --verbose --install/etc/hadoop/conf hadoop-conf /etc/hadoop/conf.my_cluster 50. čtení/var/lib/alternatives/hadoop-conf [[chráněno emailem] ~]# alternatives --set hadoop-conf /etc/hadoop/conf.my_cluster

Krok 7: Přizpůsobení konfiguračních souborů

Nyní otevřeno 'core-site.xml„Soubor a aktualizace“fs.defaultFS”Na každém uzlu v klastru.

[[chráněno emailem] conf]# kočka /etc/hadoop/conf/core-site.xml
1.0text/xslkonfigurace.xslfs.defaultFShdfs: // mistr/
[[chráněno emailem] conf]# kočka /etc/hadoop/conf/core-site.xml
1.0text/xslkonfigurace.xslfs.defaultFShdfs: // mistr/

Další aktualizace “dfs.permissions.superusergroup" v hdfs-site.xml na každém uzlu v klastru.

[[chráněno emailem] conf]# kočka /etc/hadoop/conf/hdfs-site.xml
1.0text/xslkonfigurace.xsldfs.name.dir/var/lib/hadoop-hdfs/cache/hdfs/dfs/namedfs.permissions.superusergrouphadoop
[[chráněno emailem] conf]# kočka /etc/hadoop/conf/hdfs-site.xml
1.0text/xslkonfigurace.xsldfs.name.dir/var/lib/hadoop-hdfs/cache/hdfs/dfs/namedfs.permissions.superusergrouphadoop

Poznámka: Ujistěte se prosím, že výše uvedená konfigurace je přítomna na všech uzlech (proveďte na jednom uzlu a spusťte scp zkopírovat na zbytek uzlů).

Krok 8: Konfigurace adresářů místního úložiště

Aktualizujte „dfs.name.dir nebo dfs.namenode.name.dir“ v souboru „hdfs-site.xml“ na NameNode (na Master a Node). Změňte prosím hodnotu podle zvýraznění.

[[chráněno emailem] conf]# kočka /etc/hadoop/conf/hdfs-site.xml
dfs.namenode.name.dirsoubor: /// data/1/dfs/nn,/nfsmount/dfs/nn
[[chráněno emailem] conf]# kočka /etc/hadoop/conf/hdfs-site.xml
dfs.datanode.data.dirsoubor: /// data/1/dfs/dn,/data/2/dfs/dn,/data/3/dfs/dn

Krok 9: Vytvořte adresáře a spravujte oprávnění

Spuštěním níže uvedených příkazů vytvoříte strukturu adresářů a spravujete oprávnění uživatelů na počítači Namenode (Master) a Datanode (Node).

[[chráněno emailem]]# mkdir -p/data/1/dfs/nn/nfsmount/dfs/nn. [[chráněno emailem]]# chmod 700/data/1/dfs/nn/nfsmount/dfs/nn
[[chráněno emailem]]# mkdir -p/data/1/dfs/dn/data/2/dfs/dn/data/3/dfs/dn/data/4/dfs/dn. [[chráněno emailem]]# chown -R hdfs: hdfs/data/1/dfs/nn/nfsmount/dfs/nn/data/1/dfs/dn/data/2/dfs/dn/data/3/dfs/dn/data/4 /dfs/dn

Formátujte Namenode (na Master) zadáním následujícího příkazu.

[[chráněno emailem] conf]# sudo -u hdfs hdfs namenode -format

Krok 10: Konfigurace sekundárního uzlu názvu

Přidejte následující vlastnost do hdfs-site.xml soubor a nahraďte hodnotu, jak je uvedeno na předloze.

dfs.namenode.http-adresa172.21.17.175:50070 Adresa a port, na kterém bude uživatelské rozhraní NameNode naslouchat. 

Poznámka: V našem případě by hodnota měla být IP adresa hlavního virtuálního počítače.

Nyní nasadíme MRv1 (verze 1 pro zmenšení mapy). Otevřeno 'mapred-site.xml‘Uložte následující hodnoty podle obrázku.

[[chráněno emailem] conf]# cp hdfs-site.xml mapred-site.xml. [[chráněno emailem] conf]# vi mapred-site.xml. [[chráněno emailem] conf]# kočka mapred-site.xml
1.0text/xslkonfigurace.xslmapred.job.trackermistr: 8021

Dále zkopírujte „mapred-site.xml‘Soubor do uzlového počítače pomocí následujícího příkazu scp.

[[chráněno emailem]conf]# scp /etc/hadoop/conf/mapred-site.xml uzel:/etc/hadoop/conf/ mapred-site.xml 100% 200 0,2 kB/s 00:00

Nyní nakonfigurujte adresáře místního úložiště pro použití v démonech MRv1. Znovu otevřeno „mapred-site.xml‘Soubor a proveďte změny, jak je uvedeno níže pro každý TaskTracker.


 mapred.local.dir
 /data/1/mapred/local,/data/2/mapred/local,/data/3/mapred/local

Po zadání těchto adresářů do polemapred-site.xml‘File, musíte vytvořit adresáře a přiřadit jim správná oprávnění k souborům v každém uzlu v clusteru.

mkdir -p/data/1/mapred/local/data/2/mapred/local/data/3/mapred/local/data/4/mapred/local. chown -R mapred: hadoop/data/1/mapred/local/data/2/mapred/local/data/3/mapred/local/data/4/mapred/local

Krok 10: Spusťte HDFS

Nyní spusťte následující příkaz a spusťte HDFS na každém uzlu v clusteru.

[[chráněno emailem] conf]# pro x v `cd /etc/init.d; ls hadoop-hdfs-*`; do sudo service $ x start; Hotovo
[[chráněno emailem] conf]# pro x v `cd /etc/init.d; ls hadoop-hdfs-*`; do sudo service $ x start; Hotovo

Krok 11: Vytvořte adresáře HDFS /tmp a MapReduce /var

Je nutné vytvořit /tmp se správnými oprávněními přesně tak, jak je uvedeno níže.

[[chráněno emailem] conf]# sudo -u hdfs hadoop fs -mkdir /tmp. [[chráněno emailem] conf]# sudo -u hdfs hadoop fs -chmod -R 1777 /tmp
[[chráněno emailem] conf]# sudo -u hdfs hadoop fs -mkdir -p/var/lib/hadoop -hdfs/cache/mapred/mapred/staging. [[chráněno emailem] conf]# sudo -u hdfs hadoop fs -chmod 1777/var/lib/hadoop -hdfs/cache/mapred/mapred/staging. [[chráněno emailem] conf]# sudo -u hdfs hadoop fs -chown -R mapred/var/lib/hadoop -hdfs/cache/mapred

Nyní ověřte strukturu souboru HDFS.

[[chráněno emailem] conf]# sudo -u hdfs hadoop fs -ls -R / drwxrwxrwt -hdfs hadoop 0 2014-05-29 09:58 / tmp. drwxr-xr-x-hdfs hadoop 0 2014-05-29 09:59 /var. drwxr-xr-x-hdfs hadoop 0 2014-05-29 09:59 /var /lib. drwxr-xr-x-hdfs hadoop 0 2014-05-29 09:59/var/lib/hadoop-hdfs. drwxr-xr-x-hdfs hadoop 0 2014-05-29 09:59/var/lib/hadoop-hdfs/cache. drwxr-xr-x-mapred hadoop 0 2014-05-29 09:59/var/lib/hadoop-hdfs/cache/mapred. drwxr-xr-x-mapred hadoop 0 2014-05-29 09:59/var/lib/hadoop-hdfs/cache/mapred/mapred. drwxrwxrwt-mapred hadoop 0 2014-05-29 09:59/var/lib/hadoop-hdfs/cache/mapred/mapred/staging

Poté, co spustíte HDFS a vytvoříte „/tmp‘, Ale než spustíte JobTracker, vytvořte prosím adresář HDFS určený parametrem‘ mapred.system.dir ’(ve výchozím nastavení $ {hadoop.tmp.dir}/mapred/system a změňte vlastníka na mapred.

[[chráněno emailem] conf]# sudo -u hdfs hadoop fs -mkdir/tmp/mapred/system. [[chráněno emailem] conf]# sudo -u hdfs hadoop fs -chown mapred: hadoop/tmp/mapred/system

Krok 12: Spusťte MapReduce

Chcete -li spustit MapReduce: spusťte prosím služby TT a JT.

Na každém systému TaskTracker
[[chráněno emailem]conf]# service hadoop-0.20-mapreduce-tasktracker start Spuštění Tasktracker: [OK] spuštění tasktracker, přihlášení k /var/log/hadoop-0.20-mapreduce/hadoop-hadoop-tasktracker-node.out
Na systému JobTracker
[[chráněno emailem] conf]# service hadoop-0.20-mapreduce-jobtracker start Starting Jobtracker: [OK] spuštění jobtrackeru, přihlášení do /var/log/hadoop-0.20-mapreduce/hadoop-hadoop-jobtracker-master.out

Dále vytvořte domovský adresář pro každého uživatele hadoop. doporučujeme to udělat na NameNode; například.

[[chráněno emailem] conf]# sudo -u hdfs hadoop fs -mkdir /user /
[[chráněno emailem] conf]# sudo -u hdfs hadoop fs -chown  /user/

Poznámka: kde je uživatelské jméno Linuxu každého uživatele.

Alternativně můžete domovský adresář vytvořit následujícím způsobem.

[[chráněno emailem] conf]# sudo -u hdfs hadoop fs -mkdir /user /$ USER. [[chráněno emailem] conf]# sudo -u hdfs hadoop fs -chown $ USER /user /$ USER

Krok 13: Otevřete JT, NN UI z prohlížeče

Otevřete prohlížeč a zadejte URL jako http://ip_address_of_namenode: 50070 pro přístup do Namenode.

Rozhraní Hadoop NameNode
Rozhraní Hadoop NameNode

Otevřete v prohlížeči další kartu a zadejte URL jakohttp://ip_address_of_jobtracker: 50030 pro přístup k JobTracker.

Hadoop Mapa/Omezení správy
Hadoop Mapa/Omezení správy

Tento postup byl úspěšně testován na RHEL/CentOS 5.X/6.X. Pokud se při instalaci setkáte s jakýmikoli problémy, podělte se prosím o komentář níže, s řešením vám pomůžu.

Teachs.ru