什么是第方的操Hadoop?
Hadoop是一個(gè)開(kāi)源的分布式存儲和計算??框架,它可以在大規模數據集上進(jìn)行高效的引入分布式處理,Hadoop的作方核心組件包括HDFS(Hadoop Distributed FileSystem)和??MapRed(′?ω?`)uce,HDF(′?ω?`)S是第方的操一個(gè)高度容錯的分布式文件系統,可以在廉價(jià)的引??入硬件上提供高吞吐量的數據訪(fǎng)問(wèn),MapReduce是作方一種編程模( ???)型,??用于處理和生成大型數據集,第方的操通過(guò)將計算任務(wù)(wu)分布到集群中的引入多個(gè)節點(diǎn)上,Hadoop可以有ヽ(′▽?zhuān)?ノ效地處理大量數據。作方
如何安裝Hadoop?第方的操
1、下載Hadoop安裝包
從A??pache Hadoop官網(wǎng)下載相應版本的引入(′?_?`)Hadoop安裝包:https://hadoop.apache.org/releases.html
2、解壓安裝包
將??下載的作方壓縮包解壓到指定目錄,/usr/local/hadoop
3、第方??的操配置環(huán)境變量
編輯~/.bashrc文件,引入添加以下內容:
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/s??bin
然后執行source ~/.bash??rc使配置生效。作方
4、配置Hadoop
編輯$HADOOP_HOME/etc/ha(╬?益?)doop/corヾ(′▽?zhuān)??e-site.xml文件(jian),添加以下內容:
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property&(T_T)gt;</configuration&gヽ(′?`)ノt;
編輯$HADOOP_HOME/etc/hadoop/hdfs-site.xml文件,添加以下內容:
&??lt;configuration>??; <property> <name>??dfs.??replication</name> <value>1</value> </prop??erty></configuration>
5、格式化HDFS
$HADOOP_HOME/bin/hdfs namenode -format
6、啟動(dòng)Hadoop集群
執行以下命令啟動(dòng)Hadoop集群:
$HADOOP_HOME/sbin/start-all.sh
7、驗證Hadoop??是否安裝成功
執行以下命令查看Hadoop集群(qun)狀態(tài):
$H(╯°□°)╯ADOOP_HOM(?????)E/??bin/jps
如果看到NameNode、DataNode等進(jìn)程,則說(shuō)明Hadoop安裝成功。
如何引入第三方j(luò )ar包?
在Hadoop中引入第三方j(luò )ar包有兩種方法:一種是將jar包復制到Hadoop的lib目錄下???;另一種是使用Hadoop的類(lèi)加載器機制動(dòng)態(tài)加載ja??r包,下面分別介紹??這兩種方法。
1、將jar包復制(zhi)到Hadoop的lib目錄下
將需要引入的第三方j(luò )ar包復制到Hadoop的lib目錄下,/usr/local/hadoop/lib,在運行MapReduce作業(yè)時(shí),使用-libjars參數指定需要加載的jar包,
$HADOO(′ω`)P_HOME/bin/hadoop jar $HADOOP_HOME/share/hadoop/tools/lib/hadoop-streaming-??*.jar -files hdfs://local(′;ω;`)ho??st:9000/user/input.txt -files hdfs://localhost:9000/user/output.txt -mapper "python my_mappe(′▽?zhuān)?r.py" -reducer "python my_r?educer.py" -inputformat org.apache.hadoop.mapred.TextInputFormat -outputformat org.apache.hadoop.mapred.TextOutputFormat -jobconf mapred.job.name="my_job" -libjars /usr/l??ocal/hadoop/lib/*.jar -verbose hdfs://localhost:9000/user/my_job_output2、使用Hadoop的類(lèi)加載器機制動(dòng)態(tài)加載jar包
在運行MapReduce作業(yè)時(shí),可以使用??-archives參數指定需要加載(zai)的jar包,
$HADOOP_HOME/b( ?° ?? ?°)in/hadoop jar $H??ADOOP_HOME/share??/hadoop/(′-ι_-`)tools/lib/??had(′▽?zhuān)?oop-streaming-*.jar -files hdfs://localhost:9000/user/input.txt?? -files hdfs://localhost:9000/user/outp(?Д?)ut.txt -mapper "python my_mapper.py" -re( ?° ?? ?°)ducer "python my_??reducer.py" -inputformat org.apache.hadoop.mapred.TextInputFormat -outputformat org.apache.hadoop.mapred.TextOutput(???)Format -jobconf mapred.job.ヽ(′▽?zhuān)?ノn??ame="my_job" -archives hdf(′?`)s(′ω`*)://localhost:9000/user/my_job_input.zip,hdfs://localhost:9000/user/my_job_output.zip -verbose hdfs://localho??st:9000/user/(???)my_jヾ(′?`)?ob_output
hdfs://localh??ost:9000/user/my_job_input.zip和hdfs://localhost:9000/user/my_job_output.zip分別是需要加載的兩個(gè)jar包,它們的路徑可以是本地文件系統或者??HDFS上的路徑,注意,這兩個(gè)jar包必須是zip格式。


網(wǎng)站二維碼
導航
電話(huà)
短信
咨詢(xún)
地圖
分享