日本精品无码一区二区三区久久久,99久久国产综合色婷婷,7777精品伊人久久久大香线蕉,人人妻人人澡人人爽人人dvd,久久精品中文字幕

對(duì)Hadoop和ApacheSPark的選擇哪個(gè)更好

IT資訊 2019/5/31

我相信你和我一樣讀過(guò)這篇文章,對(duì)Hadoop和ApacheSPark的選擇有一些疑問(wèn)。在今天查閱了大量的信息之后,讓我們來(lái)談?wù)勥@兩個(gè)平臺(tái)的比較和選擇,看看哪一個(gè)更適合工作和發(fā)展。
大數(shù)據(jù):Hadoop還是Spark?
一、Hadoop與Spark
1.Spark
SMACK是一個(gè)快速通用的集群計(jì)算平臺(tái)。在速度方面,Spark擴(kuò)展了廣泛使用的MapReduce計(jì)算模型,有效地支持更多的計(jì)算模型,包括交互式查詢和流處理。
星火項(xiàng)目包含許多緊密集成的組件。spark的核心是一個(gè)計(jì)算引擎,它調(diào)度、分發(fā)和監(jiān)視由多臺(tái)工作機(jī)器或計(jì)算集群上運(yùn)行的許多計(jì)算任務(wù)組成的應(yīng)用程序。
2.Hadoop
Hadoop是ApacheFoundation開發(fā)的分布式系統(tǒng)基礎(chǔ)設(shè)施。用戶可以在不了解分布式底層細(xì)節(jié)的情況下開發(fā)分布式程序。充分利用集群的功率進(jìn)行高速運(yùn)行和存儲(chǔ).Hadoop框架的核心設(shè)計(jì)是HDFS和MapReduce。HDFS為海量數(shù)據(jù)提供存儲(chǔ),而MapReduce則為海量數(shù)據(jù)提供計(jì)算。
二、異與同
解決問(wèn)題的層面不一樣
首先,Hadoop和ApacheSirk都是大數(shù)據(jù)框架,但它們的存在有著不同的目的。Hadoop本質(zhì)上是一種分布式數(shù)據(jù)基礎(chǔ)設(shè)施:它將龐大的數(shù)據(jù)集分發(fā)到一個(gè)普通計(jì)算機(jī)集群中的多個(gè)節(jié)點(diǎn),這意味著您不需要購(gòu)買和維護(hù)昂貴的服務(wù)器硬件。同時(shí),Hadoop將對(duì)這些數(shù)據(jù)進(jìn)行索引和跟蹤,使大型數(shù)據(jù)的處理和分析效率達(dá)到了前所未有的高水平。火花,是一種用來(lái)處理大數(shù)據(jù)的分布式存儲(chǔ),它不存儲(chǔ)分布式數(shù)據(jù)。
兩者可合可分
Hadoop提供了一個(gè)名為mapreduce的數(shù)據(jù)處理函數(shù),以及我們都同意的HDFS分布式數(shù)據(jù)存儲(chǔ)函數(shù)。因此,我們可以單獨(dú)使用SPark,并使用Hadoop自己的MapReduce來(lái)處理數(shù)據(jù)。
相反,星火并不一定要附在Hadoop上才能生存。但如上所述,它畢竟沒(méi)有提供文件管理系統(tǒng),因此必須與其他分布式文件系統(tǒng)集成才能工作。在這里,我們可以選擇Hadoop的HDF或其他基于云的數(shù)據(jù)系統(tǒng)平臺(tái)。但是SPark在默認(rèn)情況下仍然是在Hadoop上使用的,畢竟,每個(gè)人都認(rèn)為他們的組合是最好的。
順便說(shuō)一句,什么是MapReduce:我們需要清點(diǎn)圖書館里所有的書。你數(shù)書架1,我數(shù)書架2。這是地圖。我們擁有的人越多,我們就越快地?cái)?shù)書?,F(xiàn)在讓我們一起匯總所有的統(tǒng)計(jì)數(shù)據(jù)。這是減少。
火花數(shù)據(jù)處理速度輕松擊敗MapReduce
Spark比MapReduce快得多,因?yàn)樗幚頂?shù)據(jù)的方式不同。MapReduce通過(guò)步驟來(lái)處理數(shù)據(jù)步驟:"從集群中讀取數(shù)據(jù),處理一次,將結(jié)果寫入集群,從集群中讀取更新后的數(shù)據(jù),處理下一次,將結(jié)果寫入集群等。"BoozAllenHamilton的數(shù)據(jù)科學(xué)家Kirk Borne像這樣解析數(shù)據(jù)。
另一方面,Spark將在接近“實(shí)時(shí)”的時(shí)間內(nèi)完成內(nèi)存中的所有數(shù)據(jù)分析:“從集群中讀取數(shù)據(jù),完成所有必要的分析和處理,將結(jié)果寫回集群,完成它,”Born說(shuō)。SPark的批處理速度比MapReduce快近10倍,內(nèi)存中數(shù)據(jù)分析的速度快近100倍。如果需要處理的數(shù)據(jù)和結(jié)果要求大部分是靜態(tài)的,并且您有耐心等待批處理完成,那么MapReduce是完全可以接受的。
但是,如果需要對(duì)對(duì)流數(shù)據(jù)進(jìn)行分析,例如由工廠傳感器收集的數(shù)據(jù),或者如果應(yīng)用程序需要多個(gè)數(shù)據(jù)處理,則可能需要使用火花進(jìn)行處理。大多數(shù)機(jī)器學(xué)習(xí)算法需要多個(gè)數(shù)據(jù)處理。此外,通常會(huì)用到Spark的應(yīng)用場(chǎng)景有以下方面:實(shí)時(shí)的市場(chǎng)活動(dòng),在線產(chǎn)品推薦,網(wǎng)絡(luò)安全分析,機(jī)器日記監(jiān)控等。
Recovery 恢復(fù)
災(zāi)難恢復(fù)的兩種方法是完全不同的,但是它們是非常好的。因?yàn)镠adoop將處理過(guò)的數(shù)據(jù)寫入磁盤,所以它天生就能夠抵御系統(tǒng)錯(cuò)誤。Spark的數(shù)據(jù)對(duì)象存儲(chǔ)在稱為彈性分布式數(shù)據(jù)集的數(shù)據(jù)集群中?!斑@些數(shù)據(jù)對(duì)象可以放在內(nèi)存或磁盤中,因此RDD還可以提供完整的災(zāi)難恢復(fù)功能?!?/div>
三、學(xué)哪個(gè)?
事實(shí)上,正如你所知,Spark是大數(shù)據(jù)行業(yè)的一顆新星。與Hadoop相比,Spark有很多優(yōu)點(diǎn)。Hadoop在大數(shù)據(jù)行業(yè)中得到了很好的認(rèn)可,主要是因?yàn)椋?/div>
Hadoop解決了大數(shù)據(jù)的可靠存儲(chǔ)和處理問(wèn)題。
Hadoop的開源,讓很多大數(shù)據(jù)從業(yè)者從中找到靈感,方便實(shí)用;
Hadoop已開發(fā)多年,具有完整的生態(tài)系統(tǒng)。
HDFS在普通PC上提供高可靠的文件存儲(chǔ),并通過(guò)存儲(chǔ)多個(gè)塊副本來(lái)解決服務(wù)器或硬盤損壞的問(wèn)題。
MapReduce通過(guò)簡(jiǎn)單Mapper和Reducer的抽象提供了一個(gè)模型,它可以在數(shù)十到數(shù)百臺(tái)PC機(jī)的不可靠集群上以分布式方式處理大量數(shù)據(jù)集,同時(shí)具有并發(fā)性。計(jì)算細(xì)節(jié),如分布式和故障恢復(fù)是隱藏的。
Hadoop也有許多局限性和缺點(diǎn)。一般來(lái)說(shuō),在數(shù)據(jù)量增加的情況下,Hadoop的計(jì)算速度會(huì)變得越來(lái)越困難。雖然Hadoop目前在大數(shù)據(jù)產(chǎn)業(yè)中的應(yīng)用頻率仍然很高,但在幾年后數(shù)據(jù)量上升幾個(gè)數(shù)量級(jí)時(shí),也不難想象Hadoop所面臨的困境。Spark的計(jì)算速度比Hadoop快1%甚至更快,因此在未來(lái),Spark將不可避免地取代Hadoop,主宰大數(shù)據(jù)產(chǎn)業(yè)。
所以你可以跳過(guò)Hadoop,只需要學(xué)習(xí)火花?當(dāng)然不是,原因如下:
在現(xiàn)階段,Hadoop仍然占據(jù)著大數(shù)據(jù)領(lǐng)域的主導(dǎo)地位,我們可以學(xué)習(xí)先進(jìn)的技術(shù),但也為了現(xiàn)階段的就業(yè)目的,就現(xiàn)階段而言,大數(shù)據(jù)必須學(xué)習(xí)Hadoop。
MapReduce有許多值得學(xué)習(xí)的經(jīng)典思想,對(duì)我們理解大數(shù)據(jù)非常有幫助。
確切地說(shuō),SPark正在取代Hadoop中的MapReduce,而不是Hadoop,Hadoop是一個(gè)工具包,而SPark,就像MapReduce一樣,只是一個(gè)工具。
結(jié)論:
如果你在算法工程領(lǐng)域,學(xué)習(xí)Hadoop和Spark。如果你是一個(gè)大數(shù)據(jù)研究員,那么你應(yīng)該精通這兩種類型。所以,這里的建議是,對(duì)于那些對(duì)ML和大數(shù)據(jù)的發(fā)展感興趣的人來(lái)說(shuō),你可以遵循Java-Hadoop-Skar的路徑。如果你有C++和SQL的基礎(chǔ),學(xué)習(xí)曲線就不會(huì)特別陡峭。對(duì)于spark,學(xué)習(xí)一點(diǎn)scala會(huì)更有幫助。

中國(guó)· 上海

谷谷二維碼
添加微信咨詢

CopyRight?2009-2019 上海谷谷網(wǎng)絡(luò)科技有限公司 All Rights Reserved. 滬ICP備11022482號(hào)-8  

關(guān)于我們 | 聯(lián)系我們