2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
今天來說一下Hadoop框架是什么這方面的一些訊息,不少朋友對Hadoop框架是什么這方面的一些訊息頗感興趣的,小編今天就整理了一些信息,希望對有需要的朋友有所幫助。
Hadoop是一個(gè)開源軟件框架,用于在商用硬件集群上存儲(chǔ)數(shù)據(jù)和運(yùn)行應(yīng)用程序。它為任何類型的數(shù)據(jù)提供海量存儲(chǔ),巨大的處理能力以及處理幾乎無限的并發(fā)任務(wù)或作業(yè)的能力。
Hadoop 是一個(gè)開源軟件框架,用于在商用硬件集群上存儲(chǔ)數(shù)據(jù)和運(yùn)行應(yīng)用程序。它為任何類型的數(shù)據(jù)提供海量存儲(chǔ),巨大的處理能力以及處理幾乎無限的并發(fā)任務(wù)或作業(yè)的能力。
隨著萬維網(wǎng)在 20 世紀(jì)后期和 21 世紀(jì)初的發(fā)展,創(chuàng)建了搜索引擎和索引,以幫助在基于文本的內(nèi)容中定位相關(guān)信息。在早期,搜索結(jié)果由人類返回。但隨著網(wǎng)絡(luò)從幾十頁增長到數(shù)百萬頁,需要自動(dòng)化。創(chuàng)建了網(wǎng)絡(luò)爬蟲,其中許多是大學(xué)主導(dǎo)的研究項(xiàng)目,搜索引擎初創(chuàng)公司起飛(雅虎,AltaVista 等)。
其中一個(gè)項(xiàng)目是一個(gè)名為 Nutch 的開源網(wǎng)絡(luò)搜索引擎 – Doug Cutting 和 Mike Cafarella 的創(chuàng)意。他們希望通過在不同計(jì)算機(jī)之間分配數(shù)據(jù)和計(jì)算來更快地返回 Web 搜索結(jié)果,從而可以同時(shí)完成多個(gè)任務(wù)。在此期間,另一個(gè)名為 Google 的搜索引擎項(xiàng)目正在進(jìn)行中。它基于相同的概念 – 以分布式,自動(dòng)化的方式存儲(chǔ)和處理數(shù)據(jù),以便更快地返回相關(guān)的 Web 搜索結(jié)果。
2006 年,Cutting 加入了雅虎并帶來了 Nutch 項(xiàng)目以及基于谷歌早期工作的想法,自動(dòng)化分布式數(shù)據(jù)存儲(chǔ)和處理。Nutch 項(xiàng)目被劃分 – 網(wǎng)絡(luò)爬蟲部分仍然是 Nutch,分布式計(jì)算和處理部分變成了 Hadoop(以 Cutting 的兒子的玩具大象命名)。2008 年,雅虎發(fā)布了 Hadoop 作為開源項(xiàng)目。今天,Hadoop 的框架和技術(shù)生態(tài)系統(tǒng)由非盈利的 Apache 軟件基金會(huì)(ASF)管理和維護(hù),ASF 是一個(gè)由軟件開發(fā)人員和貢獻(xiàn)者組成的全球社區(qū)。
為什么 Hadoop 很重要?
能夠快速存儲(chǔ)和處理大量任何類型的數(shù)據(jù)。隨著數(shù)據(jù)量和品種的不斷增加,特別是來自社交媒體和物聯(lián)網(wǎng)(IoT),這是一個(gè)關(guān)鍵考慮因素。
計(jì)算能力。Hadoop 的分布式計(jì)算模型可以快速處理大數(shù)據(jù)。您使用的計(jì)算節(jié)點(diǎn)越多,您擁有的處理能力就越強(qiáng)。
容錯(cuò)。數(shù)據(jù)和應(yīng)用程序處理可防止硬件故障。如果節(jié)點(diǎn)發(fā)生故障,作業(yè)將自動(dòng)重定向到其他節(jié)點(diǎn),以確保分布式計(jì)算不會(huì)失敗。自動(dòng)存儲(chǔ)所有數(shù)據(jù)的多個(gè)副本。
靈活性。與傳統(tǒng)的關(guān)系數(shù)據(jù)庫不同,您不必在存儲(chǔ)數(shù)據(jù)之前對其進(jìn)行預(yù)處理。您可以根據(jù)需要存儲(chǔ)盡可能多的數(shù)據(jù),并決定以后如何使用它。這包括非結(jié)構(gòu)化數(shù)據(jù),如文本,圖像和視頻。
低成本。開源框架是免費(fèi)的,使用商用硬件來存儲(chǔ)大量數(shù)據(jù)。
可擴(kuò)展性。只需添加節(jié)點(diǎn),您就可以輕松擴(kuò)展系統(tǒng)以處理更多數(shù)據(jù)。需要很少的管理。
Hadoop 有哪些挑戰(zhàn)?
MapReduce 編程并不適合所有問題。這對于簡單的信息請求和可以分成獨(dú)立單元的問題是有益的,但對迭代和交互式分析任務(wù)來說效率不高。MapReduce 是文件密集型的。由于除了通過排序和混洗之外,節(jié)點(diǎn)不相互通信,因此迭代算法需要多個(gè) map-shuffle / sort-reduce 階段才能完成。這會(huì)在 MapReduce 階段之間創(chuàng)建多個(gè)文件,對于高級分析計(jì)算來說效率很低。
有一個(gè)廣為人知的人才缺口。很難找到具有足夠 Java 技能的入門級程序員,以便通過 MapReduce 提高工作效率。這就是分銷商正在競相將關(guān)系(SQL)技術(shù)置于 Hadoop 之上的原因之一。找到具有 SQL 技能而不是 MapReduce 技能的程序員要容易得多。而且,Hadoop 管理似乎是部分藝術(shù)和部分科學(xué),需要對操作系統(tǒng),硬件和 Hadoop 內(nèi)核設(shè)置的低級知識。
數(shù)據(jù)安全。另一個(gè)挑戰(zhàn)是圍繞分散的數(shù)據(jù)安全問題,盡管新的工具和技術(shù)正在浮出水面。Kerberos 身份驗(yàn)證協(xié)議是使 Hadoop 環(huán)境安全的重要一步。
完善的數(shù)據(jù)管理和治理。Hadoop 沒有易于使用的全功能工具來進(jìn)行數(shù)據(jù)管理,數(shù)據(jù)清理,治理和元數(shù)據(jù)。特別缺乏的是數(shù)據(jù)質(zhì)量和標(biāo)準(zhǔn)化的工具。
一個(gè)有趣的事實(shí):“Hadoop”是一個(gè)黃色玩具大象的名字,由其一位發(fā)明家的兒子擁有。
以上就是關(guān)于Hadoop框架是什么對比這方面的一些信息了 小編整理的這些訊息希望對童鞋們有所幫助。
2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。