apache hadoop是什么

apache hadoop是一套用于在由通用硬件構建的大型集群上運行應用程序的框架。它實現了map/reduce編程范型,計算任務會被分割成小塊(多次)運行在不同的節點上。

apache hadoop是什么

除此之外,它還提供了一款分布式文件系統(HDFS),數據被存儲在計算節點上以提供極高的跨數據中心聚合帶寬。

框架作用

Apache Hadoop大數據歸屬的新選擇

物理DAS仍然是Apache Hadoop最好的存儲介質,因為相關的高水平的專業和業務的公司的都是經過研究和實踐來確定存儲介質。但這樣基于HDFS的Apache Hadoop數據儲存卻有很大的問題。

首先,默認方案是所有Apache Hadoop資料進行復制,移動,然后備份。HDFS是基于Apache Hadoop大數據塊的I/O優化,省去了Apache Hadoop數據交互的時間。以后的使用通常意味著Apache Hadoop數據復制出來。盡管有本地快照,但他們并不完全一致或時間點不完全可恢復。

對于這些和其他原因,企業存儲廠商聰明的將HDFS做改變,一些技術狂人類型的大數據專家使Apache Hadoop計算利用外部存儲。但對許多企業來說,Apache Hadoop提供了一個很好的妥協:無需高維護存儲或存儲新的維護方式的適應,但這有一定的成本。

許多Apache Hadoop供應商,提供對Apache Hadoop集群遠程HDFS的接口,是生意量比較大的Apache Hadoop企業首選。因為他們將是在isilon里,進行任何其他Apache Hadoop數據處理大數據的保護,其中包括Apache Hadoop安全和其他問題。另一個好處是,在外部存儲的數據通常可以訪問其他Apache Hadoop協議的儲存,支持工作流和限制數據的傳輸和企業內需要的數據副本。Apache Hadoop也基于這樣的原理處理大數據,一個大的數據參考架構,結合一個組合的存儲解決方案,直接進入Apache Hadoop集群。

另外值得一提的是,虛擬化Apache Hadoop大數據分析。理論上,所有計算和存儲節點可以都可以進行虛擬化。VMware和RedHat/OpenStack有Hadoop的虛擬化解決方案。然而,幾乎所有的Apache Hadoop主機節點不能解決企業的存儲問題。它模擬Apache Hadoop計算方面使企業把現有的數據集——SAN/NAS——加速和轉儲到它Apache Hadoop的HDFS的覆蓋之下。在這種方式中,Apache Hadoop大數據分析可以做到一個數據中心的數據沒有任何變動,從而使用新的Apache Hadoop存儲架構和新的數據流或數據管理的所有變化。

大多數Apache Hadoop分布都是從近Apache Hadoop的開源HDFS(目前軟件定義的存儲大數據)開始,區別是Apache Hadoop采取了不同的方法。這基本上就是企業Apache Hadoop所需存儲,從而建立自己的兼容存儲層在Apache Hadoop HDFS上。MAPR版本是完全有能力處理I/O快照復制的支持,Apache Hadoop同時和原生支持的其他協議兼容,如NFS。Apache Hadoop也非常有效,并有助于主要提供企業業務智能應用程序,運行決策支持解決方案依賴于大數據的歷史和實時信息。類似的想法,IBM已經出爐的高性能計算系統存儲API為Apache Hadoop發行版作為一種替代HDFS

另一個Apache Hadoop有趣的解決方案可以幫助解決數據的問題。一個是dataguise,數據安全啟動,能切實有效地保護Apache Hadoop的大數據集的一些獨特的IP,Apache Hadoop可以在一個大的數據聚類自動識別和全局覆蓋或加密敏感資料。水平線數據科學是這個領域的新興技術,如果你連線登陸你的數據文件到Apache Hadoop,無論數據在哪里,即使是HDFS,Apache Hadoop都將自動儲存。Apache Hadoop 大數據提供的產出物有助于快速建立商業應用,利用數據的來源和位置來統計商業所需的資料。

如果你一直持有Apache Hadoop的管理或企業數據中心存儲的興趣,這是一個好時機去update自己對Apache Hadoop大數據的了解,如果你想跟得上Apache Hadoop大數據的腳步,就不應該拒絕Apache Hadoop新技術的應用。

更多Apache相關技術文章,請訪問Apache使用教程欄目進行學習!

? 版權聲明
THE END
喜歡就支持一下吧
點贊7 分享