大數據引發思考 Hadoop如何走得更遠？_新聞臺

　　存儲技術已經發展和成熟起來，並開始在許多數據中心處於近乎商品的地位。然而，今天的企業面臨着存儲技術的不斷變化帶來的諸多問題一個例子是推動大數據分析，一項給大型數據集帶來商業智慧BI功能的舉措。

　　大數據分析過程需要如下超出典型存儲範式的能力─典型存儲範式，簡而言之，即傳統的存儲技術，如SAN、NAS和其它無法在本地處理伴隨着大數據的挑戰而來的TB級和PB級的非結構化信息的存儲技術。除此之外，成功的大數據分析需要更多的東西種新的處理大容量數據的方法，換言之，一種新的存儲平臺。

　　Hadoop是一個開源項目，它提供了處理大數據的平臺。雖然Hadoop的出現已經有一段時日了，但是很多企業現在才開始使用Hadoop。

　　Hadoop平臺旨在解決海量數據引起的問題，尤其是那些混合了複雜、非結構化、結構化信息的數據，這些數據的結構導致其不適合存儲在表中。 Hadoop在需要支持深度和計算廣泛的分析比如集群和定位的情況下運作良好。那麼Hadoop對那些尋求充分利用大數據的IT專業人員意味着什麼？簡單的回答是Hadoop解決了與大數據相關聯的最常見的問題：高效的存儲和訪問海量數據。

　　Hadoop的內在設計允許其作為一個能夠在大量不共享任何內存和磁盤的計算機之間工作的平臺運行。考慮到這一點，就能很容易看到Hadoop如何提供額外的價值網絡管理員可以簡單的購買許多商品服務器，將它們放在機架上，然後在每台服務器上運行Hadoop軟體。

　　更何況，Hadoop有助於減少大型數據集相關聯的管理開銷。在操作上，一旦企業的數據加載到了Hadoop平臺，軟體就會把數據分解成可管理的片段，然後自動將這些數據分配給不同的服務器。數據天然的分佈式性質意味着從單一的服務器訪問數據是不可能的。Hadoop跟蹤數據駐留的位置，並通過創建多個存儲副本進一步保護這些信息。這樣，系統的伸縮性增強了：如果某個服務器脫機或者失敗了，數據可以自動複製已知的正常副本。

　　Hadoop如何走得更遠？

　　Hadoop進一步分多個步驟處理數據。例如，限制關聯傳統的、集中式的數據庫系統，該數據庫系統可能包括了連接到具有多個處理器的服務器級系統的大型磁盤驅動器。在這種情況下，由於磁盤的性能限制，數據分析是有限的，並且，最終還要忍受可購買的處理器數量。

　　在部署了Hadoop後，集群中的每個服務器都可以通過Hadoop傳播分佈在集群中的數據的功能參與數據的處理過程。換句話説，一個索引作業向集群中的每個服務器發送代碼，然後每個服務器在屬於自己的一塊數據上進行相關操作，隨後處理結果作為一個整體交付。有了Hadoop，過程被視為 MapReduce，在MapReduce中，代碼和進程被映射到了所有的服務器上而操作結果被減少到了單個數據集上。

　　Hadoop之所以能夠處理海量數據就是因為這個過程。Hadoop傳播數據並且能夠利用所有的可用集群處理器並行工作來處理複雜計算問題。