微軟PolyBase打響SQL Server和Hadoop整合第一槍

我們一直強調,大數據和傳統的關系數據庫并不對立,未來公司的的業務將會是大數據和關系型數據庫的整合。微軟的PolyBase打響了SQL Server和Hadoop整合的第一槍。 在2012年度的SQL Server(PASS)峰會(SQL Server專業人士的技術會議)上,微軟公布了代碼名為

我們一直強調,大數據和傳統的關系并不對立,未來公司的的業務將會是大數據和關系型的整合。微軟的polybase打響了sql server和hadoop整合的第一槍。

在2012年度的SQL Server(PASS)峰會(SQL Server專業人士的技術會議)上,微軟公布了代碼名為”PolyBase”的新功能。微軟鮮明地闡述了未來大數據和傳統的關系數據庫的緊密聯系。微軟或許不是第一個試圖整合關系型數據庫和Hadoop的公司,但毫無疑問將會是最具沖擊力的一個。

PolyBase 將于 2013 年上半年中發布,作為SQL PDW 的下一個版本的一部分。PDW是SQL Server數據倉庫的一體機。Polybase 允許使用SQL (結構化查詢語言)直接查詢存儲在Hadoop的數據,甚至可以和本地的關系型的表進行join的操作(如下圖所示)?

微軟PolyBase打響SQL Server和Hadoop整合第一槍

PolyBase的吸引力在于它的兩個特點

1.在第一階段PolyBase支持使用SQL語言對HDFS進行查詢, 第二階段Polybase將引進基于成本的優化器。優化器基于性能分析,可以決定是否利用MapReduce進行查詢或者直接使用SQL對HDFS進行查詢. 請注意當前類SQL的Hadoop應用象Hive,Pig或著Sqoop都是依賴于MapReduce的分布式計算引擎來抽取數據。直接訪問HDFS被認為具有更好的性能和效率。當然這只是總體而言,某些查詢用MapReduce可能效率更高些,例如如果源數據的量太大的時候,不用MapReduce來抽取這些數據會導致讀取端較大的負擔。所以PolyBase必須有較好的優化器來決定最優的查詢計劃,這是PolyBase第二階段主要工作

2.雖然PolyBase目前首先只在SQL Server PDW出現,但它極有可能也集成到下一個版本的 SQL Server里面.
整合SQL Server和Hadoop將給一些BI應用帶來難以想象的廣闊前景。試想一下你的報表和分析服務將會是一個數據源獨立的應用,可以隨心所欲地從Hadoop或者關系數據庫里面抽取數據并搭建商業智能應用。商業智能的領域將會變得更廣更實用。雖然微軟沒有正式承諾PolyBase除了PDW也會出現在下個版本的SQL Server里面,但我想不出微軟不這么做的理由。在未來的企業里面,大數據將會和關系數據庫整合在一起,成為企業數據系統的一部分。PolyBase已經邁出了第一步。

? 版權聲明
THE END
喜歡就支持一下吧
點贊8 分享