Cloudera的開(kāi)源Apache Spark引擎發(fā)行版上運行的Cloud Dataflow版本

2019-11-02 10:20:40    來(lái)源:    作者:

谷歌去年6月宣布將Cloud Dataflow作為一項托管服務(wù),旨在幫助公司以批處理和實(shí)時(shí)流模式提取和分析海量數據集。去年12月,該公司向開(kāi)源社區發(fā)布了Cloud Dataflow軟件開(kāi)發(fā)套件,以鼓勵軟件開(kāi)發(fā)人員編寫(xiě)易于與托管服務(wù)以及其他執行環(huán)境集成的應用程序。

這一舉措的結果之一是在Cloudera的開(kāi)源Apache Spark引擎發(fā)行版上運行的Cloud Dataflow版本,用于大規模數據處理。Cloudera和Google于1月20日宣布了新的Dataflow“運行程序” ,開(kāi)發(fā)人員將可以將Dataflow管道作為目標,以便在云托管或本地Spark集群以及Google托管服務(wù)上執行。

Cloud Dataflow最引人注目的方面之一是它對可以同時(shí)執行批處理和流模式的流水線(xiàn)邏輯的支持,Cloudera數據科學(xué)高級總監Josh Wills在該公司的博客中宣布了這一新發(fā)展。

Wills說(shuō),Cloud Dataflow的流傳輸功能比Spark Streaming所提供的先進(jìn),而其批處理執行引擎可優(yōu)化不處理流數據的管道的性能。

Cloud Dataflow結合了Google多年來(lái)在內部用于大型數據處理的幾種主要技術(shù),包括MapReduce,FlumeJava批處理引擎和MillWheel流處理引擎。谷歌云平臺團隊的產(chǎn)品經(jīng)理埃里克·施密特(Eric Sc??hmidt)說(shuō):“數據流是我們對數據處理技術(shù)的綜合投資。” 他說(shuō):“從開(kāi)發(fā)人員的角度來(lái)看,它是一種編程模型和一種托管服務(wù)。”

Google去年12月發(fā)布的Cloud Dataflow SDK為開(kāi)發(fā)人員提供了一種編寫(xiě)結合了批處理和流處理功能的大數據應用程序的方式,而無(wú)需使用單獨的編程模型或單獨的基礎結構來(lái)運行它們。

施密特說(shuō):“他們以前必須做的是運行一個(gè)不同的SDK。” 他說(shuō):“您要么讓一組用戶(hù)執行靜態(tài)的MapReduce批處理作業(yè),要么就擁有另一個(gè)陣營(yíng)[進(jìn)行流分析]。” 他說(shuō):“我們希望將批處理和流合并,并擁有一個(gè)組合的服務(wù)基礎架構”,以同時(shí)運行這兩種服務(wù)。

他說(shuō),Google于12月將SDK發(fā)布到開(kāi)源社區,以確保將Dataflow也移植到其他執行環(huán)境。他說(shuō),Cloudera Apache Spark的發(fā)布是Google考慮到Dataflow方向的一個(gè)例子。

Google首次宣布Dataflow時(shí)的關(guān)鍵問(wèn)題之一是,使用該編程模型的開(kāi)發(fā)人員是否會(huì )被鎖定在Google基礎架構中以運行其管道。施密特說(shuō):“我們的策略是將SDK擴展到開(kāi)源,以便他們可以將其擴展到其他環(huán)境。”

他說(shuō),隨著(zhù)周二的宣布,Cloud Dataflow現在可以在Google的基礎架構,Spark集群或本地計算機上運行。

Google的舉動(dòng)旨在更好地將公司定位于服務(wù)和技術(shù)的新興市場(chǎng),以幫助企業(yè)從海量數據集中提取業(yè)務(wù)價(jià)值。多年來(lái),許多公司在從事務(wù)處理系統,點(diǎn)擊流,系統日志,機器傳感器,移動(dòng)設備和其他來(lái)源中收集各種數據方面已經(jīng)做得更好。但是,由于傳統數據庫管理技術(shù)的局限性以及為大數據集構建數據處理基礎架構所涉及的復雜性,他們一直在努力從中獲取價(jià)值。

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時(shí)間聯(lián)系我們修改或刪除,多謝。