Google使軟件開(kāi)發(fā)人員更容易編寫(xiě)應用程序并將其與其Cloud Dataflow托管服務(wù)集成,以處理大型數據集。該公司于12月18日向開(kāi)源社區發(fā)布了一個(gè)用于Cloud Dataflow的Java軟件開(kāi)發(fā)套件,該套件描述為旨在推動(dòng)圍繞該技術(shù)的應用程序開(kāi)發(fā)的工作。

Google軟件工程師Sam McVeety在博客中表示,將SDK開(kāi)源后,其想法還在于幫助開(kāi)發(fā)人員將Cloud Dataflow移植到其他語(yǔ)言和其他服務(wù)執行環(huán)境。
McVeety寫(xiě)道:“可重用的編程模式是提高開(kāi)發(fā)人員效率的關(guān)鍵因素。” 他說(shuō):“ Cloud Dataflow SDK引入了用于批處理和流數據處理的統一模型”,開(kāi)發(fā)人員可以通過(guò)創(chuàng )新的新方式加以利用。
McVeety說(shuō):“我們期待著(zhù)共同構建一個(gè)系統,該系統能夠為所有背景的用戶(hù)提供分布式數據處理。”
谷歌在6月的Google I / O會(huì )議上宣布了Cloud Dataflow,這是一項托管服務(wù),可幫助企業(yè)實(shí)時(shí)和以批處理方式提取和分析大量數據集。
該公司將 Cloud Dataflow 描述為基于MapReduce的技術(shù)以及Flume和MillWheel等最新技術(shù),Google在內部使用了所有這些技術(shù)來(lái)分析真正的海量數據存儲。
通過(guò)整合所有這些技術(shù)的要素,Google希望提供一種數據處理服務(wù),從而使公司能夠靈活地對大型數據集進(jìn)行批處理分析,以及對流進(jìn)數據庫的數據進(jìn)行近乎實(shí)時(shí)的分析。它還將使公司能夠攝取數據并分階段存儲數據,以供其他分析工具和服務(wù)(例如Google自己的BigQuery)使用。
對于希望從大數據中獲取業(yè)務(wù)價(jià)值的公司而言,這種功能至關(guān)重要。云服務(wù),移動(dòng)設備和傳感器技術(shù)的激增使企業(yè)可以從無(wú)數來(lái)源收集越來(lái)越多的數據。挑戰一直是尋找一種方法來(lái)組織和管理數據,從而從中獲取業(yè)務(wù)價(jià)值。
亞馬遜是最大的云服務(wù)提供商之一,已經(jīng)提供了一項稱(chēng)為Kinesis的托管服務(wù),該服務(wù)類(lèi)似于Google計劃通過(guò)Cloud Dataflow推出的服務(wù)。亞馬遜將Kinesis視為一項用于大規模實(shí)時(shí)處理流數據的服務(wù)。它旨在作為一項服務(wù)來(lái)幫助公司捕獲,存儲和分析從在線(xiàn)交易,Web日志,社交媒體源和移動(dòng)設備中提取的TB級數據。
借助Cloud Dataflow,Google希望能夠為開(kāi)發(fā)人員和企業(yè)提供類(lèi)似的功能。McVeety在他的博客文章中指出:“數據的價(jià)值在于分析-以及分析所產(chǎn)生的情報。
“隨著(zhù)數據集變得龐大并分布在不同的存儲系統中,將數據轉換為智能可能會(huì )非常具有挑戰性。此外,對實(shí)時(shí)分析的需求不斷增長(cháng),從數據集提取價(jià)值的障礙也對開(kāi)發(fā)人員構成了巨大的挑戰,”他說(shuō)。
