跟蹤您的所有數據 - 它的位置,它的去向,訪(fǎng)問(wèn)者以及他們使用它做什么 - 既不好玩也不令人興奮。但它是整體數據管理的必要基礎,在GDPR和CCPA 時(shí)代,它也是法律要求。這就是數據治理的內容。

數據目錄是數據治理的無(wú)名英雄。一個(gè)數據目錄被寬泛地定義為旨在幫助企業(yè)查找和管理大量數據的元數據管理工具。今天,數據目錄領(lǐng)域的主要參與者之一Waterline Data正在宣布其產(chǎn)品的更新,ZDNet借此機會(huì )與創(chuàng )始人兼首席技術(shù)官Alex Gorelik進(jìn)行了討論。
水線(xiàn)數據目錄獲得更新:DATAOPS儀表板和混合多云
Waterline Data是一家單一產(chǎn)品公司。它的數據目錄是它提供的每個(gè)解決方案都基于,從元數據管理和數據沿襲到敏感數據發(fā)現和數據合理化。今天的發(fā)布以新的DataOps儀表板為中心,Waterline表示可以作為監管中心,公司可以了解其數據產(chǎn)業(yè)的宏觀(guān)風(fēng)險。
DataOps儀表板允許用戶(hù)輕松查找和查看包含受管制敏感數據的特定文件,并幫助加快識別,修復和文檔處理過(guò)程,以滿(mǎn)足GDPR和CCPA要求。然而,Gorelik指出,還有另一項重大改進(jìn):支持混合多云支持的新代理架構。
“Waterline現在可以編目并自動(dòng)標記多個(gè)云中的數據,如AWS,Azure和Google Cloud Platform;內部大數據系統,如Cloudera和MapR;云數據庫,如Snowflake和RedShift;以及內部部署的關(guān)系數據庫。代理可以運行本地用于A(yíng)pache Spark或容器中,用于沒(méi)有Spark集群的環(huán)境,“Gorelik說(shuō)。
另一個(gè)新功能是支持限制將數據發(fā)送出國的數據駐留法??梢詫⒋砼渲脼樵诒镜貓绦兴刑幚砗桶l(fā)現,并僅將非敏感元數據發(fā)送到中央目錄。最后,圍繞可用性,個(gè)性化和協(xié)作進(jìn)行了改進(jìn)。
集成和開(kāi)源
元數據確實(shí)是關(guān)鍵,而Waterline通過(guò)機器學(xué)習對其進(jìn)行補充,以盡可能多地自動(dòng)化苦差事。這是我們與Gorelik討論的焦點(diǎn),從管理的元數據的確切性質(zhì)開(kāi)始,以及與Waterline所引用的其他系統的集成。
Gorelik說(shuō),對于關(guān)系數據庫,Waterline通常使用標準JDBC。然而,有時(shí)他們必須做特定于平臺的事情。Waterline自動(dòng)識別文件格式并解析文件系統和對象庫中的文件(AVRO,鑲木地板,JSON,XML,ORC,CSV等)。爬行自動(dòng)完成并遞增:將Waterline指向文件夾或數據庫,它會(huì )檢測任何更改并處理新數據。
集成通過(guò)REST API完成,它支持雙向集成。Gorelik提到Waterline提供了預先構建的適配器,可以從Atlas和Cloudera Navigator導入沿襲,并將標簽和標簽關(guān)聯(lián)導出到Atlas和Cloudera Navigator,這些標簽用于驅動(dòng)Ranger和Cloudera Sentry基于標簽的訪(fǎng)問(wèn)控制策略。
這些REST API有自己的JSON數據定義,但我們真正希望聽(tīng)到的是對Egeria的某種支持。Egeria是一個(gè)ODPi開(kāi)源項目,它實(shí)現了一組開(kāi)放的API,類(lèi)型和交換協(xié)議,以允許所有元數據存儲庫共享和交換元數據。
Hortonworks是ODPi成員,Egeria于2018年在Hortonworks的DataWorks活動(dòng)中亮相,就Hortonworks而言,似乎這是Hadoop世界中元數據管理的前進(jìn)方向。顯然Cloudera - Hortonworks合并的事情很復雜,因為現在它都是Cloudera Navigator的元數據管理。然而,Egeria也在2019年的新Cloudera DataWorks活動(dòng)中亮相,所以可能還有希望。利用Egeria是個(gè)好主意。
