為什么對象存儲對于A(yíng)I和機器學(xué)習工作量而言可能是最佳的

2019-10-06 10:16:17    來(lái)源:    作者:

如果說(shuō)IT是電視節目,那將是“ Ho積者”。組織每天都在創(chuàng )建和存儲越來(lái)越多的數據,并且他們很難找到有效的方式來(lái)放置所有數據。

實(shí)際上,根據IDC的研究,到2020年,我們將達到44 ZB的標記,其中大約80%的數據不在數據庫中。隨著(zhù)如此空前的數據增長(cháng),IT團隊正在尋找靈活,可擴展,易于管理的方式來(lái)保存和保護數據。這是對象存儲大放異彩的地方。

對象存儲(也稱(chēng)為基于對象的存儲)是一種將數據作為對象進(jìn)行管理的存儲體系結構,與其他存儲體系結構(例如,將文件作為文件層次結構管理數據的文件系統和將數據作為扇區內的塊進(jìn)行管理的塊存儲)相反和軌道。每個(gè)對象通常包括數據本身,可變數量的元數據和全局唯一標識符。

專(zhuān)門(mén)(至少提供)對象存儲選項的公司包括Cloudian,Pure Storage,Digital Ocean,IBM / Cisco,Dell EMC Virtustream,Spectra Logic,SwiftStack,Qumulo,Minio,NetApp,Hitachi Data Systems,Cohesity和Veritas等其他。

Cloudian首席執行官兼聯(lián)合創(chuàng )始人Michael Tso是一位非常了解市場(chǎng)的人,他向eWEEK提供了一些行業(yè)信息,確切地說(shuō)明了為什么他認為對象存儲系統對于大數據類(lèi)型的工作負載(包括運行機器學(xué)習和數據存儲的工作負載)最有效。人工智能用例-一直變得越來(lái)越普遍。

以下是這些數據集的八個(gè)特定存儲要求,以及AI和ML應用程序為何需要企業(yè)對象存儲解決方案提供的數據管理功能的原因。

存儲要求1:可伸縮性

人工智能系統可以在短時(shí)間內處理大量數據。此外,更大的數據集可提供更好的算法。這種組合帶來(lái)了巨大的存儲需求。微軟教會(huì )計算機使用五年的連續語(yǔ)音記錄來(lái)進(jìn)行語(yǔ)音交談。特斯拉正在教汽車(chē)以13億英里的行駛數據行駛。管理這些數據集需要一個(gè)可以無(wú)限擴展的存儲系統。

對象存儲如何提供幫助:對象存儲是唯一在單個(gè)名稱(chēng)空間內無(wú)限擴展的存儲類(lèi)型。此外,模塊化設計允許隨時(shí)添加存儲,因此您可以根據需求進(jìn)行擴展,而不是先于需求。

存儲要求2:成本效益

一個(gè)有用的存儲系統必須具有可擴展性和可承受性,這兩個(gè)屬性在企業(yè)存儲中并不總是共存:從歷史上看,以成本/容量為基礎,高度可擴展的系統更加昂貴。

對象存儲如何提供幫助:對象存儲建立在業(yè)界成本最低的硬件平臺上。加上低管理開(kāi)銷(xiāo)和節省空間的數據壓縮功能,結果是成本比傳統企業(yè)磁盤(pán)存儲低70%。

存儲要求3:軟件定義的存儲選項

龐大的數據集有時(shí)會(huì )需要具有專(zhuān)用服務(wù)器架構的超大規模數據中心。其他配置可能會(huì )受益于預配置設備的簡(jiǎn)單性。

對象存儲的幫助方式:對象存儲使您可以選擇存儲設備或軟件定義的存儲,從而保持部署選項的打開(kāi)狀態(tài)。

存儲要求4:混合架構

不同的數據類(lèi)型具有不同的性能要求,而硬件必須反映出來(lái)。系統必須包含正確的存儲技術(shù)組合,以滿(mǎn)足同時(shí)滿(mǎn)足的規模和性能需求,而不是一種同類(lèi)通用的方法。

對象存儲如何提供幫助:對象存儲采用混合架構,其中旋轉磁盤(pán)用于存儲用戶(hù)數據,而SSD用于存儲對性能敏感的元數據,從而優(yōu)化了成本和性能。

存儲要求5:并行架構

對于無(wú)限制增長(cháng)的數據集,并行訪(fǎng)問(wèn)體系結構至關(guān)重要。否則,系統將產(chǎn)生限制增長(cháng)的瓶頸。

對象存儲如何提供幫助:對象存儲采用無(wú)共享群集架構,這意味著(zhù)系統的所有部分都可以并行工作。隨著(zhù)系統擴展,數據吞吐量不斷增長(cháng)。

存儲要求6:數據持久性

備份多PB訓練數據集是不可行的;這通常是成本和時(shí)間的限制。但是,您也不能不加保護。相反,存儲系統需要自我保護。

對象存儲的幫助方式:對象存儲具有內置的冗余設計,因此無(wú)需單獨的備份過(guò)程即可保護數據。此外,您可以選擇每種數據類(lèi)型所需的數據保護級別,以?xún)?yōu)化效率。系統可以配置為容忍多個(gè)節點(diǎn)故障,甚至可以容忍整個(gè)數據中心的丟失。

存儲要求7:數據局部性

盡管某些培訓數據將駐留在云中,但出于多種原因,大部分培訓數據仍將保留在數據中心中:性能,成本和法規遵從性是其中三個(gè)。為了具有競爭力,本地存儲必須提供與基于云的同類(lèi)存儲相同的成本和可伸縮性?xún)?yōu)勢。

對象存儲如何提供幫助:對象存儲是云的存儲。許多云提供商將其用作公共云基礎結構。云可擴展性和經(jīng)濟性現在可以在本地使用。

存儲要求8:云集成

無(wú)論數據位于何處,由于兩個(gè)原因,云集成仍將是重要的要求。首先,許多AI / ML創(chuàng )新都發(fā)生在云中。與云集成的本地系統將為使用云原生工具提供最大的靈活性。其次,隨著(zhù)信息的生成和分析,我們很可能會(huì )看到往返于云的數據流動(dòng)。本地解決方案應該簡(jiǎn)化流程,而不是限制流程。

對象存儲如何提供幫助:對象存儲應通過(guò)三種方式與云集成:首先,解決方案可以采用S3 API,這是事實(shí)上的云存儲標準語(yǔ)言。其次,它們可以促進(jìn)與Amazon,Google和Microsoft公共云之間的分層,并允許您在單個(gè)命名空間中查看本地和基于云的數據。第三,應該直接從基于云的應用程序訪(fǎng)問(wèn)存儲到云的數據。這種雙模式訪(fǎng)問(wèn)使您可以交替使用云資源和本地資源。

要充分發(fā)揮AI / ML的潛力,就需要支持創(chuàng )新的基礎架構。當今的對象存儲解決方案應提供可擴展性,成本效率和互操作性,從而增強這些新興技術(shù)的功能。

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時(shí)間聯(lián)系我們修改或刪除,多謝。