Microsoft用來(lái)擴展基于云的人工智能邊界的不斷增長(cháng)的技術(shù)中

2019-09-30 14:26:38    來(lái)源:    作者:

將Kubernetes添加到Microsoft用來(lái)擴展基于云的人工智能邊界的不斷增長(cháng)的技術(shù)中。流行的開(kāi)源容器編排平臺Kubernetes 在2017年取得了突破性的發(fā)展?,F在,除了幫助企業(yè)在云或本地管理其應用程序容器部署外,還招募了Kubernetes,以便為基于云的AI工作負載提供在需求回升時(shí)完成工作所需的空間。

微軟推出了一種新的自動(dòng)擴展系統,該系統使用Kubernetes來(lái)擴展或縮減學(xué)習培訓工作負載所需的云計算資源量。該系統是與加利福尼亞州圣何塞市的技術(shù)初創(chuàng )公司Litbit合作開(kāi)發(fā)的,該公司使用物聯(lián)網(wǎng)數據創(chuàng )建“ AI角色”,工作場(chǎng)所可根據其集體經(jīng)驗和專(zhuān)有技術(shù)來(lái)增強員工的能力。

例如,組織可以創(chuàng )建和培訓角色,以幫助其現場(chǎng)技術(shù)人員在跳上工作卡車(chē)并親自拜訪(fǎng)正在起作用以節省時(shí)間和費用的機械之前,檢測并診斷設備問(wèn)題。

事實(shí)證明,這是一個(gè)艱巨的任務(wù),而且是一個(gè)不可預測的任務(wù)。Litbit發(fā)現,由于客戶(hù)在不同時(shí)間訓練其角色,因此AI訓練工作負載的變化很大。

“其中一些訓練工作(例如Spark ML)大量使用CPU,而其他一些工作(例如TensorFlow)大量使用GPU。在后一種情況下,某些工作會(huì )重新訓練神經(jīng)網(wǎng)絡(luò )的單個(gè)層并很快完成,而其他人則需要訓練整個(gè)新的神經(jīng)網(wǎng)絡(luò ),這可能需要數小時(shí)甚至數天。”微軟代表在博客中解釋道。

微軟和Litbit選擇了Kubernetes,部分原因是因為其成熟的集群管理技術(shù),而且還因為該項目在短短幾年內吸引了社區的大力支持。盡管該項目始于Google,但仍被視為L(cháng)inux基金會(huì )的Cloud Native Computing Foundation(CNCF)的頭等大事。

兩家公司著(zhù)手通過(guò)使用適用于Kubernetes的Azure CNI網(wǎng)絡(luò )插件在具有GPU支持的Azure上配置Kubernetes群集來(lái)解決高度可變的機器學(xué)習工作負載的問(wèn)題。然后,他們使用用于Kubernetes的Helm軟件包管理器應用了節點(diǎn)級自動(dòng)縮放器,隨后進(jìn)行了一些配置更改,以啟動(dòng)和運行系統。

該項目是成功的。該系統已經(jīng)運行了四個(gè)月,它使Litbit一次可以擴展到40個(gè)節點(diǎn),并且在需求減少時(shí)可以無(wú)縫縮減規模。微軟已經(jīng)在其開(kāi)發(fā)者博客上發(fā)布了Kubernetes自動(dòng)縮放器的完整演練。

反映出困擾企業(yè)DevOps團隊的容器熱潮,微軟對Kubernetes的支持增加了一倍。

在今年12月初的KubeCon會(huì )議上,微軟宣布其Azure容器服務(wù)現已縮寫(xiě)為AKS,這表示該公司以客戶(hù)為中心,以Kubernetes為中心的云原生應用程序開(kāi)發(fā)方法。該公司還推出了一個(gè)名為Virtual Kubelet的新連接器,該連接器使用戶(hù)可以定位該公司的快速容器創(chuàng )建和部署服務(wù)Azure容器實(shí)例(ACI)。

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時(shí)間聯(lián)系我們修改或刪除,多謝。