公司正在以前所未有的速度推進(jìn)數字化轉型。Gartner Research最近的一項調查發(fā)現, 49%的CIO報告說(shuō)他們的企業(yè)已經(jīng)改變了他們的商業(yè)模式,以擴大他們的數字化努力,或者正在這樣做。

隨著(zhù)公司不斷推進(jìn)這些轉型,他們將數據科學(xué)和機器學(xué)習融入各種業(yè)務(wù)功能中。這不是一件容易的事。典型的企業(yè)數據科學(xué)項目非常復雜,需要部署跨學(xué)科團隊,其中包括匯集數據工程師,開(kāi)發(fā)人員,數據科學(xué)家,主題專(zhuān)家和具有其他特殊技能和知識的個(gè)人。
而且,這種人才稀缺而且代價(jià)高昂。事實(shí)上,只有少數公司成功建立了經(jīng)驗豐富的數據科學(xué)實(shí)踐。而且,雖然構建這個(gè)團隊需要時(shí)間和資源,但許多公司面臨著(zhù)更大的問(wèn)題:超過(guò) 85%的大數據項目都失敗了。
許多因素導致了這些失敗,包括人為因素,以及時(shí)間,技能和影響方面的挑戰。在這篇eWEEK數據點(diǎn)文章中,專(zhuān)注于企業(yè)數據科學(xué)自動(dòng)化的硅谷科技創(chuàng )業(yè)公司dotData的創(chuàng )始人兼首席執行官Ryohei Fujimaki博士討論了導致這些失敗的五個(gè)關(guān)鍵因素。
數據點(diǎn)1:缺乏執行數據科學(xué)項目的資源
數據科學(xué)是一種跨學(xué)科的方法,涉及數學(xué)家,統計學(xué)家,數據工程,軟件工程師,以及重要的主題專(zhuān)家。根據項目的規模和范圍,公司可能會(huì )部署大量數據工程師,解決方案架構師,領(lǐng)域專(zhuān)家,數據科學(xué)家(或多個(gè)),業(yè)務(wù)分析師以及可能的其他資源。許多公司沒(méi)有和/或沒(méi)有能力部署足夠的資源,因為雇用這些人才變得越來(lái)越具有挑戰性,而且公司通常還有許多數據科學(xué)項目要執行,所有這些項目都需要數月才能完成。
數據點(diǎn)2:長(cháng)期周轉時(shí)間和前期努力,無(wú)法看到潛在價(jià)值
盡管缺乏對最終結果及其業(yè)務(wù)價(jià)值的可見(jiàn)性,但數據科學(xué)項目面臨的最大挑戰之一是需要大量的前期工作。傳統的數據科學(xué)過(guò)程需要數月才能完成,直到評估結果。特別是,將業(yè)務(wù)數據轉換為機器學(xué)習就緒格式的數據和特征工程過(guò)程需要大量的迭代工作。與此方法相關(guān)的長(cháng)周轉時(shí)間和大量前期工作通常會(huì )導致數月投資后項目失敗。因此,企業(yè)高管對于應用更多資源猶豫不決。
數據點(diǎn)3:技術(shù)和商業(yè)期望的錯位
大多數數據科學(xué)項目旨在為業(yè)務(wù)團隊提供重要的見(jiàn)解。但是,通常項目開(kāi)始時(shí)業(yè)務(wù)和數據科學(xué)團隊之間沒(méi)有明確的關(guān)于項目期望和目標的一致性,導致數據科學(xué)團隊主要關(guān)注模型準確性,而業(yè)務(wù)團隊更關(guān)注諸如經(jīng)濟利益,業(yè)務(wù)見(jiàn)解或模型可解釋性。最后,業(yè)務(wù)團隊不接受數據科學(xué)團隊的成果。
數據點(diǎn)第4號:缺乏對生產(chǎn),運營(yíng)的建筑考慮
許多數據科學(xué)項目的開(kāi)始都沒(méi)有考慮如何將已開(kāi)發(fā)的管道部署到生產(chǎn)中。之所以出現這種情況,是因為業(yè)務(wù)流程通常由IT團隊管理,而IT團隊無(wú)法深入了解數據科學(xué)流程,數據科學(xué)團隊專(zhuān)注于驗證其假設,并且沒(méi)有生產(chǎn)和解決方案的架構視圖積分。因此,許多數據科學(xué)項目不是集成到管道中,而是最終作為一次性的概念驗證練習,無(wú)法實(shí)現真正??的業(yè)務(wù)影響或導致大量成本增加以使項目生產(chǎn)。
數據點(diǎn)第5點(diǎn):對技能,特定個(gè)人經(jīng)驗的嚴重依賴(lài)
傳統的數據科學(xué)在很大程度上依賴(lài)于有經(jīng)驗的個(gè)人的技能,經(jīng)驗和直覺(jué)。特別是,數據和特征工程過(guò)程現在主要基于領(lǐng)域專(zhuān)家和數據科學(xué)家的手動(dòng)努力和直覺(jué)。盡管這些有才能的人才是寶貴的,但考慮到這些經(jīng)驗豐富的人才的招聘挑戰,依賴(lài)這些人的做法對于企業(yè)公司來(lái)說(shuō)是不可持續的。因此,公司需要尋求解決方案來(lái)幫助數據科學(xué)民主化,使更多具有不同技能水平的參與者能夠有效地執行項目。
數據點(diǎn)第6號:端到端數據科學(xué)自動(dòng)化是一種解決方案
通過(guò)人工智能(AI)和機器學(xué)習(ML)計劃實(shí)現更高投資回報的壓力促使更多企業(yè)領(lǐng)導者為其數據科學(xué)管道尋求創(chuàng )新解決方案,例如機器學(xué)習自動(dòng)化。選擇一個(gè)能夠提供數據科學(xué)過(guò)程端到端自動(dòng)化的正確解決方案,包括自動(dòng)化數據和特征工程,是數據驅動(dòng)型公司成功的關(guān)鍵。數據科學(xué)自動(dòng)化使得更快地執行數據科學(xué)過(guò)程成為可能,通常在幾天而不是幾個(gè)月內,更加透明,并提供可以持續改進(jìn)的最小可行管道。因此,公司可以快速擴展其AI / ML計劃,以推動(dòng)變革性業(yè)務(wù)變革。
