找和獲取構(gòu)建企業(yè)數(shù)據(jù)集所需的數(shù)據(jù),這對于那些希望構(gòu)建自己的AI模型的組織來說是可能是最關(guān)鍵的一項任務(wù)。
咨詢公司Rockborne首席執(zhí)行官Waseem Ali表示,即使有實(shí)踐經(jīng)驗(yàn),事情也很容易出錯。“一切總是從數(shù)據(jù)開始的,如果你的數(shù)據(jù)不好,模型就不會好。”
相反他建議,很多時候,企業(yè)面臨的挑戰(zhàn)不應(yīng)該是想要用他們的第一個項目征服世界,而是先進(jìn)行試點(diǎn),讓他們能夠走得更遠(yuǎn)。
檢查數(shù)據(jù)或數(shù)字項目的具體業(yè)務(wù)需求和要求,詢問需要解決什么問題,需要查詢什么“預(yù)感”,但首先要避免深入研究“全局影響”。
正如工業(yè)物聯(lián)網(wǎng)專業(yè)公司Hexagon的AI負(fù)責(zé)人Johannes Maunz所解釋的,從第一原則開始著手獲取特定用例的數(shù)據(jù)。
Maunz說:“沒有一個深度學(xué)習(xí)模型可以解決所有用例。將現(xiàn)狀與需要改進(jìn)的地方進(jìn)行比較,需要捕獲哪些可用數(shù)據(jù)?以小規(guī)模或有限的方式進(jìn)行,僅針對那一個用例。”
Hexagon的方法通常側(cè)重于自己的傳感器,其中包含墻壁、窗戶、門等建筑的數(shù)據(jù)。通過在瀏覽器中呈現(xiàn)的內(nèi)容,Hexagon可以了解數(shù)據(jù)及其標(biāo)準(zhǔn)、格式、一致性等。
首先考慮企業(yè)已經(jīng)擁有的、或者可以使用的、符合要求的數(shù)據(jù)和數(shù)據(jù)集。這通常需要與法律和隱私團(tuán)隊密切合作,即使在工業(yè)內(nèi)部環(huán)境中也是如此。Maunz建議,要確保指定使用的數(shù)據(jù)不包含任何私人個人信息。然后,企業(yè)就可以構(gòu)建他們想要使用的模型并對其進(jìn)行訓(xùn)練——假設(shè)成本和可行性都已經(jīng)到位。
接下來,你需要決策點(diǎn)透明度,以及信號值來評估可用性、可行性和業(yè)務(wù)效果等因素,或者潛在表現(xiàn)與競爭對手相比的數(shù)據(jù)等。
對于企業(yè)目前沒有的數(shù)據(jù),可能需要一些合作伙伴或客戶協(xié)商來獲取。
Maunz表示:“坦率地說,人們是非常開放——但總要有一份合同。只有這樣,我們才能開始我們通常所說的數(shù)據(jù)活動。有時候超過所需量的數(shù)據(jù)也是有意義的,這樣企業(yè)就可以進(jìn)行向下采樣。”
數(shù)據(jù)質(zhì)量和簡單性至關(guān)重要
供應(yīng)鏈咨詢公司BearingPoint的合伙人Emile Naus強(qiáng)調(diào)了對AI/ML數(shù)據(jù)質(zhì)量的關(guān)注。要盡可能保持簡單,復(fù)雜性使正確的決策變得困難并且會損害結(jié)果——然后還有偏見和知識產(chǎn)權(quán)需要考慮。Naus補(bǔ)充說:“內(nèi)部數(shù)據(jù)并不完美,但至少你可以了解它有多好。”
他警告說,與易于使用的2D線擬合甚至3D線擬合相比,由AI/ML驅(qū)動的復(fù)雜多維線擬合可以帶來更好的結(jié)果——優(yōu)化生產(chǎn)、解決方案“配方”、最大限度地減少浪費(fèi)等等——如果企業(yè)能夠“自由”地獲取所需的數(shù)據(jù)。
“和所有的模型一樣,因?yàn)锳I模型被用于構(gòu)建另一個模型,而模型總是出錯,因此數(shù)據(jù)治理是關(guān)鍵。你沒有的部分實(shí)際上可能更重要,你必須弄清楚數(shù)據(jù)的完整性和準(zhǔn)確性。”
鄧白氏(D&B)數(shù)據(jù)和分析高級副總裁Andy Crisp建議使用客戶洞察和關(guān)鍵數(shù)據(jù)元素來建立數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)和公差、測量和監(jiān)控。
Crisp表示:“例如,[客戶想要的、或從我們這里獲得的]數(shù)據(jù)也可能會為他們的模型提供信息,我們正在進(jìn)行大約460億次數(shù)據(jù)質(zhì)量計算,獲取我們的數(shù)據(jù),然后可能根據(jù)這些標(biāo)準(zhǔn)再次進(jìn)行計算,然后每月發(fā)布數(shù)據(jù)質(zhì)量觀察結(jié)果。”
例如,通過特定標(biāo)準(zhǔn),特定屬性必須表現(xiàn)得足夠好,才能傳遞給下一個團(tuán)隊,團(tuán)隊采用這些標(biāo)準(zhǔn)和公差、這些測量和觀察點(diǎn)的結(jié)果,與數(shù)據(jù)管理部門合作獲取、整理和維護(hù)數(shù)據(jù)。
“花時間做事并加深理解,別無他法。這就像,從切割一塊木頭開始,然后檢查長度,防止接下來你完全錯誤地切割了50塊木板。”
企業(yè)需要“知道什么是好的”,以提高數(shù)據(jù)性能和洞察力,然后將它們整合在一起。保持問題陳述的嚴(yán)謹(jǐn)性,縮小所需數(shù)據(jù)集的數(shù)據(jù)識別范圍。細(xì)致的注釋和元數(shù)據(jù)可以實(shí)現(xiàn)控制數(shù)據(jù)集的管理,實(shí)現(xiàn)真正科學(xué)的方法,識別偏差并幫助最大限度地減少偏差。
謹(jǐn)防將多個因素混為一談的大膽陳述,確保要“測試到破壞”,這是IT企業(yè)不想“快速行動并打破常規(guī)”的一個領(lǐng)域。所有使用的數(shù)據(jù)都必須符合標(biāo)準(zhǔn),而且必須不斷檢查和補(bǔ)救。
“測量和監(jiān)控,補(bǔ)救和改進(jìn),”Crisp指出,鄧白氏的質(zhì)量工程團(tuán)隊是由全球約70名團(tuán)隊成員組成的,“高質(zhì)量的工程能力將有助于減少幻覺等。”
Informatica北歐、中東和非洲地區(qū)副總裁Greg Hanson也認(rèn)為,制定目標(biāo)至關(guān)重要,可以幫助企業(yè)確定如何最好地利用時間進(jìn)行信息編目、信息整合、訓(xùn)練AI以支持結(jié)果所需的數(shù)據(jù)。
即使是企業(yè)自己的數(shù)據(jù)通常也會分散并隱藏在不同位置、云或本地環(huán)境中。
Hanson說:“對所有數(shù)據(jù)資產(chǎn)進(jìn)行編目,了解這些數(shù)據(jù)所在的位置,也可以考慮使用AI來加快數(shù)據(jù)管理的速度。”
確保在采集數(shù)據(jù)之前進(jìn)行治理
在AI引擎采集數(shù)據(jù)之前要實(shí)施所有的數(shù)據(jù)質(zhì)量規(guī)則,并假設(shè)已經(jīng)采取了適當(dāng)?shù)闹卫砗秃弦?guī)性。如果企業(yè)沒有進(jìn)行衡量、量化和修復(fù),那么只會更快地做出錯誤決策,Hanson補(bǔ)充說:“記住:垃圾進(jìn),垃圾出。”
數(shù)據(jù)套件廠商Precisely的首席技術(shù)官Tendü Yogurt?u表示,根據(jù)規(guī)模和行業(yè)類型,企業(yè)可以考慮成立指導(dǎo)委員會或跨職能委員會,幫助定義所有相關(guān)AI計劃的最佳實(shí)踐和流程。也可以通過識別團(tuán)隊之間的常見用例或模式來幫助加速進(jìn)程,隨著組織從試點(diǎn)和生產(chǎn)中學(xué)習(xí),這些用例或模式本身也會持續(xù)發(fā)生變化。
數(shù)據(jù)治理框架可能需要擴(kuò)展以涵蓋各種AI模型。話雖如此,潛在的AI用例比比皆是。
“以保險行業(yè)為例。為了模擬風(fēng)險和定價準(zhǔn)確性,保險公司需要有關(guān)野火和洪水風(fēng)險、地塊地形、地塊內(nèi)建筑物的確切位置、與消防栓的距離以及與加油站等潛在危險點(diǎn)的距離等詳細(xì)信息,”Yogurt?u解釋說。
然而,咨詢公司Slalom的高級數(shù)據(jù)和分析負(fù)責(zé)人Richard Fayers警告稱,構(gòu)建AI模型(尤其是生成式AI)可能會花費(fèi)不菲。
“也許,在某些領(lǐng)域企業(yè)可以合作——比如法律或醫(yī)學(xué),我們開始看到價值的地方,就是當(dāng)你用你的數(shù)據(jù)增強(qiáng)生成式AI的時候——你可以用各種方法來實(shí)現(xiàn)它。”
例如,在建筑領(lǐng)域,用戶可以使用自己的數(shù)據(jù)集和文檔來補(bǔ)充大型語言模型,以供查詢。類似做法還有票務(wù)搜索平臺,平臺可以智能地考慮一組基于自然語言的標(biāo)準(zhǔn),這些標(biāo)準(zhǔn)并非與元數(shù)據(jù)和標(biāo)簽一一相關(guān)。
“例如,你可以使用一個票務(wù)平臺來發(fā)現(xiàn)‘適合兒童觀看的周末演出’,目前這種搜索類型是相當(dāng)困難的,”Fayers說。
他說,即使是ChatGPT之類的數(shù)據(jù)集構(gòu)建和提示工程,為了實(shí)現(xiàn)更有“對話性”的方法,仍然需要關(guān)注數(shù)據(jù)質(zhì)量和治理,提示工程將成為一項需求旺盛的基本技能。