當我們談論當今商業領域和社會中的人工智能時,我們其實指的是機器學習。機器學習是一種應用,通過使用算法(一組指令)變得越來越擅長執行某項特定任務,因為它接觸了越來越多與這項任務相關的數據。
這些任務可以是任何任務,從回答問題、創建文本或圖像(如ChatGPT或Dall-E等應用所能做的)到識別圖像(計算機視覺)或者把自動駕駛汽車從A地導航到B地。
所有這些任務都需要數據,那些想要訓練自己的機器學習算法以自動執行日常任務的企業,他們需要一些數據源。
有哪些類型的數據?
企業數據通常分為兩類——內部數據和外部數據。
內部數據是企業組織自己從運營過程中收集的數據,這通常包括財務數據、客戶反饋數據、人力資源數據、運營數據、和其他更多來源的數據。某個組織在監控其自身運營過程中收集的數據被稱為專有數據,這種數據很有價值,因為它提供了有關特定業務的信息。
外部數據是來自組織外部來源的數據,通常是從如下所列的第三方數據源收集而來。如果數據可供任何人免費使用,則稱為開放數據。
除此之外,數據還可以分為結構化、非結構化或半結構化數據。
結構化數據是可以很好地、整齊地放入表格中的信息——例如,顯示企業銷售的產品、時間、地點、價格的銷售數據就是內部結構化數據。或者,企業會選擇分析歷史市場數據和經濟指標來預測他們面向市場的未來走勢(結構化的外部數據)。
非結構化數據則是其他一切,例如圖片、視頻、文本和社交媒體內容,當然也可以包含有價值的洞察,但更難于分析。不過,AI已經被證明對于從非結構化數據中提取意義特別有用處。例如,圖像識別算法可以通過分析店內閉路電視圖像(內部非結構化數據)來告訴企業有關客戶行為的有用信息,還可以通過分析社交媒體上發布的與業務相關的圖像(非結構化外部數據)來找到有價值的洞察。
所幸的是,數據無處不在。政府、研究機構、私營公司、非政府組織都免費提供數據用于研究甚至商業目的。因此,這里羅列了一些2023年可用的免費在線數據最佳來源。
數據搜索引擎和存儲庫
Google Dataset Search——這實際上是谷歌編目的數據集的搜索引擎;使用這個搜索引擎可以查找你可能需要的幾乎所有內容的數據。
AWS Open Data Search——另一個數據集搜索引擎,由亞馬遜的AWS提供。
Microsoft Research Open Data——由Microsoft收集的免費、開放的數據集,主要以科學為重點。
UCI Machine Learning Repository——由加州大學歐文分校策劃和維護的600多個開放數據集的存儲庫,可用于訓練機器學習算法。
Kaggle Datasets——在線數據科學平臺Kaggle還提供了精選的數據集目錄,涵蓋從大學排名到谷歌搜索趨勢、零售銷售、在線電影評論和犯罪統計數據的所有內容。
Reddit R/Datasets——由在線社區網站Reddit的用戶提交的龐大數據集,涵蓋了數百個主題。
政府和政府間組織的數據集
Data.Gov——美國政府提供的開放數據門戶,托管了政府機構發布的一百萬個數據集中的近四分之一數據。
Data.Census.Gov——如果你專門尋找美國的人口統計數據,這是一個很好的起點!
Data.EU——歐盟的開放數據門戶,包含了來自歐盟組織的數據和成員國政府的數據。
Data.gov.uk——英國政府機構發布的開放數據集。
World Health Organization Data——與全球健康和福祉相關的數據集。
World Bank Open Data——與經濟發展、國際金融市場、社會指標和環境問題相關的數據集。
圖像數據
Google Open Images——數以百萬計的圖像以各種方式分類和標記,用于訓練許多不同類型的計算機視覺算法。
ImageNet Open Dataset——另一個由標記圖像組成的數據集,可免費用于非商業機器學習應用。
COCO Dataset——Common Objects in Context (COCO)數據集中包含了超過200000張圖像,這些圖像被選擇用于訓練對象檢測和字幕算法。
聲音數據
Mozilla Common Voice——一個開放的錄音數據集,可用于訓練任何涉及語音的AI應用。
Audioset——另一個由谷歌策劃的數據集,這個數據集專注于聲音,包含數十萬個10秒樣本,這些樣本被分解為樂器、車輛和人聲等類別。
Million Song Dataset——來自一百萬個當代流行音樂曲目的樣本和元數據。
文本數據
Wikidata——多種不同格式的維基百科文章的數據庫下載。
Common Crawl——一個從萬維網上抓取的開放數據存儲庫,最知名的用途就是對ChatGPT和其他聊天機器人的GPU大型語言模型進行訓練。
其他和雜項數據集
Amazon Reviews——包含約3500萬條亞馬遜產品評論的數據庫,包括產品信息和評級。
Waymo Open Dataset——Alphabet自動駕駛子公司Waymo公開了通過自動駕駛車輛收集的大量數據,包括來自攝像頭和LiDAR傳感器數據。
Apolloscape Dataset——更多的自動駕駛數據,是由百度開源Apollo平臺提供的。