訂閱
糾錯
加入自媒體

數(shù)據(jù)永動機?合成數(shù)據(jù)的美夢與陷阱

距離數(shù)據(jù)用光還剩3年時間。

以上是研究機構(gòu)Epoch給出的一個初步估計,機器學習數(shù)據(jù)集可能會在2026年前耗盡所有“高質(zhì)量語言數(shù)據(jù)”,低質(zhì)量的語言數(shù)據(jù)和圖像數(shù)據(jù)的存量將分別在 2030 年至 2050 年、2030 年至 2060 年枯竭。

數(shù)十億參數(shù)起步,以TB為單位的數(shù)據(jù)集喂養(yǎng),百模大戰(zhàn),千模大戰(zhàn)的持續(xù)上演,正在以燃盡數(shù)據(jù)為代價,當數(shù)據(jù)荒變成直觀的倒計時時,這種迫近的危機感才開始在整個產(chǎn)業(yè)圈蔓延。

高質(zhì)量數(shù)據(jù)告急

第一個感受到數(shù)據(jù)荒危機的便是那些亟需數(shù)據(jù)的AI公司們。

繼算力缺口后,數(shù)據(jù)成為最緊俏的資源,數(shù)據(jù)采集要價也在水漲船高。自2008年以來,Reddit API一直是以免費的方式開放給第三方,然而近期,Reddit通知開發(fā)者將從7月1日開始使用用數(shù)據(jù)接口進行收費。根據(jù)第三方軟件Apollo的開發(fā)者Christian Selig透露,Reddit的收費為0.24美元/1000次API響應。對于Apollo來說,這就相當于200萬美元每月或2000萬美元每年的開銷。

而根據(jù)推特今年3月發(fā)布的API新政策,企業(yè)需要為抓取推文的API支付每月4萬美元至20萬美元不等的費用,對應可以獲得5000萬至2億條推文。根據(jù)測算,最低一個檔次的套餐約等于整體推文的0.3%。

數(shù)據(jù)變貴了,這點已經(jīng)成為業(yè)界心照不宣的共識,而大模型混戰(zhàn)無疑讓數(shù)據(jù)供不應求的局面進一步加劇。

已有的(通用)數(shù)據(jù)資源似乎已經(jīng)接近效能極限,Cohere首席執(zhí)行官Aiden Gomez表示,網(wǎng)絡上那些通用數(shù)據(jù)已不足以推動AI模型的性能發(fā)展。

的確,大模型競賽就像上了發(fā)條一樣,一旦觸發(fā),便沒有停下來的間隙,需要保證不斷的攝取營養(yǎng),當大模型發(fā)展走向更深度,比如行業(yè)大模型,其所需的數(shù)據(jù)就不是互聯(lián)網(wǎng)免費公開的數(shù)據(jù)了,要訓練出精度極高的的模型,需要的是行業(yè)專業(yè)知識,甚至商業(yè)機密類型的知識。

而恰恰目前全球數(shù)據(jù)供給的現(xiàn)狀,70%的數(shù)據(jù)源都僅僅停留在免費公開數(shù)據(jù)集的層面,這與大模型成長所需的理想數(shù)據(jù)環(huán)境相差甚遠,一些行業(yè)的垂類大數(shù)據(jù),比如金融、醫(yī)療、科研、行業(yè)型大數(shù)據(jù)還遠未開掘,一位業(yè)內(nèi)人士透露。垂類數(shù)據(jù)通常由政府和行業(yè)機構(gòu)掌握,而出于數(shù)據(jù)安全合規(guī)的考慮,行業(yè)機構(gòu)愿意把核心數(shù)據(jù)拿出來開放共享的又在少數(shù)。而從原生的數(shù)據(jù)資源到數(shù)據(jù)資產(chǎn)化再到形成數(shù)據(jù)產(chǎn)品,這個數(shù)據(jù)形態(tài)演變的過程,需要經(jīng)歷數(shù)據(jù)的篩選、分級和標注,中間附著的人力成本和硬件成本都極為不菲,初始收集的數(shù)據(jù)總量,到最后可用的數(shù)據(jù)量可能只有70%,相比于算力,數(shù)據(jù)的稀缺性更為突出。

如果說全球都難逃數(shù)據(jù)荒,那么“重災區(qū)”更顯見于中文語料。

可能會有人說,中國有14億人口和5千余家上市公司,全社會的數(shù)據(jù)資源存量排在全球第二,應該在數(shù)據(jù)上是長板,但數(shù)據(jù)表明,全球通用的50億大模型數(shù)據(jù)訓練集里,中文語料的占比僅為1.3%,一些主流數(shù)據(jù)集如Common Crawl、BooksCorpus、WiKipedia、ROOT等都以英文為主,最流行的Common Crawl中文數(shù)據(jù)也只占其4.8%。“大而不強”是中國數(shù)據(jù)市場比較刺眼的現(xiàn)實,在國內(nèi)來看,據(jù)統(tǒng)計,數(shù)據(jù)資源80%集中在公共和政府事業(yè)單位。而據(jù)發(fā)改委官方披露,我國政府數(shù)據(jù)資源占全國數(shù)據(jù)資源的比重超過3/4,但開放規(guī)模不足美國的10%,個人和企業(yè)可以利用的規(guī)模更是不及美國的7%,開放程度遠低于美國。

流于“形式開放”正成為我國公共數(shù)據(jù)開放的癥結(jié),據(jù)公開資料統(tǒng)計,我國各級地方政務數(shù)據(jù)開放網(wǎng)站開放的數(shù)據(jù)普遍周期較長,地方平臺約有46%的平臺沒有更新數(shù)據(jù),只有8.5%的地方平臺連續(xù)兩年發(fā)布了新的數(shù)據(jù)集。

開放程度低是一大掣肘,數(shù)據(jù)質(zhì)量差才是卡脖子的首要因素,目前的中文公開數(shù)據(jù)集不是沒有,近2個月來,國內(nèi)不少團隊先后開源了中文數(shù)據(jù)集,除通用數(shù)據(jù)集外,針對編程、醫(yī)療等垂域也有專門的開源中文數(shù)據(jù)集發(fā)布。開源的還包括MSRA-NER、Weibo-NER等,以及GitHub上可找到的CMRC2018、CMRC2019、ExpMRC2022等存在,但整體數(shù)量和質(zhì)量,和英文數(shù)據(jù)集相比可謂九牛一毛。并且其中相當一部分的內(nèi)容已經(jīng)非常陳舊。

數(shù)據(jù)荒有救了?合成數(shù)據(jù)成“新賽道“

數(shù)據(jù)的捉襟見肘讓大模型的進化難以為繼,高質(zhì)量數(shù)據(jù)從哪里來?

舊路難循,便開始造新路。7月25日,深圳數(shù)交所聯(lián)合近50家單位成立“開放算料聯(lián)盟”,抱團聚力。參與公司不僅有聯(lián)通、電信兩大運營商以及騰訊云,還有多家A股公司,合力匯集論文、政策、報告、標準、法律、代碼、古籍、中醫(yī)藥、基因及蛋白質(zhì)結(jié)構(gòu)等多模態(tài)的訓練數(shù)據(jù),為數(shù)據(jù)交易增加合成數(shù)據(jù)、標注數(shù)據(jù)、模型參數(shù)等新專區(qū)和新品類,合成數(shù)據(jù)正成為生成和豐富AI訓練數(shù)據(jù)的第二條路。

何謂合成數(shù)據(jù)?合成數(shù)據(jù)即由計算機人工生產(chǎn)的數(shù)據(jù),來替代現(xiàn)實世界中采集的真實數(shù)據(jù),來保證真實數(shù)據(jù)的安全,比如用戶小A有10個特點、用戶小B有10個特點、用戶小C有10個特點,合成數(shù)據(jù)將這30個特點進行隨機打散匹配,形成3個全新的數(shù)據(jù)個體,這并不對準真實世界的任何一個實體,但卻有訓練價值,作為真實數(shù)據(jù)的“平替”,合成數(shù)據(jù)高效、廉價并且不涉及個人隱私和公共利益,且可以兼顧數(shù)據(jù)多樣性和公平性,理論上可以生成所有數(shù)據(jù),包括現(xiàn)實世界中難以采集或幾乎不存在于現(xiàn)實中的極端案例,最大化地提高模型的精準度,糾正歷史數(shù)據(jù)中的偏見、消除算法歧視,優(yōu)越性不言而喻。

對于有些行業(yè)而言,合成數(shù)據(jù)具有天然的應用適配度,比如自動駕駛,讓汽車通過實際道路測試來窮盡其在道路上可能遇到的每一個場景是不現(xiàn)實的,故大量的合成數(shù)據(jù)可以用于模擬各種駕駛場景,從而提高算法的魯棒性。在這種情況下,合成數(shù)據(jù)可能占據(jù)訓練數(shù)據(jù)的很大一部分,甚至高達90%以上。

而對于數(shù)據(jù)敏感的金融和生物醫(yī)藥領(lǐng)域,在不提供敏感的歷史交易信息的前提下,訓練量化交易模型,從而提升獲利能力;而在藥物研發(fā)工作上,通過合成數(shù)據(jù)集,可以在不泄露患者隱私信息的條件下訓練相關(guān)模型,加速新藥研發(fā)過程,發(fā)現(xiàn)潛在的治療方法,提高醫(yī)藥領(lǐng)域的效率和準確性。

更重要的一點是,一直以來,數(shù)據(jù)標記都被視為現(xiàn)代機器學習中一個笨拙、不雅、成本高昂的部分,而合成數(shù)據(jù)不需要手動標記,自動帶有完美的數(shù)據(jù)標簽,這一點已經(jīng)足夠迷人。

巨大的剛需和高景氣度面前,合成數(shù)據(jù)不捧自火,國外的主流科技公司已經(jīng)在紛紛部署,比如英偉達的元宇宙平臺Omniverse擁有合成數(shù)據(jù)能力omniverse replicator;亞馬遜使用合成數(shù)據(jù)來訓練、調(diào)試其虛擬助手Alexa,以避免用戶隱私問題;微軟的Azure云服務推出了airSIM平臺,可以創(chuàng)建高保真的3D虛擬環(huán)境來訓練、測試AI驅(qū)動的自主飛行器,微軟、OpenAI、Cohere等公司都已經(jīng)開始測試使用合成數(shù)據(jù)來訓練AI模型...

其中也少不了自動駕駛汽車廠商們,早有布局,比如Waymo、Cruise、Aurora、Zoox等,都在合成數(shù)據(jù)和模擬方面進行了大量投資,并將其作為其技術(shù)堆棧的核心部分。例如,2016 年,Waymo生成了 25 億英里的模擬駕駛數(shù)據(jù)來訓練其自動駕駛系統(tǒng)(相比之下,從現(xiàn)實世界收集的駕駛數(shù)據(jù)僅為 300 萬英里)。到 2019 年,這一數(shù)字已達到100 億英里。

而國內(nèi),騰訊、阿里巴巴、百度走在前列。騰訊自動駕駛實驗室開發(fā)的自動駕駛仿真系統(tǒng)TADSim可以自動生成無需標注的各種交通場景數(shù)據(jù);阿里巴巴自研的語音合成技術(shù)KAN-TTS可將合成語音與原始音頻錄音的接近程度提高到97%以上;百度也發(fā)布了多個數(shù)據(jù)合成與半自動標注工具。

值得關(guān)注的是,合成數(shù)據(jù)已經(jīng)自成賽道,一批瞄準合成數(shù)據(jù)為主攻方向的數(shù)據(jù)新勢力集中涌現(xiàn),出現(xiàn)的第一批合成數(shù)據(jù)初創(chuàng)公司瞄準了自動駕駛汽車終端市場。其中包括 Applied Intuition(2022年估值180億人民幣,入選全球獨角獸榜)、Parallel Domain 和 Cognata 等公司。

而近段時間以來,圍繞為企業(yè)落地AI提供合成數(shù)據(jù)服務的初創(chuàng)企業(yè)也開始瘋狂刷屏,國內(nèi)合成數(shù)據(jù)公司光輪智能于今年1月份才創(chuàng)立,便宣告連續(xù)拿到了種子輪、天使輪、天使+輪融資,累計融資金額達數(shù)千萬元;新加坡合成數(shù)據(jù)初創(chuàng)公司Betterdata也于日前宣布獲得了一筆165萬美元規(guī)模的種子輪融資,資本市場對于合成數(shù)據(jù)的青睞可見一斑。

數(shù)據(jù)永動機的“美夢與陷阱”

數(shù)據(jù)永動機的美夢似乎正在成真,合成數(shù)據(jù)暗含的變革可能性開始吸引越來越多人駐足和買單。

不單單體現(xiàn)在數(shù)據(jù)的無限生成,看好合成數(shù)據(jù)的人認為,合成數(shù)據(jù)可以幫助解鎖各種基于語言的機會,此前困于數(shù)據(jù)有限而無法深入研究的領(lǐng)域可以松開鐐銬,大展拳腳了。

舉例來說,2021年年底,全球領(lǐng)先的基因測序公司 Illumina宣布與初創(chuàng)公司 Gretel.ai 合作創(chuàng)建合成基因組數(shù)據(jù)集。基因組數(shù)據(jù)是世界上最復雜、多維、信息豐富的數(shù)據(jù)類型之一,長度超過 30 億個堿基對,每個人獨特的 DNA 序列在很大程度上定義了他們的身份,從身高到眼睛顏色,再到患心臟病或藥物濫用的風險。(雖然不是自然語言,但基因組序列是文本數(shù)據(jù);每個人的 DNA 序列都可以通過簡單的 4 個字母“字母表”進行編碼。)基因研究有助于解碼生命奧秘,探索人類健康,但由于基因組數(shù)據(jù)的可用性有限,這項研究一直遲滯不前,很難突破,圍繞人類基因數(shù)據(jù)的嚴格隱私法規(guī)和數(shù)據(jù)共享限制也成為極大阻礙。

而合成數(shù)據(jù)提供了一種潛在的革命性解決方案:它可以復制真實基因組數(shù)據(jù)集的特征和信號,同時回避這些數(shù)據(jù)隱私問題,因為數(shù)據(jù)是人工生成的,并不對應于現(xiàn)實世界中的任何特性個體。

基因數(shù)據(jù)的用例只是冰山一角,從早期的計算機視覺,到如今的機器人技術(shù)再到物理安全,從地理空間圖像到制造,從生物醫(yī)藥到基因研究,凡是需要“大量數(shù)據(jù)出奇跡”的領(lǐng)域,合成數(shù)據(jù)都代表著強大的解決方案。

而更為隱性的層面,合成數(shù)據(jù)的出現(xiàn)或?qū)頂?shù)據(jù)平權(quán)的曙光,通過使高質(zhì)量的訓練數(shù)據(jù)更容易獲得和負擔得起,合成數(shù)據(jù)將削弱專有數(shù)據(jù)資產(chǎn)作為持久競爭優(yōu)勢的優(yōu)勢。

從科技史發(fā)展的脈絡來看,強者恒強的馬太效應通常都是仰賴于數(shù)據(jù)的底層原料,“滾雪球般”的數(shù)據(jù)累積讓谷歌、Facebook和亞馬遜等科技巨頭始終占據(jù)著得天獨厚的優(yōu)勢,而合成數(shù)據(jù)的興起或?qū)①x能全新一代的人工智能新貴,并通過降低構(gòu)建人工智能優(yōu)先產(chǎn)品的數(shù)據(jù)壁壘來掀起人工智能創(chuàng)新浪潮。

當然,美夢固然很美,但也有人在質(zhì)疑。

來自牛津大學、劍橋大學、倫敦帝國學院等機構(gòu)的研究人員今年5月發(fā)表論文稱,AI用AI生成的數(shù)據(jù)進行訓練,會導致AI模型存在不可逆轉(zhuǎn)的缺陷,最終走向模型崩潰(Model Collapse),也就是,新一代模型的訓練數(shù)據(jù)會被上一代模型的生成數(shù)據(jù)所污染,從而對現(xiàn)實世界的感知產(chǎn)生錯誤的理解。更進一步,這種崩潰還會引發(fā)比如基于性別、種族或其他敏感屬性的歧視問題,尤其是如果生成 AI 隨著時間的推移學會在其響應中只生成某個種族,而忘記其他種族的存在。

需要注意的是,模型崩潰的過程與災難性遺忘(catastrophic forgetting)不同,模型不會忘記以前學過的數(shù)據(jù),而是開始把模型的錯誤想法曲解為現(xiàn)實,并且還會強化自己對錯誤想法的信念。

而更為預料不及的是,由此帶來的合成數(shù)據(jù)泛濫,真實數(shù)據(jù)難以尋覓,真實與虛擬的邊界消弭,人們再難辨清自己是活在真實還是虛擬。

       原文標題 : 數(shù)據(jù)永動機?合成數(shù)據(jù)的美夢與陷阱

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯
x
*文字標題:
*糾錯內(nèi)容:
聯(lián)系郵箱:
*驗 證 碼:

粵公網(wǎng)安備 44030502002758號