“喂”給人工智能的真實(shí)數(shù)據(jù)終將耗盡 合成數(shù)據(jù)能否讓AI模型精確可靠?
澳大利亞“對(duì)話”網(wǎng)站在本月稍早時(shí)間報(bào)道中指出,合成數(shù)據(jù)具有諸多優(yōu)勢(shì),但過(guò)度依賴合成數(shù)據(jù)也可能削弱AI的精確性和可靠性。
圖片來(lái)源:物理學(xué)家組織網(wǎng)
合成數(shù)據(jù)應(yīng)運(yùn)而生
以往,科技公司主要依賴真實(shí)數(shù)據(jù)來(lái)構(gòu)建、訓(xùn)練和改進(jìn)AI模型。真實(shí)數(shù)據(jù)是指由人類創(chuàng)建的文本、視頻和圖像。它們通過(guò)調(diào)查、實(shí)驗(yàn)、觀察或挖掘網(wǎng)站和社交媒體等途徑被收集而來(lái)。
真實(shí)數(shù)據(jù)因蘊(yùn)含真實(shí)事件以及其場(chǎng)景和背景而極具價(jià)值,但其并非盡善盡美。它可能摻雜拼寫錯(cuò)誤、不一致或無(wú)關(guān)的內(nèi)容,甚至潛藏嚴(yán)重偏見(jiàn),導(dǎo)致生成式AI模型在某些情況下創(chuàng)建的圖像僅展示男性或白人形象。
但真實(shí)數(shù)據(jù)日益匱乏,因?yàn)槿祟惿蓴?shù)據(jù)的速度趕不上AI不斷增長(zhǎng)的需求。
美國(guó)開(kāi)放人工智能研究中心聯(lián)合創(chuàng)始人伊利亞·蘇茨克維爾在去年12月舉行的機(jī)器學(xué)習(xí)會(huì)議上聲稱,AI行業(yè)已觸及他所稱的“數(shù)據(jù)峰值”,AI的訓(xùn)練數(shù)據(jù)如同化石燃料一樣面臨著耗盡的危機(jī)。此外,有研究預(yù)測(cè),到2026年,ChatGPT等大型語(yǔ)言模型的訓(xùn)練將耗盡互聯(lián)網(wǎng)上所有可用文本數(shù)據(jù),屆時(shí)將沒(méi)有新的真實(shí)數(shù)據(jù)可供使用。
為給AI提供充足的“養(yǎng)分”,一種由算法生成的、模仿真實(shí)世界情況的數(shù)據(jù)——合成數(shù)據(jù)應(yīng)運(yùn)而生。合成數(shù)據(jù)是在數(shù)字世界中創(chuàng)造的,而非從現(xiàn)實(shí)世界收集或測(cè)量而來(lái)。它可以作為真實(shí)世界數(shù)據(jù)的替代品,來(lái)訓(xùn)練、測(cè)試、驗(yàn)證AI模型。
從理論上來(lái)說(shuō),合成數(shù)據(jù)為訓(xùn)練AI模型提供了一種經(jīng)濟(jì)高效且快捷的解決方案。它有效解決了AI訓(xùn)練使用真實(shí)數(shù)據(jù)時(shí)飽受詬病的隱私問(wèn)題和道德問(wèn)題,尤其是涉及個(gè)人健康數(shù)據(jù)等敏感信息時(shí)。更重要的是,與真實(shí)數(shù)據(jù)不同,合成數(shù)據(jù)在理論上可以無(wú)限供應(yīng)。
研究機(jī)構(gòu)高德納公司估計(jì),2024年AI及分析項(xiàng)目使用的數(shù)據(jù)中,約60%是合成數(shù)據(jù)。到2030年,AI模型使用的絕大部分?jǐn)?shù)據(jù)將是由AI生成的合成數(shù)據(jù)。
科技公司來(lái)者不拒
事實(shí)上,微軟、元宇宙平臺(tái)公司,以及Anthropic等眾多科技頭部企業(yè)和初創(chuàng)企業(yè),已經(jīng)開(kāi)始廣泛使用合成數(shù)據(jù)來(lái)訓(xùn)練其AI模型。
例如,微軟在1月8日開(kāi)源的AI模型“Phi-4”,便是合成數(shù)據(jù)攜手真實(shí)數(shù)據(jù)訓(xùn)練的;谷歌的“Gemma”模型也采用了類似方法。Anthropic公司也利用部分合成數(shù)據(jù),開(kāi)發(fā)出其性能最優(yōu)異的AI系統(tǒng)之一“Claude 3.5 Sonnet”。蘋果自研AI系統(tǒng)Apple Intelligence,在預(yù)訓(xùn)練階段,也大量使用了合成數(shù)據(jù)。
隨著科技公司對(duì)合成數(shù)據(jù)的需求與日俱增,生產(chǎn)合成數(shù)據(jù)的工具也接踵而至。
英偉達(dá)公司發(fā)布的3D仿真數(shù)據(jù)生成引擎Omniverse Replicator,能夠生成合成數(shù)據(jù),用于自動(dòng)駕駛汽車和機(jī)器人訓(xùn)練。去年6月,英偉達(dá)開(kāi)源了Nemotron-4340b系列模型,開(kāi)發(fā)者可使用該模型生成合成數(shù)據(jù),用于訓(xùn)練大型語(yǔ)言模型,以應(yīng)用于醫(yī)療保健、金融、制造、零售等行業(yè)。在醫(yī)療、金融等專業(yè)領(lǐng)域,該模型能夠根據(jù)特定需求生成高質(zhì)量的合成數(shù)據(jù),幫助構(gòu)建更為精準(zhǔn)的行業(yè)專屬模型。微軟推出的開(kāi)源合成數(shù)據(jù)工具Synthetic Data Showcase則旨在通過(guò)生成合成數(shù)據(jù)和用戶界面,實(shí)現(xiàn)隱私保護(hù)的數(shù)據(jù)共享和分析。亞馬遜云科技推出的Amazon SageMaker Ground Truth也能為用戶生成數(shù)十萬(wàn)張自動(dòng)標(biāo)記的合成圖像。
此外,去年12月,元宇宙平臺(tái)公司推出開(kāi)源大模型Llama 3.3,更是大幅降低了生成合成數(shù)據(jù)的成本。
過(guò)度依賴風(fēng)險(xiǎn)難測(cè)
盡管合成數(shù)據(jù)暫時(shí)解決了AI訓(xùn)練的燃眉之急,但它也并非盡善盡美。
一個(gè)關(guān)鍵問(wèn)題在于:當(dāng)AI模型過(guò)于依賴合成數(shù)據(jù)時(shí),它們可能會(huì)“崩潰”。它們會(huì)產(chǎn)生更多“幻覺(jué)”,編造看似合理可信但實(shí)際上并不存在的信息。而且,AI模型的質(zhì)量和性能也會(huì)飛速下降,甚至無(wú)法使用。例如,某個(gè)AI模型生成的數(shù)據(jù)出現(xiàn)了一些拼寫錯(cuò)誤,利用這些充滿了錯(cuò)誤的數(shù)據(jù)訓(xùn)練其他模型,這些AI模型必定會(huì)“以訛傳訛”,導(dǎo)致更大的錯(cuò)誤。
此外,合成數(shù)據(jù)也存在過(guò)于簡(jiǎn)單化的風(fēng)險(xiǎn)。它可能缺乏真實(shí)數(shù)據(jù)集蘊(yùn)含的細(xì)節(jié)和多樣性,這可能導(dǎo)致在其上訓(xùn)練的AI模型的輸出也過(guò)于簡(jiǎn)單,缺乏實(shí)用性。
為解決這些問(wèn)題,國(guó)際標(biāo)準(zhǔn)化組織需要著手創(chuàng)建強(qiáng)大的系統(tǒng),來(lái)跟蹤和驗(yàn)證AI訓(xùn)練數(shù)據(jù)。此外,AI系統(tǒng)可以配備元數(shù)據(jù)追蹤功能,讓用戶或系統(tǒng)能對(duì)合成數(shù)據(jù)進(jìn)行溯源。人類也需要在AI模型的整個(gè)訓(xùn)練過(guò)程中對(duì)合成數(shù)據(jù)進(jìn)行監(jiān)督,以確保其高質(zhì)量且符合道德標(biāo)準(zhǔn)。
AI的未來(lái)在很大程度上取決于數(shù)據(jù)的質(zhì)量,合成數(shù)據(jù)將在克服數(shù)據(jù)短缺方面發(fā)揮越來(lái)越重要的作用。對(duì)合成數(shù)據(jù)的使用,人們必須保持謹(jǐn)慎態(tài)度,盡量減少錯(cuò)誤,確保其作為真實(shí)數(shù)據(jù)的可靠補(bǔ)充,從而保障AI系統(tǒng)的準(zhǔn)確性和可信度。
關(guān)鍵詞:
相關(guān)閱讀
-
“喂”給人工智能的真實(shí)數(shù)據(jù)終將耗盡 ...
人工智能(AI)初創(chuàng)公司xAI創(chuàng)始人埃隆·馬斯克近日表示:在AI訓(xùn)練中... -
激發(fā)千行百業(yè)走技能報(bào)國(guó)之路
 近日,人力資源社會(huì)保障部、國(guó)家發(fā)展改革委等八部門聯(lián)合印發(fā)... -
提升老年人數(shù)字素養(yǎng) 促進(jìn)高質(zhì)量數(shù)字閱讀
 伴隨數(shù)字化社會(huì)的不斷推進(jìn),老年人的閱讀行為及習(xí)慣也在發(fā)生... -
殺菌除螨AI智能 洗衣機(jī)換新升級(jí)
  在2025年家電以舊換新政策的推動(dòng)下,智能化和健康化成... -
2024國(guó)防科技工業(yè)十大新聞揭曉
 近日,國(guó)家國(guó)防科技工業(yè)局新聞宣傳辦公室正式對(duì)外發(fā)布2024年... -
我國(guó)5G基站達(dá)到425萬(wàn)個(gè)
新華社北京1月21日電(記者張辛欣、張曉潔)工業(yè)和信息化部信息通信...
- “喂”給人工智能的真實(shí)數(shù)據(jù)終將耗盡 合成2025-01-27
- 激發(fā)千行百業(yè)走技能報(bào)國(guó)之路2025-01-27
- 提升老年人數(shù)字素養(yǎng) 促進(jìn)高質(zhì)量數(shù)字閱讀2025-01-27
- 殺菌除螨AI智能 洗衣機(jī)換新升級(jí)2025-01-27
- 2024國(guó)防科技工業(yè)十大新聞揭曉2025-01-27
- 我國(guó)5G基站達(dá)到425萬(wàn)個(gè)2025-01-27
- 我國(guó)已有570多家工業(yè)企業(yè)入圍全球研發(fā)投入22025-01-27
- 享受手機(jī)等購(gòu)新補(bǔ)貼這幾點(diǎn)值得注意2025-01-25
- “沉默”的老年抑郁2025-01-25
- 中新健康|仿制藥一致性評(píng)價(jià)數(shù)據(jù)雷同?多方2025-01-25
- 首兒所與首都體育學(xué)院合作啟用兒童體醫(yī)融合2025-01-25
- 吃完這些藥誰(shuí)勸都別喝酒,不只頭孢→2025-01-25
- 多地實(shí)現(xiàn)藥品價(jià)格在手機(jī)上一鍵查詢、實(shí)時(shí)比2025-01-25
- 專家教你如何預(yù)防呼吸道疾病,安然過(guò)年2025-01-25
- 父母中誰(shuí)的X染色體影響子女大腦衰老?2025-01-25
- 廣西南寧市居民健康素養(yǎng)水平實(shí)現(xiàn)“九連升”2025-01-25
- 中新健康|國(guó)產(chǎn)胰島素“雙雄”業(yè)績(jī)分化2025-01-25
- (新春見(jiàn)聞)“中國(guó)御醫(yī)之鄉(xiāng)”話“蛇寶” 2025-01-25
- 多地學(xué)校上新“班級(jí)日志” 發(fā)揮學(xué)生在班級(jí)2025-01-25
- 未來(lái)十年教育領(lǐng)域如何發(fā)展?專家解讀教育強(qiáng)2025-01-25
- 教育強(qiáng)國(guó)建設(shè)規(guī)劃綱要:統(tǒng)籌推進(jìn)“雙減”和2025-01-25
- 教育強(qiáng)國(guó)建設(shè)規(guī)劃綱要:支持有條件的幼兒園2025-01-25
- 教育強(qiáng)國(guó)建設(shè)規(guī)劃綱要:中小學(xué)生每天綜合體2025-01-25
- 走出校園打通法律援助的“最后一公里”2025-01-25
- 深圳南山小學(xué)數(shù)學(xué)期末考卷是操之過(guò)急還是傳2025-01-25
- 六成受訪大學(xué)生從情緒消費(fèi)中收獲豐富的精神2025-01-25
- 官宣!小紅書「大家的春晚」攜手淘寶,開(kāi)啟2025-01-24
- 美林湖湖主春晚,重塑家園新敘事,共創(chuàng)家園2025-01-24
- 從 Xmars 到 Xnurta:品牌進(jìn)化,AI Age2025-01-23
- 2024年我國(guó)制造業(yè)產(chǎn)品質(zhì)量合格率提升至93.93%2025-01-23