打破“語(yǔ)義壁壘” AI對(duì)藝術(shù)“下手”了
1月初,美國(guó)人工智能公司OpenAI推出兩個(gè)跨越文本與圖像次元的模型:DALL·E和CLIP,前者可以基于文本生成圖像,后者則可以基于文本對(duì)圖片進(jìn)行分類(lèi)。這個(gè)突破說(shuō)明通過(guò)文字語(yǔ)言來(lái)操縱視覺(jué)概念現(xiàn)在已經(jīng)觸手可及。自然語(yǔ)言處理和視覺(jué)處理的邊界已經(jīng)被打破,多模態(tài)AI系統(tǒng)正在逐步建立。 “數(shù)據(jù)的來(lái)源或者形式是多種多樣的,每一種都可以稱(chēng)為一種模態(tài)。例如圖像、視頻、聲音、文字、紅外、深度等都是不同模態(tài)的數(shù)據(jù)。單模態(tài)AI系統(tǒng)只能處理單個(gè)模態(tài)的數(shù)據(jù)。例如對(duì)于人臉識(shí)別系統(tǒng)或者語(yǔ)音識(shí)別系統(tǒng)來(lái)說(shuō),它們各自只能處理圖像和聲音數(shù)據(jù)。”中國(guó)科學(xué)院自動(dòng)化研究所副研究員黃巖在接受科技日?qǐng)?bào)記者采訪時(shí)表示。
相對(duì)而言,多模態(tài)AI系統(tǒng)可以同時(shí)處理不止一種模態(tài)的數(shù)據(jù),而且能夠結(jié)合多種模態(tài)數(shù)據(jù)進(jìn)行綜合分析。“例如服務(wù)機(jī)器人系統(tǒng)或者無(wú)人駕駛系統(tǒng)就是典型的多模態(tài)系統(tǒng),它們?cè)趯?dǎo)航的過(guò)程中會(huì)實(shí)時(shí)采集視頻、深度、紅外等多種模態(tài)的數(shù)據(jù),進(jìn)行綜合分析后選擇合適的行駛路線。”黃巖說(shuō)。
不同層次任務(wù)強(qiáng)行關(guān)聯(lián)會(huì)產(chǎn)生“壁壘”
就像人類(lèi)有視覺(jué)、嗅覺(jué)、聽(tīng)覺(jué)一樣,AI也有自己的“眼鼻嘴”,而為了研究的針對(duì)性和深入,科學(xué)家們通常會(huì)將其分為計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、語(yǔ)音識(shí)別等研究領(lǐng)域,分門(mén)別類(lèi)地解決不同的實(shí)際問(wèn)題。
自然語(yǔ)言處理與視覺(jué)處理分別是怎樣的過(guò)程,二者之間為什么會(huì)有壁壘?
語(yǔ)義是指文字、圖像或符號(hào)之間的構(gòu)成關(guān)系及意義。“自然語(yǔ)言處理與視覺(jué)處理,都重在對(duì)不同模態(tài)數(shù)據(jù)所包含的語(yǔ)義信息進(jìn)行識(shí)別和理解,但是兩種數(shù)據(jù)的語(yǔ)義表現(xiàn)形式和處理方法不同,導(dǎo)致存在所謂的‘語(yǔ)義壁壘’。”黃巖說(shuō)。
視覺(jué)處理中最常見(jiàn)的數(shù)據(jù)就是圖像,每個(gè)圖像是由不同像素點(diǎn)排列而成的二維結(jié)構(gòu)。像素點(diǎn)本身不具有任何語(yǔ)義類(lèi)別信息,即無(wú)法僅憑一個(gè)像素點(diǎn)將其定義為圖像數(shù)據(jù),因?yàn)橄袼攸c(diǎn)本身只包含0到255之間的一個(gè)像素值。
“例如對(duì)于一張人臉圖像來(lái)說(shuō),如果我們只看其中某些像素點(diǎn)是無(wú)法識(shí)別人臉圖像這一語(yǔ)義類(lèi)別信息的。因此,目前計(jì)算機(jī)視覺(jué)領(lǐng)域的研究人員更多研究的是如何讓人工智能整合像素點(diǎn)數(shù)據(jù),判斷這個(gè)數(shù)據(jù)集合的語(yǔ)義類(lèi)別。”黃巖說(shuō)。
“語(yǔ)言數(shù)據(jù)最常見(jiàn)的就是句子,是由不同的詞語(yǔ)序列化構(gòu)成的一維結(jié)構(gòu)。不同于圖像像素,文本中每個(gè)詞語(yǔ)已經(jīng)包含了非常明確的語(yǔ)義類(lèi)別信息。而自然語(yǔ)言處理則是在詞語(yǔ)的基礎(chǔ)上,進(jìn)行更加高級(jí)的語(yǔ)義理解。”黃巖說(shuō),例如相同詞語(yǔ)排列的順序不同將產(chǎn)生不同的語(yǔ)義、多個(gè)句子聯(lián)合形成段落則可以推理出隱含語(yǔ)義信息。
可以說(shuō),自然語(yǔ)言處理主要研究實(shí)現(xiàn)人與計(jì)算機(jī)直接用自然語(yǔ)言進(jìn)行有效信息交流,這個(gè)過(guò)程包括自然語(yǔ)言理解和自然語(yǔ)言生成。自然語(yǔ)言理解是指計(jì)算機(jī)能夠理解人類(lèi)語(yǔ)言的意義,讀懂人類(lèi)語(yǔ)言的潛在含義;自然語(yǔ)言生成則是指計(jì)算機(jī)能以自然語(yǔ)言文本來(lái)表達(dá)它想要達(dá)到的意圖。
由此可以看出,自然語(yǔ)言處理要解決的問(wèn)題的層次深度超過(guò)了計(jì)算機(jī)視覺(jué),自然語(yǔ)言處理是以理解人類(lèi)的世界為目標(biāo),而計(jì)算機(jī)視覺(jué)所完成的就是所見(jiàn)即所得。這是兩個(gè)不同層次的任務(wù)。目前來(lái)說(shuō),自然語(yǔ)言處理在語(yǔ)義分析層面來(lái)說(shuō)要高于視覺(jué)處理,二者是不對(duì)等的。如果強(qiáng)行將兩者進(jìn)行語(yǔ)義關(guān)聯(lián)的話,則會(huì)產(chǎn)生“語(yǔ)義壁壘”。
AI打破自然語(yǔ)言處理和視覺(jué)處理的邊界
此前,OpenAI斥巨資打造的自然語(yǔ)言處理模型GPT-3,擁有1750億超大參數(shù)量,是自然語(yǔ)言處理領(lǐng)域最強(qiáng)AI模型。人們發(fā)現(xiàn)GPT-3不僅能夠答題、寫(xiě)文章、做翻譯,還能生成代碼、做數(shù)學(xué)推理、數(shù)據(jù)分析、畫(huà)圖表、制作簡(jiǎn)歷。自2020年5月首次推出以來(lái),GPT-3憑借驚人的文本生成能力受到廣泛關(guān)注。
與GPT-3一樣,DALL·E也是一個(gè)具有120億參數(shù)的基于Transformer架構(gòu)的語(yǔ)言模型,不同的是,GPT-3生成的是文本,DALL·E生成的是圖像。
在互聯(lián)網(wǎng)上,OpenAI大秀了一把DALL·E的“超強(qiáng)想象力”,隨意輸入一句話,DALL·E就能生成相應(yīng)圖片,這個(gè)圖片內(nèi)容可能是現(xiàn)實(shí)世界已經(jīng)存在的,也可能是根據(jù)自己的理解創(chuàng)造出來(lái)的。
此前,關(guān)于視覺(jué)領(lǐng)域的深度學(xué)習(xí)方法一直存在三大挑戰(zhàn)——訓(xùn)練所需大量數(shù)據(jù)集的采集和標(biāo)注,會(huì)導(dǎo)致成本攀升;訓(xùn)練好的視覺(jué)模型一般只擅長(zhǎng)一類(lèi)任務(wù),遷移到其他任務(wù)需要花費(fèi)巨大成本;即使在基準(zhǔn)測(cè)試中表現(xiàn)良好,在實(shí)際應(yīng)用中可能也不如人意。
對(duì)此,OpenAI聯(lián)合創(chuàng)始人曾發(fā)文聲稱(chēng),語(yǔ)言模型或是一種解決方案,可以嘗試通過(guò)文本來(lái)修改和生成圖像?;谶@一愿景,CLIP應(yīng)運(yùn)而生。只需要提供圖像類(lèi)別的文本描述,CLIP就能將圖像進(jìn)行分類(lèi)。
至此,AI已經(jīng)打破了自然語(yǔ)言處理和視覺(jué)處理的邊界。“這主要得益于計(jì)算機(jī)視覺(jué)領(lǐng)域中語(yǔ)義類(lèi)別分析方面的飛速發(fā)展,使得AI已經(jīng)能夠進(jìn)一步進(jìn)行更高層次的視覺(jué)語(yǔ)義理解。”黃巖說(shuō)。
具體來(lái)說(shuō),隨著深度學(xué)習(xí)的興起,計(jì)算機(jī)視覺(jué)領(lǐng)域從2012年至今已經(jīng)接連攻克一般自然場(chǎng)景下的目標(biāo)識(shí)別、檢測(cè)、分割等語(yǔ)義類(lèi)別分析任務(wù)。2015年至今,越來(lái)越多的視覺(jué)研究者們開(kāi)始提出和研究更加高層的語(yǔ)義理解任務(wù),包括基于圖像生成語(yǔ)言描述、用語(yǔ)言搜索圖片、面向圖像的語(yǔ)言問(wèn)答等。
“這些語(yǔ)義理解任務(wù)通常都需要聯(lián)合視覺(jué)模型和語(yǔ)言模型才能夠解決,因此出現(xiàn)了第一批橫跨視覺(jué)領(lǐng)域和語(yǔ)言領(lǐng)域的研究者。”黃巖說(shuō),在他們推動(dòng)下,兩個(gè)領(lǐng)域開(kāi)始相互借鑒優(yōu)秀模型和解決問(wèn)題的思路,并進(jìn)一步影響到更多傳統(tǒng)視覺(jué)和語(yǔ)言處理任務(wù)。
多模態(tài)交互方式會(huì)帶來(lái)全新的應(yīng)用
隨著人工智能技術(shù)發(fā)展,科學(xué)家也正在不斷突破不同研究領(lǐng)域之間的界限,自然語(yǔ)言處理和視覺(jué)處理的交叉融合并不是個(gè)例。
“語(yǔ)音識(shí)別事實(shí)上已經(jīng)加入其中,最近業(yè)內(nèi)出現(xiàn)很多研究視覺(jué)+語(yǔ)音的新任務(wù),例如基于一段語(yǔ)音生成人臉圖像或者跳舞視頻。”黃巖說(shuō),但是要注意到,語(yǔ)音其實(shí)與語(yǔ)言本身在內(nèi)容上可能具有較大的重合性。在現(xiàn)在語(yǔ)音識(shí)別技術(shù)非常成熟的前提下,完全可以先對(duì)語(yǔ)音進(jìn)行識(shí)別將其轉(zhuǎn)換為語(yǔ)言,進(jìn)而把任務(wù)轉(zhuǎn)換為語(yǔ)言與圖像交互的常規(guī)問(wèn)題。
無(wú)論是DALL·E還是CLIP,都采用不同的方法在多模態(tài)學(xué)習(xí)領(lǐng)域跨出了令人驚喜的一步。今后,文本和圖像的界限是否會(huì)被進(jìn)一步打破,能否順暢地用文字“控制”圖像的分類(lèi)和生成,將會(huì)給現(xiàn)實(shí)生活帶來(lái)怎樣的改變,都值得期待。
對(duì)于多模態(tài)交互方式可能會(huì)帶來(lái)哪些全新應(yīng)用?黃巖舉了兩個(gè)具有代表性的例子。
第一個(gè)是手機(jī)的多模態(tài)語(yǔ)音助手。該技術(shù)可以豐富目前手機(jī)語(yǔ)音智能助手的功能和應(yīng)用范圍。目前的手機(jī)助手只能進(jìn)行語(yǔ)音單模態(tài)交互,未來(lái)可以結(jié)合手機(jī)相冊(cè)等視覺(jué)數(shù)據(jù)、以及網(wǎng)絡(luò)空間中的語(yǔ)言數(shù)據(jù)來(lái)進(jìn)行更加多樣化的推薦、查詢(xún)、問(wèn)答等操作。
第二個(gè)是機(jī)器人的多模態(tài)導(dǎo)航。該技術(shù)可以提升服務(wù)機(jī)器人與人在視覺(jué)和語(yǔ)音(或語(yǔ)言)方面的交互能力,例如未來(lái)可以告訴機(jī)器人“去會(huì)議室看看有沒(méi)有電腦”,機(jī)器人在理解語(yǔ)言指令的情況下,就能夠結(jié)合視覺(jué)、深度等信息進(jìn)行導(dǎo)航和查找。
相關(guān)閱讀
-
助力打造科技創(chuàng)新和產(chǎn)業(yè)發(fā)展引擎 宜興...
以前我們?cè)跓o(wú)錫的時(shí)候就聽(tīng)說(shuō)宜興稅務(wù)部門(mén)的服務(wù)態(tài)度好,沒(méi)想到是如... -
著力完善科技創(chuàng)新體系 全力鍛造科技創(chuàng)...
十三五以來(lái),蘭州石化公司全面推進(jìn)創(chuàng)新驅(qū)動(dòng)和人才強(qiáng)企戰(zhàn)略,實(shí)施科... -
常州經(jīng)開(kāi)區(qū)入選國(guó)家工業(yè)互聯(lián)網(wǎng)平臺(tái)賦能...
9月6日,工信部對(duì)國(guó)家新型工業(yè)化產(chǎn)業(yè)示范基地工業(yè)互聯(lián)網(wǎng)平臺(tái)賦能數(shù)... -
實(shí)施5G基站建設(shè)提速工程 促進(jìn)5G基站建...
記者今天從省工信廳獲悉,截至今年9月中旬,全省累計(jì)建成5G基站5 8... -
加快培養(yǎng)復(fù)合型人才培訓(xùn)需求 做好成果...
為進(jìn)一步推動(dòng)全行興動(dòng)力創(chuàng)新創(chuàng)優(yōu)項(xiàng)目實(shí)踐深化,促進(jìn)各項(xiàng)目小組相互... -
加快稅收征管數(shù)字化升級(jí) 提升納稅人幸...
這份電子發(fā)票的成功開(kāi)具,標(biāo)志著國(guó)家稅務(wù)總局山西省稅務(wù)局的晉稅通A...
- 如何培養(yǎng)學(xué)生的空間思維能力(如何培養(yǎng)學(xué)生2022-11-25
- 十滴水洗澡的功效(十滴水打一字)2022-11-25
- 焦點(diǎn)快播:“外國(guó)人講安徽故事·合肥站”宣2022-11-25
- 2022黃山旅游節(jié)推出14項(xiàng)主題活動(dòng)2022-11-25
- 世界微速訊:以群眾口碑檢驗(yàn)富裕江西幸福江2022-11-25
- 內(nèi)雙畫(huà)眼妝選擇什么樣的眼影??jī)?nèi)雙眼妝怎么2022-11-25
- 眼影選購(gòu)需要注意哪些方面?眼影是不是越貴2022-11-25
- 深邃歐式眼妝教程 歐美上挑眼線怎么畫(huà)?-2022-11-25
- 環(huán)球觀熱點(diǎn):中分劉海怎么打理好看?哪些中2022-11-25
- 適合中分發(fā)型的臉型有哪些?2022年短發(fā)發(fā)型2022-11-25
- 全球今熱點(diǎn):中分發(fā)型有哪些優(yōu)勢(shì)?方形臉適2022-11-25
- 中分短發(fā)發(fā)型有哪些?你更喜歡哪一款?|全2022-11-25
- 中分適合什么臉型?劉海中分怎么處理?2022-11-25
- 劉海分開(kāi)合不上怎么恢復(fù)?去理發(fā)店可以嗎?2022-11-25
- 【世界新要聞】圓臉臉型特點(diǎn)是什么?圓臉適2022-11-25
- 不想中分怎么變回來(lái)?哪些臉型留中分發(fā)型不2022-11-25
- 環(huán)球熱推薦:中分劉海留煩了想換發(fā)型怎么辦2022-11-25
- 熱點(diǎn)聚焦:劉海中分怎么解決?劉海剪厚了怎2022-11-25
- 如何讓頭發(fā)快速生長(zhǎng)?剛?cè)就觐^發(fā)第二天就洗2022-11-25
- 男士中分適合燙大卷還是小卷?男生燙發(fā)發(fā)型2022-11-25
- 自然卷應(yīng)該使用什么樣的護(hù)發(fā)產(chǎn)品?自然卷該2022-11-25
- 月餅分著吃寓意好嗎?為什么說(shuō)月餅吃多了也2022-11-25
- 月餅?zāi)芗逯詥??月餅的吃法有哪些?|環(huán)球2022-11-25
- 中秋節(jié)該怎么送禮?中秋節(jié)后天氣會(huì)轉(zhuǎn)涼嗎?2022-11-25
- 月餅烤完很硬怎么回事?月餅的好壞主要看什2022-11-25
- 十八數(shù)藏引入新投資方,深度布局產(chǎn)業(yè)化2022-11-25
- 地鐵逃生怎么下載(地團(tuán)網(wǎng))|要聞速遞2022-11-25
- 女人在床上說(shuō)的最刻薄的話_世界即時(shí)看2022-11-25
- 玉竹可以和什么一起泡酒?玉竹酒做法是什么2022-11-25
- 玉竹能放多久?玉竹食用方法有哪些?-全球2022-11-25