訂閱
糾錯
加入自媒體

認知智能堪比魔法:回顧2021的重大突破

2022-01-11 15:21
51CTO
關(guān)注

作者丨云昭

【51CTO原創(chuàng)稿件】隨著人工智能解決方案越來越廣泛的應(yīng)用,僅僅在視覺、聽覺、觸覺等層次的感知,已經(jīng)滿足不了社會大眾對于“真正智能”的期望。認知智能,被視為人工智能熱潮能否進一步突破天花板,形成更大產(chǎn)業(yè)規(guī)模的關(guān)鍵技術(shù)。

認知智能的目標就是能模擬人腦的思考過程,具有對數(shù)據(jù)和語言的理解、推理、解釋、歸納、演繹的能力,讓人工智能真正“智能”。這就使得 AI 賦能更多大規(guī)模場景成為可能,如智能機器人、無人駕駛、無人機、AR/VR、個性化推薦等智能服務(wù)等。

一方面,計算機視覺、語音識別等感知技術(shù)紛紛出現(xiàn)瓶頸,比如圖像識別方面的自適應(yīng)性和泛化能力不足,醫(yī)學影像領(lǐng)域的三維重建、AR/VR 領(lǐng)域與環(huán)境有效進行交互的性能不足,語音識別領(lǐng)域的語義多樣性等問題,推動著智能從感知邁向認知。另一方面,自然語言處理、智能對話、智能推薦等認知智能技術(shù)呈現(xiàn)出多模態(tài)、預訓練大模型等研究熱潮。

另外,如何通過 AI 技術(shù)手段達到降本、增收、提效、安全的智能化升級,已經(jīng)成為各行業(yè)的切實訴求。

回顧過去一年,預訓練大模型風起云涌、智能推薦與搜索技術(shù)依舊火熱,腦機接口、虛擬主播成為新的風向標,竹間智能、第四范式、瀾舟科技、智源研究院、明略科技等一批科技企業(yè)帶來了很多有關(guān)認知智能技術(shù)商業(yè)落地的思考。

可以說,2021,是認知智能發(fā)展與產(chǎn)業(yè)數(shù)智化轉(zhuǎn)型開始深度融合碰撞的一年。各大人工智能領(lǐng)域的玩家也都紛紛擁抱新一代的認知智能技術(shù)。

專注電商領(lǐng)域的「樂言科技」,推出的第四代客服機器人系統(tǒng)“樂語助人”,具有自動應(yīng)答、能深度訓練對話和擬人化客服接待等特點,為商家提供自動接待買家咨詢、智能推薦、智能營銷、智能質(zhì)檢等一站式電商智能客服解決方案,目前已服務(wù)兩萬多家電商客戶。

7 月,中國人民大學聯(lián)合智源研究院,推出悟道“文瀾”。它具備強大的視覺 - 語言檢索能力和一定的常識理解能力。在“文瀾”多模態(tài)模型的基礎(chǔ)上,研發(fā)團隊還開發(fā)了應(yīng)用《AI 心情電臺》,可以為圖像搭配符合意境的歌曲。

9 月,第四范式與人民日報社正式簽約,共同打造新媒體主流算法,在保證海量內(nèi)容與用戶個性化需求精準匹配的同時,實現(xiàn)主流媒體優(yōu)質(zhì)內(nèi)容的傳播,推動傳媒行業(yè)在 AI 時代的轉(zhuǎn)型與創(chuàng)新。

科大訊飛推出的飛魚系統(tǒng)集成了科大訊飛核心語音識別、語義理解技術(shù),并提供豐富的車聯(lián)網(wǎng)應(yīng)用場景,供使用方根據(jù)場景需要進行定制開發(fā),通過合理的場景交互邏輯設(shè)計,可以方便使用的同時又避免產(chǎn)生相應(yīng)的風險;同時,科大訊飛通過聲紋識別、多模聲源定位等技術(shù),可以將聲音鎖定在某個特定人,或者某個特定發(fā)音方向,從而可以很好地保護使用安全。

百分點科技提出“符號主義”引導下的認知智能行業(yè)落地新范式。它首先構(gòu)建出該領(lǐng)域業(yè)務(wù)的本體框架,然后再結(jié)合深度學習和樣例數(shù)據(jù)細化知識圖譜的本體和事實數(shù)據(jù),并根據(jù)知識圖譜應(yīng)用中的反饋信息不斷調(diào)整和優(yōu)化。

基礎(chǔ)研究上,知識圖譜被認為是最有期望將感知智能推向認知智能的關(guān)鍵。知識圖譜可以幫助企業(yè)更好地完成知識的積累、傳承和復用,有力解決知識資產(chǎn)開發(fā)利用的難題,因具備優(yōu)異的普適性,可做到跨行業(yè)應(yīng)用,助力企業(yè)不斷實現(xiàn)創(chuàng)新突破,向著智慧型企業(yè)邁進。

整體看,知識圖譜目前分為通用知識圖譜和領(lǐng)域知識圖譜。在語義搜索、推薦系統(tǒng),問答系統(tǒng)等應(yīng)用場景中發(fā)揮了很大的作用,它正在金融、能源、醫(yī)療、制造、零售等各行業(yè)領(lǐng)域的場景中發(fā)揮影響力。

由于這種方法知識表征簡單和具有知識的大規(guī)模性,在語義搜索中得到很好的應(yīng)用。因此谷歌、阿里、騰訊、竹間智能、百度智能云、海致星圖、百分點科技、明略科技等一眾研究機構(gòu)紛紛針對知識圖譜開展了大量的應(yīng)用和研究工作。

與此同時,圖神經(jīng)網(wǎng)絡(luò)(GNN)將深度神經(jīng)網(wǎng)絡(luò)從處理傳統(tǒng)非結(jié)構(gòu)化數(shù)據(jù)(如圖像、語音和文本序列)推廣到更高層次的結(jié)構(gòu)化數(shù)據(jù)(如圖結(jié)構(gòu))。大規(guī)模的圖數(shù)據(jù)可以表達豐富和蘊含邏輯關(guān)系的人類常識和專家規(guī)則,圖節(jié)點定義了可理解的符號化知識,不規(guī)則圖拓撲結(jié)構(gòu)表達了圖節(jié)點之間的依賴、從屬、邏輯規(guī)則等推理關(guān)系?梢哉f圖神經(jīng)網(wǎng)絡(luò)是對機器學習進行智慧賦能最重要的落地路徑。

最后,多模態(tài)、大模型預訓練網(wǎng)絡(luò)有望成為 AI 領(lǐng)域的一個研發(fā)范式。例如, 7 月,中國人民大學與智源研究院從視覺和語言的關(guān)系出發(fā),利用互聯(lián)網(wǎng)產(chǎn)生的 6.5 億成對的圖片與文字,用自監(jiān)督的任務(wù)完成一個目前最大的中文通用圖文預訓練模型悟道?文瀾,由此去初步探索 AI 在多模態(tài)環(huán)境中學習語言的可能性。據(jù)官方介紹,文瀾 2.0 實現(xiàn) 7 種不同語言的生成和理解,刷新了創(chuàng)下多語言預訓練模型的最高記錄,在圖文檢索、圖像問答等任務(wù)上達到了世界領(lǐng)先水平。

盤點 2021,有哪些值得關(guān)注的認知技術(shù)落地場景呢?自然語言處理、智能人機交互、智能搜索推薦等成為今年各大 AI 企業(yè)的強勢發(fā)力點。

NLP 作為人工智能皇冠上的明珠,微軟、谷歌、騰訊等業(yè)內(nèi)巨頭紛紛發(fā)布前沿的硬核成果。

ACL2021 大會上,微軟研究院發(fā)表了跨語言命名實體識別、代碼搜索、音樂生成、Hi-Transformer、預訓練模型、語義交互等 6 大研究成果。其中,Hi-Transformer 能夠處理 Transformer 由于速度和顯存限制而無法處理的較長文檔,模型效果引起研究者的注意。

騰訊看點和阿爾伯塔大學的研究者提出了一種簡單但高效的預訓練方法:Lichee。它是一個多模態(tài)內(nèi)容理解算法框架項目,其中包含數(shù)據(jù)增強、預訓練引擎、常見模型以及推理加速等模塊。利用多種粒度的輸入信息來增強預訓練語言模型的表示能力。Lichee 在騰訊看點、騰訊視頻、內(nèi)容管線、QQ 等業(yè)務(wù)場景均有落地,并平均減少標注樣本量 40% 。經(jīng)過多次實踐迭代,可以大幅縮短信息流內(nèi)容理解需求的研發(fā)周期提升人效。

騰訊 AI Lab、香港中文大學研究出一種用單語記憶實現(xiàn)高性能神經(jīng)網(wǎng)絡(luò)翻譯的方法。該研究提出了一種新框架,該框架使用單語記憶并以跨語言方式執(zhí)行可學習的記憶檢索。由于能夠利用單語數(shù)據(jù),該研究還證明了所提模型在低資源和領(lǐng)域適應(yīng)場景中的有效性。

愛奇藝深度學習云算法團隊聯(lián)合慕尼黑工業(yè)大學的研究者提出一套名為 I2UV-HandNet 的高精度手部重建系統(tǒng),通過「看」單目 RGB 人手圖片即能實現(xiàn)高精度 3D 重建。該技術(shù)有望應(yīng)用到愛奇藝下一代 VR 設(shè)備中,從而減少對手柄的依賴,實現(xiàn)與虛擬世界的高質(zhì)量對話,打造出更輕、更快和更舒適的 VR 設(shè)備。同時,手勢重建、交互技術(shù)目前也同步在愛奇藝其他業(yè)務(wù)場景和硬件終端進行落地探索。

來自 DeepMind、谷歌的研究者展示了機器學習可以用于從混合整數(shù)規(guī)劃(MIP) 實例數(shù)據(jù)集自動構(gòu)建有效的啟發(fā)式算法。在實踐中經(jīng)常會出現(xiàn)這樣的用例,即應(yīng)用程序需要用不同的問題參數(shù)解決同一高級語義問題的大量實例。

過去的兩三年里,預訓練模型在自然語言領(lǐng)域得到非常廣泛的重視,各大公司學校都開展了預訓練模型的研究,趨勢就是預訓練模型越大越好。

但也存在一個問題,就是模型越大訓練的成本就越高,在提供服務(wù)的時候也對客戶的機器設(shè)備能力要求非常高,從而導致很多硬件能力低的中小企業(yè)用不起這些重量級預訓練模型;谶@一痛點,瀾舟科技一直在考慮是否能把模型做得小一點,提高訓練速度的同時也降低使用成本,名為孟子的輕量化預訓練模型應(yīng)運而生。

孟子輕量化的預訓練模型是利用大規(guī)模的語料庫,以無監(jiān)督的方式訓練一個大規(guī)模的語言模型,這個語言模型輸入一個句子或一個片段,基本上可以定義出每一個詞和每個句子的語義,可以應(yīng)用在機器翻譯、問答搜索等場景!霸陬A訓練基礎(chǔ)上,瀾舟科技開發(fā)了新一代的機器翻譯、文本生成和行業(yè)搜索引擎等技術(shù),并通過產(chǎn)業(yè)合作實現(xiàn)了技術(shù)落地!

大規(guī)模有監(jiān)督數(shù)據(jù)的技術(shù)紅利逐漸減弱,AI 新基建需要更低的研發(fā)與部署成本,通過預訓練與自訓練平臺,最終還要沉淀成標準化、低成本復制的模型,并與產(chǎn)業(yè)進行更深度的融合,挖掘出更多降低人工成本的新應(yīng)用點。

可以說,當下 NLP 處于一個美好的時代,雖然還有很多問題沒有解決,但已經(jīng)有很多成功的商業(yè)應(yīng)用。隨著面向 NLP 的大規(guī)模語言模型的工程化落地,將打開數(shù)字化轉(zhuǎn)型的新階段。

2021,阿里技術(shù)團隊在雙十一的搜索與推薦場景中,使用深度增強學習與自適應(yīng)在線學習,用戶點擊率提升 10-20%。通過持續(xù)機器學習和模型優(yōu)化建立決策引擎,對海量用戶行為以及百億級商品特征進行實時分析,幫助每一個用戶迅速發(fā)現(xiàn)寶貝、為商家?guī)硗毒壍馁I家,提高人和商品的配對效率,進而可以極大提升用戶購物體驗。

字節(jié)跳動技術(shù)團隊結(jié)合云能力,使得火山引擎進一步豐富了資源生態(tài)的靈活性以及算法效果的個性化,同時也解決了本地包大小問題,做到資源的動態(tài)拉取和使用;配合強大的運營平臺可以更貼切地為企業(yè)做到個性化定制服務(wù)。

58 技術(shù)團隊則在分類信息業(yè)務(wù)背景下,在搜索推薦能力建設(shè)上做出了有建設(shè)性的關(guān)鍵實踐,例如業(yè)務(wù)聯(lián)動的綜合排序框架,多通道的深度學習模型等。在當下產(chǎn)業(yè)化升級的浪潮中,大大提升了不同需求的用戶使用體驗和點擊轉(zhuǎn)化率。

QQ 瀏覽器實驗室自研了預訓練模型“神舟”,這個模型具有百億參數(shù)的訓練能力,可以為搜索、推薦、內(nèi)容理解等多種業(yè)務(wù)場景帶來直接幫助,提升各種自然語言理解算法效果。通過該模型, QQ 瀏覽器業(yè)務(wù)中出現(xiàn)的如評論理解、搜索 Query 推薦等 NLP 需求不僅得以滿足,還減少了 40% 以上所需的標注數(shù)據(jù)量和相應(yīng)的研發(fā)時間,節(jié)省了標注的成本,大大提升了研發(fā)效率。

從點擊率、轉(zhuǎn)化率、配對效率到業(yè)務(wù)聯(lián)動、研發(fā)效率和用戶體驗,智能搜索與推薦的發(fā)展,正在以一種無聲又驚人的力量改造著社會的方方面面。

對話機器人目前在行業(yè)里,一直是認知智能技術(shù)最為熱門的落地應(yīng)用。認知智能讓機器具備像人一樣自然、流暢、有趣的交流逐漸成為可能。智能音箱、智能客服、數(shù)字人、智能陪護機器人等產(chǎn)品越來越多的出現(xiàn)在人們的生活和工作中。

9 月,百度發(fā)布全球最大規(guī)模的對話生成模型 PLATO-XL。在人機智能對話領(lǐng)域,PLATO-XL 全面超越 Facebook、谷歌和微軟發(fā)布的最新對話模型,中英文人機對話效果全球領(lǐng)先。

11 月 ,在騰訊數(shù)字生態(tài)大會云智能專場上,騰訊云小微發(fā)布基于新一代多模態(tài)人機交互技術(shù)的全新數(shù)智人產(chǎn)品矩陣,擁有文旅導覽、金融客服、多語種主播、手語主播等不同職業(yè)身份和技能,可提供定制化角色服務(wù)。數(shù)智人擁有形象表現(xiàn)力、識別力和感知理解能力,可識別超 34 種語種、方言,擁有超過 46 萬垂直行業(yè)場景熱詞庫。

哈爾濱工業(yè)大學研究團隊結(jié)合知識圖譜與冬奧會主題的內(nèi)容,構(gòu)建出冬奧會智能客服機器人,能夠滿足體育賽事票務(wù)查詢預訂以及交通路線規(guī)劃的用戶需求,實現(xiàn)基于冬奧會知識圖譜的多輪對話。

OPPO 推出的“小布”則嘗試根據(jù)用戶的請求文本分析用戶當前的情緒狀態(tài),并給與用戶人性化的回應(yīng)。比如說用戶表達一些與孤獨、難過相關(guān)的文本時,可以及時理解用戶當時的心情,給予相應(yīng)的安慰。

12 月,“新華社 AI 合成主播首次對話虛擬人”格外引人注意,一位身穿西服、打著領(lǐng)帶的 AI 合成男主播,說著極為標準的普通話,做著生動的手部動作,與另一位同樣身著正裝的 AI 合成女主播進行連線。

除此之外,腦機接口、智能網(wǎng)聯(lián)汽車也是今年較熱門的認知智能的應(yīng)用場景。

誠如清華知識智能聯(lián)合實驗室主任唐杰教授所說,認知智能想要取得關(guān)鍵性突破,“基礎(chǔ)設(shè)施還是少了一些”。比如,通用知識圖譜的構(gòu)建就是一項耗時耗力的基礎(chǔ)工程。例如在 NLP 領(lǐng)域,形式化知識系統(tǒng)存在明顯構(gòu)成缺失,實體間關(guān)系淺;其次是深層結(jié)構(gòu)化語義分析存在明顯性能不足。一句話,系統(tǒng)大而不強。

而聚焦在某一特定領(lǐng)域,算法、行業(yè)數(shù)據(jù)、行業(yè)專家,這三個要素缺一不可。這就對從業(yè)者提出了務(wù)實的需求,摒棄“只做 Demo 級演示”、“PPT 式吹噓”的務(wù)虛心態(tài),以長遠價值的心態(tài)對待認知智能的建設(shè)與升級。僅僅在應(yīng)用層創(chuàng)新還遠遠不夠,底層技術(shù)創(chuàng)新才能帶來認知智能水平的顛覆性重塑。

近年來,認知智能標準化建設(shè)得到了國內(nèi)外各標準化組織、企業(yè)和學術(shù)界越來越多的關(guān)注。7 月,中國信息通信研究院聯(lián)合竹間智能發(fā)布的《2021 認知智能發(fā)展研究報告》顯示,當前已經(jīng)發(fā)布和正在研制的各類標準按超過 30 項,涉及國際標準、國家標準、行業(yè)標準等多種類別。可以看出通用標準已經(jīng)起步,但細分到各個應(yīng)用領(lǐng)域的產(chǎn)品測試標準依舊懸而未解。比如,在智慧城市的實際建設(shè)中,仍缺乏科學合理的城市治理規(guī)范以及精準高效的模擬推演技術(shù)體系等等。

認知智能在實際應(yīng)用場景中,依舊存在不少亟待解決的問題。例如,在當前復雜城市環(huán)境下的情景推演、智能推理與決策技術(shù)中遭遇的認知瓶頸(由于經(jīng)驗數(shù)據(jù)導致的錯誤歸因,會導致犯罪預測算法有種族歧視傾向);現(xiàn)有模型對常識 / 客觀規(guī)律等知識認知的不完備,難以解決開放、動態(tài)、真實城市環(huán)境下的推理與決策問題。

認知智能是一整套理論、技術(shù)和應(yīng)用系統(tǒng)體系。認知智能的實現(xiàn),離不開腦科學、心理學、邏輯學、語言學等多學科的跨界融通和共同進步。但多學科的融合進步,存在一定的跨越式鴻溝。但如果僅僅在少數(shù)學科中做“煙囪式”的研究,認知智能的水平也必將是不充分的。

從基礎(chǔ)研究到商業(yè)探索,認知智能在未來幾年可能會出現(xiàn)以下四大趨勢。

首先,目前知識圖譜構(gòu)建技術(shù)開發(fā)效率比較低下,主要卡點在于主要依賴人工進行構(gòu)建,從數(shù)據(jù)收集、數(shù)據(jù)清洗到數(shù)據(jù)比對,再到最后圖譜構(gòu)建等整個流程中,自動化程度低。其次,知識圖譜構(gòu)建工作仍然高度依賴專家的知識輸入,目前市面上知識圖譜產(chǎn)品普遍具備較強的行業(yè)屬性,產(chǎn)品通用性差,阻礙了技術(shù)規(guī)模化應(yīng)用。

為此,不少廠商已經(jīng)開始探索平臺化的解決方案。例如竹間智能,推出了知識工程的平臺化產(chǎn)品 Gemini;谠撈脚_,用戶可自行構(gòu)建通用知識圖譜、行業(yè)知識圖譜,進行知識管理及知識搜索,大大縮短業(yè)務(wù)流程中需要人工處理文本的時間,解決企業(yè)數(shù)據(jù)應(yīng)用難題;第四范式知識圖譜(第四范式 KB)將大量專家知識模塊化封裝進第四范式 NLP 產(chǎn)品,普通業(yè)務(wù)人員經(jīng)簡單培訓即可使用的全流程知識圖譜平臺,針對不同行業(yè)和領(lǐng)域提供知識驅(qū)動的復雜應(yīng)用分析及決策支持。

目前來看,人工智能的發(fā)展正在從感知智能向認知智能快速推進中,超大規(guī)模的預訓練模型成為全球人工智能技術(shù)研發(fā)的熱點和競爭的焦點。騰訊、搜狗、華為、阿里達摩院等巨頭輪番霸榜權(quán)威中文語言識別評測基準(CLUE)榜單。

值得注意的是,瀾舟科技推出的輕量化預訓練模型“孟子”,以十億參數(shù)完成了此前百億、千億參數(shù)模型刷新的紀錄,首戰(zhàn)登頂 CLUE 榜單。

當然,大模型距離實際落地,還需要很長的路要走,目前需要經(jīng)過微調(diào)、模型壓縮成小模型才能發(fā)布。通常小模型只有幾十兆,在經(jīng)過軟件和硬件的優(yōu)化以后才能得以順利應(yīng)用。

企業(yè)的數(shù)字化轉(zhuǎn)型和智能化轉(zhuǎn)型的強烈需求加上預訓練模型的技術(shù)發(fā)展,認知智能賽道必然會迎來一個新的飛躍。

以對話機器人為例,目前更多是基于文本信息來鑒定情緒,后續(xù)基于聲學或視覺特征分析,結(jié)合聲學和文本的信息更好地理解用戶。Apple 發(fā)明了一項技術(shù),可以根據(jù)用戶發(fā)出語音請求的音量,實時調(diào)整回復用戶時的音量;Google 則正在研究基于用戶雙眼的聚焦判斷用戶是不是真的在跟智能助手對話等。

隨著行業(yè)應(yīng)用的逐步深入,通過某個單點算法創(chuàng)新就能大大提升應(yīng)用效果的方式已不復存在,需要用全流程、全棧的方式。

落地場景的復雜性以及實際需求的多樣性,將會迫使未來的智能應(yīng)用,將通過產(chǎn)業(yè)協(xié)同、系統(tǒng)集成,構(gòu)建成一張精密、龐大、統(tǒng)一的智能網(wǎng)絡(luò)。

因此,這就需要在沿用、傳承計算智能、感知智能相關(guān)技術(shù)的基礎(chǔ)之上,圍繞認知科學的發(fā)展,推動腦科學、心理學、邏輯學、語言學等多學科共同進步、跨界融通才能完成。

“任何充分發(fā)展的科技都與魔法無異”,正如著名小說家亞瑟·克拉克所說。充分發(fā)展的人工智能,會如同魔法一般,終將為機器賦予類人的意識。以認知智能為代表的新一代信息技術(shù),必將深刻影響著社會的方方面面。

整體上看,認知智能還處于起步階段。在科學技術(shù)快速更新迭代的今天,如何持續(xù)進行協(xié)同創(chuàng)新,讓人工智能釋放能量,真正賦能產(chǎn)業(yè),值得大家拭目以待。

【51CTO原創(chuàng)稿件】

來源:51CTO云昭

聲明: 本文系OFweek根據(jù)授權(quán)轉(zhuǎn)載自其它媒體或授權(quán)刊載,目的在于信息傳遞,并不代表本站贊同其觀點和對其真實性負責,如有新聞稿件和圖片作品的內(nèi)容、版權(quán)以及其它問題的,請聯(lián)系我們。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯
x
*文字標題:
*糾錯內(nèi)容:
聯(lián)系郵箱:
*驗 證 碼:

粵公網(wǎng)安備 44030502002758號