国产亚洲欧美日韩精品,包含久精品视在线观看视频

百“�！被鞈�(zhàn)

2023-04-13 13:45

撰文 | 吳坤諺

編輯 | 王潘

“面向AI時(shí)代，所有應(yīng)用都值得用大模型重做一遍。”

4月11日的2023阿里云峰會(huì)上，阿里巴巴集團(tuán)董事會(huì)主席兼首席執(zhí)行官、阿里云智能集團(tuán)首席執(zhí)行官?gòu)堄碌倪@句話(huà)其實(shí)有些給他人作注之嫌，APUS創(chuàng)始人李濤曾說(shuō)過(guò)一句更提振人心的話(huà)：幾乎所有行業(yè)，都值得被人工智能重做一遍。

隨后，阿里云智能首席技術(shù)官周靖人正式宣布推出大語(yǔ)言模型“通義千問(wèn)”。他介紹稱(chēng)，通義千問(wèn)是一個(gè)超大規(guī)模的語(yǔ)言模型，功能包括多輪對(duì)話(huà)、文案創(chuàng)作、邏輯推理、多模態(tài)理解、多語(yǔ)言支持，能夠跟人類(lèi)進(jìn)行多輪的交互，也融入了多模態(tài)的知識(shí)理解，且有非常強(qiáng)的文案創(chuàng)作能力，能夠續(xù)寫(xiě)小說(shuō)，編寫(xiě)郵件等，可以極大增加我們的工作效率。

隨著阿里AI大模型——通義千問(wèn)的正式亮相，以及百度、華為、360等互聯(lián)網(wǎng)頭部企業(yè)前后腳推出自己的AI大模型，屬于A(yíng)I，又或者說(shuō)是屬于A(yíng)I大模型的時(shí)代到來(lái)。但究其根源，大模型在ChatGPT的破圈效應(yīng)下引發(fā)大廠(chǎng)們小步快跑進(jìn)場(chǎng)，也只是冷飯熱吃。

早在2018年，谷歌便提出超大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型BERT，2020年，OpenAI推出GPT-3超大規(guī)模語(yǔ)言訓(xùn)練模型，參數(shù)達(dá)到1750億，用了大約兩年的時(shí)間，實(shí)現(xiàn)了模型規(guī)模從1億到上千億級(jí)的突破，并能實(shí)現(xiàn)作詩(shī)、聊天、生成代碼等功能。

2021年，國(guó)內(nèi)大廠(chǎng)也感受到了大模型的東風(fēng)，華為云發(fā)布盤(pán)古NLP超大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型和盤(pán)古α超大規(guī)模預(yù)訓(xùn)練模型、阿里達(dá)摩院發(fā)布十萬(wàn)億參數(shù)的多模態(tài)大模型M6、以及百度也推出了如今文心一言的前身——ERNIE 3.0 Titan。如果說(shuō)大模型的元年，其實(shí)2021年可能更合適。

總的來(lái)說(shuō)，這一階段的大模型還充滿(mǎn)著“等風(fēng)口”的階段，只是彼時(shí)的AI大模型尚欠缺商業(yè)模式的落地支撐，例如盤(pán)古NLP模型在面世之初便確定了自己to B的定位，直至ChatGPT憑借出色的交互以及開(kāi)放性測(cè)試在全球掀起AI狂潮。

于是大廠(chǎng)們紛紛撿起自己的復(fù)現(xiàn)成果，調(diào)用起云業(yè)務(wù)中閑置的算力，亦步亦趨地追趕，希望能夠后發(fā)先至。

泛濫的大模型

OpenAI為大家找到了產(chǎn)品落地之路，引發(fā)一眾大廠(chǎng)一哄而上。

本輪“狂飆”下的第一個(gè)玩家是百度，百度本身浸淫搜索領(lǐng)域、中文垂類(lèi)知識(shí)多年，掌握大量高質(zhì)量通識(shí)數(shù)據(jù)，而且早在2010年便成立了自然語(yǔ)言處理部，本就是大廠(chǎng)中最早探索AI的一批，如今也是最早推出了類(lèi)GPT應(yīng)用文心一言。

4月以來(lái)，大模型井噴，入場(chǎng)者接連發(fā)布大模型的新聞消息應(yīng)接不暇。

4月9日，360在2023數(shù)字安全與發(fā)展高峰論壇上發(fā)布類(lèi)GPT大模型“360智腦”，周鴻祎親切地稱(chēng)其為“剛生出來(lái)的孩子”。4月10日，自學(xué)術(shù)圈走進(jìn)商界的AI獨(dú)角獸商湯科技對(duì)外發(fā)布了“日日新SenseNova”大模型體系，推出自然語(yǔ)言處理、內(nèi)容生成、自動(dòng)化數(shù)據(jù)標(biāo)注、自定義模型訓(xùn)練等多種大模型及能力并提供實(shí)機(jī)演示。

4月11日，阿里在2023云峰會(huì)上發(fā)布“通義千問(wèn)”大模型并向社會(huì)企業(yè)開(kāi)放使用，邀請(qǐng)企業(yè)參與共創(chuàng)自己的大模型。發(fā)布會(huì)上，張勇在宣布將阿里系應(yīng)用接入大模型重做時(shí)，炫富式地展示了阿里系那令人眼花繚亂的商業(yè)應(yīng)用，完善的APP矩陣與數(shù)字商業(yè)積累顯然成為大模型訓(xùn)練的基石。

緊隨其后的騰訊“混元”大模型與華為的“盤(pán)古”大模型，一個(gè)把守著豐富的社交場(chǎng)景與信息流數(shù)據(jù)，另一個(gè)也手握智能硬件的高頻流量，而且兩者都通過(guò)云服務(wù)的市場(chǎng)地位獲取了極富商業(yè)價(jià)值的數(shù)據(jù)資產(chǎn)。

無(wú)論好壞，即使是“剛生出來(lái)的孩子”也要“抱出來(lái)給大家看”，眾大廠(chǎng)趕鴨子上架式的密集發(fā)布大模型，怎么看都有點(diǎn)飛蛾撲火的意思。

首先，構(gòu)建大模型是很難迅速產(chǎn)生商業(yè)價(jià)值的。參考大模型渴望復(fù)現(xiàn)的openAI，盡管在微軟的投資下，其公司估值越來(lái)越高，但至今仍未實(shí)現(xiàn)盈利。芯片、能耗、數(shù)據(jù)資產(chǎn)等剛性成本也將隨著入場(chǎng)者的增加水漲船高。在行業(yè)“乍暖還寒”、降本增效的當(dāng)下，將寶貴的現(xiàn)金流投進(jìn)AI的無(wú)底洞，未必是一個(gè)好主意。

其次，大模型并非通往強(qiáng)人工智能的唯一道路。隨著數(shù)據(jù)不斷增長(zhǎng)，算力持續(xù)提升，優(yōu)化手段越來(lái)越好，模型也會(huì)越來(lái)越大。無(wú)數(shù)人工神經(jīng)元分層排列，而參數(shù)量描述了神經(jīng)元之間連接強(qiáng)度的可調(diào)值。模型的預(yù)訓(xùn)練就是在已知文本的基礎(chǔ)上不斷重復(fù)執(zhí)行并調(diào)整這些參數(shù)，以便算法下次做得更好，也就是我們所說(shuō)的“調(diào)教”。

只是堆砌再多文本，AI習(xí)得的語(yǔ)言模式也無(wú)法讓其真正誕生邏輯思維，模仿不了數(shù)學(xué)推理。目前亦步亦趨在ChatGPT3.5之后的大模型們也將遭遇前者的困境。既然不是為了AI功能性的升級(jí)，那么耗費(fèi)海量算力與“鈔能力”的目的也顯而易見(jiàn)，ChatGPT為我們拉開(kāi)了AI大模型商業(yè)化落地的大幕，緊隨其后上臺(tái)的人當(dāng)然要賺上同樣的吆喝。

正如微軟向OpenAI投資100億美元，將GPT全面接入自家應(yīng)用一樣，讓浩如江海的中小企業(yè)通過(guò)自己的大模型來(lái)打造屬于相應(yīng)的中小模型，是OpenAI昭示的商業(yè)落地路徑。大模型的井噴是這條路徑的復(fù)現(xiàn)，遵循著相同范式——花大錢(qián)做“費(fèi)力不討好”的大模型，爭(zhēng)取市場(chǎng)地位。

這一范式實(shí)際上也不新鮮。打個(gè)比方，在數(shù)字化時(shí)代下的應(yīng)用需要一個(gè)操作系統(tǒng)，微軟憑借Windows占據(jù)PC頭把交椅，即使后來(lái)者創(chuàng)造了無(wú)數(shù)使用體驗(yàn)更好的產(chǎn)品，也難以動(dòng)搖微軟的地位，因?yàn)檫@些產(chǎn)品的開(kāi)發(fā)都基于Windows這個(gè)操作系統(tǒng)。

而智能化時(shí)代同樣需要操作系統(tǒng)，在OpenAI進(jìn)不了國(guó)門(mén)的前提下，市場(chǎng)自然會(huì)尋求替代品，如今的大模型之爭(zhēng)本質(zhì)上是下一代操作系統(tǒng)之爭(zhēng)。面對(duì)當(dāng)下國(guó)內(nèi)大模型噴涌，APUS李濤認(rèn)為，“所有人在爭(zhēng)大模型的本質(zhì)，實(shí)際上是爭(zhēng)操作系統(tǒng)的話(huà)語(yǔ)權(quán)，一旦誰(shuí)能控制，就會(huì)獲得最大的商業(yè)回報(bào)”。

在他看來(lái)，中小模型對(duì)應(yīng)商業(yè)場(chǎng)景，因此中小企業(yè)應(yīng)致力于此；大模型對(duì)應(yīng)行業(yè)標(biāo)準(zhǔn)，獲取話(huà)語(yǔ)權(quán)意味著主導(dǎo)未來(lái)生態(tài)。

AI浪潮前，我們共同經(jīng)歷數(shù)字化，平臺(tái)作為流量的集中入口，主宰移動(dòng)互聯(lián)網(wǎng)商業(yè)的變現(xiàn)能力。AI浪潮下，我們共同經(jīng)歷智能化，大模型作為操作系統(tǒng)，主宰云上的業(yè)務(wù)和應(yīng)用。誰(shuí)都想成為下一個(gè)谷歌和微軟，但過(guò)程想必不會(huì)輕松。

算力、場(chǎng)景、文本的堆砌歸根結(jié)底是一個(gè)錢(qián)字，飛蛾撲火中的玩家們有享受燒的過(guò)程的、有燃燒自己照亮他人的、當(dāng)然也有向往光明的。

正如李開(kāi)復(fù)所言：“AI 2.0時(shí)代已經(jīng)到來(lái)，會(huì)誕生比移動(dòng)互聯(lián)網(wǎng)大10倍的機(jī)會(huì)。”

大模型的主航道在哪？

More is different。

AI大模型或許還不是無(wú)所不能，但在要素的堆砌下，大模型無(wú)疑能兼容更多的場(chǎng)景和領(lǐng)域。如果說(shuō)大模型的第一步是通用于各行各業(yè)，那么第二步飛躍便是在垂類(lèi)場(chǎng)景中降本增效。

既然目標(biāo)是星辰大海，玩家們手中怎能缺了惡魔果實(shí)？

算力是AI發(fā)展的基礎(chǔ)三要素之一，是訓(xùn)練AI進(jìn)行海量數(shù)據(jù)的重復(fù)多輪處理的能力。據(jù)OpenAI測(cè)算，2012年開(kāi)始，全球AI訓(xùn)練所用的計(jì)算量呈現(xiàn)指數(shù)增長(zhǎng)，平均每3.43個(gè)月便會(huì)翻一倍，目前計(jì)算量已擴(kuò)大30萬(wàn)倍，遠(yuǎn)超算力增長(zhǎng)速度。GPT的迭代便足以直觀(guān)呈現(xiàn)算力需求的井噴，GPT-3模型參數(shù)量有1750億，是GPT-2的100余倍。下一代GPT-4模型的參數(shù)量雖未公布，但業(yè)內(nèi)人士預(yù)測(cè)其參數(shù)量足有上萬(wàn)億。

公開(kāi)信息顯示，GPT-3大模型需要訓(xùn)練355個(gè)GPU/年，假設(shè)企業(yè)以一個(gè)月為期限訓(xùn)練自己的大模型，將需要4260個(gè)AI加速卡方可讓產(chǎn)品面世。而這只是參與游戲的“入場(chǎng)券”需求，更重要的是通用大模型在垂類(lèi)場(chǎng)景中展現(xiàn)的效能，而效能源自于大模型在高價(jià)值文本下的不斷訓(xùn)練。

換言之，誰(shuí)手里掌握更多、更有價(jià)值、更普世的場(chǎng)景與數(shù)據(jù)，誰(shuí)做出來(lái)的大模型更好。

首先我們得恭喜在移動(dòng)互聯(lián)網(wǎng)時(shí)代中把握巨大流量入口的企業(yè)們，社交、電商、搜索等人們?nèi)粘Ｉ钪胁豢杀苊獾膽?yīng)用所產(chǎn)生的數(shù)據(jù)，具備讓大模型to C商業(yè)化落地的可能。其次我們還要恭喜數(shù)據(jù)庫(kù)廠(chǎng)商，各類(lèi)垂直數(shù)據(jù)庫(kù)不可避免地成為大模型眼中的香餑餑，只是多個(gè)數(shù)據(jù)庫(kù)間不互通以及模型導(dǎo)入、存儲(chǔ)、使用等問(wèn)題還有待解決方案。

大模型是唯一的正確道路？

AI模型一定是越大越好嗎？

知名期刊《Nature》就此議題采訪(fǎng)了多位專(zhuān)家，并發(fā)表了名為《In AI，is bigger always better？》的研究，一些科學(xué)家認(rèn)為，更大的模型只是在回答訓(xùn)練數(shù)據(jù)相關(guān)范圍內(nèi)的查詢(xún)上變得更好，并不能獲得回答全新問(wèn)題的能力。

人工智能前沿的爭(zhēng)論之聲未消，但目前的通用大模型并不能真的通用于千行百業(yè)。一位業(yè)內(nèi)人士認(rèn)為，大模型最有價(jià)值的地方是通用性強(qiáng)，例如可以支持?jǐn)?shù)以萬(wàn)計(jì)，甚至十萬(wàn)計(jì)的小模型。

大模型雖好，卻是一門(mén)昂貴且需要耐心的事情。為了大模型的規(guī)模效應(yīng)，巨量算力成本背后的芯片與電力消耗已然成為掣肘AI進(jìn)一步發(fā)展的鎖鏈。而且以目前訓(xùn)練大型語(yǔ)言模型所涉及的數(shù)據(jù)、計(jì)算能力和費(fèi)用來(lái)看，只有擁有超大計(jì)算資源的公司才能做到。

以谷歌與柏林大學(xué)合作研發(fā)，用來(lái)和GPT3打?qū)ε_(tái)的PaLM為例，5400億的恐怖參數(shù)下，研究人員測(cè)算其訓(xùn)練一次的成本便上千萬(wàn)美元，谷歌自己在訓(xùn)練PaLM的兩個(gè)月內(nèi)便耗電3.4千兆瓦時(shí)，這相當(dāng)于大約300個(gè)美國(guó)家庭一年的能源消耗。

即便谷歌稱(chēng)其所耗能源構(gòu)成有89%為清潔能源，但目前國(guó)內(nèi)主流發(fā)電形式仍是火電和“看天吃飯”的水電。

芯片方面，由于目前國(guó)產(chǎn)自研芯片最高端水準(zhǔn)的14nm芯片只能覆蓋云計(jì)算算力需求而無(wú)法覆蓋AI算力需求，大模型構(gòu)建同樣面臨“卡脖子”問(wèn)題。大模型算力需求的英偉達(dá)GPU芯片一方面成本高昂，單塊1萬(wàn)美元到2萬(wàn)美元的售價(jià)反映在大模型構(gòu)建上，便是數(shù)十億美元。國(guó)內(nèi)大模型玩家還能騰出多少閑置芯片來(lái)訓(xùn)練大模型？例如阿里的存糧能給大模型勻多少量還是一件值得深究的事情。

再者是，目前的中國(guó)企業(yè)與個(gè)人并不是非大模型不可。即使忽視大模型真的面向千行百業(yè)后，在訓(xùn)練上將產(chǎn)生的巨額功耗與成本，我們也不能忽視目前諸多垂類(lèi)行業(yè)數(shù)據(jù)稀缺、邏輯難以被AI所理解模仿的現(xiàn)狀。

而且，程序員們一定知道多任務(wù)、多線(xiàn)程可是會(huì)互相打架的。按照張勇在阿里云峰會(huì)上提出的“用大模型重做各個(gè)應(yīng)用”，用各行各業(yè)具有沖突性的數(shù)據(jù)訓(xùn)練，不一定能提高垂類(lèi)行業(yè)使用模型的效能。在參數(shù)猛增的情況下，精度未必能一直持續(xù)上漲，即使是Transformer架構(gòu)，也具有它的極限。

相同大模型“賦能”之下的同質(zhì)化人才同樣不具備競(jìng)爭(zhēng)力，而是被AI覆蓋的“時(shí)代的眼淚”。相反，如果AI能成為個(gè)人的個(gè)性化化身，是放大自身能力的小模型，說(shuō)不定還能在被大模型覆蓋的世界中殺出一條血路。

那么能不能用大模型對(duì)小模型蒸餾，讓大模型學(xué)習(xí)小模型的成果呢？目前這一做法面臨大小模型架構(gòu)差異的問(wèn)題，如何順暢互通還是未知數(shù)。

不論AI的未來(lái)是more is different還是less is more，通用大模型的“通用”二字還是要打上一個(gè)問(wèn)號(hào)。

原文標(biāo)題 : 百“�！被鞈�(zhàn)