国产igao视频网站,91香蕉视频软件APP

套殼的大模型，為何還活著？

2023-11-17 16:08

阿爾法工場

關(guān)注

所謂的“套殼”，并不意味著國產(chǎn)大模型黑暗的前景。

國產(chǎn)大模型套殼，是個(gè)被吐槽已久的現(xiàn)象。

最近，前阿里巴巴副總裁、知名AI框架大牛賈揚(yáng)清昨日發(fā)朋友圈，爆錘國內(nèi)某大廠套殼大模型LLaMA。

大意是：要改就改吧，但別掩耳盜鈴了，免得小公司做一些多余的適配工作……

針對這條消息，業(yè)內(nèi)不少人士紛紛猜測，賈揚(yáng)清所說的那個(gè)“套殼大廠”，實(shí)際上就是前不久剛發(fā)布了Yi-34B大模型的零一萬物。

作為李開復(fù)AI團(tuán)隊(duì)的第一個(gè)大模型，Yi-34B有34B個(gè)參數(shù)，也是基于GPT的架構(gòu)，且在Hugging Face和C-Eval的兩個(gè)開源模型排行榜上，都取得了第一的成績。

然而，在模型發(fā)布后不久，Hugging Face社區(qū)就給零一萬物留了條消息，要求其修改模型張量。

理由是：除了兩個(gè)張量被重新命名外，Yi完全使用了Llama的架構(gòu)。

看到這兒，不少業(yè)內(nèi)人士紛紛皺眉：這是赤裸裸的“套殼”嗎？

如果是的話，為什么大模型浪潮都已經(jīng)過去大半年了，這種“歪風(fēng)邪氣”還是層出不窮呢？

01 怎樣才算“套殼”？

實(shí)際上，在該事件傳出后不久，零一萬物就做出了回應(yīng)，他們承認(rèn)Yi-34B的結(jié)構(gòu)設(shè)計(jì)是基于GPT的成熟結(jié)構(gòu)，借鑒了LLaMA的公開成果，但是這是為了與行業(yè)主流保持一致，更有利于適配和迭代。

不過，這種解釋涉及到了個(gè)很重要的問題，那就是：到底該怎樣涇渭分明地界定“套殼”和“借鑒”？

在開源模型的基礎(chǔ)上進(jìn)行修改、調(diào)整，究竟算不算一種“套殼”行為？

從技術(shù)層面上來說，判斷一個(gè)項(xiàng)目是“借鑒”還是“套殼”，關(guān)鍵在于評估所做的改進(jìn)或優(yōu)化是否具有實(shí)質(zhì)性和原創(chuàng)性。

在借鑒的過程中，開發(fā)者會(huì)在原有模型的基礎(chǔ)上做出顯著的增值，例如引入新的數(shù)據(jù)處理技術(shù)、優(yōu)化算法性能，或者開發(fā)特定于某個(gè)行業(yè)或應(yīng)用的功能。

同時(shí)，在借鑒時(shí)，開發(fā)者通常會(huì)明確指出，他們的改動(dòng)是基于哪個(gè)開源模型，并說明他們所做的改進(jìn)和創(chuàng)新。這種做法符合開源社區(qū)的原則和精神。

相反，如果改動(dòng)僅限于表面層面，沒有提供任何新的技術(shù)見解或?qū)嵸|(zhì)性的性能改進(jìn)，則就可以被視為套殼。

那這次零一萬物的Yi-34B，算套殼嗎？

從已經(jīng)公布的信息來看，零一萬物公司的做法似乎介于“套殼”和“借鑒”之間。

他們確實(shí)在一定程度上依賴了LLaMA的架構(gòu)，但也在數(shù)據(jù)處理、訓(xùn)練方法等方面進(jìn)行了自己的工作和創(chuàng)新。

例如，其使用了自建的數(shù)據(jù)管線，從3PB原始數(shù)據(jù)中精選到3T token的高質(zhì)量數(shù)據(jù)，以及在在網(wǎng)絡(luò)寬度和深度上測試了不同的Norm方法。

這些改進(jìn)可能不那么容易從模型的架構(gòu)或代碼直接觀察到，它們通常在模型的內(nèi)部，而不是直接體現(xiàn)在模型的基礎(chǔ)架構(gòu)上。

這種情況下，將其完全歸類為“套殼”可能有失公允。

但也不能完全視為獨(dú)立的“借鑒”，原因在于其模型架構(gòu)與LLaMA架構(gòu)的高度相似性。

當(dāng)一個(gè)新模型在核心架構(gòu)上，與現(xiàn)有的開源模型高度相似或幾乎一致時(shí)，即使在其他方面有所創(chuàng)新和改進(jìn)，也很難被完全視為獨(dú)立的“借鑒”。

02 時(shí)間壓力

盡管零一萬物此次的意外，或許算不上完全的“套殼”，但國產(chǎn)大模型“套殼”的情況，確實(shí)由來已久。

國產(chǎn)大模型，為何屢屢“套殼”？

除了算力、人才和資金方面的短缺，讓部分團(tuán)隊(duì)“另辟蹊徑”外，另一個(gè)重要的原因，就是當(dāng)前大模型創(chuàng)業(yè)的時(shí)間窗口，已經(jīng)收得越來越緊了。

畢竟，大模型這股熱潮，已經(jīng)燃燒了大半年之久，該入局的玩家早已入局，整個(gè)行業(yè)的格局已經(jīng)基本形成。

頭部大廠的地位撼動(dòng)，國外同行又不斷推陳出新，留給模型層團(tuán)隊(duì)的時(shí)間，真的不多了。

在市場上同類大模型越來越多的情況下，客戶為什么要偏偏苦守著一個(gè)研發(fā)緩慢，前途又不甚明朗的大模型？

市場對于快速解決方案的需求迫在眉睫�？蛻舻男枨蟛荒艿�。他們需要現(xiàn)在就能用的解決方案，而不是幾年后。

在這樣的壓力下，部分團(tuán)隊(duì)做出了選擇：使用開源模型作為基礎(chǔ)，對其進(jìn)行改進(jìn)和定制，以適應(yīng)市場的需求。

畢竟，即使擁有頂尖人才，創(chuàng)新和自主研發(fā)的過程也是漫長且充滿不確定性的。因?yàn)?span id="4mwsumy" class='hrefStyle'>人工智能領(lǐng)域正在快速發(fā)展和變化，市場和技術(shù)的不確定性意味著巨大的研發(fā)風(fēng)險(xiǎn)。

在今年10月之前，不少國內(nèi)團(tuán)隊(duì)，都將GPT-4當(dāng)成“對標(biāo)”的目標(biāo)。然而，殊不知你在進(jìn)，你的對手也在進(jìn)。

9月底，OpenAI推出了DALL-E3，緊接著又推出了GPT-4V和語音交互功能，在多模態(tài)層面更上了一層樓。

而11月初開發(fā)者大會(huì)的一系列“王炸”更新，則用更長的文本長度、全新的 Assistants API、以及文本轉(zhuǎn)語音（TTS）技術(shù)，扼殺了想在“局部領(lǐng)域”進(jìn)行突圍的國產(chǎn)模型。

在技術(shù)迭代迅速的情況下，許多團(tuán)隊(duì)還在苦苦研發(fā)的大模型，也許還沒發(fā)布，就已經(jīng)過時(shí)。

對于創(chuàng)業(yè)團(tuán)隊(duì)來說，在保持技術(shù)創(chuàng)新的同時(shí)，也要考慮到商業(yè)模型的可行性和市場的接受度。

而有著成熟框架，且得到市場廣泛認(rèn)可的開源大模型，無疑成了一種可靠的，可以馬上投入使用的方案。

并且，成熟的開源框架通常有一個(gè)龐大的社區(qū)支持，這意味著團(tuán)隊(duì)在遇到問題時(shí)可以獲得更多的幫助。

同時(shí)，社區(qū)中的其他開發(fā)者可能已經(jīng)解決了一些常見問題，團(tuán)隊(duì)可以直接借鑒這些解決方案，避免重復(fù)勞動(dòng)。

03 套殼大模型，能投嗎？

在國產(chǎn)大模型“套殼”已經(jīng)成普遍現(xiàn)象，并且將來極有可能成為常態(tài)的情況下，所有投資人都不得不面對一個(gè)問題，那就是：

如果硬是要在這些“套殼”的大模型公司里，物色可投資的企業(yè)，那應(yīng)該怎么選？

在考慮這個(gè)問題時(shí)，有一個(gè)非常重要的因素，即：

這些套殼的大模型公司，究竟是完全依賴于“套殼”，沒有任何自主研發(fā)的努力和計(jì)劃，還是以“套殼”作為妥協(xié)和過渡手段，但有明確的長期發(fā)展計(jì)劃，有創(chuàng)新的愿景，有能力最終轉(zhuǎn)向自主研發(fā)？

這兩種情況，需要區(qū)別對待。

在對這兩類企業(yè)進(jìn)行考察時(shí)，一個(gè)十分重要的衡量標(biāo)準(zhǔn)，就是技術(shù)和產(chǎn)品路線圖。

因?yàn)橐粋€(gè)清晰、具有前瞻性的技術(shù)和產(chǎn)品路線圖，直接反映了企業(yè)的長期戰(zhàn)略意圖和創(chuàng)新能力。它不僅顯示了企業(yè)是否有計(jì)劃從“套殼”轉(zhuǎn)向自主研發(fā)，還表明了企業(yè)未來技術(shù)發(fā)展的方向和潛在的市場競爭力。

實(shí)際上，以類似“套殼”的方式進(jìn)入市場，最后卻依靠自研產(chǎn)品獲得用戶認(rèn)可的案例，在商業(yè)上并不罕見。

例如移動(dòng)互聯(lián)網(wǎng)時(shí)代的小米，就是一個(gè)明顯的例子。