国产原创无码精品一区二区,国产v亚洲v天堂a无码,国产v综合v亚洲欧美冫

AI大模型哪家強(qiáng)？七大維度橫評(píng)四款主流大模型！

2024-02-02 11:32

奇偶派（jioupai）原創(chuàng)

作者 |光塵、葉子

編輯 |釗

圖源：圖蟲(chóng)創(chuàng)意

2023年是大模型風(fēng)潮大起的一年，目前市面上，文心一言、訊飛星火、通義千問(wèn)等諸多國(guó)產(chǎn)大模型已經(jīng)開(kāi)放內(nèi)測(cè)許久，這些大模型的技術(shù)能力以及由此帶來(lái)的用戶體驗(yàn)感均有所不同。國(guó)內(nèi)國(guó)外百模大戰(zhàn)之下，哪個(gè)大模型更強(qiáng)大，在各方面能力表現(xiàn)如何引人好奇。

帶著這樣的好奇，我們對(duì)包括ChatGPT、文心一言、通義千問(wèn)以及訊飛星火四大國(guó)內(nèi)外主流大模型進(jìn)行一次綜合橫評(píng)，看看誰(shuí)的表現(xiàn)更好。測(cè)評(píng)結(jié)果由1、2、3、4作為排名，最終綜合排名相加越低，表示該大模型表現(xiàn)越好。

希望這次測(cè)評(píng)能給大家?guī)?lái)一些有價(jià)值的參考與結(jié)論，廢話不多說(shuō)，下面我們一起來(lái)看看測(cè)評(píng)。

多模態(tài)能力

多模態(tài)能力指的是處理和理解來(lái)自不同模態(tài)的信息的能力，例如圖像、文本、音頻和視頻等。它涉及到信息融合、交互式體驗(yàn)、數(shù)據(jù)分析、機(jī)器學(xué)習(xí)發(fā)展等多方面，我們對(duì)其中最重要的部分語(yǔ)音交互能力以及幾個(gè)大模型由文字生成圖片、視頻、音頻的能力展開(kāi)了測(cè)試。

①語(yǔ)音交互能力：

語(yǔ)音交互能力是指系統(tǒng)能夠理解和響應(yīng)語(yǔ)音指令，它是多模態(tài)交互中的一個(gè)重要組成部分。

我們以一人在春運(yùn)回家路上遇到的困難，需要得到幫助作為場(chǎng)景，和幾個(gè)大模型展開(kāi)了對(duì)話。

1）文心一言：

文心一言只能一條條語(yǔ)音進(jìn)行交流，無(wú)法實(shí)時(shí)通話。

不過(guò)給出的解決方案還是比較具體和詳細(xì)的。

2）通義千問(wèn)：

通義千問(wèn)則是只能在輸入時(shí)將語(yǔ)音轉(zhuǎn)成文字，而在輸出時(shí)只有文字的形式。

3）GPT：

作為對(duì)比，我們也測(cè)試了ChatGPT面對(duì)相同問(wèn)題的反應(yīng)，回答如上，可以看到，GPT給出的解決方案也很細(xì)致周到，且包含的問(wèn)候語(yǔ)很多，聲音擬人度較高。但也要吐槽下，由于網(wǎng)絡(luò)問(wèn)題需要等待很久，且容易被打斷，對(duì)國(guó)人很不友好。

4）訊飛星火：

可以看到，星火的全語(yǔ)音交互能力并不體現(xiàn)在一條條語(yǔ)音中，而是由“實(shí)時(shí)通話”的形式展現(xiàn)出來(lái)，通過(guò)向其提問(wèn)，星火流利、順暢且迅速、準(zhǔn)確地給出了自己的解決方案。

令人眼前一亮的是，回答問(wèn)題時(shí)，星火V3.5也會(huì)隨時(shí)帶著“嗯……”、“額……”等語(yǔ)氣詞，自然且不顯突兀，不止如此，星火V3.5還會(huì)時(shí)而說(shuō)出“就是”、“這個(gè)”等口語(yǔ)化的輔助詞，即便對(duì)比ChatGPT的“Ember”、“Juniper”，在擬人度和真實(shí)度方面也幾無(wú)挑剔之處。

這也對(duì)比出星火的難能可貴，即星火V3.5在回答問(wèn)題時(shí)，能夠體現(xiàn)出高情商和同理心，這使得它不僅僅是一個(gè)智能助手，更像是一個(gè)真正理解用戶需求的朋友。

進(jìn)一步給出更多條件后，星火的回答也更加細(xì)致，且其支持語(yǔ)音互動(dòng)中的文字轉(zhuǎn)寫(xiě)。

此外，該“通話界面”還有打斷和暫停功能，暫停后也可恢復(fù)提問(wèn)，且可隨時(shí)切換到文字模式，看到通話全程的文字版。

而在另一個(gè)對(duì)話中，對(duì)于問(wèn)題，星火V3.5的回答表現(xiàn)出的關(guān)心和體貼，讓人感到被理解和支持，體現(xiàn)了高情商和高同理心。

而文心一言和通義千問(wèn)都只支持一條條語(yǔ)音，而不支持“實(shí)時(shí)通話”的模式，這一點(diǎn)曾經(jīng)是ChatGPT的最大賣點(diǎn)之一，而目前在國(guó)內(nèi)廠商中訊飛星火的全語(yǔ)音交互能力可以說(shuō)是迎頭趕上了。

我們給出的評(píng)價(jià)是：

1-訊飛星火、GPT

2-文心一言、通義千問(wèn)

②文生圖/視頻/音頻

在語(yǔ)音交互能力之外，多模態(tài)能力發(fā)展之處實(shí)際上是“以文字形式輸入，以XX形式輸出”。于是我們對(duì)文生圖/視頻/音頻的能力分別做了測(cè)評(píng)。

1）訊飛星火：

可以看到訊飛星火支持完成文生圖、文生視頻，雖然不直接支持生成音頻，但支持對(duì)回答消息的語(yǔ)音朗讀，并且在 App 端還可以切換朗讀的主播，因此也可以說(shuō)是支持文生語(yǔ)音的能力的。

2）文心一言：

文心一言支持文生圖、文生音頻，但無(wú)法支持生成視頻，他以文字的形式試圖“反向激發(fā)”提問(wèn)者。

3）通義千問(wèn)：

通義千問(wèn)則只能支持文生圖，文生視頻、音頻均不支持。

4）GPT：

GPT可以支持文生圖，但無(wú)法支持文生視頻、音頻。

因此，總結(jié)以上，在文生圖/音頻/視頻方面，評(píng)判如下：

1-訊飛星火

2-文心一言

3-通義千問(wèn)、GPT

語(yǔ)言理解能力

作為認(rèn)知大模型，語(yǔ)言理解能力幾乎是大模型與外界交互的基礎(chǔ)，我們選取了語(yǔ)義理解、總結(jié)提煉、抗干擾項(xiàng)能力三個(gè)層面來(lái)對(duì)這一維度進(jìn)行評(píng)判。

①語(yǔ)義理解：

1）訊飛星火：

訊飛星火正確地給出了修改意見(jiàn)。

2）文心一言：

文心一言給出了正確的修改意見(jiàn)。

3）通義千問(wèn)：

通義千問(wèn)則是將句子改的更加復(fù)雜了，不符合題意。

4）GPT：

GPT則給出了正確回答且有分析。

鑒于文心一言、訊飛星火和GPT正確，因此給出評(píng)判：

1-訊飛星火、GPT、文心一言

2-通義千問(wèn)

②總結(jié)提煉

對(duì)文段的總結(jié)提煉被認(rèn)為是考察大模型是否快、準(zhǔn)、狠的重要因素，我們做了以下測(cè)試：

1）訊飛星火：

星火的回答簡(jiǎn)潔、準(zhǔn)確。

2）文心一言：

文心一言回答幾乎將第一句話復(fù)制粘貼，并沒(méi)起到總結(jié)效果。

3）通義千問(wèn)：

通義千問(wèn)的回答更加冗長(zhǎng)，且?guī)缀蹙褪前褑?wèn)題重復(fù)了一遍。

4）GPT：

GPT的回答明確，且擴(kuò)寫(xiě)了其介紹。

評(píng)價(jià)：

1-GPT

2-訊飛星火

3-文心一言、通義千問(wèn)

③抗干擾項(xiàng)能力：

抗干擾項(xiàng)能力是考察大模型是否足夠“聰明”的重要手段，我們?cè)谶@項(xiàng)考察上挖了陷阱，其實(shí)給出的問(wèn)題和前面兩個(gè)半句并沒(méi)有聯(lián)系，看看他們的回答：

1）訊飛星火：

星火并沒(méi)有受到擾亂，給出了準(zhǔn)確的回答，還附帶有詳細(xì)的分析。

2）文心一言：

文心一言的回答中漏掉了十年中有三個(gè)閏年的情況，即漏掉了3653天的答案。

3）通義千問(wèn)：

通義千問(wèn)的回答則不夠準(zhǔn)確，明明算出來(lái)了實(shí)際天數(shù)可能是3652天，但最后給出答案時(shí)又去算了平均值，讓人摸不著頭腦。

4）GPT：

GPT僅有結(jié)果，沒(méi)有給出過(guò)程，給出的答案沒(méi)有考慮到三個(gè)閏年的可能性。

評(píng)價(jià)是：

1-訊飛星火

2-文心一言、GPT

3-通義千問(wèn)

知識(shí)問(wèn)答能力

對(duì)知識(shí)問(wèn)答能力，我們從生活常識(shí)、行業(yè)知識(shí)、歷史人文知識(shí)三方面來(lái)評(píng)判。

①生活常識(shí)

對(duì)生活常識(shí)的了解應(yīng)該是大模型的基礎(chǔ)能力。

1）訊飛星火：

訊飛星火的回答正確，且具體詳實(shí)，將制作原料、口味、歷史都介紹了一遍。

2）文心一言：

文心一言的回答正確，且進(jìn)一步將所屬菜系、原材料、烹飪方法等都介紹了。

3）通義千問(wèn)：

通義千問(wèn)的回答也正確，且包含了對(duì)菜品的介紹。

4）GPT：

GPT的回答也正確，總體效果和通義千問(wèn)持平。

評(píng)判結(jié)果：

1-GPT、訊飛星火、文心一言、通義千問(wèn)

②行業(yè)知識(shí)

對(duì)某個(gè)行業(yè)知識(shí)的理解，可以起到該行業(yè)的專業(yè)人士的作用，幫助對(duì)需要了解該行業(yè)的人進(jìn)行知識(shí)普及。

1）訊飛星火：

訊飛星火的答案正確、且有具體分析，對(duì)于做題的學(xué)生黨、考試黨來(lái)說(shuō)很友好。

2）文心一言：

文心一言的答案正確的同時(shí)，給出了標(biāo)黑重點(diǎn)，還有更進(jìn)一步的分析，每個(gè)選項(xiàng)的錯(cuò)誤點(diǎn)都指了出來(lái)，偏向于“老師向”，表現(xiàn)優(yōu)秀。

3）通義千問(wèn)：

通義千問(wèn)的回答則是進(jìn)一步介紹了原題提到的名詞，偏向于“百科向”，起到普及的作用，但沒(méi)有其他錯(cuò)誤選項(xiàng)的分析。

4）GPT：

GPT的回答則介于“普及向”和“老師向”之間，沒(méi)有每個(gè)選項(xiàng)逐個(gè)分析，但綜合一句話可以概括。

評(píng)測(cè)結(jié)果：

1-訊飛星火、GPT、文心一言

2-通義千問(wèn)

③歷史人文知識(shí)

接下來(lái)是歷史人文知識(shí)，我們用““九州”在《書(shū)·禹貢》中指冀、( )、青、徐、揚(yáng)、( )、豫、梁、雍。”這個(gè)問(wèn)題來(lái)考驗(yàn)。這個(gè)問(wèn)題比較小眾，屬于“查資料”型題目。

1）訊飛星火：

訊飛星火的回答準(zhǔn)確無(wú)誤，且附有介紹，令人滿意。

2）文心一言：

文心一言的回答正確，且有更多更詳細(xì)的介紹，介紹了每個(gè)州的地理位置。

3）通義千問(wèn)：

通義千問(wèn)則是只給出了答案，沒(méi)有其他介紹。

4）GPT：

GPT的回答和通義千問(wèn)一樣，也是只給出了答案，沒(méi)有其他介紹。

考慮到歷史知識(shí)類問(wèn)題一般需要更多分析和介紹，因此評(píng)價(jià)結(jié)果為：

1-訊飛星火、文心一言

2-GPT、通義千問(wèn)

邏輯推理能力

邏輯推理能力上，我們將其分類為容易類和困難類，來(lái)進(jìn)行測(cè)評(píng)。

①容易的邏輯推理問(wèn)題

1）訊飛星火：

訊飛星火的答案差強(qiáng)人意，其中，“你在二年級(jí)時(shí)，距離你上二年級(jí)已經(jīng)過(guò)去了1年”的描述很奇怪，不符合邏輯，或許是想表達(dá)其在二年級(jí)下學(xué)期，事實(shí)上這一題的正確答案應(yīng)該是四年級(jí)畢業(yè)，因此說(shuō)是四年級(jí)、五年級(jí)皆可，但這個(gè)解題過(guò)程有待商榷。

2）文心一言：

文心一言給出了正確答案。但步驟1中計(jì)算大學(xué)前年級(jí)時(shí)沒(méi)有計(jì)算高中年級(jí)，反而計(jì)算了幼兒園年級(jí)，讓人有所異議。

3）通義千問(wèn)：

通義千問(wèn)的答案錯(cuò)誤，“大二比二年級(jí)大四個(gè)年級(jí)”的錯(cuò)誤和文心一言犯的錯(cuò)誤如出一轍。

4）GPT：

GPT 的回答邏輯清晰，答案正確。

由于除了GPT外，三個(gè)大模型均有錯(cuò)誤，或是結(jié)果，或是過(guò)程，或是結(jié)果、過(guò)程都錯(cuò)，所以給出評(píng)判：

1-GPT

2-文心一言、訊飛星火、通義千問(wèn)

②困難的邏輯推理問(wèn)題

1）訊飛星火：

訊飛星火的回答邏輯、條理清晰。

2）文心一言：

文心一言給出的答案正確，附有分析過(guò)程。

3）通義千問(wèn)：

通義千問(wèn)的第二個(gè)步驟中“拿一個(gè)已知是假的金幣作為參照物”，但事實(shí)上無(wú)法在不使用電子秤的前提下確定某一個(gè)金幣是假幣，因此推導(dǎo)過(guò)程存在瑕疵。

4）GPT：

GPT給出了正確答案。

評(píng)測(cè)結(jié)果：

1-訊飛星火、文心一言、GPT

3-通義千問(wèn)

數(shù)學(xué)能力

數(shù)學(xué)能力是大模型應(yīng)用時(shí)的一個(gè)很重要的考量因素，尤其是許多學(xué)生朋友們，或許會(huì)用到大模型來(lái)解題。我們分為英文提問(wèn)的代數(shù)題和中文提問(wèn)的幾何題，來(lái)測(cè)試四個(gè)大模型的數(shù)學(xué)能力。

①英文提問(wèn)的數(shù)學(xué)代數(shù)題

1）訊飛星火：

訊飛星火回答正確。

2）文心一言：

文心一言給出了正確答案。

3）通義千問(wèn)：

通義千問(wèn)則是同樣用英語(yǔ)給出了正確答案。

4）GPT：

GPT給出了正確答案。

四個(gè)大模型都正確，因此：

1-訊飛星火、文心一言、通義千問(wèn)、GPT

②中文提問(wèn)的數(shù)學(xué)幾何題

1）訊飛星火：

訊飛星火的答案正確，過(guò)程具體清晰。

2）文心一言：

文心一言的答案正確，過(guò)程同樣具體清晰。

3）通義千問(wèn)：

通義千問(wèn)答案錯(cuò)誤，前三個(gè)選項(xiàng)沒(méi)問(wèn)題，第④個(gè)選項(xiàng)中顯然沒(méi)有理解題意中“一條腰上的中線”這一前提條件。

4）GPT：

GPT答案錯(cuò)誤。

因此，給出的評(píng)判是：

1-訊飛星火、文心一言

2-通義千問(wèn)

3-GPT

代碼能力

讓大模型幫助敲代碼，想必是許多程序員朋友們夢(mèng)寐以求的事，我們對(duì)幾個(gè)大模型進(jìn)行了代碼能力的檢測(cè)。我們提出了要求，想讓四個(gè)大模型完成“用python實(shí)現(xiàn)：輸入一個(gè)整數(shù)，將其分解質(zhì)因數(shù)，例如輸入90，輸出90=2*3*3*5”的要求。

1）訊飛星火：

訊飛星火給出的代碼格式標(biāo)準(zhǔn)，清爽很多。

2）文心一言：

文心一言給出的代碼詳細(xì)，且有介紹，

3）通義千問(wèn)：

通義千問(wèn)給出的代碼則更加繁瑣，且生成界面中會(huì)需要代碼執(zhí)行器完成調(diào)用。

4）GPT：

GPT沒(méi)有給出代碼。

綜上，代碼能力上：

1-訊飛星火

2-文心一言、通義千問(wèn)

3-GPT

文本生成能力

生成是大模型最核心的能力，通過(guò)對(duì)大量的文本進(jìn)行訓(xùn)練，能夠生成原始且連貫的文本內(nèi)容，可以創(chuàng)造性的生成一些文本，是大模型最基礎(chǔ)的能力之一。這次測(cè)評(píng)中，我們從智力游戲、文案創(chuàng)作、故事續(xù)寫(xiě)、文章寫(xiě)作、方案策劃等五個(gè)方面對(duì)幾個(gè)大模型進(jìn)行評(píng)測(cè)。

下面是他們的表現(xiàn)：

① 智力游戲

為了測(cè)試文本生成能力，我們向四個(gè)大模型提問(wèn)了同一個(gè)問(wèn)題：“你能寫(xiě)出三個(gè)關(guān)于元宵的謎語(yǔ)么？要包含‘團(tuán)圓’二字”。這個(gè)問(wèn)題的條件有兩個(gè)：1.關(guān)于元宵；2.包含“團(tuán)圓”二字。

1）訊飛星火：

星火在作出回答之前，首先回答了“能不能的問(wèn)題”，因此先回答“當(dāng)然可以”，然后再做出后續(xù)的針對(duì)該問(wèn)題的回答，答案也完美符合題意，但美中不足的是沒(méi)有進(jìn)一步的分析。

2）文心一言：

文心一言的回答符合要求，且有解析。

3）通義千問(wèn)：

通義千問(wèn)的回答則考慮到了兩個(gè)要求，且還有解釋介紹謎底和謎面的關(guān)系，表現(xiàn)不錯(cuò)。

4）GPT:

GPT的回答則類似星火，在首先回答了“可以”之后，給出了比較正確的答案，但沒(méi)有進(jìn)一步解析。

因此在這一層級(jí)，我們的評(píng)價(jià)是：

1-通義千問(wèn)、文心一言

2-訊飛星火、GPT

②文案創(chuàng)作

文案創(chuàng)作能夠體現(xiàn)大模型對(duì)語(yǔ)義的理解和創(chuàng)作能力。工作、學(xué)習(xí)中，我們都可以利用大模型的文章生成能力，學(xué)習(xí)如何寫(xiě)好對(duì)應(yīng)題材的文章。這里我們以 "兵地融合共建" 為主題，讓四款大模型寫(xiě)一篇新聞稿，并給出了具體的結(jié)構(gòu)要求，看看他們的寫(xiě)作能力如何吧。

1）訊飛星火：

首先是訊飛星火，這篇文章條理清晰，觀點(diǎn)明確，但并沒(méi)有按照要求的結(jié)構(gòu)來(lái)寫(xiě)，且地點(diǎn)以“XX”來(lái)代替，不夠具體。

2）文心一言：

其次是文心一言，它的文章嚴(yán)格按照要求的結(jié)構(gòu)來(lái)寫(xiě)，且自身確定了“新疆”這一地點(diǎn)，文章條理清晰，脈絡(luò)明確。其中“主體”部分還分成了三項(xiàng)依次陳述。

3）通義千問(wèn)：

通義千問(wèn)方面，生成的文章同樣嚴(yán)格按照要求的結(jié)構(gòu)，美中不足的是，“主體”部分本應(yīng)作為文章的詳寫(xiě)部分，其他部分為略寫(xiě)部分，在詳略得當(dāng)方面做的不好。

4）GPT：

GPT方面，生成的結(jié)果主題、結(jié)構(gòu)都沒(méi)問(wèn)題，背景、結(jié)語(yǔ)也都緊扣“兵地融合”，表現(xiàn)優(yōu)秀。

我們給出的評(píng)價(jià)是：

1-通義千問(wèn)、GPT、文心一言

2-訊飛星火

③故事續(xù)寫(xiě)

故事續(xù)寫(xiě)是考驗(yàn)大模型創(chuàng)作能力的一大指標(biāo)，我們以經(jīng)典的“小白兔”、“大灰狼”作為主角開(kāi)頭，看看他們會(huì)續(xù)寫(xiě)出怎樣的故事。

1）訊飛星火：

可以看到，訊飛星火續(xù)寫(xiě)的故事非常詳細(xì)，描述生動(dòng)形象，甚至分成了四個(gè)章節(jié)，可以算是寫(xiě)了一本短篇小說(shuō)，而且小說(shuō)內(nèi)含寓意，最后一個(gè)章節(jié)點(diǎn)出了“不應(yīng)該僅憑外表和傳言判斷他人”這種道理，可以稱得上是一篇優(yōu)秀的寓言故事。

2）文心一言：

文心一言給出的故事則相對(duì)更短，且沒(méi)有太多后續(xù)情節(jié)，故事邏輯和場(chǎng)景相對(duì)單一。

3）通義千問(wèn)：

通義千問(wèn)給出的故事相比文心一言要更加成熟，但總體來(lái)說(shuō)，文章走向很類似于訊飛星火的文章的“章節(jié)一”，整體不錯(cuò)，但文章的完整度略顯不足。

4）GPT：

GPT續(xù)寫(xiě)的故事則和通義千問(wèn)如出一轍，有一定對(duì)話，雖然故事比較簡(jiǎn)單，但整個(gè)故事立意更加成熟，且結(jié)尾更留有余味。

綜合來(lái)看，在故事續(xù)寫(xiě)部分，我們給出的評(píng)價(jià)是：

1-訊飛星火、GPT

3-文心一言、通義千問(wèn)

④方案策劃

對(duì)于身處職場(chǎng)、體制內(nèi)、或者身居組織責(zé)任要職的朋友們來(lái)說(shuō)，經(jīng)常需要擬定一些活動(dòng)方案、評(píng)定標(biāo)準(zhǔn)等，我們以“我是一名房地產(chǎn)銷售主管，我要給我的三個(gè)下屬制定KPI。請(qǐng)你給我一點(diǎn)KPI參考”為主題，來(lái)進(jìn)行測(cè)試。

1）訊飛星火：

訊飛星火擬定的KPI標(biāo)準(zhǔn)細(xì)則最多，共有12條，詳實(shí)具體，每一個(gè)標(biāo)準(zhǔn)都有介紹，可操作性較強(qiáng)，且還在最后給出了確定這些指標(biāo)的方法，可以作為不錯(cuò)的模板使用。

2）文心一言：

文心一言給出的標(biāo)準(zhǔn)較少，且并沒(méi)有給出為什么確定這些指標(biāo)，比較簡(jiǎn)略。

3）通義千問(wèn)：

通義千問(wèn)則是首先回答了制定標(biāo)準(zhǔn)時(shí)需要考慮的因素，之后給出了8條標(biāo)準(zhǔn)，每條標(biāo)準(zhǔn)下轄一個(gè)指標(biāo)或者具體可量化的參考，且也在最后簡(jiǎn)述了制定這些標(biāo)準(zhǔn)的方法，還比較貼心地提醒提問(wèn)者“定期回顧、適時(shí)調(diào)整”。

4）GPT：

GPT給出的答案優(yōu)點(diǎn)是：每個(gè)標(biāo)準(zhǔn)都給出了如何評(píng)判的具體介紹，但缺點(diǎn)在于：沒(méi)有提到制定這些標(biāo)準(zhǔn)的因素和方法，但只是給出了評(píng)判標(biāo)準(zhǔn)，沒(méi)有給出具體指標(biāo)。

因此，這層級(jí)，我們給出的評(píng)判是：

1-訊飛星火、通義千問(wèn)

2-文心一言、GPT

寫(xiě)在最后

本次橫評(píng)，我們從語(yǔ)言理解、文本生成、知識(shí)問(wèn)答、邏輯推理、數(shù)學(xué)能力、代碼能力和多模態(tài)能力等方面對(duì)文心一言、訊飛星火、通義千問(wèn)和ChatGPT四款大模型做了詳細(xì)的體驗(yàn)橫評(píng)。

測(cè)下來(lái)后，在國(guó)內(nèi)大模型中，訊飛星火在產(chǎn)品體驗(yàn)上大幅領(lǐng)先，其中多項(xiàng)測(cè)評(píng)排列第一，尤其是在全語(yǔ)音交互能力上，星火V3.5作為國(guó)產(chǎn)大模型中目前支持“實(shí)時(shí)通話”的佼佼者，已經(jīng)表現(xiàn)出了很強(qiáng)的實(shí)力。這對(duì)于加強(qiáng)星火后續(xù)的多模態(tài)能力升級(jí)有著非常重要的戰(zhàn)略意義。

當(dāng)然，訊飛星火也并非完美，在文本生成和知識(shí)問(wèn)答等部分細(xì)分領(lǐng)域，星火V3.5也表現(xiàn)欠佳，但總體來(lái)看可以說(shuō)是和GPT有來(lái)有回的。

文心一言和通義千問(wèn)表現(xiàn)也不錯(cuò)，其中，文心一言主要擅長(zhǎng)知識(shí)問(wèn)答，這也與其背靠百度這一搜索引擎巨頭有著密不可分的關(guān)系。

當(dāng)然，本次橫評(píng)所使用的問(wèn)題樣本有限，大家實(shí)際體驗(yàn)時(shí)的感受可能與我們橫評(píng)的內(nèi)容有出入，因此上述位置值也僅供大家參考，實(shí)際選擇時(shí)，大家還是要根據(jù)自身的感受來(lái)選用適合自己的 AI 大模型。

無(wú)論是訊飛星火，還是文心一言、通義千問(wèn)，都是國(guó)產(chǎn)大模型的第一梯隊(duì)，在當(dāng)前的科技競(jìng)爭(zhēng)、產(chǎn)業(yè)競(jìng)爭(zhēng)的局勢(shì)下，背后都要加強(qiáng)創(chuàng)新，實(shí)現(xiàn)我們?cè)谕ㄓ?span id="8qka2a2" class='hrefStyle'>人工智能上的追趕與超越。

原文標(biāo)題 : AI大模型哪家強(qiáng)？七大維度橫評(píng)四款主流大模型！