国产成人无码片av在线,2017天天爽夜夜爽精品视频

7款主流大模型實測：簡單的數(shù)感測試全翻車

2024-07-22 16:44

科技新知

關(guān)注

實測strawberry中有2個字母“r”？不會比大小的大模型也幾乎數(shù)不對數(shù)，數(shù)理能力差到驚人！

@科技新知原創(chuàng)

作者丨王思原編輯丨賽柯

誰能想到，號稱“超級大腦”的大模型，竟然在幾道簡單的數(shù)學(xué)題上敗給了小學(xué)生。

近日，國內(nèi)火熱的音樂節(jié)目《歌手》中，孫楠與外國歌手的微小分?jǐn)?shù)差異，引發(fā)了網(wǎng)友關(guān)于13.8%和13.11%誰大誰小的爭論。

艾倫研究機(jī)構(gòu)成員林禹臣將此問題拋給了ChatGPT-4o，但結(jié)果令人吃驚，最強(qiáng)大模型竟然在回答中給到了13.11比13.8更大的錯誤答案。

隨后Scale AI的提示工程師萊利·古德賽德基于此靈感變換了問法，拷問了可能是目前最強(qiáng)的大模型ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet——9.11和9.9哪個更大？然而幾家頭部大模型的錯誤回答，也讓該話題傳播開來。

而面對如此簡單的問題，國產(chǎn)大模型表現(xiàn)如何呢？為此，我們也對國內(nèi)7款主流AIGC產(chǎn)品文心一言、通義千問、騰訊元寶、字節(jié)豆包、訊飛星火、智譜、Kimi進(jìn)行了比小學(xué)數(shù)學(xué)更簡單的“單詞字母數(shù)識別”測試，結(jié)果令我們大吃一驚。

Part.1

7家大模型，幾乎全翻車

首先我們向7款大模型產(chǎn)品詢問同一個問題，“strawberry中有幾個字母r”？

大模型新星Kimi，斬釘截鐵且不加解釋的表示有1個字母r，不過當(dāng)我們再次詢問時，Kimi竟打翻了自己第一次的錯誤答案，給到了第二個錯誤答案。再三追問后仍是沒能給到正確答案。

來源：科技新知（Kimi）

智譜AI旗下的智譜清言ChatCLM給到的也是錯誤答案。

來源：科技新知（智譜清言）

科大訊飛的訊飛星火對話在回答這個問題的時候開啟了聯(lián)網(wǎng)搜索，給到一個錯誤答案后，還一本正經(jīng)的告訴我們這2個r的位置。但可惜的是，星火對話給到的位置有一個也是錯誤的。

來源：科技新知（訊飛星火）

不過也有表現(xiàn)不錯的，百度的文心大模型將strawberry每個字母都進(jìn)行了拆分，然后進(jìn)行統(tǒng)計，給到了正確結(jié)果。

來源：科技新知（文心大模型）

阿里旗下的通義千問在第一次回答中給到了一個錯誤答案，并且闡述的位置也是錯誤的，第二次雖然再次給出了錯誤答案，但其回答中識別到了3個字母r，只是一句“注意雖然 "rr" 是連續(xù)的，但它們?nèi)匀槐挥嬎銥閮蓚€單獨(dú)的字母。”讓人摸不到頭腦。

來源：科技新知（通義千問）

于是我們追問了“為什么rr被計算為兩個單獨(dú)的字母”，通義千問竟然又否認(rèn)了剛才的回答，稱“在 "strawberry" 中，兩個 "r" 字母可以影響周圍音節(jié)的發(fā)音，但它們?nèi)匀皇莾蓚€獨(dú)立的字母。”

來源：科技新知（通義千問）

騰訊元寶在回答這個問題時采用的是假設(shè)法，假設(shè)了字母“r”的數(shù)量為未知數(shù)x，然后通過查看單詞“strawberry”并計數(shù)字母“r”得到x的值，最后給到的答案是正確的。

來源：科技新知（騰訊元寶）

表現(xiàn)良好的還有字節(jié)豆包，直截了當(dāng)?shù)慕o出了正確答案，并且還舉了兩個例子來證明這個簡單的問題難不倒它。但是，也是豆包的這兩個例子出賣了它在識數(shù)能力上的問題。豆包稱“car”這個單詞只有1個“r”，“mirror”則有2個“r”，而“strawberry”比它們都多，有3個。

問題顯而易見，“mirror”中有其實是有3個“r”，并非2個。于是我們又追問了一下“mirror中有幾個字母r”，豆包給到的答案仍然是2個，并且又舉了兩個錯誤的例子，稱“father”這個單詞有2個“r”，而“orange”里面則一個“r”都沒有。這多少讓人認(rèn)為豆包的正確回答有“蒙”的嫌疑。

來源：科技新知（豆包）

通過這個簡單的測試我們可以看到，7家大模型中有5家都有“不識數(shù)”的嫌疑，于是我們又將這個單詞進(jìn)行拆分成2個更簡單的字母，測試這些大模型能否給到正確答案。

Part.2

拆分測試，揭露大模型邏輯短板

為了引導(dǎo)大模型，盡量使大模型給到正確答案，我們這部分將分為兩個問題，一個是“str中含有幾個字母r,berry中含有幾個字母r，他們一共含有幾個r？”，另一個是“那str和berry合在一起是strawberry，所以strawberry中含有幾個字母r?”

不過，被寄予厚望的Kimi還是讓我們失望了。將strawberry拆分成兩個簡單的單詞后，Kimi仍沒給到正確答案。

來源：科技新知（Kimi）

同樣，智譜清言在這一輪也沒能給到正確答案。并且其給出的解釋也與Kimi一致，都認(rèn)為berry中有1個字母r，所以才導(dǎo)致strawberry中少了1個r。

來源：科技新知（智譜清言）

有趣的是訊飛星火，當(dāng)我們將單詞分開提問時，星火對話能夠給到正確的回答，并且識別到了berry中有2個字母r，不過看星火對話給的解釋是將這兩個字母當(dāng)作字符串，用編程的方式來查找所得。但不管怎樣，答案確實是正確的。

來源：科技新知（訊飛星火）

而當(dāng)我們認(rèn)為訊飛星火又行了的時候，再次詢問“那str和berry合在一起是strawberry，所以strawberry中含有幾個字母r?”，但訊飛星火仍然給到的是錯誤答案。

來源：科技新知（訊飛星火）

上一輪表現(xiàn)出色的文心大模型這次并沒有給到正確答案，它與Kimi和智譜清言都認(rèn)為“berry” 中有1個“r”，而追問兩個單詞合在一起有幾個r后，文心也是給出了2個的錯誤答案。

來源：科技新知（文心大模型）

通義千問這次的表現(xiàn)讓人吃驚，不但準(zhǔn)確的給出了答案，而且還給了代碼級別的計算過程。

來源：科技新知（通義千問）

當(dāng)我們再次問strawberry中含有幾個字母r時，通義千問也非常有邏輯的地告訴我們可以直接在 "strawberry" 中查找 "r" 的出現(xiàn)次數(shù)，而不必依賴于之前的組合。

來源：科技新知（通義千問）

騰訊元寶的表現(xiàn)也足夠穩(wěn)定，簡單迅速的給到了正確答案。

來源：科技新知（騰訊元寶）

豆包在這一輪也給到的正確答案，但喜歡舉例的豆包，再次舉了一個錯誤案例。所以其數(shù)數(shù)字的水平和邏輯到底怎樣，仍是未知。

來源：科技新知（豆包）

兩輪簡單的小測試下來，7家國產(chǎn)大模型只有1家表現(xiàn)穩(wěn)定，其他6家均出現(xiàn)了不同程度的錯誤，這到底是怎么回事呢？

Part.3

數(shù)學(xué)不好，本質(zhì)是能力問題

這類大模型說胡話的現(xiàn)象，在業(yè)界被稱為大模型出現(xiàn)幻覺。

此前，哈爾濱工業(yè)大學(xué)和華為的研究團(tuán)隊發(fā)表的綜述論文認(rèn)為，模型產(chǎn)生幻覺的三大來源：數(shù)據(jù)源、訓(xùn)練過程和推理。大模型可能會過度依賴訓(xùn)練數(shù)據(jù)中的一些模式，如位置接近性、共現(xiàn)統(tǒng)計數(shù)據(jù)和相關(guān)文檔計數(shù)，從而導(dǎo)致幻覺。此外，大模型還可能會出現(xiàn)長尾知識回憶不足、難以應(yīng)對復(fù)雜推理的情況。

一位算法工程師認(rèn)為，生成式的語言模型更像文科生而不是理科生。實際上語言模型在這樣的數(shù)據(jù)訓(xùn)練過程中學(xué)到的是相關(guān)性，使得AI在文字創(chuàng)作上達(dá)到人類平均水平，而數(shù)學(xué)推理更需要的是因果性，數(shù)學(xué)是高度抽象和邏輯驅(qū)動的，與語言模型處理的語言數(shù)據(jù)在本質(zhì)上有所不同。這意味著大模型要學(xué)好數(shù)學(xué)，除了學(xué)習(xí)世界知識外，還應(yīng)該有思維的訓(xùn)練，從而具備推理演繹能力。

不過中國社科院新聞與傳播研究所所長胡正榮也指出，大模型雖然是語言模型，但這個語言不是人們通常理解的字面意思，音頻、解題等都是大模型可以做的。從理論上看，數(shù)學(xué)大模型這個技術(shù)方向是可行的，但最終結(jié)果如何，取決于兩個因素，一是算法是不是足夠好，二是是否有足夠量的數(shù)據(jù)做支撐。“如果大模型的算法不夠聰明，不是真正的數(shù)學(xué)思維，也會影響到答題的正確率。”

其實對于大模型來說，對自然語言的理解是基礎(chǔ)。很多數(shù)理化的專業(yè)知識并不是大模型的強(qiáng)項，并且很多大模型是利用搜索把之前已有的解題的經(jīng)驗和知識的推理相結(jié)合，可以理解為在搜索內(nèi)容上進(jìn)行理解，如果搜索內(nèi)容本就是錯誤的，那么大模型給到的結(jié)果必然錯誤。

值得一提的是，大模型的復(fù)雜推理能力尤為重要，這關(guān)乎可靠性和準(zhǔn)確性，是大模型在金融、工業(yè)等場景落地需要的關(guān)鍵能力�，F(xiàn)在很多大模型的應(yīng)用場景是客服、聊天等等，在聊天場景一本正經(jīng)胡說八道影響不太大，但它很難在非常嚴(yán)肅的商業(yè)場合去落地。

隨著技術(shù)的進(jìn)步和算法的優(yōu)化，我們期待大模型能夠在更多領(lǐng)域發(fā)揮其潛力，為人類社會帶來更多實際價值。但通過這次對國內(nèi)主流大模型的簡單測試，也警示我們，在依賴大模型進(jìn)行決策時，必須保持謹(jǐn)慎，充分認(rèn)識到其局限性，并在關(guān)鍵領(lǐng)域加強(qiáng)人工審核和干預(yù)，確保結(jié)果的準(zhǔn)確性和可靠性。畢竟，技術(shù)的最終目的是服務(wù)于人，而不是取代人的思考和判斷。

原文標(biāo)題 : 7款主流大模型實測：簡單的數(shù)感測試全翻車