訂閱
糾錯(cuò)
加入自媒體

上海 AI 實(shí)驗(yàn)室發(fā)布“書生·浦語”大模型

6 月 7 日,上海人工智能實(shí)驗(yàn)室(上海 AI 實(shí)驗(yàn)室)、商湯科技聯(lián)合香港中文大學(xué)、復(fù)旦大學(xué)及上海交通大學(xué)發(fā)布千億級(jí)參數(shù)大語言模型“書生·浦語”(InternLM)。

“書生·浦語”具有 1040 億參數(shù),是在包含 1.6 萬億 token 的多語種高質(zhì)量數(shù)據(jù)集上訓(xùn)練而成。

上海人工智能實(shí)驗(yàn)室稱,全面評(píng)測(cè)結(jié)果顯示,“書生·浦語”不僅在知識(shí)掌握、閱讀理解、數(shù)學(xué)推理、多語翻譯等多個(gè)測(cè)試任務(wù)上表現(xiàn)優(yōu)秀,而且具備很強(qiáng)的綜合能力,因而在綜合性考試中表現(xiàn)突出,在多項(xiàng)中文考試中取得超越 ChatGPT 的成績(jī),其中就包括中國(guó)高考各科目的數(shù)據(jù)集(GaoKao)。

聯(lián)合團(tuán)隊(duì)選取了 20 余項(xiàng)評(píng)測(cè)對(duì)其進(jìn)行檢驗(yàn),其中包含全球最具影響力的四個(gè)綜合性考試評(píng)測(cè)集——由伯克利加州大學(xué)等高校構(gòu)建的多任務(wù)考試評(píng)測(cè)集 MMLU;由微軟研究院推出的學(xué)科考試評(píng)測(cè)集 AGIEval(含中國(guó)高考、司法考試及美國(guó) SAT、LSAT、GRE 和 GMAT 等);由上海交通大學(xué)、清華大學(xué)和愛丁堡大學(xué)合作構(gòu)建的面向中文語言模型的綜合性考試評(píng)測(cè)集 C-Eval;由復(fù)旦大學(xué)研究團(tuán)隊(duì)構(gòu)建的高考題目評(píng)測(cè)集 Gaokao。

“書生·浦語”在考試評(píng)測(cè)上取得優(yōu)秀成績(jī),但仍然存在不少局限性。

比如,“書生·浦語” 受限于 2K 的語境窗口長(zhǎng)度(GPT-4 的語境窗口長(zhǎng)度為 32K),在長(zhǎng)文理解、復(fù)雜推理、撰寫代碼以及數(shù)理邏輯演繹等方面還存在明顯局限。另外,在實(shí)際對(duì)話中,大語言模型還普遍存在幻覺、概念混淆等問題。

這些局限使得大語言模型“書生·浦語”在開放場(chǎng)景中的使用還有很長(zhǎng)的路要走。


聲明: 本網(wǎng)站所刊載信息,不代表OFweek觀點(diǎn)?帽菊靖寮,務(wù)經(jīng)書面授權(quán)。未經(jīng)授權(quán)禁止轉(zhuǎn)載、摘編、復(fù)制、翻譯及建立鏡像,違者將依法追究法律責(zé)任。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯(cuò)
x
*文字標(biāo)題:
*糾錯(cuò)內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號(hào)