訂閱
糾錯(cuò)
加入自媒體

紀(jì)念劉倬先生:中國(guó)機(jī)器翻譯開(kāi)山鼻祖、NLP先行者

前言:

機(jī)器翻譯,本質(zhì)上屬于自然語(yǔ)言處理技術(shù),技術(shù)進(jìn)步需要產(chǎn)業(yè)界和學(xué)術(shù)界不斷研究攻關(guān)。

而中國(guó)的先行者們很早就提出:機(jī)器翻譯的問(wèn)題是語(yǔ)言的問(wèn)題,而不是單獨(dú)算法的問(wèn)題。

作者 | 方文

圖片來(lái)源 |   網(wǎng) 絡(luò)

AI芯天下丨深度丨紀(jì)念劉倬先生:中國(guó)機(jī)器翻譯開(kāi)山鼻祖、NLP先行者

“機(jī)器翻譯的問(wèn)題是語(yǔ)言的問(wèn)題”

機(jī)器翻譯,又稱自動(dòng)翻譯,是用計(jì)算機(jī)將一種自然語(yǔ)言(源語(yǔ)言)轉(zhuǎn)換為另一種自然語(yǔ)言(目標(biāo)語(yǔ)言)的過(guò)程。

語(yǔ)音翻譯和文本翻譯雖然也有各自關(guān)注的技術(shù)難點(diǎn),但共同面對(duì)的核心難題都是自然語(yǔ)言理解。

這是一個(gè)很高、甚至是終極的目標(biāo),所以許多研究者喜歡用另外一個(gè)詞,即自然語(yǔ)言處理(NLP)來(lái)描述這一學(xué)科,強(qiáng)調(diào)過(guò)程而不是目的。

從方法上,他們希望迅速找到語(yǔ)言規(guī)則,就像找到密碼的編碼規(guī)則就很容易破譯密碼一樣,如果找到語(yǔ)言規(guī)則,就能夠理解自然語(yǔ)言,機(jī)器翻譯難題就解決了。

機(jī)器翻譯的問(wèn)題是語(yǔ)言的問(wèn)題,而不是單獨(dú)算法的問(wèn)題。

這種獨(dú)到的見(jiàn)解,對(duì)今天的機(jī)器翻譯依然有重要的參考作用。

盡管今天的計(jì)算技術(shù),硬件水平,大數(shù)據(jù)、語(yǔ)料庫(kù)等等的發(fā)展已經(jīng)很靠前了,但機(jī)器翻譯的本質(zhì)問(wèn)題還是語(yǔ)言本身。

紀(jì)念國(guó)內(nèi)機(jī)器翻譯先行者劉倬先生

劉倬先生因病醫(yī)治無(wú)效,于2022年9月12日在北京逝世,享年89歲。

1953年4月調(diào)到中央高等教育部綜合大學(xué)司工作。

1954年4月至1960年10月在北京俄語(yǔ)學(xué)院做講師。

從這時(shí)起他與中國(guó)科學(xué)院語(yǔ)言研究所劉涌泉先生等合作,開(kāi)啟了我國(guó)首次機(jī)器翻譯的研究。

1960年11月劉倬先生調(diào)入語(yǔ)言研究所,專職從事機(jī)器翻譯的研究工作直到1995年離休。

1956年,機(jī)器翻譯就被列入了中國(guó)國(guó)家科學(xué)工作的發(fā)展規(guī)劃,課題名稱為[機(jī)器翻譯、自然語(yǔ)言翻譯規(guī)則的建立和自然語(yǔ)言的數(shù)學(xué)理論]。

在這個(gè)國(guó)家規(guī)劃之下,劉倬先生與劉涌泉先生高祖舜先生一起,從1957年開(kāi)始研制機(jī)器翻譯系統(tǒng);

1959年成功地進(jìn)行了俄漢機(jī)器翻譯系統(tǒng)的實(shí)驗(yàn),這是世界上第一個(gè)跨語(yǔ)系的、以漢語(yǔ)為翻譯目標(biāo)語(yǔ)言的系統(tǒng)。

1964年出版了我國(guó)第一本機(jī)器翻譯學(xué)術(shù)著作《機(jī)器翻譯淺說(shuō)》,詳細(xì)論述外譯漢機(jī)器翻譯系統(tǒng)的研制方法。

這個(gè)階段后來(lái)被學(xué)界公認(rèn)為我國(guó)機(jī)器翻譯研究的開(kāi)創(chuàng)期,作為當(dāng)時(shí)的學(xué)術(shù)帶頭人,劉倬先生是中國(guó)機(jī)器翻譯事業(yè)的開(kāi)創(chuàng)者之一。

1975年經(jīng)過(guò)十年停滯后科研全面恢復(fù),劉倬先生開(kāi)始主持研制JFY系列英漢翻譯系統(tǒng)。

他的創(chuàng)新方法成就了如今的發(fā)展

他的研究始終注重國(guó)內(nèi)外的語(yǔ)言理論,注重語(yǔ)言工程實(shí)踐,結(jié)合漢語(yǔ)的特點(diǎn),提出了多種語(yǔ)言分析和生成的方法:

在喬姆斯基單層句法解析的基礎(chǔ)上采用了多層策略;拓展了傳統(tǒng)有限狀態(tài)文法的邊界;

提出了詞典的規(guī)則化表達(dá)和規(guī)則的函數(shù)化運(yùn)算;以及在句法解析中隱式代入包含常識(shí)的本體知識(shí);

尤其是他根據(jù)自然語(yǔ)言處理和機(jī)器翻譯的需要,設(shè)計(jì)并實(shí)現(xiàn)了一整套符號(hào)計(jì)算語(yǔ)言學(xué)的專用算法語(yǔ)言和平臺(tái)。

包括專用語(yǔ)言的句法定義、解釋執(zhí)行、作為符號(hào)模型的數(shù)據(jù)結(jié)構(gòu)以及多層解析的控制流程,并配備了質(zhì)量控制和追蹤糾錯(cuò)的功能。

以謂語(yǔ)為軸心、語(yǔ)法和語(yǔ)義同步分析的句素分析法;

個(gè)性規(guī)則與共性規(guī)則相結(jié)合的語(yǔ)言分析生成策略;

轉(zhuǎn)換、遞歸、回溯、動(dòng)態(tài)上下文等語(yǔ)句分析算法;

語(yǔ)義制約與句法模式的轉(zhuǎn)換機(jī)制,規(guī)則與算法分離的開(kāi)放式系統(tǒng)架構(gòu)等。

這些方法對(duì)我國(guó)基于規(guī)則的機(jī)器翻譯研究和開(kāi)發(fā)起到了奠基的作用,在相應(yīng)的歷史時(shí)期代表了國(guó)內(nèi)的主流研究方向。

AI芯天下丨深度丨紀(jì)念劉倬先生:中國(guó)機(jī)器翻譯開(kāi)山鼻祖、NLP先行者

翻譯被賦予了新的歷史使命

隨著中國(guó)[走出去]和[一帶一路]戰(zhàn)略和政策的深入,對(duì)多語(yǔ)言信息轉(zhuǎn)換的需求也將相應(yīng)擴(kuò)大。

新時(shí)代的語(yǔ)言服務(wù)業(yè)正在走向高質(zhì)量、高生產(chǎn)力的階段。智能化、自動(dòng)化和數(shù)字化是新翻譯時(shí)代的特征。

完成整個(gè)商業(yè)業(yè)態(tài)的重構(gòu),真正帶來(lái)效率的突破和場(chǎng)景化的實(shí)現(xiàn),是新譯的使命。

據(jù)統(tǒng)計(jì),世界上至少有5000種語(yǔ)言,其中使用頻率最高的是漢語(yǔ)、英語(yǔ)和西班牙語(yǔ)。

多語(yǔ)制一方面增加了文化特色,另一方面給跨國(guó)交流帶來(lái)諸多不便,從而催生并加速了翻譯市場(chǎng)的需求。

2021年,全球以語(yǔ)言服務(wù)為主營(yíng)業(yè)務(wù)的企業(yè)總產(chǎn)值預(yù)計(jì)首次突破500億美元。

中國(guó)含有語(yǔ)言服務(wù)業(yè)務(wù)的企業(yè)423547家,以語(yǔ)言服務(wù)為主營(yíng)業(yè)務(wù)的企業(yè)達(dá)9656,企業(yè)全年總產(chǎn)值為554.48億元,相較2019年年均增長(zhǎng)11.1%。

人工智能技術(shù)不斷創(chuàng)新,機(jī)器翻譯在行業(yè)的應(yīng)用越來(lái)越廣泛,具有機(jī)器翻譯與人工智能業(yè)務(wù)的企業(yè)達(dá)252家。

同時(shí),我國(guó)機(jī)器翻譯市場(chǎng)需求與日俱增,主要集中于企業(yè)用戶,涉及石化、機(jī)電、交通運(yùn)輸、金融、旅游等多個(gè)垂直領(lǐng)域。

市面上的神經(jīng)機(jī)器翻譯系統(tǒng)越來(lái)越多,國(guó)內(nèi)的阿里巴巴、騰訊、百度、科大訊飛、搜狗,國(guó)外的谷歌、臉書、微軟等都在布局,這使相關(guān)技術(shù)發(fā)生質(zhì)變。

AI芯天下丨深度丨紀(jì)念劉倬先生:中國(guó)機(jī)器翻譯開(kāi)山鼻祖、NLP先行者

結(jié)尾:

如今,機(jī)器翻譯技術(shù)不斷迭代、創(chuàng)新,但劉倬先生所留下的諸多重要核心思想將經(jīng)久不衰。

回頭望去,我們更加體會(huì)到劉倬先生的研究理念和設(shè)計(jì)方法體現(xiàn)了經(jīng)典符號(hào)人工智能的精髓,其意義是深遠(yuǎn)的。

部分資料參考:雷鋒網(wǎng):《中國(guó)機(jī)器翻譯開(kāi)山鼻祖、NLP 先行者劉倬逝世》

       原文標(biāo)題 : AI芯天下丨深度丨紀(jì)念劉倬先生:中國(guó)機(jī)器翻譯開(kāi)山鼻祖、NLP先行者

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯(cuò)
x
*文字標(biāo)題:
*糾錯(cuò)內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號(hào)