老焦專欄 | 解開知識圖譜神秘的面紗
2知識圖譜建設(shè)的主要過程
目前知識圖譜應(yīng)用的領(lǐng)域比較多,例如智能問答、智能搜索、金融行業(yè)的反欺詐/信用審核/信用證審核、電子商務(wù)的智能推介、公共安全的數(shù)據(jù)對碰、大型裝備的故障檢測與維修、電網(wǎng)的故障檢測與應(yīng)急預(yù)案、保險行業(yè)的智能核保/智能核賠,總之這是一種讓軟件更加智能化的手段。但是如何構(gòu)建一個相對完備的知識圖譜應(yīng)用是一個挑戰(zhàn),難點主要包括:
1)如何建立知識的模型,也就是上述的“概念”如何建立;2)知識的獲得比較困難,因為我們面臨的可能是海量的知識;3)所獲得知識的正確性如何驗證;4)如何存儲知識,進(jìn)行快速的推理;5)如何將知識在軟件中得到應(yīng)用,發(fā)揮價值等等。
這里面歸根結(jié)底還是如何用工程化方式建設(shè)知識圖譜,如何用工程化方式基于知識圖譜建設(shè)應(yīng)用的問題,因此后面我們主要探討如何進(jìn)行知識圖譜建設(shè)與應(yīng)用的工程化方法。
知識圖譜可以分為通用知識圖譜和領(lǐng)域知識圖譜,實際上谷歌或者百度這樣的大型互聯(lián)網(wǎng)公司在構(gòu)建的是通用知識圖譜,它主要是用于搜索引擎,它的用戶是全部的互聯(lián)網(wǎng)的用戶,它構(gòu)建的是常識性知識為主,包括結(jié)構(gòu)化的百科知識,它強(qiáng)調(diào)的是一種知識的廣度,對知識的深度方面不做更多的要求,它的使用者也是普通的用戶。對于領(lǐng)域知識圖譜而言,它首先是面向一個特定的領(lǐng)域,它的知識來源是特定行業(yè),基于行業(yè)的數(shù)據(jù)來構(gòu)建,而且要有一定的行業(yè)的深度,它強(qiáng)調(diào)的是深度能夠解決行業(yè)人員的問題,它的使用者也是這個行業(yè)內(nèi)的從業(yè)人員。
從上述定義上可以看出,這兩者的構(gòu)建過程和目的會有很大的不同,作為一個企業(yè)級軟件的從業(yè)者,我關(guān)注的主要是領(lǐng)域知識圖譜,因此這里我要探討的也是領(lǐng)域知識圖譜構(gòu)建與應(yīng)用的工程化問題。
由于是工程化問題,我們希望不要講更多的理論,而是采用類似軟件工程的方法,將知識圖譜構(gòu)建與應(yīng)用的過程講清楚,在過程的每一個環(huán)節(jié)上探討涉及的方法與技術(shù):
1)知識圖譜技術(shù)架構(gòu):確定知識的表示方式和知識的存儲方式;2)知識圖譜建設(shè)方法論:知識圖譜建設(shè)可以分為知識建模、知識抽取、知識驗證這樣幾個階段,形成一個知識圖譜;3)基于知識圖譜建設(shè)應(yīng)用:每一類應(yīng)用的側(cè)重點不同,使用技術(shù)和達(dá)到的效果也不同,我們總結(jié)為知識推理類、知識呈現(xiàn)類、知識問答類、知識共享類,后面會具體介紹。
3知識圖譜技術(shù)架構(gòu)
知識圖譜的關(guān)鍵技術(shù)架構(gòu)分為知識表示、知識存儲兩個部分。常用的知識圖譜表示是通過三元組方式,三元組是由實體、屬性和關(guān)系組成的(由Entity、Attribute、Relation組成)。具體表示方法為,實體1跟實體2之間有某種關(guān)系,或者是實體屬性、屬性詞;谝延械娜M,可以推導(dǎo)出新的關(guān)系,知識圖譜要有豐富的實體關(guān)系,才能真正達(dá)到它實用的價值。
如果我們把上面周杰倫的例子描繪如下圖,你會發(fā)現(xiàn)知識的表示方式和面向?qū)ο蟮母拍罘浅n愃,概念就是元模型/類,實體就是對象,關(guān)系就是對象間的關(guān)系。實際上,在很多著作中也把面向?qū)ο笞鳛橐环N知識表示方法。
利用我們熟悉的面向?qū)ο蠓绞竭M(jìn)行知識的表述,結(jié)合其他一些知識圖譜的技術(shù),是一個比較容易入手的方式。既然知識的表示以概念、實體、關(guān)系、屬性為基礎(chǔ)元素,就可以利用圖數(shù)據(jù)庫存儲,目前有很多圖數(shù)據(jù)庫可以做選擇,例如Neo4J、JanusGraph等,也可以在傳統(tǒng)關(guān)系數(shù)據(jù)庫上進(jìn)行存儲,這里我就不深入探討了,因為確定了表示方式,如何存儲不是一個大問題。 這一篇我們介紹了知識圖譜的基本概念和用途,下一篇主要介紹知識圖譜建設(shè)的方法論,第三篇將用實際的案例,介紹一個基于知識圖譜的知識推理類應(yīng)用。
- The End -
關(guān)于作者:焦烈焱,普元信息CTO,致力于技術(shù)創(chuàng)新和金融創(chuàng)新解決方案研究。專注于企業(yè)技術(shù)架構(gòu)領(lǐng)域,對分布式環(huán)境的企業(yè)計算、 企業(yè)信息架構(gòu)的規(guī)劃與實踐有著豐厚經(jīng)驗,帶領(lǐng)普元技術(shù)團(tuán)隊相繼在云計算、大數(shù)據(jù)及移動開發(fā)領(lǐng)域取得多項突破,并主持中國工商銀行、中國建設(shè)銀行等多家大型企業(yè)技術(shù)平臺的規(guī)劃與研發(fā)。
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
即日-10.29立即報名>> 2024德州儀器嵌入式技術(shù)創(chuàng)新發(fā)展研討會
-
10月31日立即下載>> 【限時免費下載】TE暖通空調(diào)系統(tǒng)高效可靠的組件解決方案
-
即日-11.13立即報名>>> 【在線會議】多物理場仿真助跑新能源汽車
-
11月14日立即報名>> 2024工程師系列—工業(yè)電子技術(shù)在線會議
-
12月19日立即報名>> 【線下會議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會
-
即日-12.26火熱報名中>> OFweek2024中國智造CIO在線峰會
推薦專題
-
10 百度搜索,正在被平替
- 1 Intel宣布40年來最重大轉(zhuǎn)型:年底前裁員15000人、拋掉2/3房產(chǎn)
- 2 因美封殺TikTok,字節(jié)股價骨折!估值僅Meta1/5
- 3 宏山激光重磅發(fā)布行業(yè)解決方案,助力智能制造產(chǎn)業(yè)新飛躍
- 4 國產(chǎn)AI芯片公司破產(chǎn)!白菜價拍賣
- 5 具身智能火了,但規(guī)模落地還需時間
- 6 三次錯失風(fēng)口!OpenAI前員工殺回AI編程賽道,老東家捧金相助
- 7 國產(chǎn)英偉達(dá)們,抓緊沖刺A股
- 8 英特爾賦能智慧醫(yī)療,共創(chuàng)數(shù)字化未來
- 9 英偉達(dá)的麻煩在后頭?
- 10 將“網(wǎng)紅”變成“商品”,AI“爆改”實力拉滿
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市