侵權投訴
訂閱
糾錯
加入自媒體

使用DriverPower識別癌癥driver基因的綜合負荷和功能影響測試

2020-12-24 14:21
科研菌
關注

3.候選driver event的發(fā)現(xiàn)

作者根據(jù)可供參考的driver元件集和其他六個已發(fā)布方法的候選driver程序對作者的分析結果進行了基準測試。

其中,使用三個參考driver元件集為:COSMIC癌癥基因普查(CGC),PCAWG原始綜合driver候選(PCAWG-raw),和PCAWG-consensus driver候選(PCAWG-consensus)。另外,六種已發(fā)布的方法中,ExInAtor20,ncdDetect21和LARVA22僅使用突變負荷信息。oncodriveFML23僅使用功能偏差;而MutSig24和ActiveDriverWGS25既可以對突變負荷也能通過功能校正進行建模,但不能通過功能影響評分來建模。

CGC是driver的目錄,其突變與癌癥有關聯(lián),是編碼和剪接位點驅動的金標準集(即用于計算精確度和召回率)。

PCAWG-raw是driver元件的集成,該驅動程序元件由12種不同的驅動程序檢測方法對作者在此使用的同一數(shù)據(jù)調(diào)用。

PCAWG-concensus是一個保守的集合,它衍生自PCAWG-raw,但通過應用多個嚴格的過濾器來控制錯誤發(fā)現(xiàn)率。

作者在DriverPower結果中觀察到了經(jīng)過良好校準的p值(圖3d),并且編碼和非編碼driver發(fā)現(xiàn)的準確性都很高(圖3e)。

圖3.泛癌隊列以及由三個參考驅動程序集(CGC,PCAWG-concensus或PCAWG-raw)中包含的DriverPower調(diào)用的非編碼driver候選的數(shù)量和分數(shù)

對于蛋白質編碼區(qū)(CDS),作者利用DriverPower發(fā)現(xiàn)了217個顯著的(q <0.1)候選驅動程序。少數(shù)基因(例如TP53)可以在多個隊列中作為driver基因。而且作者發(fā)現(xiàn)功能信息的合并提高了編碼driver發(fā)現(xiàn)的準確性(圖 4a)。例如,在胰腺導管腺癌(Panc-AdenoCA; N?= 232),增加“功能調(diào)整”后的算法能挖掘到三個額外的driver(ACVR1B,RBM10和ZFP36L2)(圖4a)。而如果不合并功能信息,則CGC和CGC / PCAWG挖掘到的driver基因的整體精度均會下降。

圖4.合并功能信息后挖掘到三個額外的driver         均使用相同26個非黑素瘤/淋巴瘤隊列和CGC作為金標準集的情況下,DriverPower與其他六種方法進行比較時,DriverPower(精度= 0.84;召回率= 0.79)的F1分數(shù)最高(0.81)(圖5b-c)。

F1分數(shù)(F1 Score),是統(tǒng)計學中用來衡量二分類模型精確度的一種指標。它同時兼顧了分類模型的精確率和召回率。F1分數(shù)可以看作是模型精確率和召回率的調(diào)和平均,最大值為1,最小值為0。

圖5.DriverPower與其他六種方法F1得分比較

4.對DriverPower發(fā)現(xiàn)driver性能進行基準測試

接下來,作者對DriverPower在非編碼driver event挖掘的準確性進行基準測試。在剪接位點driver的識別上,DriverPower(F1 = 0.91)也優(yōu)于對比的兩種方法:ncdDetect(F1 = 0.65)和oncoDriverFML(F1 = 0.32)(圖6)。

圖6.預測影響編碼基因剪接位點的driver

進一步,為了預測3'-UTR,5'-UTR,啟動子和增強子中的非編碼driver,DriverPower在非黑素瘤/淋巴瘤腫瘤隊列中確定了19個候選,在泛癌隊列中確定了24個候選;鶞蕼y試結果顯示,DriverPower在所評估的六種方法中同樣具有最高的F1分數(shù)(0.79)(圖 7d-e)。

圖7.預測3'-UTR,5'-UTR,啟動子和增強子中的非編碼driver

5.DriverPower也適用于WES

為了展示DriverPower的魯棒性,作者將DriverPower應用于兩個公共全外顯子測序(WES)數(shù)據(jù)集(圖8)。這兩個WES數(shù)據(jù)集的處理方式與PCAWG數(shù)據(jù)不同,并且包含PCAWG研究中未包括的樣本。對于肝癌,DriverPower從TCGA-LIHC樣本(N=364)中識別出14個編碼driver。而在CGC或PCAWG-concensus中,除一個driver丟失外,所有候選driver都存在。

而對于胰腺腺癌,DriverPower從TCGA-PAAD樣本(N=180)(與PCAWG研究中沒有共享的樣本)中識別出六個編碼driver,并且全部對應于已知的驅動器基因(100%)。

圖8. WES的driver識別

本篇文章報告了DriverPower,這是一個通過合并突變負荷和功能影響信息來準確識別驅動和乘客突變的新框架。該方法利用了WGS技術產(chǎn)生的大型體細胞突變集,借助一千多個基因組特征構建了準確的全局BMR模型,與使用選定區(qū)域或側翼區(qū)域構建本地BMR模型的方法形成對比。其優(yōu)點之一是該方法不偏向于編碼區(qū),而是在編碼和非編碼區(qū)都使用相同的模型挖掘癌癥driver。該方法的另一個優(yōu)點是高度模塊化。DriverPower可以與其他類型的基因組元素(編碼的或非編碼的)、用于建模BMR的其他回歸算法以及其他功能影響評分方案一起使用。此外,盡管DriverPower是為WGS項目設計的,但它在WES策略中也表現(xiàn)出色。

<上一頁  1  2  3  
聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

醫(yī)療科技 獵頭職位 更多
文章糾錯
x
*文字標題:
*糾錯內(nèi)容:
聯(lián)系郵箱:
*驗 證 碼:

粵公網(wǎng)安備 44030502002758號