凹凸日日摸日日碰夜夜爽孕妇,国产午夜精品久久久久免费视

BMC｜AI與人工巡檢誰更適用于數(shù)據(jù)質(zhì)量評估？

2021-12-23 09:27

導(dǎo)讀

與人工手動巡檢相比，決策樹算法不僅能發(fā)現(xiàn)更多的數(shù)據(jù)問題，也能更好地評價數(shù)據(jù)問題對CDSS的性能影響。

醫(yī)療數(shù)據(jù)質(zhì)量（DQ）影響著臨床決策支持系統(tǒng)（CDSS）的性能，也是實現(xiàn)數(shù)據(jù)復(fù)用的重要因素。因此，通過數(shù)據(jù)質(zhì)量評估發(fā)現(xiàn)問題、管理問題是釋放數(shù)據(jù)價值的關(guān)鍵，但目前國內(nèi)外仍缺乏各應(yīng)用場景所需數(shù)據(jù)的質(zhì)量評價方法與評估標(biāo)準(zhǔn)，增加了數(shù)據(jù)質(zhì)量評估工作的復(fù)雜性與挑戰(zhàn)性。

近期，一項發(fā)表在BMC Medical Informatics and Decision Making的研究顯示，利用機(jī)器學(xué)習(xí)算法不僅能高效評價數(shù)據(jù)質(zhì)量，也可挖掘校驗數(shù)據(jù)質(zhì)量的適用規(guī)則，以確定數(shù)據(jù)集是否適用于特定應(yīng)用場景。

01—

聚焦數(shù)據(jù)問題及其對CDSS預(yù)測的影響

設(shè)計三大研究步聚

由于不同的AI應(yīng)用對底層數(shù)據(jù)的需求不同，為確定特定場景的數(shù)據(jù)質(zhì)量評價方法與標(biāo)準(zhǔn)，傳統(tǒng)的做法是研究既有的質(zhì)量評估框架、咨詢專家等，而該研究旨在評估機(jī)器學(xué)習(xí)算法在數(shù)據(jù)質(zhì)量評估中的適用性，以減少對專家意見與人工操作的依賴，探索新型數(shù)據(jù)治理方法。

該研究流程共設(shè)計了“數(shù)據(jù)準(zhǔn)備—數(shù)據(jù)質(zhì)量評估（DQA）—機(jī)器學(xué)習(xí)”三大步驟（圖1），其中在數(shù)據(jù)準(zhǔn)備階段，研究人員首先虛構(gòu)了一個基于患者病史數(shù)據(jù)進(jìn)行心臟病風(fēng)險預(yù)測的CDSS場景，預(yù)先定義輸入數(shù)據(jù)的質(zhì)量如何影響CDSS預(yù)測性能，以評估通過機(jī)器學(xué)習(xí)算法獲得的數(shù)據(jù)規(guī)則是否正確。

圖1 研究流程設(shè)計

其后，研究人員使用開源的模擬數(shù)據(jù)生成器生成了10500個符合openEHR規(guī)范的數(shù)據(jù)組合，每個組合代表一個病例，將其不等分配至20個虛擬醫(yī)院，數(shù)據(jù)儲存于openEHR中。這些數(shù)據(jù)根據(jù)文獻(xiàn)知識預(yù)先設(shè)定了不同類型的質(zhì)量問題，例如，“缺失血壓測量記錄”是明顯的數(shù)據(jù)問題，會使CDSS預(yù)測性能大打折扣；而“心率測量次數(shù)少于10”作為次要性問題，只讓CDSS性能略微降低。

由于機(jī)器學(xué)習(xí)算法模型訓(xùn)練需用到帶標(biāo)注的數(shù)據(jù)集，研究人員同時從數(shù)據(jù)儲存庫中生成不同數(shù)據(jù)問題對應(yīng)的CDSS預(yù)測準(zhǔn)確率，并對預(yù)測結(jié)果進(jìn)行多次驗證，確認(rèn)無誤后作為結(jié)果數(shù)據(jù)添加到數(shù)據(jù)集中。

在“數(shù)據(jù)質(zhì)量評估”（CAQ）階段，研究人員使用了開源工具openCQA進(jìn)行質(zhì)量評估，根據(jù)每個病例、每家虛擬醫(yī)院的不同數(shù)據(jù)變量，生成半自動的測量方法（MM），例如，測量某病例所有收縮壓測量值的平均值和醫(yī)院整體平均值。并將各測量結(jié)果數(shù)據(jù)集導(dǎo)出，一是用于機(jī)器學(xué)習(xí)算法訓(xùn)練，二是使用openCQA的GUI檢查預(yù)設(shè)的數(shù)據(jù)質(zhì)量問題是否“可視”。

在GUI視圖中，研究人員找出了病例存在的數(shù)據(jù)質(zhì)量問題，同時評估其對CDSS預(yù)測產(chǎn)生的影響。如圖2所示，第一個表格標(biāo)黃的行列表示“缺失血壓值記錄的病例”，第二個表格則相應(yīng)地標(biāo)出了該問題導(dǎo)致的CDSS成功值為“0”。由此合理假設(shè)研究人員可以識別其中的關(guān)聯(lián)，從而推導(dǎo)出該CDSS場景下的數(shù)據(jù)質(zhì)控規(guī)則，與機(jī)器學(xué)習(xí)算法推導(dǎo)的結(jié)果進(jìn)行比較。

圖2 在GUI中檢查結(jié)果

為確保研究結(jié)果的合理性，3名研究人員中只由研究人員ET全程參與研究并檢查GUI的結(jié)果，另外2人則只參與了第三階段的機(jī)器學(xué)習(xí)研究，并對預(yù)設(shè)的數(shù)據(jù)質(zhì)量問題一無所知。

02—

人工手動巡檢與AI結(jié)果對比

“從應(yīng)用結(jié)果倒推”

在機(jī)器學(xué)習(xí)研究階段，研究人員選擇了機(jī)器學(xué)習(xí)算法中的決策樹（DTs）算法，因為DTs易于解釋，且對數(shù)據(jù)沒有歸一化等特殊要求；然后使用DAQ階段產(chǎn)生的數(shù)據(jù)集進(jìn)行算法模型訓(xùn)練。而DTs應(yīng)用包括兩個方面，一是從所有虛擬醫(yī)院的數(shù)據(jù)中確定測量結(jié)果；二是對每個病例的數(shù)據(jù)測量結(jié)果進(jìn)行匯總。

應(yīng)用DTs目的是通過解釋“樹”，從決策節(jié)點(diǎn)上推導(dǎo)影響CDSS性能的數(shù)據(jù)問題規(guī)則。下圖3是從決策樹中分離出來的示例，這9018個病例（占病例總數(shù)的88％）的CDSS預(yù)測準(zhǔn)確率為60％，根據(jù)每個病例有無收縮壓測量值分為兩組，一組病例無測量值（191例），CDSS準(zhǔn)確率為0；另一組病例有一個或多個測量值（8827例），CDSS預(yù)測準(zhǔn)確率為62％。

圖3 決策樹示例

這個示例提示了數(shù)據(jù)質(zhì)量問題及其帶來的影響，也說明了研究人員采用“從應(yīng)用結(jié)果倒推”的方式進(jìn)行數(shù)據(jù)質(zhì)量問題巡查。

由于研究人員ET了解預(yù)設(shè)的數(shù)據(jù)質(zhì)量問題及對CDSS預(yù)測的影響，能夠?qū)Ts提取的規(guī)則與實際問題進(jìn)行比較。在該研究中他執(zhí)行了3次機(jī)器學(xué)習(xí)工作流程，隨之也作出了3個DTs應(yīng)用評價；而另外兩名研究人員只憑決策樹解釋推導(dǎo)出一個規(guī)則列表，并將規(guī)則列表與實際數(shù)據(jù)問題評價標(biāo)準(zhǔn)進(jìn)行比較，得出比較結(jié)果“Control”，如圖4所示。

圖4 數(shù)據(jù)質(zhì)量評估結(jié)果對比

圖4作為該研究的最終結(jié)果，其中DQ－issue代表實際存在的質(zhì)量問題，GUI代表研究人員ET手動巡檢的結(jié)果，用Good、Weak等評價巡檢結(jié)果中覆蓋的實際數(shù)據(jù)問題數(shù)及對CDSS的影響；Outcome 1、Outcome 2、Outcome 3則是他對決策樹算法的3個評價；Control中的 “Yes”代表另外兩名研究人員都將該數(shù)據(jù)問題作為CDSS的影響因素，“yes／no”表示他們中只有一人獲得這種認(rèn)知。

根據(jù)圖4的多方比較顯示，19個實際存在的數(shù)據(jù)問題，11／12個能在決策樹算法中“捕捉”，其中至少9個問題能被兩位“不知情”的研究人員從樹解釋中推導(dǎo)出來；此外，由于決策樹算法較手動巡檢發(fā)現(xiàn)了更多的數(shù)據(jù)問題，且能更好地展示對CDSS性能的影響，所以獲得的評價也更優(yōu)。反映其能作為手動巡檢的有效補(bǔ)充工具，助力建立特定CDSS場景所需數(shù)據(jù)集的評價標(biāo)準(zhǔn)（例如應(yīng)具備哪些數(shù)據(jù)變量，每個變量的閾值等），通過數(shù)據(jù)治理有效提高CDSS預(yù)測性能。

研究人員表示，此次研究目的并非評價機(jī)器學(xué)習(xí)算法性能，而是考量其在數(shù)據(jù)質(zhì)量評估工作中的適用性。

參考文獻(xiàn)：

Tute Erik，Ganapathy Nagarajan，Wulff Antje． A data driven learning approach for the assessment of data quality［J］． BMC Medical Informatics and Decision Making，2021，21（1）：

——本公眾號所有圖文，未經(jīng)許可，嚴(yán)禁轉(zhuǎn)載！

如需轉(zhuǎn)載，請?zhí)崆芭c編輯聯(lián)系取得轉(zhuǎn)載許可。否則視為侵權(quán)！