地科學院劉遠剛團隊碩士研究生章文琦在《地質論評》發表了題為《基于BERTwwm與數據增強的地質實體識别研究》的研究論文,永利6774app手机版官网為論文第一署名單位,章文琦為論文第一作者,其導師劉遠剛為該文通訊作者。
論文提出了一種新的地質實體識别模型BERTwwm-BiLSTM-Attention-CRF。該研究為傳統的地質文本智能處理帶來了進展,有效解決了地質領域複雜實體識别精度不足和樣本标注成本高昂的兩個難題。傳統的地質實體識别方法往往在處理複雜地質概念時表現欠佳,且需要投入大量人力進行數據标注。研究通過改進預訓練層BERTwwm并引入Self-Attention模塊,顯著提升了模型性能,在地質文本測試集中實現了92.67%的精确率、94.21%的召回率和93.29%的F1值。此外,該研究對簡易數據增強技術(EDA)進行了改進,通過利用預先建立的專題地質字典擴充小型數據集,解決了标注樣本數量不足的問題。研究還引入了實體外随機增強方法,以增強模型對不同環境下實體的識别的魯棒性,降低了構建大規模數據集的人工成本,而且在提高地質實體識别精度的同時,也增強了模型對複雜地質實體的識别能力。該研究同時采用疊代标注策略,讓訓練過程中的模型參與輔助标注,加速了命名實體識别模型的構建流程。最後,通過一系列的對比實驗和消融實驗,驗證了所提出方法的有效性,為地質文本分析工作提供了一種高效準确的人工智能工具,可應用于自動化構建地質領域知識圖譜。DOI:10.16509/j.georeview.2024.06.085

圖1 BERTwwm—BiLSTM—Attention—CRF 模型架構

圖2 地質實體識别模型識别精度

圖3 論文首頁