報告題目:基于大語言模型的天文文獻知識實體抽取方法研究
報告人:樊東衛(wèi)?副研究員
主持人:胡皓?高級工程師
報告時間: 2024年7月5日(周五)?14:00
地點:計算中心二樓202會議室
報告人介紹:樊東衛(wèi) 國家天文臺副研究員,碩導(dǎo),負責(zé)國家天文科學(xué)數(shù)據(jù)中心技術(shù)研發(fā)工作,主要從事天文數(shù)據(jù)融合、天文信息技術(shù)、虛擬天文臺等領(lǐng)域相關(guān)研究??
摘要:隨著新一代高分辨率望遠鏡的投入使用以及一系列巡天計劃的推進,天文學(xué)領(lǐng)域獲取到了前所未有的大規(guī)模數(shù)據(jù)。天文數(shù)據(jù)的不斷涌現(xiàn)同樣促進了天文文獻數(shù)量的持續(xù)攀升,這些文獻是科研人員開展研究工作不可或缺的資源。然而,目前天文數(shù)據(jù)與文獻之間關(guān)聯(lián)程度較低,給天文研究人員搜集天體相關(guān)信息帶來了很多不便。諸如天體標(biāo)識符、望遠鏡名稱等天文知識實體作為天文數(shù)據(jù)與文獻的關(guān)鍵紐帶,是實現(xiàn)天文數(shù)據(jù)與文獻關(guān)聯(lián)融合的基本要素。準(zhǔn)確、快速抽取天文知識實體對于天文學(xué)研究具有重要意義。傳統(tǒng)知識實體抽取方法在處理大規(guī)模、復(fù)雜天文文獻時存在諸多局限性,例如處理周期長、識別實體邊界困難、泛化能力差等。大語言模型的出現(xiàn),為諸多領(lǐng)域自然語言處理任務(wù)帶來了新的機遇。本報告將介紹如何利用大語言模型來克服傳統(tǒng)實體抽取方法的局限,更高效地完成天文文獻中的天文知識實體抽取任務(wù),以實現(xiàn)天文數(shù)據(jù)與文獻之間快速的關(guān)聯(lián)融合。
附件下載: