近日,面向高能物理的人工智能系統(tǒng)——“賽博士“(Dr. Sai)——正式上線,這是國際高能物理領(lǐng)域的首個大型人工智能系統(tǒng),入口為https://drsai.ihep.ac.cn。
2023年7月以來,在中國科學院高能物理研究所“從0到1”項目的支持下,計算中心和實驗物理中心聯(lián)手打造了"賽博士"(Dr. Sai)AI智能體,旨在使其高度智能化和自動化地完成文獻調(diào)研、程序編寫、事例產(chǎn)生、事例分析、結(jié)果解釋和文章撰寫等任務(wù),將科學家從創(chuàng)新性要求較低的例行工作中解放出來。項目第一階段聚焦我國首個科學裝置——北京正負電子學對撞機上的北京譜儀III(BESIII)——的數(shù)據(jù)分析。
經(jīng)過一年的攻堅,在7月4日下午的BESIII合作組會上,研究團隊面向BESIII合作組正式發(fā)布了第一版“賽博士”并進行了現(xiàn)場教學,受到了大家的熱烈歡迎。"賽博士"v1.0版本已上線HepAI平臺(https://ai.ihep.ac.cn),為進一步改進系統(tǒng)、早日實現(xiàn)既定目標打下了堅實的基礎(chǔ)。此外,團隊還將從底層模型開始為高能物理實驗研發(fā)可總結(jié)理解物理規(guī)律的科學大模型等工作。
“賽博士”是一個基于大模型的多智能體協(xié)同系統(tǒng),其核心組件包括:基于開源基座模型(目前為LLaMA3)的領(lǐng)域增強大語言模型——“高能·溪悟”,利用高能物理和BESIII實驗數(shù)據(jù)進行二次預(yù)訓練和微調(diào)從而實現(xiàn)專業(yè)性能提升;基于矢量數(shù)據(jù)庫和知識圖譜的記憶器,通過檢索增強生成(RAG)和自我反思緩解幻覺現(xiàn)象;基于自研HepAI分布式部署框架的執(zhí)行器,實現(xiàn)BESIII代碼的遠端執(zhí)行和結(jié)果讀取;基于多個AI工具的“數(shù)據(jù)飛輪系統(tǒng)”,實現(xiàn)模型的持續(xù)迭代升級;基于提示工程和知識庫的多個智能體,針對不同任務(wù)實現(xiàn)具體優(yōu)化。經(jīng)過一系列測試,“賽博士”在高能物理領(lǐng)域的知識問答、任務(wù)規(guī)劃、代碼生成等方面性能超過世界上主流的大語言模型,研究人員們可以借助這一先進工具,更加高效地開展實驗數(shù)據(jù)的分析和研究,例如可在輸入清晰指令后由”賽博士“將整個分析工作自動完成。
圖1: “賽博士”智能體總體概覽
高能物理經(jīng)過數(shù)十年的發(fā)展,逐步演變?yōu)橐蕾嚫叨染?、?fù)雜的大科學裝置獲取海量實驗數(shù)據(jù),并通過分析挖掘數(shù)據(jù)發(fā)現(xiàn)與驗證物理規(guī)律的學科,高能物理實驗收集的數(shù)據(jù)也是國際上最大的數(shù)據(jù)集之一,而如何充分有效地挖掘海量科學數(shù)據(jù)產(chǎn)出科學成果是該領(lǐng)域面臨的重要挑戰(zhàn)之一。近年來,以大模型為代表的人工智能技術(shù)取得重大突破,相較于人類,其在記憶力、高維復(fù)雜、全局視野、推理深度和猜想等方面具有較大優(yōu)勢,為促進科學發(fā)現(xiàn)提供了新的思路。
圖2:BESIII合作組會中“賽博士”分會場
圖3:"賽博士"小組主要成員(按姓氏排序)
項目成員主要來自高能所計算中心和實驗物理中心,并有中國科學院大學、蘭州大學、吉林大學和南京大學的研究生參與。本項目研究過程中還得到了“從0到1”指導(dǎo)小組、機器學習創(chuàng)新組和BESIII合作組多位專家的指導(dǎo)和建議。
附件下載: