近日,中國科學(xué)院高能同步輻射光源(HEPS)光束線軟件系統(tǒng)與高分辨納米電子結(jié)構(gòu)(Nano-ARPES)線站在利用無監(jiān)督聚類算法劃分樣品表面不同電子結(jié)構(gòu)區(qū)域的研究方面取得重要進(jìn)展。研究人員開發(fā)的多階段無監(jiān)督聚類算法(Multi-Stage Clustering Algorithm,MSCA)通過自動提取能帶在表面的一致性,清晰地劃分出了MoS2/BN異質(zhì)結(jié)中不同襯底或?qū)訑?shù)MoS2的分布,并實(shí)現(xiàn)了細(xì)微能帶差異的抓取。
Nano-ARPES線站通過聚焦X射線光斑至納米量級,使得研究電子結(jié)構(gòu)在表面微納尺度的分布成為可能。然而,樣品表面的復(fù)雜性以及高維度的龐大數(shù)據(jù)量給Nano-ARPES的數(shù)據(jù)分析帶來了挑戰(zhàn),特別是,由于某種誘導(dǎo)因素導(dǎo)致的細(xì)微能帶變化,比如由不同襯底或?qū)訑?shù)造成的二維材料特定能帶劈裂,然而這些往往蘊(yùn)含著豐富的物理機(jī)制并且是研究人員所關(guān)注的信息。針對這一問題,HEPS光束線軟件系統(tǒng)的邊苓竹工程師與Nano-ARPES線站的劉晨副研究員合作開發(fā)了一種多階段無監(jiān)督聚類算法(Multi-Stage Clustering Algorithm,MSCA)。MSCA將K-Means算法應(yīng)用于三個階段的數(shù)據(jù)處理,分別實(shí)現(xiàn)了動量空間與實(shí)空間的聚類分析,準(zhǔn)確區(qū)分出了具有細(xì)微差異的單/多層以及不同襯底的MoS2。相較于傳統(tǒng)的無監(jiān)督聚類算法,MSCA在聚類精度上提升了約20%。未來,該算法將集成到HEPS的數(shù)據(jù)采集系統(tǒng)(MAMBA),并應(yīng)用于Nano-ARPES線站,實(shí)現(xiàn)數(shù)據(jù)采集過程中的在線精細(xì)聚類和能帶提取,從而提高Nano-ARPES數(shù)據(jù)采集效率,加速基礎(chǔ)科研成果的產(chǎn)出。
相關(guān)工作已在Nature旗下的物理學(xué)一區(qū)Top期刊《Communications Physics》上發(fā)表,文章標(biāo)題為“Automatic extraction of fine structural information in angle-resolved photoemission spectroscopy by multi-stage clustering algorithm”,邊苓竹、劉晨共同第一作者,董宇輝研究員與南京理工大學(xué)的陳哲生教授共同擔(dān)任通訊作者。
同時,HEPS光束線軟件系統(tǒng)還在積極推動“大型科學(xué)軟件框架+AI for Science”的科研范式,并與各課題組開展廣泛合作,在同步輻射各類方法學(xué)的大數(shù)據(jù)處理應(yīng)用中取得了一系列成果。
圖1:多階段聚類算法(MSCA)實(shí)現(xiàn)動量空間能帶的抓取(c-e,h-j)與實(shí)空間不同電子結(jié)構(gòu)區(qū)域的劃分(k,n)。
圖2:AI輔助大數(shù)據(jù)處理在同步輻射各類方法學(xué)中的全面應(yīng)用
附件下載: