近日,計算機與信息科學學院2022級碩士研究生李梗森在期刊《Applied Soft Computing》(中科院1區,TOP期刊,影響因子IF=8.7)上發表題為“Distance metric learning-based multi-granularity neighborhood rough sets for attribute reduction”的研究論文,對基于度量學習特征選擇的相關研究作了具體闡釋。該論文由計算機與信息科學學院崔少國教授和桑彬彬副教授共同指導完成。

粗糙集理論的屬性約簡方法一直是人工智能(AI)領域的研究熱點,而鄰域粗糙集(NRS)模型由于其在不確定性推理中的良好泛化性能和實用性,近年來在生物信息學、金融數據分析、醫療診斷等領域得到了廣泛應用。然而,傳統NRS模型在計算樣本間距離時使用固定的計算范式,未考慮屬性空間中標簽對距離計算的影響,這限制了約簡算法性能的提升。針對這一問題,本文將距離度量學習引入NRS模型,提出了一種新的DmlMNRS模型。該模型充分考慮了多維屬性空間中標簽信息,通過使同標簽樣本間距離更近、不同標簽樣本間距離更遠的綜合原則,來學習樣本間距離,從而有助于減少分類不確定性。該研究還介紹并證明了DmlMNRS模型的相關性質,并基于此定義了DmlMNRS屬性約簡準則和屬性重要性,設計了一種基于DmlMNRS的啟發式屬性約簡(DMNHAR)算法。本研究提出的新方法在15個公開數據集上進行了廣泛實驗,結果顯示所提出的算法具有優越的魯棒性和分類性能。