新研究提升人工智能決策算法適用性
近日,由北京大學人工智能研究院、工學院、計算機學院和倫敦國王學院共同完成的論文——《大規模多智能體系統的高效強化學習》在國際學術期刊《自然·機器智能》上發表。這一成果首次在大規模多智能體系統中實現高效去中心化協同決策,有利於提升人工智能決策算法的擴展性和適用性。
多智能體系統主要以龐大的智能體交互數據為基礎,利用大量計算資源驅動每個智能體學習如何與其他智能體合作執行復雜任務,其核心范式是多智能體強化學習。
“比如一個無人機編隊,每架無人機都由人工智能控制,我們把每架飛機的控制器叫作智能體,這個無人機編隊由多個智能體構成,就是一個多智能體系統。”論文第一作者、北京大學人工智能研究院博士生馬成棟解釋。
馬成棟說,在真實大規模系統中,各個控制單位之間、控制單位與環境之間的交互成本往往非常高昂。這些系統中經常存在客觀通信限制,如通信距離太遠、全局通信有隱私泄露風險、通信能耗限制等。控制單位之間難以實現全局信息交換,阻礙了人工智能決策算法在大規模系統中的擴展和應用。
當前,去中心化的多智能體強化學習成為國際學術界的研究熱點,其旨在探索一種算法,即在有限數據和資源條件下,將決策能力擴展到包含大量智能體的復雜真實系統中。
馬成棟說,去中心化的多智能體強化學習,以不依賴全局信息的方式讓每個智能體實現高效去中心化協同決策,展現出獨特優勢。
論文通訊作者、北京大學人工智能研究院助理教授楊耀東介紹,研究團隊通過網絡化結構解耦系統的全局動態特性,使智能體能獨立學習局部狀態轉移、鄰域信息價值和去中心化策略,將復雜的大規模決策難題轉化為更容易求解的問題。得益於此,即使在樣本數據和信息交互受限的情況下,大型人工智能系統也能展現令人滿意的決策性能。
研究團隊在較為復雜的城市交通和電力網絡中,對包含數百個智能體的場景進行了測試。結果顯示,與中心化多智能體學習方法相比,去中心化的方法可將信息交換成本降低70%或更多。而且,隨著智能體數量不斷增長,這一比例還會顯著下降。同時,樣本效率可提升50%以上。
“這一研究成果對於將人工智能模型擴展到大型電力網絡、城市交通信號控制等大規模多智能體系統具有重要價值。”馬成棟舉例說,在大型電網系統中,節點之間信息交換和傳輸過於頻繁,難免會產生干擾。某些節點一旦發生故障,就會嚴重影響其他節點的性能。去中心化可以降低這一風險,提高電網系統穩定性和安全性。
(記者楊雪)
分享讓更多人看到
- 評論
- 關注