人民網
人民網>>教育

北京智源研究院發布原生多模態世界模型Emu3

2024年10月24日08:35 | 來源:人民網-人民日報海外版
小字號

  本報電  (記者劉峣)近日,北京智源人工智能研究院正式發布原生多模態世界模型Emu3。該模型實現了視頻、圖像、文本三種模態的統一理解與生成,成功驗証了基於下一個token(詞元)預測的多模態技術范式,釋放其在大規模訓練和推理上的潛力。

  據了解Emu3隻基於下一個token預測,無需擴散模型或組合式方法,把圖像、文本和視頻編碼為一個離散空間,在多模態混合序列上從頭開始聯合訓練一個Transformer。

  智源研究院院長王仲遠表示,Emu3為構建多模態通用人工智能提供了廣闊的技術前景,有機會將基礎設施建設收斂到一條技術路線上,為大規模多模態訓練和推理提供基礎。未來,多模態世界模型將促進機器人大腦、自動駕駛、多模態對話和推理等場景應用。

(責編:李昉、郝孟佳)

分享讓更多人看到

返回頂部