北京智源研究院發布原生多模態世界模型Emu3
2024年10月24日08:35 | 來源:人民網-人民日報海外版
小字號
本報電 (記者劉峣)近日,北京智源人工智能研究院正式發布原生多模態世界模型Emu3。該模型實現了視頻、圖像、文本三種模態的統一理解與生成,成功驗証了基於下一個token(詞元)預測的多模態技術范式,釋放其在大規模訓練和推理上的潛力。
據了解Emu3隻基於下一個token預測,無需擴散模型或組合式方法,把圖像、文本和視頻編碼為一個離散空間,在多模態混合序列上從頭開始聯合訓練一個Transformer。
智源研究院院長王仲遠表示,Emu3為構建多模態通用人工智能提供了廣闊的技術前景,有機會將基礎設施建設收斂到一條技術路線上,為大規模多模態訓練和推理提供基礎。未來,多模態世界模型將促進機器人大腦、自動駕駛、多模態對話和推理等場景應用。
(責編:李昉、郝孟佳)
分享讓更多人看到
- 評論
- 關注