3D视觉语言动作生成世界模型发布

1,337 0 0

今天，在预印本平台arXiv上，一篇论文介绍了3D视觉-语言-动作生成世界模型3D-VLA。研究人员通过引入一系列新的具体化基础模型来提出3D-VLA，这些模型通过生成世界模型无缝链接3D感知、推理和行动。具体来说，3D-VLA 构建在基于3D的大语言模型之上，并引入了一组交互令牌来与具体环境进行交互。研究保留数据集的实验表明，3D-VLA提高了具体环境中的推理、多模态生成和规划能力。

版权声明：阿里导航发表于 2024-03-18 10:04。
转载请注明：3D视觉语言动作生成世界模型发布 | 阿里导航

3D视觉语言动作生成世界模型发布

Claude 3 Haiku正式上线

AI驱动美图2023年净利润大涨233.2%

相关文章

站内搜索

热门网址