3D视觉语言动作生成世界模型发布

今天,在预印本平台arXiv上,一篇论文介绍了3D视觉-语言-动作生成世界模型3D-VLA。研究人员通过引入一系列新的具体化基础模型来提出3D-VLA,这些模型通过生成世界模型无缝链接3D感知、推理和行动。具体来说,3D-VLA 构建在基于3D的大语言模型之上,并引入了一组交互令牌来与具体环境进行交互。研究保留数据集的实验表明,3D-VLA提高了具体环境中的推理、多模态生成和规划能力。

3D视觉语言动作生成世界模型发布
版权声明:阿里导航 发表于 2024-03-18 10:04。
转载请注明:3D视觉语言动作生成世界模型发布 | 阿里导航

相关文章