收藏网页用AI更方便
扫码加群领福利
今天,在预印本平台arXiv上,一篇论文介绍了3D视觉-语言-动作生成世界模型3D-VLA。研究人员通过引入一系列新的具体化基础模型来提出3D-VLA,这些模型通过生成世界模型无缝链接3D感知、推理和行动。具体来说,3D-VLA 构建在基于3D的大语言模型之上,并引入了一组交互令牌来与具体环境进行交互。研究保留数据集的实验表明,3D-VLA提高了具体环境中的推理、多模态生成和规划能力。