视觉-语言-行动(VLA,Vision-Language-Action)模型是可以感知视觉刺激、语言输入以及其他与环境相关数据的自主智能体,能够在物理和数字环境中生成有意义的「具身行动」(embodied actions)以完成特定任务。
How long can open-source llms truly promise on context length?.Dacheng Li, Rulin Shao, Anze Xie, Ying Sheng, Lianmin Zheng, Joseph E. Gonzalez, Ion Stoica, Xuezhe Ma, Hao Zhang. 2023 Llama: Open and ...
但以往的研究主要利用SoM来增强现成的大型多模态模型(LMMs)的视觉语言定位能力,研究人员提出利用SoM来训练智能体模型,使其能够定位特定任务 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果