视觉-语言-行动(VLA,Vision-Language-Action)模型是可以感知视觉刺激、语言输入以及其他与环境相关数据的自主智能体,能够在物理和数字环境中生成有意义的「具身行动」(embodied actions)以完成特定任务。
How long can open-source llms truly promise on context length?.Dacheng Li, Rulin Shao, Anze Xie, Ying Sheng, Lianmin Zheng, Joseph E. Gonzalez, Ion Stoica, Xuezhe Ma, Hao Zhang. 2023 Llama: Open and ...
但以往的研究主要利用SoM来增强现成的大型多模态模型(LMMs)的视觉语言定位能力,研究人员提出利用SoM来训练智能体模型,使其能够定位特定任务 ...
Flamingo可以被视为多模态领域的 GPT-3 时刻,因其在零样本任务迁移和上下文学习中的出色表现。其他在图像-文本对上训练的 LMMs 包括 BLIP-2、FROMAGe和 KOSMOS-1。PaLM-E是一个用于具身人工智能的 LMM。基于最近“最佳”开源 LLM LLaMA,OpenFlamingo和 LLaMA-Adapter是开源努力 ...