AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]本文一作汤轶文本科毕业于上海科 ...
红板报 on MSN17 天
量子位 的报道
汤轶文 投稿至 凹非寺量子位 | 公众号 QbitAI 无编码器多模态大模型被拓展到3D领域—— 3D编码器的功能被融入LLM本身,无编码器3D LMM适应不同的点云分辨率,摆脱预训练编码器的依赖。 来自上海AI Lab、西北工业大学、香港中文大学、清华大学等提出ENEL,在预训练阶段探索了如何使用自监督损失将3D编码器的功能整合到LLM本身,在指令调优阶段提出了一种层次几何聚合策略,基于Poin ...
在人类的认知能力评估中,智商测试(IQ Test)被广泛用作衡量抽象推理和逻辑思维的标准。这类测试通过剥离语言背景、特定领域知识等,更加专注于人类的核心认知能力。然而,在人工智能领域,尤其是在多模态系统当中,目前却缺乏这样一个能够全面量化这些关键认知维度的评估标准。虽然现有的多模态模型在特定任务如OCR、目标定位以及医学图像分析等领域表现优异,但它们的评估指标并未涵盖核心推理能力。
请查看VLMEvalKit Features中的 Supported Benchmarks 标签,以查看所有支持的图像和视频基准(70+)。 请查看VLMEvalKit Features中的 Supported LMMs 标签,以查看所有支持的 LMMs,包括商业 API、开源模型等(200+)。 要开发自定义评测数据集,支持其他 VLMs,或为 VLMEvalKit 贡献 ...
主要工作有 Any2Point, Point-PEFT, ViewRefer 等。 许多近期的研究致力于开发大型多模态模型(LMMs),使 LLMs 能够解读多模态信息,如 2D 图像(LLaVA ...
基于标记集合(SoM)的动作定位 「标记集合」提示方法最初是为了增强GPT-4V的视觉定位能力而提出的,但以往的研究主要利用SoM来增强现成的大型多模态模型(LMMs)的视觉语言定位能力,研究人员提出利用SoM来训练智能体模型,使其能够定位特定任务中的可 ...
为此,来自港中文 MMLab 的研究者们提出了 MME-CoT。 这是一个全面且专门用于评估 LMMs 中视觉推理能力的 Benchmark,包括了数学、科学、OCR、逻辑、时空和通用场景。 MME-CoT 与之前的 LMM 的 Benchmark 最大的区别在于,提出了一个严格且多方面的评估框架,细粒度地 ...
为此,来自港中文 MMLab 的研究者们提出了 MME-CoT。 这是一个全面且专门用于评估 LMMs 中视觉推理能力的 Benchmark,包括了数学、科学、OCR、逻辑 ...