腾讯AI Lab与香港中文大学(深圳)合作开展了一项新研究,提出了这样一种名为 无监督前缀微调 (UPFT)的方法。 团队研究发现,关键的正确推理信号,全都藏在模型的“前几步”里,将这种现象称为“推理前序自一致性”。
AMD在官网开源了最新小参数模型Instella-3B。比较特别的是,这是一个基AMD Instinct™ MI300X GPU从头训练的模型。 根据测试数据显示,Instella-3B的性能超过了Llama-3.2-3B、Gemma-2-2B,可以媲美阿里开源的Qwen-2.5-3B,这也证明了AMD的GPU也能训练出高性能的大模型。 开源地址:https://huggingface.co/am ...
整理 | 屠敏出品 | CSDN(ID:CSDNnews)在大模型时代,很多初创公司的技术实力并不逊色于大厂。今天,法国 AI 初创公司 Mistral AI 正式发布了一款新的开源模型——Mistral Small ...
机器之心报道编辑:张倩多模态,性能超 GPT-4o Mini、Gemma 3,还能在单个 RTX 4090 上运行,这个小模型值得一试。小模型正在变得越来越好,而且越来越便宜。刚刚,法国 AI 创企 Mistral AI 开源了一个 24B ...
同时,基于英特尔酷睿Ultra系列处理器打造的AI PC,可以说是性能体验最好、稳定性最好、兼容性最好的本地化AI部署平台。Ollama、Flowy、LM Studio、Miniforge等常用软件全部支持,并且支持Intel ...
AMD近期揭晓了其锐龙AI MAX+ 395 “Strix Halo” APU在DeepSeek R1 AI基准测试中的卓越表现,这一成绩远超NVIDIA RTX 5080桌面版显卡,性能提升幅度超过3倍。
快科技3月18日消息,AMD展示了其最新的锐龙AI MAX+ 395 “Strix Halo” APU在DeepSeek R1 AI基准测试中的表现,比NVIDIA RTX 5080桌面版显卡高出3倍以上。锐龙AI MAX+ 395 “S ...
RAG-Gym将知识密集型问答任务形式化为嵌套马尔可夫决策过程 ...
赵学亮 投稿量子位 | 公众号 QbitAI 大模型架构研究进展太快,数据却快要不够用了,其中问题数据又尤其缺乏。 为此,港大和蚂蚁的研究人员反向利用思维链,提出了PromptCoT方法,并基于Llama3.1-8B训练了一个问题生成模型。 实验结果表明,合成的问题难度较开源数据和已有算法有显著提升,接近了AIME水平。 研究团队利用问题生成模型构造了400k SFT数据。 基于这份数据,团队训练 ...
要知道,随着 ChatGPT 等大模型的爆火,AI 们“阅读”能力也水涨船高,动辄处理十几万字的长文不在话下。然而,面对海量信息,传统大模型的“大脑”却有点卡壳—— Transformer 架构虽强,但其核心的注意力机制就像一个“ 超级 扫描仪”,文本越长,扫描范围呈指数级膨胀,速度自然就慢了下来。
IT之家 3 月 10 日消息,谷歌公司于 3 月 7 日发布博文,宣布推出 Gemini Embedding,是一款基于 AI 的文本处理模型,现已集成至 Gemini API。 该模型在 Massive Text Embedding Benchmark(MTEB)中拔得头筹,超越了 Mistral、Cohere 和 Qwen 等竞争对手,成为当前性能最强的文本嵌入模型。 在构建 AI 知识库中 ...
最近,CMU、滑铁卢大学等机构的3名华人学者就发表了一篇论文,针对SFT做出了更进一步的改进,提出批判式监督微调方法(CFT,Critique Fine-Tuning),旨在让模型更有效地模仿模仿数据集。