整理 | 屠敏出品 | CSDN(ID:CSDNnews)在大模型时代,很多初创公司的技术实力并不逊色于大厂。今天,法国 AI 初创公司 Mistral AI 正式发布了一款新的开源模型——Mistral Small ...
同时,基于英特尔酷睿Ultra系列处理器打造的AI PC,可以说是性能体验最好、稳定性最好、兼容性最好的本地化AI部署平台。Ollama、Flowy、LM Studio、Miniforge等常用软件全部支持,并且支持Intel ...
腾讯AI Lab与香港中文大学(深圳)合作开展了一项新研究,提出了这样一种名为 无监督前缀微调 (UPFT)的方法。 团队研究发现,关键的正确推理信号,全都藏在模型的“前几步”里,将这种现象称为“推理前序自一致性”。
【新智元导读】CMU团队用LCPO训练了一个15亿参数的L1模型,结果令人震惊:在数学推理任务中,它比S1相对提升100%以上,在逻辑推理和MMLU等非训练任务上也能稳定发挥。更厉害的是,要求短推理时,甚至击败了GPT-4o——用的还是相同的toke ...
快科技3月18日消息,AMD展示了其最新的锐龙AI MAX+ 395 “Strix Halo” APU在DeepSeek R1 AI基准测试中的表现,比NVIDIA RTX 5080桌面版显卡高出3倍以上。锐龙AI MAX+ 395 “S ...
RAG-Gym将知识密集型问答任务形式化为嵌套马尔可夫决策过程 ...
随着 DeepSeek-R1 的流行与 AI4Math 研究的深入,大模型在 辅助形式化证明写作 方面的需求日益增长。作为数学推理最直接的应用场景, 形式化推理与验证(formal reasoning and verification) ...
DeepSeek-R1 模型发布以来,尽管许多开源工作试图在 72B 或更小的模型上复现长思维链的 DeepSeek-R1 的性能,但至今还没有在 AIME24 等高难度数学竞赛中达到接近 DeepSeek-R1-Distill-Qwen-32B 的 ...
赵学亮 投稿量子位 | 公众号 QbitAI 大模型架构研究进展太快,数据却快要不够用了,其中问题数据又尤其缺乏。 为此,港大和蚂蚁的研究人员反向利用思维链,提出了PromptCoT方法,并基于Llama3.1-8B训练了一个问题生成模型。 实验结果表明,合成的问题难度较开源数据和已有算法有显著提升,接近了AIME水平。 研究团队利用问题生成模型构造了400k SFT数据。 基于这份数据,团队训练 ...
在快速发展的人工智能领域,深度强化学习(RL)无疑是最引人注目的技术之一,而GRPO(Group Relative Policy Optimization)算法则在这一浪潮中脱颖而出。日前,著名AI工程师兼作家Andriy Burkov分享了一份详细的教程,指导如何从零开始实现GRPO算法,并利用前沿的Qwen-2.5-1.5B-Instruct模型构建分布式强化学习流程。
8 个 H100 显卡训练 1 小时,即可让所训练的 Qwen2.5-Math-CFT 模型媲美 DeepSeek-R1 的性能。背后“秘诀”只有一个:采用由加拿大滑铁卢大学团队和美国卡内基梅隆大学团队提出的批判性微调(CFT,Critique ...
后会导出两个文件,一个后缀名为".onnx",存放计算图。一个后缀名为".onnx.data",存放权重数据。 2. 导出为多个onnx 把模型forward逻辑切开,导出为多个onnx。这个模型最少导出为两个部分(图片尺寸448x448),如果图片尺寸比较大,需要切分为更多部分。 这种方式 ...