1 Instruct - 搜索 News

腾讯网1 天

性能超GPT-4o Mini！24B参数大模型Mistral Small 3.1正式发布

整理 | 屠敏出品 | CSDN（ID：CSDNnews）在大模型时代，很多初创公司的技术实力并不逊色于大厂。今天，法国 AI 初创公司 Mistral AI 正式发布了一款新的开源模型——Mistral Small ...

1 天

简单又安全用酷睿AI PC实现零门槛本地AI助手部署

同时，基于英特尔酷睿Ultra系列处理器打造的AI PC，可以说是性能体验最好、稳定性最好、兼容性最好的本地化AI部署平台。Ollama、Flowy、LM Studio、Miniforge等常用软件全部支持，并且支持Intel ...

10 小时

砍掉99%采样成本，腾讯AI Lab提出大模型无监督训练新技术

腾讯AI Lab与香港中文大学（深圳）合作开展了一项新研究，提出了这样一种名为无监督前缀微调（UPFT）的方法。团队研究发现，关键的正确推理信号，全都藏在模型的“前几步”里，将这种现象称为“推理前序自一致性”。

9 天

1.5B硬刚GPT-4o，CMU祭出LCPO提示可控思考！每token性能较S1暴涨2倍

【新智元导读】CMU团队用LCPO训练了一个15亿参数的L1模型，结果令人震惊：在数学推理任务中，它比S1相对提升100%以上，在逻辑推理和MMLU等非训练任务上也能稳定发挥。更厉害的是，要求短推理时，甚至击败了GPT-4o——用的还是相同的toke ...

1 天on MSN

AMD顶级APU展现实力！锐龙AI Max+ 395跑DeepSeek R1：比RTX 5080快3倍以上

快科技3月18日消息，AMD展示了其最新的锐龙AI MAX+ 395 “Strix Halo” APU在DeepSeek R1 AI基准测试中的表现，比NVIDIA RTX 5080桌面版显卡高出3倍以上。锐龙AI MAX+ 395 “S ...

腾讯网2 天

RAG-Gym: 基于过程监督的检索增强生成代理优化框架

RAG-Gym将知识密集型问答任务形式化为嵌套马尔可夫决策过程 ...

11 天

7B级形式化推理与验证小模型，媲美满血版DeepSeek-R1，全面开源！

随着 DeepSeek-R1 的流行与 AI4Math 研究的深入，大模型在辅助形式化证明写作方面的需求日益增长。作为数学推理最直接的应用场景，形式化推理与验证（formal reasoning and verification） ...

13 天

360智脑开源Light-R1！1000美元数学上首次从零超越DeepSeek-R1-Distill

DeepSeek-R1 模型发布以来，尽管许多开源工作试图在 72B 或更小的模型上复现长思维链的 DeepSeek-R1 的性能，但至今还没有在 AIME24 等高难度数学竞赛中达到接近 DeepSeek-R1-Distill-Qwen-32B 的 ...

红板报 on MSN5 天

AI能自主出“竞赛题”了！港大&蚂蚁让大模型学会生成难题，水平已 ...

赵学亮投稿量子位 | 公众号 QbitAI 大模型架构研究进展太快，数据却快要不够用了，其中问题数据又尤其缺乏。为此，港大和蚂蚁的研究人员反向利用思维链，提出了PromptCoT方法，并基于Llama3.1-8B训练了一个问题生成模型。实验结果表明，合成的问题难度较开源数据和已有算法有显著提升，接近了AIME水平。研究团队利用问题生成模型构造了400k SFT数据。基于这份数据，团队训练 ...

16 天

从零开始实现GRPO算法：一个AI工程师的终极指南

在快速发展的人工智能领域，深度强化学习（RL）无疑是最引人注目的技术之一，而GRPO（Group Relative Policy Optimization）算法则在这一浪潮中脱颖而出。日前，著名AI工程师兼作家Andriy Burkov分享了一份详细的教程，指导如何从零开始实现GRPO算法，并利用前沿的Qwen-2.5-1.5B-Instruct模型构建分布式强化学习流程。

腾讯网10 天

“批判性微调”面世，8个英伟达H100训练模型1小时，性能媲美DeepSeek-R1

8 个 H100 显卡训练 1 小时，即可让所训练的 Qwen2.5-Math-CFT 模型媲美 DeepSeek-R1 的性能。背后“秘诀”只有一个：采用由加拿大滑铁卢大学团队和美国卡内基梅隆大学团队提出的批判性微调（CFT，Critique ...

GitHub28 天

Qwen2.5-VL-3B-Instruct-export-onnx

后会导出两个文件，一个后缀名为".onnx"，存放计算图。一个后缀名为".onnx.data"，存放权重数据。 2. 导出为多个onnx 把模型forward逻辑切开，导出为多个onnx。这个模型最少导出为两个部分（图片尺寸448x448），如果图片尺寸比较大，需要切分为更多部分。这种方式 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果