tuning - 搜索 News

2 天

国内首个！千帆ModelBuilder支持RFT，打破传统SFT训练效果天花板，模型 ...

在OpenAI连续12天的技术发布会上,一项名为RFT (Reinforcement-based ...

8 小时

最近的研究强调了扩散模型与表征学习之间的相互作用。扩散模型的中间表征可用于下游视觉任务，同时视觉模型表征能够提升扩散模型的收敛速度和生成质量。然而，由于输入不匹配和 VAE 潜在空间的使用，将视觉模型的预训练权重迁移到扩散模型中仍然具有挑战性。

2 天

国内首个！千帆ModelBuilder支持RFT，实现思维跃迁，超OpenAI o1

在OpenAI连续12天的技术发布会上,一项名为RFT(Reinforcement-basedFine-Tuning,基于强化学习的微调)的新型训练方法引发全球关注。该方法通过结合强化学习与监督微调,仅需少量标注数据即可显著提升模型在特定场景下的 ...

1 小时

字节首次公开图像生成基模技术细节，数据处理到RLHF全流程披露

就在今天，字节豆包大模型团队在 arxiv 上发布了一篇技术报告，完整公开了文生图模型技术细节，涵盖数据处理、预训练、RLHF 在内的后训练等全流程模型构建方法，也详细披露了此前大火的文字精准渲染能力如何炼成。

6 天

心竹邀您看19点袁心玥23点朱婷

今晚的体育圈可谓是星光熠熠！心竹特别邀请大家准时锁定直播，19点我们将迎来女排超级新星袁心玥的精彩亮相，而到了23点，更有传奇球星朱婷的压轴登场。无论是袁心玥的活力四射，还是朱婷的沉稳大气，她们都将在这个夜晚点燃你的激情！

腾讯网3 天

超越DeepSeek-R1关键RL算法GRPO，CMU「元强化微调」新范式登场

机器之心报道编辑：杜伟、陈陈大语言模型（LLM）在推理领域的最新成果表明了通过扩展测试时计算来提高推理能力的潜力，比如 OpenAI 的 o1 系列。通常来说，这些方法在训练模型时可以产生比典型正确解决方案更长的轨迹，并包含了试图实现某些「算法」的 ...

腾讯网5 天

从零开始的DeepSeek微调训练实战（SFT）

前言本文重点介绍使用微调框架unsloth，围绕DeepSeek R1 Distill 7B模型进行高效微调，并介绍用于推理大模型高效微调的COT数据集的创建和使用方法，并在一个medical-o1-reasoning-SFT数据集上完成高效微调实战 ...

3 天

CMU 团队推出元强化微调：提升大语言模型推理能力的新范式

在人工智能领域，大语言模型（LLM）正在不断进化，最近，卡内基梅隆大学 (CMU)与 HuggingFace 的研究者们共同提出了一种名为 “元强化微调” (Meta Reinforcement Fine-Tuning，简称 MRT)的新方法。这一方法旨在优化大语言模型在测试时的计算效率，尤其是在解决复杂推理问题时，表现尤为突出。研究表明，现有的大语言模型在推理过程中常常消耗过多的计算资源，而 ...

1 天

网络梗游戏哪个好玩人气高的网络梗游戏排行榜

探寻网络世界的游戏热潮，本文带你揭秘当下最受欢迎的网络梗游戏排行榜。从创意十足的玩法到爆红一时的梗，无论是休闲娱乐还是社交互动，这些热门游戏无疑点燃了玩家们的乐趣点。快来一探究竟，看看哪些游戏凭借独特的梗元素俘获万千玩家的心？

6 天

让SFT重新伟大！CMU等华人学者提出全新「批判式微调」，媲美复刻版 ...

最近，CMU、滑铁卢大学等机构的3名华人学者就发表了一篇论文，针对SFT做出了更进一步的改进，提出批判式监督微调方法（CFT，Critique Fine-Tuning），旨在让模型更有效地模仿模仿数据集。

10 小时

除了不能当女婿，DeepSeek比董宇辉差到哪了？

李佳琦和董宇辉们曾用诗意和信任搭建起与用户之间的桥梁，而 DeepSeek 的答案则像一台精密引擎，将需求、场景等逐一渗透。在这场“推荐权”的迁徙之中，技术或将解构大部分问题。

2 天on MSN

腾讯豪掷数十亿采购NVIDIA H20芯片，DeepSeek应用火爆致芯片供不应求？

近期，科技圈内传出消息，腾讯公司已与全球知名芯片制造商NVIDIA达成了一项重大交易，旨在强化其人工智能（AI）领域的计算能力。据悉，腾讯此次采购了一批NVIDIA最新的H20芯片，以满足旗下应用对AI大模型DeepSeek日益增长的需求。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果