tuning - 搜索 News

2 天

国内首个！千帆ModelBuilder支持RFT，打破传统SFT训练效果天花板，模型 ...

在OpenAI连续12天的技术发布会上,一项名为RFT (Reinforcement-based ...

2 天

国内首个！千帆ModelBuilder支持RFT，实现思维跃迁，超OpenAI o1

在OpenAI连续12天的技术发布会上,一项名为RFT(Reinforcement-basedFine-Tuning,基于强化学习的微调)的新型训练方法引发全球关注。该方法通过结合强化学习与监督微调,仅需少量标注数据即可显著提升模型在特定场景下的 ...

3 天

CMU 团队推出元强化微调：提升大语言模型推理能力的新范式

在人工智能领域，大语言模型（LLM）正在不断进化，最近，卡内基梅隆大学 (CMU)与 HuggingFace 的研究者们共同提出了一种名为 “元强化微调” (Meta Reinforcement Fine-Tuning，简称 MRT)的新方法。这一方法旨在优化大语言模型在测试时的计算效率，尤其是在解决复杂推理问题时，表现尤为突出。研究表明，现有的大语言模型在推理过程中常常消耗过多的计算资源，而 ...

6 天

心竹邀您看19点袁心玥23点朱婷

今晚的体育圈可谓是星光熠熠！心竹特别邀请大家准时锁定直播，19点我们将迎来女排超级新星袁心玥的精彩亮相，而到了23点，更有传奇球星朱婷的压轴登场。无论是袁心玥的活力四射，还是朱婷的沉稳大气，她们都将在这个夜晚点燃你的激情！

9 天

阿里将向日本企业提供生成式 AI 基础模型方案

IT之家 3 月 6 日消息，据日经中文网报道， 3 月 5 日，阿里巴巴集团旗下的阿里云（Alibaba Cloud）宣布，将面向日本企业推广利用生成式 AI（人工智能）基础模型的商业提案，与日本的咨询公司和系统开发公司开展合作。

来自MSN11 天

显著超越SFT，o1/DeepSeek-R1背后秘诀也能用于多模态大模型了

Visual-RFT团队投稿量子位 | 公众号 QbitAI o1/DeepSeek-R1背后秘诀也能扩展到多模态了！举个例子，提问多模态大模型：“什么宝可梦可以释放技能十万伏特”时，模型通过这是来自上海交大、上海AI ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果