bench - 搜索 News

本文来自港科与 MIT 教授团队。本文有两个共同一作：张鉴殊为武汉大学本科四年级，本篇为其在港科大访问期间完成，将于 2025 秋季前往美国西北大学攻读 CS PhD。姚栋宇目前就读于 CMU CS 系下的 MSCV ...

机器之心报道编辑：Panda随着 AI 能力的提升，一个常见的话题便是基准不够用了——一个新出现的基准用不了多久时间就会饱和，比如 Replit CEO Amjad Masad 就预计 2023 年 10 月提出的编程基准 SWE-bench 将在 ...

12 小时

最近，演员金秀贤被曝出曾与已故演员金赛纶在她未成年时期有过交往，这一爆料让与他合作的广告商和电视台陷入了紧急状态。尽管金秀贤的经纪公司表示“完全没有根据”，但随着更多的爆料浮出水面，外界猜测如果这些指控属实，金秀贤可能面临天文数字的违约金。

14 天

Extra Hard，简称 BBEH。从名字也能看出来，这个基准非常难—Extra Hard论文标题：BIG-Bench Extra Hard 论文地址：数据地址： ...

17 小时

曾经的三分球纪录保持者雷阿伦仅命中2973个三分，而库里横空出世，成为第一个达到3000个三分的球员，如今再度超越，突破4000个三分球大关，实至名归地获得历史第一射手的荣誉。值得注意的是，单赛季投中200个三分球已需20年才能完成，而单赛季达到25 ...

18 小时

近段时间，推理模型 DeepSeek R1 可说是 AI 领域的头号话题。用过的都知道，该模型在输出最终回答之前，会先输出一段思维链内容。这样做可以提升最终答案的准确性。除了 OpenAI，没有人完全知道 o1 ...

11 小时

LLM推理中的延迟问题常被忽视，而实时应用对此要求严苛。来自Zoom的华人团队提出草稿链（CoD）技术，仅用7.6%的token，就能在保持准确率的同时，大幅降低推理成本和延迟。

IT之家 3 月 12 日消息，今天，豆包大模型团队正式发布文生图技术报告，首次公开 Seedream 2.0 图像生成模型技术细节，覆盖数据构建、预训练框架、后训练 RLHF 全流程，针对 Seedream 2.0 ...

1 天

近日，因与已故女演员金赛纶的恋爱传闻及债务纠纷，金秀贤陷入舆论风波。尽管金秀贤的经纪公司Gold Medalist两度否认指控，并誓言采取法律行动，但随着更多疑似证据曝光，事件持续发酵，公众质疑声浪不减。

鞭牛士 3月4日消息，智谱官方刚刚宣布推出「智谱2025开源年」的第一个模型：首个支持生成汉字的开源文生图模型——CogView4。据介绍，CogView4 在 DPG-Bench 基准测试中的综合评分排名第一，在开源文生图模型中达到 ...

3 天

经过多轮的实测，Q4 量化版的 671BDeepSeek 大模型和 70B 版本在绝大多数任务上的处理能力，并没有太显著的差异，但运行 70B 模型时负载更低，token 吞吐速度更快，因此我们建议本地部署 DeepSeek ...

1 天

自2014年起，Prada亚太区接连遭遇品牌代言人“塌房”事件，先后历经柯震东吸毒、吴亦凡强奸、李易峰嫖娼、郑爽代孕、蔡徐坤一夜情等丑闻。有媒体报道称，郑爽爆出代孕事件时与Prada仅合作了8天，但带来了Prada股价当日下跌2.3%。

一些您可能无法访问的结果已被隐去。