上下文 contextual - 搜索 News

腾讯网5 小时

官方报告：DeepSeek-V3 模型是如何炼成的！

DeepSeek-V3 官方报告解读https://arxiv.org/abs/2412.194371. 论文背景：为什么要开发 DeepSeek-V3？近年来，大型语言模型（LLM）发展迅速，不仅闭源模型（如 ...

1 天

生成式AI入门与AWS实战：开启AI创新之路

在当今的科技背景下，生成式人工智能（Generative ...

2 天

月之暗面MoBA核心作者自述：一个新晋大模型训练师的三入思过崖

今天，MoBA 的一位主要研发同学 Andrew Lu 在知乎发帖，自述研发过程的三次踩坑，他称为 “三入思过崖”。他在知乎的签名是“新晋 LLM 训练师”。注意力机制之所以重要，是因为它是当前大语言模型（LLM）的核心机制。回到 2017 年 6 ...

腾讯网4 天

中国大模型“卷技术”！DeepSeek前脚发布NSA，Kimi立刻跟进MoBA

周二，当全球目光聚焦于马斯克Grok-3的庞大GPU集群时，中国大模型公司正在技术创新的道路上默默加速。先是DeepSeek提出了原生稀疏注意力（Native Sparse Attention, ...

5 天

RWKV 开发者大会 2025，研讨 RWKV-7 架构与未来趋势

新一代大模型架构RWKV将于2025年2月22日在上海举办首届主题为《RWKV-7架构与未来趋势》的开发者大会，大会将深入探讨RWKV-7的独家技术亮点、应用场景以及未来趋势，展示RWKV在推动全球AI发展中的前瞻性与领导力。

3 天

10年科学谜团，被谷歌“AI科学家”2天解决了

智东西2月20日报道，用48小时破解生物学家苦心钻研10年的“超级细菌”难题，还可免费申请使用，这是谷歌研究院（Google Research）昨日在AI for Science领域发布的最新成果：一个基于Gemini 2.0构建的AI协作科学家。

51CTO6 天

DeepSeek R1与Qwen大模型，构建Agentic RAG全攻略

参数： user_query：用户的问题。 """ # 检索相关文档 docs = vectordb.similarity_search(user_query, k=3) context = "\n\n".join(doc.page_content for doc in docs) # 为推理模型创建提示 prompt = f"""根据以下上下文，简洁地回答用户的问题。

来自MSN1 天

如何评价 Kimi 开源的稀疏注意力框架 MoBA？与DeepSeek的NSA相比，二者各 ...

就在昨天，Kimi 和 Deepseek 分别发布了一篇论文，发布时间和论文主题内容都高度相似。我第一时间把两篇论文阅读完了，急忙跑来写写我对这两篇论文的感想和体会。

4 天

撞车DeepSeek NSA，Kimi杨植麟署名的新注意力架构MoBA发布，代码也公开

昨天下午，DeepSeek 发布了一篇新论文，提出了一种改进版的注意力机制 NSA；加上还有创始人兼 CEO 梁文锋亲自参与，一时之间吸引眼球无数。但其实就在同一天，月之暗面也发布了一篇主题类似的论文，并且同样巧合的是，月之暗面创始人兼 CEO ...

澎湃新闻3 天

梁文锋杨植麟论文撞题，“注意力机制”对大模型意味着什么

2月18日，就在DeepSeek论文发布当天，月之暗面创始人杨植麟也带领团队发布最新论文《MoBA: MIXTURE OF BLOCK ATTENTION FOR LONG-CONTEXT LLMS（直译为“MoBA：面向长上下文大语言模型的块注意力混合方法”）》，提出了与NSA类似的稀疏注意力框架MoBA，并设计了一套可以自由 ...

4 天

月之暗面Kimi暂缓“烧钱”投放，知情人称现在App用户是自然增长｜钛 ...

对此，钛媒体AGI从知情人士从了解到，该动作核心原因在于DeepSeek热潮，带动近期 Kimi 智能助手“自然新增用户量猛涨”。这意味着，月之暗面对推广动作进行了相应调整。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果