上下文 contextual - 搜索 News

3 天

今天，MoBA 的一位主要研发同学 Andrew Lu 在知乎发帖，自述研发过程的三次踩坑，他称为 “三入思过崖”。他在知乎的签名是“新晋 LLM 训练师”。注意力机制之所以重要，是因为它是当前大语言模型（LLM）的核心机制。回到 2017 年 6 ...

4 天

撞车DeepSeek NSA，Kimi杨植麟署名的新注意力架构MoBA发布，代码也公开

昨天下午，DeepSeek 发布了一篇新论文，提出了一种改进版的注意力机制 NSA；加上还有创始人兼 CEO 梁文锋亲自参与，一时之间吸引眼球无数，参阅报道《刚刚！DeepSeek 梁文锋亲自挂名，公开新注意力架构 NSA》。

5 天

RWKV 开发者大会 2025，研讨 RWKV-7 架构与未来趋势

新一代大模型架构RWKV将于2025年2月22日在上海举办首届主题为《RWKV-7架构与未来趋势》的开发者大会，大会将深入探讨RWKV-7的独家技术亮点、应用场景以及未来趋势，展示RWKV在推动全球AI发展中的前瞻性与领导力。 RWKV-7 架构采用动态状态演化（dynamic state evolution）机制，超越了传统的 attention/linear attention 范式，拥有强大 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果

今日热点