YOLO 系列模型的结构创新一直围绕 CNN 展开,而让 transformer 具有统治优势的 attention 机制一直不是 YOLO 系列网络结构改进的重点。这主要的原因是 attention 机制的速度无法满足 YOLO 实时性的要求。本周三放出的 YOLOv12 着力改变这一现状并取得具有优势的性能。
知乎潜水数载,首答献给稀疏Attention吧! 对NAS的介绍已经有很多回答介绍的很详细了,我这里就不再赘述。 Attention的稀疏特性,其实从BERT时代开始就已经被广泛验证了。最早像Longformer、BigBird这些模型提出的几种稀疏Attention Pattern(比如Sliding Window、Global ...