帖主进一步解释说,Llama 4 发布之后,实测结果遭到 X 和 Reddit 网友的吐槽。作为一名目前也在学术界的人他宣称实在无法接受 Meta 的做法,已提交离职申请,并明确要求在 Llama 4 的 Technical Report ...
研究团队并不打算完全取代现有的语言监督模型,而是旨在深入理解视觉自监督方法在多模态应用上的潜在能力和局限性。尽管在传统的视觉任务如分类和分割等方面,SSL模型常常表现更佳,但它们在多模态大语言模型(MLLMs)应用时却少之又少,这是因为这两种方法在视觉问答(VQA)任务中的性能差异显著,尤其是在光学字符识别(OCR)和图表解读任务上。