国内高校联合推出首个突破30AP的多模态大模型Perception-R1-icspec

国内高校联合推出首个突破30AP的多模态大模型Perception-R1

来源:林慧宇发布时间:2025-05-03

分享至微信

近日，华中科技大学、北京邮电大学等多所高校的研究团队联合发布了一款名为Perception-R1（PR1）的多模态大语言模型。这款模型在COCO2017验证集上首次突破30AP，成为首个达到这一水平的纯多模态开源大语言模型，其性能超越了YOLOv3和Faster-RCNN等传统视觉模型。

Perception-R1的核心目标是提升纯视觉任务（如通用目标检测、计数）以及视觉语言任务（如grounding、OCR）的表现。研究团队通过基于规则的强化学习（rule-based RL）显著增强了模型的感知能力。目前，该模型的论文和代码已完全开源，为相关研究提供了重要参考。

近年来，随着OpenAI o3等模型的出现，人工智能领域进入以“视觉推理”为代表的新阶段。尽管GPT-4o、Google的Gemini以及开源的Qwen-VL和LLaVA等模型在视觉问答任务上表现出色，但在复杂视觉任务（如精确物体定位、复杂布局中文本识别等）中仍存在不足。

Perception-R1并非全新构建，而是一个后训练框架，通过Group Relative Policy Optimization（GRPO）技术优化现有模型（如Qwen2-VLInstruct-2B）的感知策略。实验显示，该模型在多项任务中表现优异，特别是在COCO2017目标检测任务中达到30.3的AP值。

研究团队还进行了全面的消融实验，分析奖励匹配、思考过程显式化等因素对性能的影响。实验结果表明，Perception-R1具有良好的可扩展性，为未来大规模应用奠定了基础。这一研究证明，强化学习在适配视觉任务特性时，可显著提升大模型的感知能力。

icspec【芯片求购】https://www.icspec.com/inquiry/index/1/0

[ 新闻来源：林慧宇，更多精彩资讯请下载icspec App。如对本稿件有异议，请联系微信客服specltkj]