国内高校联合推出首个突破30AP的多模态大模型Perception-R1
来源:林慧宇 发布时间:2025-05-03
分享至微信

近日,华中科技大学、北京邮电大学等多所高校的研究团队联合发布了一款名为Perception-R1(PR1)的多模态大语言模型。这款模型在COCO2017验证集上首次突破30AP,成为首个达到这一水平的纯多模态开源大语言模型,其性能超越了YOLOv3和Faster-RCNN等传统视觉模型。
Perception-R1的核心目标是提升纯视觉任务(如通用目标检测、计数)以及视觉语言任务(如grounding、OCR)的表现。研究团队通过基于规则的强化学习(rule-based RL)显著增强了模型的感知能力。目前,该模型的论文和代码已完全开源,为相关研究提供了重要参考。
近年来,随着OpenAI o3等模型的出现,人工智能领域进入以“视觉推理”为代表的新阶段。尽管GPT-4o、Google的Gemini以及开源的Qwen-VL和LLaVA等模型在视觉问答任务上表现出色,但在复杂视觉任务(如精确物体定位、复杂布局中文本识别等)中仍存在不足。
Perception-R1并非全新构建,而是一个后训练框架,通过Group Relative Policy Optimization(GRPO)技术优化现有模型(如Qwen2-VLInstruct-2B)的感知策略。实验显示,该模型在多项任务中表现优异,特别是在COCO2017目标检测任务中达到30.3的AP值。
研究团队还进行了全面的消融实验,分析奖励匹配、思考过程显式化等因素对性能的影响。实验结果表明,Perception-R1具有良好的可扩展性,为未来大规模应用奠定了基础。这一研究证明,强化学习在适配视觉任务特性时,可显著提升大模型的感知能力。
[ 新闻来源:林慧宇,更多精彩资讯请下载icspec App。如对本稿件有异议,请联系微信客服specltkj]
存入云盘 收藏
举报
全部评论
暂无评论哦,快来评论一下吧!


林慧宇
开创IC领域,共创美好未来!
查看更多
相关文章
英伟达联合推出超强多模态模型DAM
2025-04-27
国内首个光子芯片专用大模型发布
2025-05-11
苹果联合索邦大学研究:早期融合模型或成多模态AI新方向
2025-04-16
小米发布首个开源AI推理大模型MiMo
2025-04-30
热门搜索