通用多模态大模型Monkey
主要完成人:白翔、刘禹良
人工智能是中美、欧盟的战略要点,二十大报告指出,加快推进以数据和人工智能为驱动的科研范式变革至关重要。多模态大模型是整合了文本和视觉处理能力的先进人工智能系统,旨在模仿人类的感知方式,结合图像和语言进行理解和推理,被认为是向通用人工智能迈进的关键步骤之一。然而,诸如国产芯片适配困难、细粒度信息不可见、长文本数据输入不全以及信息分析能力不足等问题,严重限制了其在垂直领域中的应用。
图1.团队提出自适应图像金字塔切分、多页分块稀疏采样以及反向思维链推理矫正技术,突破“看不清、读不全、解不透”等技术瓶颈
针对这些挑战,白翔教授团队提出了Monkey系列多模态大模型及相关技术(图1)。针对“看不清”难题,团队提出了自适应图像金字塔切分技术,并通过实验验证了该方法在支持数千高分辨率图像和生成多层次细粒度数据方面的有效性和灵活性。针对“看不全”难题,团队通过多页分块稀疏采样技术,结合端到端优化,大幅降低了长序列令牌处理中的误差累积,实现了高效处理长PDF文档的问答任务。针对“解不透”难题,团队进一步引入了基于反向思维链推理的矫正方法,利用可微分的反向链推理机制,帮助模型掌握多步推理的能力,显著提升了模型在解决复杂问题时的层次化思维能力。
图2. 国际权威“司南”大模型排行榜中位于开源模型榜首
多模态大模型Monkey是国际上首个支持上千分辨率输入的多模态大模型。目前,Monkey多模态大模型已被人工智能领域的国际顶级会议,CVPR2024接收为亮点论文,并入选CVPR Top20高被引论文,并曾在Meta AI公认的国际权威“司南”多模态大模型排行榜中名列开源模型榜首(图2)。相关成果被图灵奖得主Yann LeCun,Yoshua Bengio, Meta AI, 字节跳动等百余个国内外知名研究团队引用,在全球最大开源网站GitHub获1.8k star。
Monkey大模型系列成果成功落地多家企业。TextMonkey应用于金山办公屏幕代理系统,UI元素与文字定位精度达98%,调用量增加30万次;PDFMonkey即将上线华为小艺助手,智能审核准确率领先主流产品20%以上;MathMonkey助力K12教育智能解题数学推理大模型,核心框架将部署于百度旗下拍照解题AI助手。此外,Monkey模型助力团队获第十届中国国际“互联网+”大学生创新创业竞赛金奖。
白翔教授团队近五年来,在人工智能顶级期刊和会议发表论文80余篇。培养了优秀博士论文获得者3名,华为天才少年1人,腾讯青云奖1人。获湖北省自然科学奖一等奖,中国图象图形学学会自然科学奖一等奖,人工智能国际顶会ACL‘24最佳论文奖,在国际权威会议的学术竞赛中夺冠11次,并获中国国际“互联网+”创新大赛国赛金奖,挑战杯“揭榜挂帅”擂主等成绩,培养出国家级人才、海外高层次人才、青年托举人才等一批理论实践相结合的人工智能拔尖创新人才。