新闻网讯 近日,我校电信学院2021级本科生李俊奕发表的论文PartGLEE: A Foundation Model for Recognizing and Parsing Any Objects被计算机视觉领域国际顶级会议ECCV 2024主会接收,论文指导老师为白翔教授。
在计算机视觉领域,开放世界的多层级感知能力是一个非常重要的研究方向,其目的是在开放世界中准确地识别和理解图像中的各种物体及其组成部分。多层级感知不仅包括对整个物体的检测和分割,还涉及对物体内部结构和关系的深入分析。
这一任务的难点在于模型需要同时具备强大的泛化能力以及细粒度的感知能力。开放世界的多层级感知具有广泛的应用价值,它能够对各类物体及其组成部分进行检测和分割,在目标检测、图像编辑、智能制造、机器人操作等应用场景下发挥作用。
在这项工作中,李俊奕针对多层级感知模型提出了一种自上而下的层级建模方案,并对当前常用的关注物体各个组成部分的数据集进行了整合处理,在数据集和模型架构两个方面都构建起了不同层级实例之间的相互关系。该模型架构支持使用不同层级的数据集进行统一训练,能够借助物体层级数据集庞大的数据量优势,将模型在物体层级的强大泛化能力迁移到物体的各个组成部分上,有效地克服了后者数据量较为稀少的困境。该方法在针对物体各个组成部分的数据集上取得了最优的性能,同时在物体层级的数据集上也保持着较为优秀的表现。与Segment Anything模型相比,该模型能够从语义层面对物体的各个组成部分进行较好的检测与分割,而不仅仅依赖颜色、纹理等信息,进一步拓展了模型的感知能力。
据悉,李俊奕在电信学院本科学习期间始终保持着优异的学习成绩,打下了坚实的专业基础。该生连续两年获得国家奖学金和三好学生的荣誉,并被评为校级本科特优生。此外,该生积极参与各类竞赛活动,在美国大学生数据建模竞赛中获得M奖,在华中杯数据建模竞赛中被评为一等奖。