新闻网讯(通讯员 郝家辉)7月6日,第33届国际多媒体会议(ACM International Conference on Multimedia, ACM MM 2025)审稿结果揭晓。我校人工智能与自动化学院人工智能专业2021级本科生谷思田在曹治国教授指导下,以第一作者身份撰写的论文 “Dynamic Beauty is Easy to Find: A Large-Scale Composition-Aware Dataset and an End-to-End Framework for Video Reframing” 被大会正式录用。

ACM MM是由国际计算机学会(ACM)主办的多媒体领域最具影响力和最高水平的国际顶级学术会议之一,自1993年创办以来,已成为该领域学术界和工业界交流的核心平台,被中国计算机学会(CCF)推荐为计算机图形学与多媒体领域的A类国际学术会议。本届 ACM MM 2025 竞争异常激烈,共收到来自全球的4711篇有效投稿,经过严格的双盲评审,最终仅录用1251篇论文,录用率约为26.6%。
随着智能手机等竖屏设备的普及,纵向(Portrait-Oriented)视频需求激增,但传统内容多为横向(Landscape-Oriented)。将横向视频自动、高质量地转换为纵向格式(即视频重构图),面临着两大核心挑战:现有方法过度关注内容保留而忽视构图美学质量,且处理流程繁琐、效率低、泛化性差;领域内严重缺乏同时考虑构图美学的大规模高质量数据集,阻碍了深度学习模型的进步。
针对上述挑战,谷思田与学院研究生潘治宇、洪超仪、刘承鑫等紧密合作,取得突破性成果。
研究团队创造性地提出一套自动化流程,巧妙融合当前先进的视觉语言模型(Vision-Language Models)、图像构图质量评估(Image Composition Assessment) 技术和显著性预测技术,显著降低了高质量视频重构图数据集标注的巨大时间与人力成本。
利用该流程,团队构建了目前该领域规模最大、质量最高,并且是唯一考虑构图美学因素的视频重构图数据集 LOPOV (Landscape to Portrait-Oriented Video)。LOPOV包含1933个横向视频及其对应的高质量纵向重构图结果,总计约68万帧图像及其重构框,内容覆盖人物、风景、动物、行为、植物等广泛类别,为领域研究奠定了坚实的数据基础。
基于LOPOV数据集,团队进一步提出了端到端视频重构图框架FEVR。该框架创新性地集成了注意力感知主干网络(用于精准捕捉每帧中的构图关键区域信息)和时序感知一致性模块(用于建模帧间关系,有效抑制重构框的剧烈抖动),实现了高质量纵向视频的自动生成,在语义保留、美学优化与时序连贯性上取得显著提升。实验证明,FEVR在效率和效果上均超越现有方法。


论文提出的自动化数据集构建流程与FEVR框架核心思想示意图
谷思田自加入曹治国教授团队,确定以图像美学裁剪与视频美学重构图为主要研究方向后,潜心钻研,展现出优秀的科研潜力和创新能力。该研究成果是其本科毕业设计的核心内容,其成功发表不仅标志着他在本科阶段科研能力的飞跃,也为其日后的继续深造奠定了坚实基础。