人工智能与自动化学院本科生在第33届国际多媒体会议发表论文-华中科技大学新闻网

人工智能与自动化学院本科生在第33届国际多媒体会议发表论文

发布时间：2025.08.01

来源：人工智能与自动化学院 编辑：汪泉 浏览次数：

新闻网讯（通讯员郝家辉）7月6日，第33届国际多媒体会议（ACM International Conference on Multimedia, ACM MM 2025）审稿结果揭晓。我校人工智能与自动化学院人工智能专业2021级本科生谷思田在曹治国教授指导下，以第一作者身份撰写的论文 “Dynamic Beauty is Easy to Find: A Large-Scale Composition-Aware Dataset and an End-to-End Framework for Video Reframing” 被大会正式录用。

ACM MM是由国际计算机学会（ACM）主办的多媒体领域最具影响力和最高水平的国际顶级学术会议之一，自1993年创办以来，已成为该领域学术界和工业界交流的核心平台，被中国计算机学会（CCF）推荐为计算机图形学与多媒体领域的A类国际学术会议。本届 ACM MM 2025 竞争异常激烈，共收到来自全球的4711篇有效投稿，经过严格的双盲评审，最终仅录用1251篇论文，录用率约为26.6%。

随着智能手机等竖屏设备的普及，纵向（Portrait-Oriented）视频需求激增，但传统内容多为横向（Landscape-Oriented）。将横向视频自动、高质量地转换为纵向格式（即视频重构图），面临着两大核心挑战：现有方法过度关注内容保留而忽视构图美学质量，且处理流程繁琐、效率低、泛化性差；领域内严重缺乏同时考虑构图美学的大规模高质量数据集，阻碍了深度学习模型的进步。

针对上述挑战，谷思田与学院研究生潘治宇、洪超仪、刘承鑫等紧密合作，取得突破性成果。

研究团队创造性地提出一套自动化流程，巧妙融合当前先进的视觉语言模型（Vision-Language Models）、图像构图质量评估（Image Composition Assessment）技术和显著性预测技术，显著降低了高质量视频重构图数据集标注的巨大时间与人力成本。

利用该流程，团队构建了目前该领域规模最大、质量最高，并且是唯一考虑构图美学因素的视频重构图数据集 LOPOV (Landscape to Portrait-Oriented Video)。LOPOV包含1933个横向视频及其对应的高质量纵向重构图结果，总计约68万帧图像及其重构框，内容覆盖人物、风景、动物、行为、植物等广泛类别，为领域研究奠定了坚实的数据基础。

基于LOPOV数据集，团队进一步提出了端到端视频重构图框架FEVR。该框架创新性地集成了注意力感知主干网络（用于精准捕捉每帧中的构图关键区域信息）和时序感知一致性模块（用于建模帧间关系，有效抑制重构框的剧烈抖动），实现了高质量纵向视频的自动生成，在语义保留、美学优化与时序连贯性上取得显著提升。实验证明，FEVR在效率和效果上均超越现有方法。

论文提出的自动化数据集构建流程与FEVR框架核心思想示意图

谷思田自加入曹治国教授团队，确定以图像美学裁剪与视频美学重构图为主要研究方向后，潜心钻研，展现出优秀的科研潜力和创新能力。该研究成果是其本科毕业设计的核心内容，其成功发表不仅标志着他在本科阶段科研能力的飞跃，也为其日后的继续深造奠定了坚实基础。

返回列表

学校微博

单周单篇点击量排名

人工智能与自动化学院本科生在第33届国际多媒体会议发表论文

分享

学校微博

单周单篇点击量排名

新闻网各单位用稿投稿量排行榜（2026年6月）

常用链接