新闻网讯 近日,计算机学院本科生的3篇论文被自然语言处理顶会ACL 2026录用。
2022级CS2208班学生罗智文作为唯一第一作者完成的研究论文、2022级CS2203班学生程正翔作为第一作者与CS2207班学生付名扬合作完成的研究论文被ACL 2026 Main录用,2023级图灵班本科生黄暄骜、刘星佳作为共同第一作者与2023级图灵班本科生彭雨洋、2022级本科生周泽同合作完成的论文被ACL 2026 Findings录用。
ACL(Annual Meeting of the Association for Computational Linguistics)是自然语言处理与计算语言学领域最具影响力的国际学术会议之一,在全球范围内享有极高学术声誉。ACL长期汇聚该领域最前沿的研究成果,是学术界和工业界公认的重要交流平台。本届ACL 2026共收到12,148篇投稿,其中Main Conference录用率为19%,Findings录用率为18%。

罗智文在何琨教授的指导下,撰写的论文“Latent Attention Denoising: A Training-Free Energy-Based Framework for Mitigating Hallucinations in Vision-Language Models”,围绕大视觉语言模型(Large Vision-Language Models, LVLMs)中的视觉幻觉问题展开研究,提出了一种无需训练的推理时干预框架 Latent Attention Denoising(LAD),用于缓解模型在生成过程中出现的不忠实描述现象。论文指出,视觉幻觉问题的根源之一在于传统 softmax 注意力机制隐含地假设噪声满足独立同分布(i.i.d.),而真实的LVLM注意力模式往往存在明显的结构性与竞争性偏置,例如 attention sinks 等现象,这使得传统建模假设与实际分布之间产生失配。针对这一问题,论文提出将注意力校准过程重新建模为一步式基于 score 的去噪过程,并设计了一个具有良好可解释性的能量函数,用于解析地刻画注意力logits的偏移方向。在此基础上,LAD通过一次受Langevin动力学启发的更新,对受扰动的注意力logits进行主动校正,从而将模型生成过程引导至更加忠实于视觉输入的注意力配置。该方法无需额外训练,可直接应用于现有大视觉语言模型,在计算开销上几乎可以忽略,推理速度与标准贪心解码相当。实验结果表明,LAD在多种不同架构上均表现出良好的泛化能力,能够同时在生成类任务和判别类任务上有效缓解幻觉问题,并在保持高效推理的同时取得优异性能。这一工作为提升大视觉语言模型的可靠性与可解释性提供了新的思路。

程正翔在万瑶副教授的指导下,撰写的论文“Optimizing Length Compression in Large Reasoning Models”,围绕大型推理模型中的“过度思考”现象展开研究,重点关注模型在已经得到正确答案后仍继续进行冗余自我检查,从而产生过长推理链的问题。论文将这一低效现象概括为“invalid thinking”,并指出现有方法往往只从输出长度出发进行粗粒度压缩,缺乏对推理过程内部结构的细致刻画。针对这一问题,论文进一步提出了 Brevity 与 Sufficiency 两个更细粒度的原则:前者强调应尽可能消除已经无助于求解的冗余推理,后者则要求压缩过程中保留得到正确答案所必需的关键推理步骤。在此基础上,论文提出了基于 GRPO 的后训练方法 LC-R1,通过结合用于整体压缩的 Length Reward 与专门针对冗余尾部推理的 Compress Reward,引导模型在得到正确答案后及时结束思考,同时避免因过度压缩而损害正确性。为实现这一目标,论文设计了 LC-Extractor,用于提取从推理开始到首次得到正确答案为止的有效推理片段,并据此在压缩后的轨迹上进行策略优化。实验结果表明,LC-R1 在多个数学、通用与代码推理基准上都取得了良好的效果,平均可将推理长度压缩约 50%,同时仅带来约 2% 的准确率影响,并在效率—性能权衡上优于多种现有方法。此外,论文还进一步验证了该方法不会显著损害模型的探索能力,且在不同难度问题上都具有较强的鲁棒性。这一工作为构建更加高效、可控且具备实用价值的大型推理模型提供了新的思路。

黄暄骜、刘星佳在万瑶副教授的指导下,撰写的论文“Worldwide LiveVQA: Real-Time Visual Knowledge Seeking and Updating Across Languages”,针对现有视觉知识资源主要局限于英语、难以捕捉全球多语言实时信息的问题,提出了Worldwide LiveVQA(LiveVQA-W)数据集。这是首个面向实时、多语言视觉知识检索与更新的大规模动态数据集。研究团队从2025年8月至12月的全球新闻、YouTube视频及学术平台中,收集并构建了包含23.4万张图像、87.2万个问题和17.1万个视觉实体的数据集,覆盖10种主要语言。该数据集设计了分层评估体系:Level 1评估视觉实体识别能力,Level 2评估多跳跨语言推理能力。实验结果表明,当前主流的多模态大语言模型在缺乏检索增强时,性能接近随机猜测;而引入检索增强的模型则表现出严重的语言偏见,其在英语任务上的准确率几乎是其他语言的两倍。此外,研究还发现,尽管通过大规模训练注入知识可以提升模型的召回率,但其鲁棒性仍然不足,容易受到提示词改写和图像扰动(如旋转、翻转)的影响。该工作揭示了当前多模态模型在“全球知识鸿沟”上的局限性,为推动真正全球化的视觉助手发展提供了重要的基准与数据支持。