新闻网讯 近日,我校计算机学院本科生的4篇论文被国际顶级会议录用。其中,2022级本科生濮澍、2022级本科生张忠一、王国豪的论文被国际数据挖掘会议SIGKDD录用,2022级本科生欧阳戈亮、2023级本科生张辰皓的论文被国际自然语言处理顶级会议ACL录用。

濮澍在万瑶副教授的指导下,撰写的论文“Judge Anything:MLLM as a Judge across Any Modality”聚焦于多模态大模型对文本、图像、视频、音频等多种模态生成任务的理解与评估能力。针对当前多模态生成任务的结果评估缺乏权威方法与统一标准的现状,该研究探索了运用MLLM评估跨模态生成任务的可行性。此项工作为后续多模态研究的评估提供了宝贵的实验结论与高质量的基准测试集。

张忠一、王国豪在万瑶的指导下,参与的论文“LaTCoder:Converting Webpage Design to Code with Layout-as-Thought”旨在解决将网页设计稿转化为代码时,难以精确保持原始布局的问题。该研究受人类认知中思维链(CoT)推理的启发,提出了一种名为 LaTCoder 的新方法,通过“布局即思维”(Layout-as-Thought)的理念,提升代码生成过程中的布局保真度。实验结果表明,LaTCoder 能够显著改善布局的准确性,并且在人工评估中获得了更高的偏好度。

欧阳戈亮在万瑶的指导下,撰写的论文“nvAgent:Automated Data Visualization from Natural Language via Collaborative Agent Workflow”,针对于当前大型语言模型在处理复杂的、需要跨多个表格进行推理的自然语言可视化查询时面临的挑战,提出了一个名为nvAgent的协作式智能体工作流。他们在VisEval基准测试集上对nvAgent进行了全面评估。实验结果表明,nvAgent在单表和多表场景下均显著优于当前最先进的基线模型。

张辰皓以第一作者身份撰写的论文“Can MLLMs Understand the Deep Implication Behind Chinese Images?”提出中文图像隐喻理解基准CII-Bench,旨在全面测试模型在中文语境下的图片感知、理解和推理能力。CII-Bench的广度体现在其精心构建的包含698张图片和800道单项选择题的数据上,这些问题覆盖了生活、艺术、社会、政治、环境和中华传统文化六大领域。实验结果表明,当前的MLLMs在理解中文图像隐喻方面仍存在显著差距,特别是缺乏对中华传统文化的理解,强调模型亟须提升对中华传统文化知识的深度理解和跨模态推理能力。
濮澍、张忠一、王国豪、欧阳戈亮所在的ONE Lab科研团队是我校示范性学生创新团队,致力于本科生创新拔尖人才培养。团队目前拥有50余名本科生,成员来自计算机学院、电信学院、自动化与人工智能学院、网安学院、物理学院、数学学院、生命科学与技术学院等。团队围绕大模型展开研究,努力打造以语言为核心的人机交互方式(Language+X),研究方向包括代码智能、表格智能、多模态大模型及人机交互等。目前,团队已在ICML、NeurIPS、ICLR、ACL、EMNLP、NAACL等会议上发表论文10余篇。
据悉,SIGKDD和ACL分别是全球数据挖掘和自然语言处理领域公认的旗舰级学术盛会,是中国计算机学会CCF认定的A类会议。