新闻网讯 计算机学院2021级大数据专业本科生陈东平、计算机科学与技术专业本科生吴思远的三篇论文被国际学习表征会议ICLR录用。他们于2023年加入计算机学院本科生科研团队ONE Group,目前撰写的论文已分别被ICML、NeurIPS、ICLR等机器学习领域国际会议录用。
ICLR全称为国际学习表征会议(International Conference on Learning Representations),由图灵奖得主Yoshua Bengio、Yann LeCun等学者发起,在人工智能及机器学习领域享有较高学术声誉,是清华大学计算机学院推荐的A类会议。今年,该会议将于4月份在新加坡举办,届时,论文作者也将应邀在会议中展出研究成果。
论文指导老师、计算机学院万瑶副教授介绍,陈东平以第一作者撰写的“GUI-World: A GUI-oriented Dataset for Multimodal LLM-based Agents”旨在提升多模态大语言模型(MLLMs)在图形用户界面(GUI)理解能力上的新数据集。论文评估了当前最先进的MLLMs,针对其在理解动态和序列化GUI内容方面存在不足,首次引入了GUI画面动态理解的任务,提出的针对GUI优化的视频理解大模型,显著提升了对动态和序列化GUI内容的理解能力。
另外,陈东平以第一作者撰写的另一篇论文“Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment”介绍了一个名为ISG(Interleaved Scene Graph)的综合评估框架,用于评估交错文本和图像生成的质量。论文提出了一个基准数据集ISG-BENCH,用于有效评估模型在视觉中心任务(如风格转换)上的表现。与现有基准相比,ISG-BENCH更注重视觉中心任务,并通过与人类标注的比较验证了其评估的准确性。此外,论文还提出了一个名为ISG-AGENT的基线代理,采用“计划-执行-精炼”流程,实现了122%的性能提升。
吴思远以共同一作撰写的论文“DataGen: A Unified Framework for Generating Synthetic Datasets with Large Language Models”围绕如何利用大语言模型生成高质量的合成数据集展开深入研究。针对现有框架在泛化能力、可控性、多样性和真实性等方面的挑战,提出了DataGen框架。在实际应用中,DataGen能够动态生成适应不同基准测试的数据集,支持大模型的持续测试;通过生成高质量的合成数据提升了大模型在多个领域的能力,特别是在面向代理和推理技能方面的能力。
计算机学院本科生科研团队ONE Group致力于本科生创新拔尖人才培养。团队目前拥有30余名本科生,成员来自计算机学院、电信学院、自动化与人工智能学院、网安学院等。团队围绕大模型展开研究,努力打造以语言为核心的人机交互方式(Language+X),研究方向包括代码智能、表格智能、多模态大模型及人机交互等。目前,团队已在ICML、NeurIPS、ICLR、EMNLP、NAACL等会议上发表论文10余篇。