两金一铜!新闻学子传播数据挖掘竞赛首战告捷
发布时间:2022.12.16

来源:新闻学院 编辑:粟晓丽 浏览次数:

新闻网讯 11月26日,由中国新闻史学会计算传播学专业委员会与微热点研究院联合举办的“第四届传播数据挖掘竞赛”颁奖典礼举行,第四届传播数据挖掘竞赛随之落下帷幕。本届赛事设置4个赛道,每个赛道单独排名,共吸引了85所高校的135支战队、483人报名参赛,最终12支战队晋级总决赛。在这12只团队中,有3支跨学科学生团队均由华中科技大学新闻与信息传播学院学子带领、由传播学系王然老师指导,并在最终的角逐中荣获两个赛道的冠军和一个赛道的季军。



新闻与信息传播学院2019级传播班本科生于英豪、吴宜檬、伍逸霏和2020级传播班本科生汪奕坤,联合网安学院赵睿组成的“试一下就队”,凭借《菜品为王还是情感调节?——点评特征对消费意愿的预测模型与实证研究》项目,获得选题三“餐饮行业点评内容的分类评价研究”冠军。


团队成员注意到,当下美团、大众点评等在线餐饮点评平台上的巨量评论成为了消费者决策、餐饮商铺优化服务的重要信息来源,既有研究多使用质化方法,探讨点评文本在消费者决策过程中的角色,但餐饮点评中具体包括哪些信息?这些信息如何影响消费者?这些问题尚未得到具体回答。因此团队希望借助自然语言处理方法展开研究,试图给出回答。


在作品完成过程中,团队成员承袭新闻与信息传播学院跨学科人才培养模式,发挥较强的文工交叉能力,基于消费者行为研究的理论模型,结合属性价值理论、精细加工可能性理论等,运用自然语言处理技术对海量点评内容进行分析。团队还通过生动精准的文字,从“帮助从业者提供更优质的服务和更好地预测消费评论的影响、帮助平台优化推荐算法、帮助点评博主生产高质量评论”两方面,深入浅出阐释了该研究的意义。


团队成员表示,面对近万条的数据,有序处理并不是件易事。备赛初期便面临大量数据的标注问题,在利用机器学习进行全自动标注不理想的情况下,团队最终采用了人工标注和机器学习相结合的方式。此外,前期的理论模型和变量相关性计算的表现不佳更给团队带来了较为繁重的文献阅读任务。好在凭借对选题较好的理解和跨学科的学术背景,团队成员最终找到了对现实概括最准确的理论模型并实现了多人合理的协同分工,在决赛展示中获得良好的评委反馈,摘得桂冠。



新闻与信息传播学院2021级研究生王诗月、计算机学院2019级本科生马世拓和来自电子通信学院、工程技术学院等不同学院不同年级的队员组成的“DsSEHE数据科学大队”,更具跨学科团队色彩。基于扎实的技术手段,结合学术的逻辑框架,团队凭借《基于自然语言处理的突发事件次生衍生事件识别和演化模式研究》项目,获得选题二“特定事件的次生和衍生事件识别与演化机制分析”赛道冠军。


团队看到近年来在网络上爆发出越发频繁的突发事件,注意到突发事件演化过程中发生的一系列次生衍生事件及带来的影响,希望借助模型搭建,深挖数据背后事件之间的关联和演化规律,对事件的演化控制和传媒预警提供有效信息。


DsSEHE数据科学大队在备赛过程不断出现难点痛点。从利用大规模语料库训练出来的深度学习模型对事件进行识别分类,到从多个原生事件及其次生事件和衍生事件中提取有效信息;从通过每个事件繁杂、变化多端的演化情况、情感变化中找到事件之间共性规律,到总结代表模式;团队成员们一次次与不熟悉的技术领域、冗杂的竞赛数据对抗,在梳理、修改、调整中逐步攻克难点痛点,最终呈现了受到评委认可的作品,获得赛道冠军。



新闻与信息传播学院2018级传播班毕业生侯浩然,带领不同学校、不同专业同学合作的参赛队伍,凭借《信息茧房的数学建模及其与时空分布、用户行为关系研究》项目,获得选题四“不同地域用户信息茧房的识别及形成机制研究”季军。


如何对海量传播信息进行数学建模,进而有效回答“如何对用户信息茧房程度做出合理量化”和“用户地域、属性和行为等因素是否影响用户信息茧房程度”两个问题,是备赛过程中的一大难点。团队成员通过广泛的文献阅读、前辈的研究总结与指导老师的帮助,有效进行了算法合理优化,解决了计算量过大且算力不足的问题,获得了赛道季军的好成绩。


新闻与信息传播学院长期致力于培养文工交叉的跨学科传播人才,传播数据挖掘竞赛中的优异成绩正是学院在计算传播教学科研领域不断尝试与钻研收获的成果体现。

学校微博
单周单篇点击量排名