6月8日,第九届“泰迪杯”数据挖掘挑战赛落下帷幕,计算机科学与技术学院刘新锋老师指导的“深度陆战队”团队获特等奖,宋玲老师指导的“大荒星陨”团队获二等奖。本届赛事历时四个月,共有来自全国340多所高校的3627支队伍报名参赛,通过由高校和企业共同组成的评审专家组历时半个多月的评审,最终决出特等奖作品3份、一等奖作品51份、二等奖作品185份、三等奖作品379份。
“深度陆战队”由软件202刘柏森、信计192李征、信计201范泽浩三位同学组成,由刘新锋老师指导,选择了“岩石样本智能识别”赛题。该赛题要求实现岩石样本智能识别分类,并利用荧光环境下拍摄的岩石样本图像计算出岩石的含油面积百分含量,在数据清洗、建模分类、色彩提取等方面均有较大挑战。团队使用生成对抗网络进行数据增强,然后使用深度学习中的多个分类算法进行模型训练与模型集成,得到良好的分类效果;对于含油百分比测量,使用CURL图像增强与HSV色彩空间转换进行颜色提取,得到良好的提取效果。
“大荒星陨”团队由网络181刘龙翼、网络193姜雪蓉、软件182卢文轩三位同学组成,由宋玲老师指导,选择了“上市公司财务数据分析”赛题。该赛题要求实现各行业上市公司财务数据中相关造假财务特征的提取与分析,并基于这些特征进行上市公司的造假预测。团队基于机器学习设计实现了一个预测系统,聚焦数据预处理、数据清洗、特征选择、分类预测以及评价几个关键步骤。针对样本不平衡性问题,团队提出了基于SmoteTomek算法的解决思路,同时避免数据过拟合;为了从众多特征中找出那些对分类预测最有效的特征,基于随机森林的基尼不纯度算法进行高维数据的特征选择;分别利用XGBoost模型、决策树模型、支持向量机模型等分类模型进行训练预测,最后通过评价函数进行分析。实验结果显示,XGBoost模型具有较高的准确率和F1 score,对于造假公司的识别具有较高的预测准确率。
“泰迪杯”数据挖掘挑战赛是一项面向全国在校研究生、大学生的赛事,致力于提高学生的数据挖掘处理、深度学习应用能力,旨在为高校相关智力资源转化、为推进国家大数据战略的生产力提供合作平台,为我国数据挖掘方向培养出更多高端、优秀的人才。
初审:胡华
审核:李晓峰
终审:王少华