Page 62 - 优秀学员达人录
P. 62
上海市青少年科学创新实践工作站
达人 马辰昊
上海交通大学网络空间安全实践工作站
上海市晋元高级中学
科创格言:绝不抛弃,永不放弃,一路向前
研究基于数据挖掘的用电异常用户识别 科创给我磨砺也给我乐趣
科创给我磨砺也给我乐趣
研究基于数据挖掘的用电异常用户识别
判断是否用电异常全靠人工准确率不够,但人工智能也许能够解 进入工作站后,第一感觉就是这里各路大神云集,学习气氛也
决这一问题。来到了工作站,进一步地了解了人工智能在数据挖掘, 很浓厚,在激发了我自己个人的科创热情的同时,工作站的老师们
数据分析和模型构建等的优势。“基于数据挖掘的用电异常用户识 也尽职尽责的给我们介绍了有关网络空间安全的导论,密码学的发
别”这一课题便由此而出现了,而且考虑到可行性,我主要是研究 展历史与应用,人工智能与网络空间安全,CTF 竞赛等等的相关信
那类会对供电气压的营销利润和经济效益有巨大影响的大工业的用 息,当时印象最深刻的部分是听完了密码学的发展历史与应用之后,
电情况的分析。 一时兴起立刻用手头的 c++ 编译出了一个双重加密的加密器与解密
期间最困难的几个部分除了刚开始的算法学习和查找大量可能 器。虽然消耗了一个下午的时间,但其中得到的收获却足够值得,
有用的资料,需要哪些数据作为参考来构建模型,到手的数据怎么 它让我感受到了科创和研究能给我带来的乐趣,其中不断的 bug 与
处理比较方便也是一大难点。最后我将它分成了三个步骤来解决: 出错也磨砺了我的意志让我不会一遇到困难就立刻退缩,而是越挫
根据探索分析,剔除原始数据中非居民类别用电数据。考虑节假日 越勇,相信就算同一个坑也许会摔很多次但之后一定会有摔多了之
用电量明显低于工作日用电量,因此剔除节假日的用电量数据,即 后练就出的超常的熟练度。在后来的学习中,我凭借着这一理念在
进行一个初步的数据清洗。再来是异常值和缺失值处理,因为原始 每一次错误中总结出不同的经验,做到了没有漏洞地学习。在不进
数据中包含大量缺失数据,因此我采用了拉格朗日插值法对缺失值 行培训的时期,几位工作站认识的新朋友也常常会互相讨论,为他
进行插补,以提高数据质量。最后是数据变换,根据分析需求,考 人的问题提出建议也从中找到解决自己问题的灵感,互利互助。对
虑到原始电量和负荷数据变化特征不明显,需要进行数据变换,构 于想要参与科创的同学我常常说的就是:只要付出心血和努力,有
造新的数据指标。 着他人的陪伴和帮助一同前进,科创绝没有你想象的那么艰难 !
而从中对于到底使用哪几个人工智能算法比较适合用于我这个
课题也着实困扰了我许久,好在因为在中国知网上可以查找到大量
相关资料,我最终选择了 LM 神经网络和 CART 决策树这两个进行
模型构建和测试。LM 神经网络实际是一种结合了高斯 - 牛顿法的
BP 算法,BP 算法具有一个输入层,一个输出层和至少一个隐藏 ( 中
间 ) 层。主要思想是输入学习样本,使用反向传播算法对网络的权
值和偏差进行反复的调整训练,使输出的向量与期望向量尽可能地
接近,当网络输出层的误差平方和小于指定的误差时训练完成,保
存网络的权值和偏差。CART 决策树是在给定输入随机变量 X 条件
下输出随机变量 Y 的条件概率分布的学习方法。主要由特征选择、
树的生成和剪枝三部分组成。它主要用来处理分类和回归问题。
最后经过两者经过训练后的模型的表现的 ROC 曲线比较我选择
了表现较好的 LM 神经网络作为后续用电异常用户识别模型。
保持研究精神 取得更好成果
保持研究精神 取得更好成果
马辰昊同学的研究内容是基于数据挖掘的用电异常用户识别,该同学从自己生活经历出发,思考如何判断用户用电异常情况,并减轻人
工负担,思考了如何利用人工智能来完成上述想法。来到了工作站学习后,该同学进一步地了解了人工智能在数据挖掘、数据分析等领域
的使用方法,并提出了自己的研究课题。
该同学研究学习态度认真,工作从不懈怠,与工作站的老师们进行了深入的交流与探讨,解决了研究过程中的疑惑,希望该同学保持研
究的精神,在以后的研究中取得更好的成果。
———指导老师:上海交通大学网络空间安全实践工作站 导师组
53

