Page 62 - 优秀学员达人录
P. 62

上海市青少年科学创新实践工作站




                                                                              达人   马辰昊
                                         上海交通大学网络空间安全实践工作站
                                         上海市晋元高级中学
                                         科创格言:绝不抛弃,永不放弃,一路向前










                         研究基于数据挖掘的用电异常用户识别                                        科创给我磨砺也给我乐趣
                                                                                  科创给我磨砺也给我乐趣
                         研究基于数据挖掘的用电异常用户识别
                   判断是否用电异常全靠人工准确率不够,但人工智能也许能够解                       进入工作站后,第一感觉就是这里各路大神云集,学习气氛也
                决这一问题。来到了工作站,进一步地了解了人工智能在数据挖掘,                      很浓厚,在激发了我自己个人的科创热情的同时,工作站的老师们
                数据分析和模型构建等的优势。“基于数据挖掘的用电异常用户识                       也尽职尽责的给我们介绍了有关网络空间安全的导论,密码学的发
                别”这一课题便由此而出现了,而且考虑到可行性,我主要是研究                       展历史与应用,人工智能与网络空间安全,CTF 竞赛等等的相关信
                那类会对供电气压的营销利润和经济效益有巨大影响的大工业的用                       息,当时印象最深刻的部分是听完了密码学的发展历史与应用之后,
                电情况的分析。                                             一时兴起立刻用手头的 c++ 编译出了一个双重加密的加密器与解密
                   期间最困难的几个部分除了刚开始的算法学习和查找大量可能                      器。虽然消耗了一个下午的时间,但其中得到的收获却足够值得,
                有用的资料,需要哪些数据作为参考来构建模型,到手的数据怎么                       它让我感受到了科创和研究能给我带来的乐趣,其中不断的 bug 与
                处理比较方便也是一大难点。最后我将它分成了三个步骤来解决:                       出错也磨砺了我的意志让我不会一遇到困难就立刻退缩,而是越挫
                根据探索分析,剔除原始数据中非居民类别用电数据。考虑节假日                       越勇,相信就算同一个坑也许会摔很多次但之后一定会有摔多了之
                用电量明显低于工作日用电量,因此剔除节假日的用电量数据,即                       后练就出的超常的熟练度。在后来的学习中,我凭借着这一理念在
                进行一个初步的数据清洗。再来是异常值和缺失值处理,因为原始                       每一次错误中总结出不同的经验,做到了没有漏洞地学习。在不进
                数据中包含大量缺失数据,因此我采用了拉格朗日插值法对缺失值                       行培训的时期,几位工作站认识的新朋友也常常会互相讨论,为他
                进行插补,以提高数据质量。最后是数据变换,根据分析需求,考                       人的问题提出建议也从中找到解决自己问题的灵感,互利互助。对
                虑到原始电量和负荷数据变化特征不明显,需要进行数据变换,构                       于想要参与科创的同学我常常说的就是:只要付出心血和努力,有
                造新的数据指标。                                            着他人的陪伴和帮助一同前进,科创绝没有你想象的那么艰难 !
                   而从中对于到底使用哪几个人工智能算法比较适合用于我这个
                课题也着实困扰了我许久,好在因为在中国知网上可以查找到大量
                相关资料,我最终选择了 LM 神经网络和 CART 决策树这两个进行
                模型构建和测试。LM 神经网络实际是一种结合了高斯 - 牛顿法的
                BP 算法,BP 算法具有一个输入层,一个输出层和至少一个隐藏 ( 中
                间 ) 层。主要思想是输入学习样本,使用反向传播算法对网络的权
                值和偏差进行反复的调整训练,使输出的向量与期望向量尽可能地
                接近,当网络输出层的误差平方和小于指定的误差时训练完成,保
                存网络的权值和偏差。CART 决策树是在给定输入随机变量 X 条件
                下输出随机变量 Y 的条件概率分布的学习方法。主要由特征选择、
                树的生成和剪枝三部分组成。它主要用来处理分类和回归问题。
                   最后经过两者经过训练后的模型的表现的 ROC 曲线比较我选择
                了表现较好的 LM 神经网络作为后续用电异常用户识别模型。











                                                       保持研究精神 取得更好成果
                                                       保持研究精神 取得更好成果
                  马辰昊同学的研究内容是基于数据挖掘的用电异常用户识别,该同学从自己生活经历出发,思考如何判断用户用电异常情况,并减轻人
                工负担,思考了如何利用人工智能来完成上述想法。来到了工作站学习后,该同学进一步地了解了人工智能在数据挖掘、数据分析等领域
                的使用方法,并提出了自己的研究课题。
                  该同学研究学习态度认真,工作从不懈怠,与工作站的老师们进行了深入的交流与探讨,解决了研究过程中的疑惑,希望该同学保持研
                究的精神,在以后的研究中取得更好的成果。
                                                                      ———指导老师:上海交通大学网络空间安全实践工作站 导师组





                                                                  53
   57   58   59   60   61   62   63   64   65   66   67