Page 10 - 优秀学员达人录
P. 10

上海市青少年科学创新实践工作站




                                                                              达人   陈哲
                                       复旦大学计算机科学与技术实践工作站
                                       华东师范大学第二附属中学(紫竹校区)
                                       科创格言:业精于勤荒于嬉,行成于思毁于随










                           设计信息学奥赛题解形式审核机器                                 工作站的经历唤起了我对计算机科学的热爱
                           设计信息学奥赛题解形式审核机器
                                                                           工作站的经历唤起了我对计算机科学的热爱
                   作为一个信息学竞赛网站的管理员,我每天会接收到上百篇题解                       在工作站的经历,不仅仅使得我懂了许多关于人工智能的知识,
                的审核需求,筛选出那些非常符合要求的题解,是个费时费力的工                       而且还让我结识到了许多在编程方面的好友,大家一起互帮互助携
                作。本课题期望通过人工智能完成题解的分类,准确度地完成符合                       手努力,对编程的水平提升是很快的,同时我也多了学业交流、生
                要求的题解和严重不符合要求的题解分类,一方面减少管理的工作                       活交友的好友。除此之外,工作站的经历也相当于一类大学体验课
                量,并减少用户等待审核时间,提高用户体验。在本次工作站科创中,                     程,这让我知道了大学的教学方式,让我的自学能力有所锻炼,更
                我研究的项目是信息学奥赛题解形式审核机器。                               多地尝试在网络上寻找相关资料进行研究。这次经历也让我在选择
                   此类项目的研究较少,因此从数据集到核心代码都得完全由自己                     专业的时候,会更加倾向报考计算机科学领域方面的专业,因为它
                完成。我首先使用爬虫,爬取人工审核后符合要求的题解或者不可                       唤起了我对计算机科学的热爱。
                能通过的低质量题解,然后将其从文字个数、LaTeX 公式长度、代                      本次科创的体验也让我更热爱于实践动手,对于脑中蹦出的一个
                码长度、引用图片张数等维度进行统计,赋予一个通过参量:其中                       个思维火花,我会更加愿意将其完成,同时在完成之后不断地对其
                以 0 表示从形式上来看必定不可能通过的题解;0.5 表示可能通过                   进行思考,查询相关资料,对它们进行更多的优化,使得我更具有
                的题解;1 表示必定通过的题解,并生成数据集。在数据集的生成                      科学探索精神。同时,一开始的不成功的选题经历,也让我懂得了
                中,我爬取人工审查后的符合要求的题解。为了保证生成数据集便                       不要好高骛远,而是要脚踏实地,对自己的能力有着充分的认知,
                捷,过滤了其中所有的换行符以及特殊字符,仅保留 ASCII 码在                    否则只会失败。在完成了这个项目之后,我体会到了一种难以言说
                [32,110] 的字符以及中文。为了保证数据集更加高质量,挑选了有                  的乐趣,它是实践的乐趣、也是收获的乐趣、也是所学得到了检验
                明确的题解审核标准之后所添加的题目,以保证这些数据都是更为                       的乐趣。我打算将这个项目再进行完善,使得其拥有更多维的评价
                符合要求的。同时,也只爬取第一页的题解,因为排名越靠前的题                       方式以及更高的准确率,将其正式投入实践。我也会在未来尝试设
                解是大家所越喜爱的,对数据集的生成也应当有一定帮助。实践中                       计一些程序,帮助我自己和每位同学一起学习。
                我获取了 739 条数据生成了数据集。然后将其使用 BP 神经网络进
                行训练。经过 10 次测试,神经网络得到的通过参数与实际通过参
                数之差的平均值约为 8.37%,取得了不错的效果。
                   在这过程中,最大的问题应当是对项目初期的想法规划。在起初
                的时候,我对题解的内容进行实质性的审查,经过一番计算,我发
                现这可能需要生成一个非常大的词向量,对计算机的性能要求也很
                高,而且现有的网络资源可能难以提供如此大的数据库;同时,对
                其中细节的公式推导、代码查错等,也不是我力所能及的内容,其
                中也涉及到许多非常深刻复杂的原理。在咨询了我的导师之后,我
                选择将项目变得不那么复杂,只是判断一篇文章是否符合“题解”,
                满足其一定的规范。这是我所可以完成的内容,且确实获得了很高
                的评价。









                                                      拥有良好的科学素养和工程能力
                                                      拥有良好的科学素养和工程能力
                  该同学的研究课题利用人工神经网络技术来解决自己学习中的实际问题,解决了题解质量判定的问题,实现了自动的判定和分类,这个
                具体的问题并没有典型的研究先例可参考,该同学对该问题进行研究体现了探寻真理、勇于挑战的可贵品质。
                  在研究过程中,设置合理的具体研究目标是项目成功的关键因素,该同学自主学习的能力令人印象深刻,该同学通过查阅资料初步设计
                技术方案,并根据研究过程中的出现的问题,不断探寻合理的研究目标,设计新的技术路线。最终根据实验结果,优化算法,克服了开发困难,
                体现了良好的科学素养和工程能力,完成了一次比较典型的研究性学习的过程。
                                                                                      ——指导老师:复旦大学高级讲师 张向东





                                                                  1
   5   6   7   8   9   10   11   12   13   14   15