山研榜样 | 博士研究生余丽琴

日期:2021-05-19

c7360872c850497f9ffa1574c13fc7e2.jpg

余丽琴  山西大学计算机与信息技术学院

数据科学的魅力

初识数据魅力

2015年是我迈进科研道路的起点。这一年,我决定以普通招考的方式继续攻读硕士学位;这一年,我选择了山西大学重点学科计算机科学与技术迈进科研之路;这一年,我结识了科研道路上指点迷津的良师曹付元教授。虽然本科一直攻读计算机科学与技术专业,但是彼时的重点是学习课本知识、提高编程动手能力,对科研知之甚少,对数据的理解仅仅局限于一个普通的认知——真实世界中的各种数据均可以转换为二维表的形式存储于计算机中。曹老师和我的第一次谈话便让我认识到,原来数据是丰富多样的,存在各种数据表示形式,以前的研究均是通过数据处理使得数据变成已有算法可以处理的形式,这样势必导致信息大量丢失。那如何针对各种不同表示形式的数据找到相应的处理方法使得尽可能少的丢失信息呢?这使得我对根据不同表示形式数据的特点挖掘其潜在的信息产生了浓厚的兴趣,且进行了两年的初步探索。

7f8a0462c5bb4a459d5afef5d092a769.jpg

决定深入探索

2017年是我科研道路上另一个重要的节点。这一年,在曹老师的鼓励下我决定以硕博连读的方式继续攻读博士学位;这一年,我选择了沿着硕士期间未完成的研究继续深入探索数据的奥秘。硕士期间的研究使我对挖掘复杂数据潜在的信息产生了浓厚的兴趣,并且奠定了未来科学研究的基础。复杂数据不仅仅是以往人们意识里的二维表的存储形式,有着不同的表示方式。根据不同的数据表示,常见的作为算法输入的数据分为三类:单实例数据,交易数据,多实例数据。单实例数据集中每个对象被一条记录或一个特征向量所描述,并且每个特征属性下仅仅有一个值;交易数据是一种符号性数据,其中每个对象在一个特征属性下有多个属性值;多实例数据集是一个每个对象包含多条实例的数据集,一个对象中的多条实例互相独立。上述三种数据表示各不相同且有各自的特点,所以有必要针对每种数据表示找到与其相对应的算法以准确的发现数据集的结构。目前已有一些算法对其展开了研究。受各种不同的数据表示形式启发,我们定义了一种新的数据表示形式——块数据,即每个对象被多条记录或特征向量描述,并且多条记录之间是有所关联的,它们共同反映一个对象的行为特征。这种类型的数据广泛存在于各个领域,包括电子商务、教育、医疗、通讯等。然而,针对这种类型的数据,还没有合适的方法去挖掘其潜在的信息。因此,我们决定把挖掘块数据中潜在的信息作为主要的研究方向。

汲取新鲜血液

除了研究自己的课题,还需要汲取很多知识扩宽视野、增长见识,不仅能够丰富知识面,也能够启发思维。在自身方面,主要通过阅读大量相关的文章,熟悉已有的算法思想;在导师方面,通过向导师不断地咨询,解决科研遇到的各种难题;在同学方面,通过和同学不断地交流讨论,完善算法的思想和论文的写作;在学院方面,通过参加学院组织的多场由全国各个领域的专家讲解的学术报告,了解丰富的知识、拓宽局限的视野。曾经有位教授谈到:要搞好科研,不仅需要不断温习巩固已学到的知识,而且需要不断汲取外部的新的知识,才能不断超越自己。

未来的我们

作为研究生的我们,应该积极响应国家的创新发展理念,选择走自己的人生道路。不管哪个学科,学生们都把创新永远放在科研实践的第一位,时刻谨记创新能改变生活,改变未来。如果是计算机专业的学生,更应该与时代潮流一致,在大数据、人工智能上积极搞科研,努力争取把它应用到实体经济的应用当中去。每个学生都做到做好自己分内的工作,当人人都实现了自身价值的同时,国家也就自然而然的富起来了。作为新时代的大学生,在以后的学习中要时刻秉持习近平同志重要讲话的精神,勤勉读书,积极上进,不能盲目,应紧跟时代潮流,响应国家号召,勇于创新,发展科技,从而提升我国经济。成绩属于过去,而未来属于所有人!真诚呼吁从事科学研究的有志者,不断创新,走向实践,创造属于你们的辉煌时代。