710SJBH基于Apriori算法的学籍课程成绩关联规则挖掘研究-文献综述

发布于:2025-06-23 ⋅ 阅读:(17) ⋅ 点赞:(0)

基于apriori算法的学籍课程成绩关联规则挖掘研究

高等院校的中心工作是教学,重点是提高教育质量,而学生成绩恰恰是衡量教学质量的重要依据,所以数据挖掘在分析学生成绩中有着重要意义。通过对学生成绩信息进行数据挖掘,可以发现各门课程之间的关联关系,为教学和学生管理提供决策支持,更好的开展教学工作,提高教学质量。

本文首先在数据仓库和数据挖掘理论研究的基础上,介绍数据仓库和数据挖掘的基本理论,重点阐述了数据仓库的构建和联机分析处理。

其次,介绍了数据挖掘中关联规则的基本算法,重点分析了Apriori算法,通过对Apriori算法的深入研究,针对Apriori算法存在的缺点,提出了一种减少事务数据库扫描次数的改进算法,并通过实例说明该算法的优点。

最后通过基于学生成绩的数据仓库,从概念模型、逻辑模型和物理模型三个方面完成数据仓库的设计,通过对数据的抽取、清洗、转化和加载完成数据仓库的构造。

一、研究背景及动态

随着计算机技术和互联网技术的迅速发展,数据资源变得日益丰富,但是数据资源中蕴含的知识却远远没有得到充分的发掘和利用,在这种情况下,出现如何从这些浩如烟海的数据中提取对人们有用的信息,为人们生活和社会发展的各方面提供正确决策成为一个亟待解决的问题。我们现在使用的数据库系统可以对数据进行方便高效的录入、查询、统计等操作,但是无法发现潜藏在大量数据背后的关联关系和规则,无法利用这些数据隐含的信息对未来事务的发展进行预测。由于人们缺乏对潜藏在大量数据中有用信息的进行发现和挖掘手段,所以使人们不得不面对数据爆发但是知识匮乏的尴尬现象。面对这一现象,数据挖掘或知识发现(Dm)技术应运而生,并随着时间的推移,显示出其强大的生命力。

数据挖掘或知识发现技术的出现,是人们对数据库技术进行长期开发和研究和总结的结果。最早,各种数据时存储在用户计算机的数据中的。然后发展到用户可以根据需求,对存储在数据库中的数据进行查询和访问,进而发展到可以即时遍历数据库中的数据。

数据挖掘技术的出现,把数据库技术引入到了一个更高层次的阶段。利用数据挖掘技术,不仅能够对现有的数据进行查询和访问,而且关键是能够找出潜藏在海量数据之间的内在关联信息。数据挖掘技术就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、事先不为人们知道的,但又是潜在有用的信息和知识的过程。

目前,在商业、金融业以及电信业等领域数据挖掘技术都得到了广泛的应用,并取得了很好的效果,但其应用在教育领域成功的例子相对不多。近年来,我国高校招生的规模不断增大,在校学生的学生人数大幅度增加,我们以前使用的传统的教学和管理手段已经不能适应高校未来发展的趋势,我们需要新的管理方式和教学方法来迎接高校的学生管理和教学工作带来的严峻的考验。现阶段高校教务处的数据库中积累了大量的学生成绩信息,由于我们现在对学生成绩数据的管理还停留在对数据库中成绩数据简单查询阶段,所以不能充分发挥这些数据应有的作用。以学生成绩为例,学生成绩作为考核学生学习成果的一项重要指标,不但能够客观、真实的反映学生的学习效果和教师的教学质量,而且能够对学生以后的学习方法、教师的教学手段和学校的教学计划起到良好的指导作用。然而,目前我们经常使用的成绩分析技术,在学生成绩分析时,一般只能得到均值、方差等一类信息,无法得到影响学生成绩的真实信息,因为在实际教学中,学生在学习某一门课程时,对其成绩产生影响的往往有一门或几门前导课程,那么哪一门或哪几门对他的学习成绩产生了影响这些有用的信息,我们却往往不能获知。如果能够充分发掘利用这些数据信息,准确地分析教学实践过程中学生、教师和学校各方面的影响因素,从中找到提高学生学习效率、教师教学质量的方法,必然有利于学校教学质量的提高。

目前,在各高校的教务处的成绩数据库中存放着历届学生各门课程的考试成绩,但是这些成绩数据只是简单的记录了数据信息,我们无法发现隐藏在这些数据背后的深层次的信息,所以这些数据并没有真正的发挥其应有的价值。随着数据仓库和数据挖掘技术的不断成熟,我们将他们引入到高校的教学工作中,利用数据仓库和数据挖掘技术对存放在学校数据库中的学生数据信息进行深层次的分析,挖掘隐藏在这些数据背后的有用信息,发现对指导学校学生学习、教师教学有用的知识,帮助学校管理者对未来学校的发展进行决策,必然会在学生提高学习效率、教师提高教学质量和学校提高管理水平等方面发挥重要的作用。

二、评述

目前,人们针对基于关系数据库和事务数据库进行的数据挖掘方面的研究,已经取得了很大的进步,并出现了多种有影响的发现算法,比如美国IBM公司的R.Agrawal的关联算法、美国密西根州州立大学Erick Goodman的遗传算法、澳大利亚的J.R.Quinlan教授的分类算法等。Microsoft、IBM、UrbanScience、SAS、、DataMind、AbTcch、Unica Technologies等国际上一些著名的的打公司,也相继开发出一些实用的数据挖掘系统应用于商业系统,如市场分析用的BehaviorScan、MDT,金融投资领域的Stock Selector、AI(Automated Investor),欺诈预警用的Clonedetector、Falcon、FAIS等。

与国外的数据挖掘技术发展相比,国内起步较晚,大部分研究没有联合起来,没有形成整体的力量。目前进行的大多数研究项目都是由政府出资资助进行的,如863计划等。政府最早出资资助的项目是1993年的国家自然科学基金项目。目前从事数据挖掘研究的人员,主要集中在大学、公司和研究所,研究的方向也主要是在算法的研究、数据挖掘的实际应用以及有关数据挖掘理论方面的研究。比如,对模糊方法在知识发现中的应用,北京系统工程研究所进行了较深入的研究;对数据立方体代数的研究,北京大学也取得了一定的进展;复旦大学、中国科技大学、浙江大学、华中科技大学、吉林大学、中科院数学研究所等单位在关联规则挖掘算法的优化和改造进行了深入研究并取得一定成果;四川大学、南京大学和上海交大等大学研究人员在非结构数据的知识发现及W|eb数据挖掘方面进行了深入的探讨和研究。总之,国内运用数据挖掘技术协助企业决策进行生产活动的成功案例还比较少,所以数据挖掘技术的研究和应用以及相关工具的开发,在我国的发展潜力巨大,前景广阔。

三、结论

本文的主要研究内容是运用Apriori算法对学籍课程成绩进行挖掘,本论文的预期成果如下:

(1)对数据仓库和数据挖掘技术的理论做了系统的研究,介绍了数据挖掘的概念、研究现状以及数据挖掘的过程、功能,描述了数据仓库的概念以及特点。

(2)详细的描述关联规则的定义,介绍了关联规则的种类,总结了关联规则常用的挖掘方法。

(3)详细分析了经典关联规则挖掘算法Apriori算法,分析了该算法的性能和特点,针对它存在的缺点,寻找一种改进的Apriori算法。

参考文献:

[1]夏火松.数据仓库与数据挖掘技术.北京:科学出版社[M].2004

[2]Angela Bonifati,Fabiano Cattanco,StefanoCeri,Alfonso Fuggetta,StefanoParaboschi.Designing Data Marts for Data Warehouses.ACM Transactions on Software Engeeringand Methodology(TOSEM)[C].2001.10

[3]Jiawei Han,Micheline Kamber.Data Mining:Concepts and Techniqaues[M].SanFransisco:Morgan Kaufmann Publishers.2001

[4]范全润,陈莉,杨泽民.数据挖掘技术及其应用进展.楚雄师范学院学报[J].2002.6

[5]AgrwalR Shim K.Developing tightly-coupled data mining Applications on a RelationalDatabase System[A].In Proc of the 2nd Int’l Conference on Knowledge Discovery inDatabases and Data Mining[C]Portland,Oregon:[s.n.].1 996

[6]牛承珍.马季兰.浅谈数据挖掘应用[J].山西科技.2008.3

[7]李芸.数据挖掘中关联规则挖掘方法的研究及应用[D].西安:西安电子科技大学.2007

[8]钱冬云.数据挖掘中关联算法的研究.[D].天津:天津大学.2006

[9]吴海玲.基于关联规则的数据挖掘算法研究[D].南京:河海大学.2007

[10]唐笑林.数据挖掘技术的研究与应用阴.华东理工大学学报.2008.4


网站公告

今日签到

点亮在社区的每一天
去签到