随着计算机应用及Internet的日益普及,“丰富的数据与贫乏的知识”问题也日见突出,世界上的数据正以惊人的速度增长,堆积如山。不同领域的人们都期待着从这些数据中得到自己想要的答案,将信息变为知识,从数据矿山中找到蕴藏的知识金块。
知识发现正是这样一种从数据中挖掘知识的工具,它集数据收集、数据清洁、降维、规则归纳、模式识别、数据/结果分析及评估、可视化输出等多种过程于一身,是统计学、计算机科学、模式识别、人工智能、机器学习及其它学科相结合的产物。它不仅被许多研究人员看作是数据库系统和机器学习方面一个重要的研究课题,而且被许多工商界人士看作是一个能带来巨大回报的重要领域。从数据库中发现出来的知识可以用在信息管理、查询响应、决策支持、过程控制等许多方面。从八十年代中期的小范围研究到如今的蓬勃兴起,知识发现已经在企业界与科学界占据了一席之地。事实上,世界500强企业中的80%都涉足知识发现的前瞻研究或拥有一个或多个知识发现产品系统。它们帮助企业进行客户关系管理,减少不必要的投资,提高资金周转和回报。帮助人们迅速获取所需的知识和信息,提高工作效率,改进服务质量。
知识发现是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程,它与数据仓库有着密切的联系。数据仓库是源于可操作数据的一个数据存储中心。数据仓库中的信息是面向主题的、稳定的且具有历史数据属性的,因此数据仓库用于存储大规模的数据集。知识发现与数据仓库、决策支持的结合预示着信息和知识管理的一个全新的变革。
本课讲授和讨论数据挖掘前沿研究领域的重要算法和挖掘方法。
参考文献
史忠植. 知识发现. 北京:清华大学出版社, 2002
史忠植. 知识发现(第二版). 北京:清华大学出版社, 2011
史忠植. 高级人工智能(第三版). 北京:科学出版社, 2011
Zhongzhi Shi. Advanced Artificial Intelligence (2nd Edition). New Jersey: World
Scientific Publishing, 2019
周志华. 机器学习. 北京:清华大学出版社,2016
邱锡鹏. 神经网络与深度学习. 北京:机械工业出版社, 2020