什么是数据挖掘:
数据挖掘方法:
知识发现9大步骤:
● 数据挖掘是数据库知识发现(KDD)过程中应用数据分析和发现算法中"知识发现9大步骤"的第7个步骤:寻找一种特定的表现形 式或一组这些表征的兴趣模式,包括分类规则或树型、回归与聚类。用户可以大大帮助数据挖掘方法以正确执行前面的步骤。
● 一种透过数理模式来分析企业内储存的大量资料,以找出不同的客户或市场划分,分析出消费者喜好和行为的方法。
● 在可接受的计算效率的局限性之内,在数据上产生一种特殊的列举模式(或模型)。
● 模式的空间通常是无限的而且模式的列举包括对该空间某种形式的探索与研究。

● 分类(Classification):是学习一种将某一项数据映射(分类)到几个预定义分类中的一种功能;
● 回归(Regression):是学习一种将某一项数据映射到取值为R的预测变量的功能;
● 聚类(Clustering):是一种常见的描述性任务旨在确定在一组有限级的类别或聚类来描述数据;
● 总计(Summarization):包括为一个数据集找到一种简洁描述的方法;
● 依赖(Dependency) 模型:是要找到一种模型来描述存在于两个层次上依赖模型之间显著的依赖性;
● 对变化和差异的检测集中在从先前的测量或规范值中发现最值得注意的数据;
● 数据挖掘算法的组件;
● 模型的表示是用来描述模式发现的语言;
● 评价标准是模型在一个特定的模式上如何满足数据库知识发现 (KDD) 过程的目标的定量语句(或功能调整);
● 搜索方法由两个组件组成:1)搜索参数;2)模型搜索;
● 一旦模型表示方法和模型评价标准建立起来,那么数据挖掘的问题就降至为仅仅是一种优化任务,找出模型优化标准。
详细请看:“知识发现”和“数据挖掘”之间的区别
1. 对应用领域的开发和认识,并有相关的经验知识和从客户的角度识别数据库知识发现 (KDD) 过程的目标;
2. 创设一个数据集的目标:选择数据集,或者聚焦于一组用于发现的变量或数据样本;
3. 数据清洗和预处理。基本操作包括去除错误数据,收集必要的信息建模或处理缺失数据的策略以及信息时间顺序和变化;
4. 数据压缩和投影:根据任务的目的寻找有用的特征呈现数据。通过降维的方法,对有效的变量数目可能减少的数据表示;
5. 匹配过程目标:特别数据挖掘方法 (步骤1)的数据库知识发现 (KDD)。例如,总计、分类、回归、聚类和其它;
6. 建模和探索性分析与假设的选择:选择算法和数据挖掘并选择用于寻找数据模式的方法。最终用户对预测能力更有兴趣;
7. 数据挖掘:寻找一种特定的表现形式或一组这些表征的兴趣模式,包括分类规则或树型、回归与聚类;
8. 解释挖掘模式,可能为另外的迭代再回到步骤1至7之间的有些步骤。这一步包含提取模式和给予绘制模型的可视化数据;
9. 知识发现:直接利用知识结合另一个系统知识进一步地行动,或简单地记录并向利益相关者报告,检查和分辨之前冲突。
详细请看:“知识发现”和“数据挖掘”之间的区别