商业智能领域 --知识、技术、平台、发展、业界...  
  博客登陆
         欢迎加入
           BI Club-1 QQ群:2635140已满
           BI Club-2 QQ群:42350958
         -->ttnn BI View Entrance
 
                       一点声明
     鉴于这段时间有朋友投诉本blog上文章引用问题。现特此声明有部分文章为转帖,可能有原创和转帖漏掉备注的情况。这里若有您的原创文章并且是在未经您同意就引用并且您介意的情况,我在此表达诚挚歉意,请及时与我联系进行调整!
  我的分类(专题)
  最新日志
  最新评论
  留  言  板
  友情链接



  日志信息

群集挖掘模型  [Nirvana 发表于 2006-9-4 22:35:43]

 

 

    1 群集挖掘(学术上叫聚集,聚类)

群集挖掘函数搜索输入数据以获取共同出现最频繁的特征,该挖掘函数将输入数据分段为子集和群集(每个群集成员具有相似特性),并且相应地对相关记录进行分组,预先并没有设想在数据中存在那种模式(这是和分类挖掘的本质区别),这是一个发现过程。群集目的在于将具有相似特性的记录分组,群集结果可以发现群集个数和构成每个群集的特性,还可以显示这些特性如果在群集中分布。


典型的k-means群集

由群集挖掘函数创建的结果模型包含检测到的群集数和组成每个群集的特征,这些结果还显示了特征在群集中是如何分布的,要确定群集组成,可以通过可视化工具检查群集过程的结果。Kohonen特征映射中枢网络:使用一个自组织进程来将相似的输入记录组合在一起,用户指定群集个数和遍历数据的遍数,这些参数控制进程时间和将数据记录分配到群集时使用的粒度程度


群集的迭代和演化

 

2 群集的几个概念

基于分布的群集:基于分布的群集是输入数据上的一个迭代过程。每个输入记录将连续地被读取,将计算每个记录对于每个现有群集的相似性。刚开始,不存在任何群集,如果计算出的最大相似性超出给定阈值,则将该记录添加到相关群集中,此群集的特征也做相应更改,

如果未超过,或不存在任何群集,则创建新群集,该新群集只包含此记录

相似性:记录之间的相似性通过比较它们的字段来确定。记录和群集之间的相似性是通过将该记录和群集中所有记录之间相似性加在一起而计算出的

群集最大数目:通过指定群集最大数目的值,可以控制在群集训练运行期间要创建的群集数,限制群集数可以防止产生许多小的群集,节约运行时间。缺省情况下,基于分布的群集算法不会创建无限多群集数,而是自己设定限制

相似阈值:是属于同一群集的两个记录的相似性的下限。例如,如果设为0.25,则其字段值具有25%相似性的记录可能被分配到同一群集中。

活动和补充字段:输入字段可拆分为活动和补充字段。活动字段由挖掘算法用;补充字段仅用于获取关于找到的群集的统计信息,可以由可视化查看

字段加权:在群集训练期间,字段加权给予某些输入字段或多或少的加权。例如用群集挖掘函数识别不同类型的购物者,可能不希望给予在购买数量和购买总金额之间强相关性太多的权

值加权:字段中某些特殊值可能比该字段中其它值更普遍,字段中罕见值的发生比常见值的发生对全部相似性添加更多的权。比如一种VIP卡,如果两个人都没有并不很重要,如果他们都有那就很重要,没有该卡的人的出现比有该卡的人的出现会对他们的全部相似性加较小的权

相似矩阵:计算两个分类字段之间相似性值

界外值处理:指定MIN-MAX,如果在界外,可以通过三种方式处理,视为缺少值,用MINMAX代替;将其放入较高和较低直方图区间。

 

3 常用群集算法()

簇方法:

  k-means

  K-Medoids Clustering

  PAM (Partitioning Around Medoids)

  CLARA (Clustering Large Applications)

  CLARANS(随机搜索)

层次方法:

  AGNES (Agglomerative Nesting)

  DIANA (Divisive Analysis)

  BIRCH

  CURE

  CHAMELEON

基于密度的方法:

  DBSCAN

  OPTICS

  DENCLUE

  CLIQUE

基于网格方法:

  STING

  WAVECLUSTER

  CLIQUE

模型法:

  COBWEB

  Classification Tree

其他:

  Neural Network

  SOM(自组织特征映射,商用挖掘工具里面的神经分群模型)

 

4 Intelligent Miner(IM)群集模型运用要点()

样本参数设置:

选择输入数据时注意:

优化挖掘模型选项

过滤记录

不要选择每条记录该字段都相同和每条记录该字段都不同的字段。

使用群集前使用“主分量分析”和“因子分析”把相似值字段合并为单个组件或因子

运行群集时,使用组件因子作为活动字段,原始字段作为辅助字段

指定输入字段:

模型参数注意:

最大遍历数(5-10)太大,时间慢,太小,则准确度不高

最大群集数(可在观察中调整,查找最价群集数目)

最大行数和最大列数

分离体(MINMAX)偏离MINMAX之间的值叫分离体,一般通过函数将其变为常态输入

并行参数

应用方式

是否规格化

处理有偏数据:

将其视为有效值

缺少值

MINMAX代替

输出字段:

记录记分字段名,群集标识字段名,可信度字段名

输出数据:

结果名:

 

 


阅读全文 | 回复(1) | 引用通告 | 编辑 

Re:群集挖掘模型 [billiion(游客)发表评论于2006-9-22 10:46:25]
贵站做锝很不错啊,努力!能否做个友情连接?---<a href="/blog/"";http://www.billion-news.com">中国福彩3D资讯网</a>

个人主页 | 引用 | 返回 | 删除 | 回复 

发表评论:

    大名:
    密码:
    主页:
    标题:

-->tnnBI杂志 

Powered by Oblog.