Calendar
Placard
Category
Latest Entries
Latest Comments
Last Messages
User Login
Links
Information
Search
Other


Analytical Customer Relationship Management
  Oversampling (过度取样) 
 

回答一下Nirvana兄提的问题,原文地址(user1/105/archives/2006/928.html):

当数据集的目标变量值的分布不均匀的时候可以使用Oversampling帮助解决问题。

假设有20000条数据,客户流失率是1%,也就是200个流失客户。用此数据集训练出来的模型是基本没有用处的。因为大多数算法都是为了提高综合判断的准确率,而不是只判断流失的准确率。在这种情况下,简单地把所有客户都判断为忠实就能达到99%的准确率了!

解决问题的方法是保留所有的这200个流失客户,再在其余那19800个忠实客户里随机抽取800个客户。这样一来就组成了一个有1000个客户的数据集,流失率是20%。(一般来说20%~30%能达到较好的效果)用这个数据集训练出来的模型才是真正有用的模型。

以上只是Oversampling最简单的一个演示,有兴趣的朋友可以查阅相关的统计或者是数据挖掘的书籍得到更准确更全面的信息。

[ 阅读全文 | 回复(2) | 引用通告 | 编辑

  Post  by  最恨苦瓜 发表于 2006-9-25 16:50:00
  Re:Oversampling (过度取样)
  分层是根据若干个变量若干个值在POPULATION里面的比例抽取

过度是保留某变量某值的所有记录其余随机抽取,两者类似却不同。

过度是解决目标变量值的分布不理想的一种方法,理论上通用于个行业。。。
[ 个人主页 | 引用 | 返回 | 删除 | 回复

  Post  by  isomebody发表评论于2006-11-9 18:49:07
  Re:Oversampling (过度取样)
  谢谢苦瓜兄的解答
很有道理
我该补下统计方面的知识了:)
你所说的过度抽样原理和分层抽样原理差不多
它们有什么本质区别吗?
在做欺诈检测类似挖掘,过度抽样是否通用呢?
[ 个人主页 | 引用 | 返回 | 删除 | 回复

  Post  by  duzhaoyi2000发表评论于2006-9-25 19:51:03

发表评论:

    大名:
    密码:
    主页:
    标题:
Powered by Oblog.