商业智能领域 --知识、技术、平台、发展、业界...  
  博客登陆
         欢迎加入
           BI Club-1 QQ群:2635140已满
           BI Club-2 QQ群:42350958
         -->ttnn BI View Entrance
 
                       一点声明
     鉴于这段时间有朋友投诉本blog上文章引用问题。现特此声明有部分文章为转帖,可能有原创和转帖漏掉备注的情况。这里若有您的原创文章并且是在未经您同意就引用并且您介意的情况,我在此表达诚挚歉意,请及时与我联系进行调整!
  我的分类(专题)
  最新日志
  最新评论
  留  言  板
  友情链接



  日志信息

移动客户流失挖掘时遇到的一个问题  [Nirvana 发表于 2006-9-13 12:53:56]


在做客户流失预测时
输入数据往往是正常客户类别的记录数占绝大部分比例
而预测流失的几个类别实际人数相对总的客户数来说是很少的
那么这样的数据输入决策树模型
它的偏差差异(也就是类别记录数的严重不平衡)会影响模型的准确性吗
我训练的模型预测时精度很低
那部分预测流失的人数相对大量的正常客户数来说,实际上很小,是不是因为这样决策树模型很难识别出流失客户的特性,因而准确率才很低呢?
大家有什么看法
做数据抽样时好象解决不了这样的问题

阅读全文 | 回复(4) | 引用通告 | 编辑 

Re:移动客户流失挖掘时遇到的一个问题 [duzhaoyi2000发表评论于2006-9-25 19:53:06]
谢谢苦瓜兄的解答
很有道理
我该补下统计方面的知识了:)
你所说的过度抽样原理和分层抽样原理差不多
它们有什么本质区别吗?
在做金融欺诈检测类似挖掘,过度抽样是否通用呢?

个人主页 | 引用 | 返回 | 删除 | 回复 
Re:移动客户流失挖掘时遇到的一个问题 [isomebody发表评论于2006-9-25 17:13:41]
这问题可以使用Oversampling解决,例子在我的日志上已经写出来了

user1/141/archives/2006/1004.html

个人主页 | 引用 | 返回 | 删除 | 回复 
Re:移动客户流失挖掘时遇到的一个问题 [duzhaoyi2000发表评论于2006-9-17 13:41:05]
呵呵,抽样我都试过
采用比例抽样,数据的分布还是差不多
是不是模型选择的问题
决策树模型对这种数据分布不平衡的情况是否适合呢
统计学不是很了解:(

个人主页 | 引用 | 返回 | 删除 | 回复 
Re:移动客户流失挖掘时遇到的一个问题 [notice发表评论于2006-9-16 23:01:13]
应该对数据进行有比例的抽样吧。可以试试

个人主页 | 引用 | 返回 | 删除 | 回复 

发表评论:

    大名:
    密码:
    主页:
    标题:

-->tnnBI杂志 

Powered by Oblog.