商业智能领域 --知识、技术、平台、发展、业界...  
载入中……
  博客登陆
         欢迎加入
           BI Club-1 QQ群:2635140满
           BI Club-2 QQ群:42350958
                       ttnn BI View
                   Data Mining Club
  最新评论
载入中……
  留  言  板
载入中……
  友情链接



  日志信息
载入中……

移动客户流失挖掘时遇到的一个问题  [Nirvana2000 发表于 2006-9-13 12:53:56]


在做客户流失预测时
输入数据往往是正常客户类别的记录数占绝大部分比例
而预测流失的几个类别实际人数相对总的客户数来说是很少的
那么这样的数据输入决策树模型
它的偏差差异(也就是类别记录数的严重不平衡)会影响模型的准确性吗
我训练的模型预测时精度很低
那部分预测流失的人数相对大量的正常客户数来说,实际上很小,是不是因为这样决策树模型很难识别出流失客户的特性,因而准确率才很低呢?
大家有什么看法
做数据抽样时好象解决不了这样的问题

阅读全文 | 回复(4) | 引用通告 | 编辑 

Re:移动客户流失挖掘时遇到的一个问题 [duzhaoyi2000发表评论于2006-9-25 19:53:06]
duzhaoyi2000谢谢苦瓜兄的解答
很有道理
我该补下统计方面的知识了:)
你所说的过度抽样原理和分层抽样原理差不多
它们有什么本质区别吗?
在做金融欺诈检测类似挖掘,过度抽样是否通用呢?

个人主页 | 引用 | 返回 | 删除 | 回复 
Re:移动客户流失挖掘时遇到的一个问题 [isomebody发表评论于2006-9-25 17:13:41]
isomebody这问题可以使用Oversampling解决,例子在我的日志上已经写出来了

user1/141/archives/2006/1004.html

个人主页 | 引用 | 返回 | 删除 | 回复 
Re:移动客户流失挖掘时遇到的一个问题 [duzhaoyi2000发表评论于2006-9-17 13:41:05]
duzhaoyi2000呵呵,抽样我都试过
采用比例抽样,数据的分布还是差不多
是不是模型选择的问题
决策树模型对这种数据分布不平衡的情况是否适合呢
统计学不是很了解:(

个人主页 | 引用 | 返回 | 删除 | 回复 
Re:移动客户流失挖掘时遇到的一个问题 [notice发表评论于2006-9-16 23:01:13]
notice应该对数据进行有比例的抽样吧。可以试试

个人主页 | 引用 | 返回 | 删除 | 回复 
发表评论:
载入中……

    

<TTNN杂志列表>                                <Blog文章导航>                                        <BI资源列表>

Powered by Oblog.