|
| |
移动客户流失挖掘时遇到的一个问题 [Nirvana2000 发表于 2006-9-13 12:53:56] | |
在做客户流失预测时
输入数据往往是正常客户类别的记录数占绝大部分比例
而预测流失的几个类别实际人数相对总的客户数来说是很少的
那么这样的数据输入决策树模型
它的偏差差异(也就是类别记录数的严重不平衡)会影响模型的准确性吗
我训练的模型预测时精度很低
那部分预测流失的人数相对大量的正常客户数来说,实际上很小,是不是因为这样决策树模型很难识别出流失客户的特性,因而准确率才很低呢?
大家有什么看法
做数据抽样时好象解决不了这样的问题 | |
|
|
|
| |
Re:移动客户流失挖掘时遇到的一个问题 [duzhaoyi2000发表评论于2006-9-25 19:53:06] | |
谢谢苦瓜兄的解答 很有道理 我该补下统计方面的知识了:) 你所说的过度抽样原理和分层抽样原理差不多 它们有什么本质区别吗? 在做金融欺诈检测类似挖掘,过度抽样是否通用呢? | |
|
|
|
| |
Re:移动客户流失挖掘时遇到的一个问题 [isomebody发表评论于2006-9-25 17:13:41] | |
这问题可以使用Oversampling解决,例子在我的日志上已经写出来了 user1/141/archives/2006/1004.html | |
|
|
|
| |
Re:移动客户流失挖掘时遇到的一个问题 [duzhaoyi2000发表评论于2006-9-17 13:41:05] | |
呵呵,抽样我都试过 采用比例抽样,数据的分布还是差不多 是不是模型选择的问题 决策树模型对这种数据分布不平衡的情况是否适合呢 统计学不是很了解:( | |
|
|
|
| |
Re:移动客户流失挖掘时遇到的一个问题 [notice发表评论于2006-9-16 23:01:13] | |
应该对数据进行有比例的抽样吧。可以试试 | |
|
|

<TTNN杂志列表> <Blog文章导航> <BI资源列表> |