Calendar
Placard
Category
Latest Entries
Latest Comments
Last Messages
User Login
Links
Information
Search
Other


Analytical Customer Relationship Management
  问题挖掘结果一:数据格式的一致性 
 

上周二开始从DATA WAREHOUSE里面提取数据,经过几次反复,本周一终于把想要的东西拿出来了,开始清理、整合和转换。然后昨天开始做初步数据分析,竟然发现数据集里面MOSAIC码与邮政编码的不完全对应,MATCH RATE只有40%不到。和主管一起研究了半饷,终于发现是MOSAIC MATCH TABLE里面的邮政编码格式与DATA WAREHOUSE MASTER TABLE里面的邮政编码不对应,只能重新再编译再MATCH过。

重新MATCH数据还是小事,问题是如果不是我做这项目,没有人能知道数据库里面一直存贮的是不完整的数据!在一个以数据为驱动的公司,没人专门负责保持数据的质量和一致性的话,这里面隐患就严重了。比如这次发现的MOSAIC码问题,没有利用好完整的信息一是对不起购买数据的钱,二是各种数据分析的结果很可能有误导决策。

这一笔可以联系CRM过程的其他偏软的方面加重笔墨来写个报告(独立章节)。正在考虑要怎么写,才能给主管留点颜面。呵~

[ 阅读全文 | 回复(1) | 引用通告 | 编辑

  Post  by  最恨苦瓜 发表于 2005-3-25 7:51:43
  回复:问题挖掘结果一:数据格式的一致性
 

你如果看过《元数据仓储的构建与管理》(building and managing the meta data repository a full lifecycle guide)一书的话,可以在里面找到一个类似的例子。

该书作者当年就碰到过类似的项目,在项目开始之前,公司觉得不必花费时间金钱来研究、评估和解决数据质量问题。结果在同时进行的多个dss项目的实施工程中,发现某个项目所使用的源系统中的数据质量很差,报表不可能根据这些数据产生精确的结果。结果最终该项目被终止,该公司因此大约损失了225,000美元的顾问费和员工工资。

[ 个人主页 | 引用 | 返回 | 删除 | 回复

  Post  by  bobcy发表评论于2005-4-23 18:09:33

发表评论:

    大名:
    密码:
    主页:
    标题:
Powered by Oblog.