上周二开始从DATA WAREHOUSE里面提取数据,经过几次反复,本周一终于把想要的东西拿出来了,开始清理、整合和转换。然后昨天开始做初步数据分析,竟然发现数据集里面MOSAIC码与邮政编码的不完全对应,MATCH RATE只有40%不到。和主管一起研究了半饷,终于发现是MOSAIC MATCH TABLE里面的邮政编码格式与DATA WAREHOUSE MASTER TABLE里面的邮政编码不对应,只能重新再编译再MATCH过。
重新MATCH数据还是小事,问题是如果不是我做这项目,没有人能知道数据库里面一直存贮的是不完整的数据!在一个以数据为驱动的公司,没人专门负责保持数据的质量和一致性的话,这里面隐患就严重了。比如这次发现的MOSAIC码问题,没有利用好完整的信息一是对不起购买数据的钱,二是各种数据分析的结果很可能有误导决策。
这一笔可以联系CRM过程的其他偏软的方面加重笔墨来写个报告(独立章节)。正在考虑要怎么写,才能给主管留点颜面。呵~