探索处理过程包含两个不同但又相关的处理过程。第一个处理过程是对数据进行观测并创建假设的过程,第二个处理过程是分析假设并验证其正确性的过程。这两个过程都需要用到统计技术。当事务处理中需要用到统计技术时,事务的处理量都非常巨大,并出现资源竞争情况。
正是因为这个原因,通常的做法是将统计处理过程进行隔离。
在DW2.0中处理探索处理过程的位置有两个,一个是整合区中的探索子区,另一个是基于项目的探索仓库(Exploration Warehouse)。DW2.0中整合区中的探索子区主要用来进行那些有规律的、可预测的探索过程。基于项目的探索仓库主要用来进行那些特殊的探索过程。整合区中的探索子区是一个持久的环境,而基于项目的探索仓库是一个临时的环境。
探索子区中的数据是粒度的、历史的数据。而基于项目的探索仓库中的数据是非持久的。
很少将数据直接迁移入基于项目的探索仓库中,而在移入的过程中都会做一些数据处理。数据被加载入探索仓库时,可能会进行改变、编辑、整理,增加说明项等操作处理。
在基于项目的探索仓库中,有时需要对数据进行冻结。因为在探索仓库中进行的处理主要是启发式的处理。很多处理会同时在探索仓库中运行。一些特定分析结果决定着后续的分析,如果数据在两次分析中有改变,就会对分析的结果产生疑问。这时很难判断结果的不同是因为数据变化了,还是算法变化了。为了稳定系统的结果,需要对探索仓库中的数据进行冻结。
基于项目的探索仓库中的分析大部分都是基于统计技术的或者基于数学技术的。
一个很有趣的问题是,启发式的分析是否可以在整合区中的探索子区中完成?答案是只有很少的启发式分析可以在那里完成。
整合区中的探索子区中的数据可以用来创建假设,但是不能用来验证假设的正确性。
另一个有趣的问题式,交互区的数据是否可以作为探索处理的基础,是否可以作为基于项目的探索仓库的数据源?答案是如果对数据的稳定没有要求时,交互区可以作为基于项目的探索仓库的数据源。但是如果对数据的稳定性有要求时,交互区就不能作为基于项目的探索仓库的数据源。
探索环境最好的数据源是平面文件。
探索仓库中的最主要的使用者是探索者。
本日志来源于Inmon的网站。 |