| 一、概述 商业智能(BI)涵盖了从您不同的数据源到有意义信息的转换数据过程,从而使您和您的 公司了解您业务的过去、现在,以及将来可能会定位于何处。BI 通过从来自不同系统的数据整合到单一易于访问的信息源——数据仓库中,给您一个一致的、有根据的、深层次的业务视角,在所有层面上提高您的决策水平。
从传统意义上来讲,信息系统已经设计成用于处理日常事务,以便使诸如订单输入、账 户交易之类的任务自动化。然而,这些系统没有设计成支持那些希望从不同的聚集和层 面上抽取数据并利用高级方法分析数据的用户。除了这些问题以外,为了支持单一的业 务体系,系统之间往往是孤立的。在需要对您的业务状态有一个统一视图的时候,这些 特点就形成了很大的挑战。这也就是BI助您一臂之力的地方。 BI架构图 二、数据仓库组织内容 Data Source 数据源可以是业务数据库、历史数据(通常是磁带上的存档数据)、外部数据(例如,来源 于市场调研公司或互联网的数据),或者是来自于已存在的数据仓库语境信息。数据源也可以是来自于一系列业务应用软件的关系数据库。他们还可以存在于许多不同的平台并且包含结构化信息,例如表格或电子数据表,或者非结构化信息,例如纯文本文件或图形以及其它多媒体信息。
ETL 数据抽取/数据传播是从各种数据源及不同平台收集数据并将其送到数据仓库的过程。在 数据仓库语境中的数据抽取则是选择性的过程,用以将相关决策信息输入数据仓库。数据提取/数据传播不仅仅是从一个数据库系统到另一个的镜像或者复制数据的过程。数据转换通常包括使用映射表进行的代码分解; 将隐藏的业务规则作用到数据字段上,例如帐户号码。数据的结构和关系也经过调整以 适应分析域。转换发生于整个数据迁移过程,通常还不止一步。在这个过程的早期阶段,转换更多地是用来合并来自不同源的数据。反之,在后期阶段,数据转换是为了满足具体分析的问题以及/或者工具的要求。数据仓库将数据转变成信息;另一方面,数据清洗保证数据仓库包含有效的、有用的以及有意义的信息。数据清洗也可以称数据标准化。
Refinement 星型结构信息的原子级需要进行聚集、汇总以及修改以适合具体要求。该数据提炼过程可产生以下数据集市: 在星型结构中创建数据子集 创建计算字段或虚拟字段 汇总信息 聚集信息 为提高查询性能,尽量减小通过网络传送给最终用户查询或分析工具的数据数量,使用 数据仓库体系结构中需要使用层次概念。
Data Mart 数据集市中包含了来自于数据仓库的数据,数据集市中的数据经过专门的组织,以满足 特定业务部门,业务功能或应用的特定需求。数据集市的主要目的定义如下: 存储预聚集的信息 控制最终用户对信息的访问 为用户或用户组的特定分析需求提供信息的快速访问 展现最终用户视图和数据仓库的数据界面 建立数据的多维/关系视图 数据库格式可以是多维或者关系形式。 建立数据集市时,记住以下事项是非常重要的: 数据集市应作为数据仓库的扩展,而不是替代形式加以实施。因此数据集市中的所有数据也应存在于数据仓库中。通过这种方式可优化数据的一致性和复用性。理想情况下,数据集市一般是为满足一种要求而创建的。然而,当与管理及维护大量数据集市的成本相比时,您应注意在设计的简单性(和性能优势)之间做出取舍。
Metadata 元数据把数据仓库中的信息构建成类、主题、组、层次结构等等。它们用于提供关于数据仓库中的数据信息。从数据仓库管理员的视角,元数据是数据仓库中所有内容和过程的集合与文档;从最终用户的视角看来,元数据则是数据仓库中获取信息的路标。 元数据用户可以广泛地归于业务人员和技术人员的类别中去,这两个类别都包含了很多类型的数据仓库元数据的用户。他们都需要通过元数据来判别并有效地利用数据仓库中的信息。因此我们可以把两种元数据类型分开,仓库中将包含技术和业务两种元数据: (1)技术元数据 (2)业务元数据 技术元数据可提供数据仓库中的准确数据。此外,技术元数据对于正在进行数据仓库的维护及扩充来说是绝对严格的。如果没有技术元数据,对决策支持系统的分析和改变实现任务就会变得更为困难,并将耗费更多的时间。 业务元数据是数据仓库和业务人员之间的连接。业务元数据向用户提供用于访问数据仓库中数据,以及数据集市的路标。业务人员主要是主管经理或者业务分析师,他们往往没有很强的技术背景。于是他们需要以他们的业务术语定义DSS 系统。就业务意义而言,业务元数据代表在数据仓库中的报表、查询和数据是什么、数据的位置、数据的可靠性、数据的上下文语境、使用过哪些转换规则、以及数据来源于哪个系统。
ODS(Operation Data Store) 可将操作数据源定义为用于企业级战略决策的可修改的集成数据集。该数据源包括无快照的实时数据,并可保留少量历史记录。ODS 所拥有的诸如面向主题、集成、详细等特点可能会使其非常适用于数据挖掘。因为没有足够的历史记录信息,因而仅凭这些特点并不能使ODS 成为用于挖掘/训练等的好的数据源。
二、分析环节 表现层和分析层是 BI 体系结构中最重要的组成部分
报表和查询 创建报表是在组织机构中分发信息的一般方法。报表一般是静态数字和表格,这两者是利用常规时间间隔,或针对特殊要求而生成或进行分发的。使用自动报表工具将您数据仓库中的信息通过Web 或电子邮件分发到您公司的大量用户(内或外部)是一种极有效的方法,这将从信息中获取极大优势。 要求直接创建自己的报表,或希望在现有报表中详细说明数据的用户将使用组合查询及报表工具。通过使业务人员能设计自己的报表和查询,可大大减少分析部门的工作量,并且为您公司带来业务利益的大量(非技术)员工和客户均能轻松访问宝贵信息。与传统报表相比该报表还使您的业务人员始终能访问有关您业务的最新信息。因此,这还能使他们能够对客户所提问题做出快速的回答。
联机分析处理(OLAP) 在前十年间,大多数的公司数据已移植到关系数据库中。关系数据库在操作与控制领域中使用频繁,事务(例如,制造工艺控制、佣金交易)是该频繁使用的主要重点。为在该领域获得成功,关系数据库厂商鼓励高效执行大量小型事务,以及数据的近似容错能力.最近,关系数据库厂商还将其数据库作为构建数据仓库的工具进行出售。数据仓库可储存回答有关过去事件的“谁?”和“什么?”等问题的战略信息。所提交到数据仓库的一般查询有:“第三季度东部地区的总收入为多少?” 区别数据仓库的功能与联机分析处理(OLAP)系统的功能十分重要。与数据仓库——通常基于关系型技术——对于OLAP 使用聚集数据的多维视图来提供对战略信息的快速访问,以便进行更进一步分析之用。通过对多种可能的信息视图进行快速、一致及交互式访问,OLAP 可使分析师、管理人员和行政主管能够深入了解数据。OLAP 可以将原始数据按用户所理解的企业的真实维度进行转换。 在OLAP 系统能够回答“谁?”和“什么?”问题的同时,它还能够回答数据“如果……会怎么样?”和“为什么?”这正是其与数据仓库的不同之处。OLAP 可实现有关未来行动的决策。
统计 统计工具一般用于解决生成您数据库中数据总观的业务需求。通过使用可以将数据中的信息汇总成为统计值来执行这一过程,该统计测量无需详细理解数据库中的每个记录便可得到解释(例如,像发现最大值、最小值、平均值或均差这样的统计功能应用)。解释所获得的结果需要一定水平的统计知识。
数据挖掘(Data Mining) 然与统计分析相比,数据挖掘可分析所有您数据库中的相关数据,并可提取暗藏的模式。数据挖掘在某些程度上基于用于统计分析的技术和规则。然而,用于数据挖掘的算法可以使许多单调乏味的程序自动化,这些程序是您在使用传统统计分析获得相同程度的分析时将会经历的。
OLAP 与数据挖掘 OLAP 与数据挖掘项目可以使用相同的基础设施。星型模型的建设以及构建数据仓库的抽取/转换/加载步骤由IT 部门负责。当然,IT 部门应考虑业务人员的OLAP 需求按多维立方体(CUBE),报表及数据挖掘模型去设计数据仓库。OLAP 与数据挖掘可以使用相同的数据、概念、元数据和工具,也可以协同进行,还可以通过集成它们在数据仓库中的结果互相取长补短。
资料来源:IBM Intelligent Miner for Telecom
|