商业智能领域 --知识、技术、平台、发展、业界...  
载入中……
  博客登陆
         欢迎加入
           BI Club-1 QQ群:2635140满
           BI Club-2 QQ群:42350958
                       ttnn BI View
                   Data Mining Club
  最新评论
载入中……
  留  言  板
载入中……
  友情链接



  日志信息
载入中……

再谈搜索与BI  [Nirvana2000 发表于 2007-4-25 0:13:00]

    资讯发达的现代社会,想要从海量信息中获取所需知识,再也不是单单靠老师传道授业解惑就能解决问题了。互连网的高速发展,让我们抓到了最后一根救命稻草,引用一句流行的话,那就是 “今天,你google了吗?”
    搜索引擎在查询大众知识,新闻资讯等方面有强大优势,但就商业领域,对一个企业的决策者来说 ,想要获得对企业决策有帮助的关键数据和信息,靠搜索是远远不够的。商业智能自然就应运而生,谈到智能,大家很自然会想到智能如何体现:查询?搜索?检索?分析?商业智能和搜索到底有多大联系,或者说这种联系本身就是一种牵强附会。商业智能的概念,框架体系,技术细节性的东西在我的其它搏客文章中有具体介绍,这就不用赘述了。
    在下面,主要对商业智能这个体系下面涉及到的几大块和搜索引擎(搜索引擎我只了解些概念,有不当的地方欢迎朋友们提出来)中的一些技术做个简单的类比:

BI                                        Search Engine
OLTP数据源,内部,外部数据源     互连网资源(网页,图片,文档、视频,音频)
抽取,清洗,转换(ETL)            Spider采集,清洗,抽取,特征,索引等
ODS,数据仓库,数据集市           索引数据库,URL数据库等
OLAP,DM,Report,查询          查询,检索,排序,聚类分类显示
 
    从上面的比较可以看到,虽然一些环节处理涉及到的操作类似,但就其实现原理BI和搜索引擎是有着本质区别的。当然BI里面涉及到的WEB数据仓库,WEB挖掘技术由于其加工数据都是网络资源,因而其处理方式和搜索中的一些处理环节有很大相关性。上次在chinaunix论坛里面看到一个朋友说用搜索引擎完全可以代替商业智能技术,这确实也太夸大了,欢乐兄认真地反驳了该观点。
    虽然说搜索引擎和BI有些环节的实现有些相似之处,但硬是要把这两个概念联系起来,或者是把其中某些环节等同起来,是不合适的。
    不过值得一提的是,不管是提高搜索引擎的查全率,查准率,还是提高客户搜索满意度,比如查询反馈,查询词扩展,信息推送业务等等,搜索引擎和文本挖掘结合是必然结果。文本挖掘属于数据挖掘范畴,数据挖掘又可能说成是和BI相关的技术,这样看来还是有很大关系的;再就是搜索引擎海量的索引数据库,关键词数据库等本身就具有数据挖掘的需求,比如关键字扩展查询除了自然语言处理技术以外,关联挖掘也是种很好的方法,搜索WEB日志的挖掘更是会发现很大的商机,也许说不定对搜索引擎的未来的商业模式会起到一定推动作用呢,这些现在谁都说不准。不过可以肯定的是不管是GOOGLE还是百度,对海量数据挖掘的研究一直在深入,网络上也出现了一批比较优秀的自动对搜索结果进行聚类,分类的搜索引擎,在提高客户搜索满意度方面,这只是起步。

    个人觉得企业搜索领域倒是和BI有着不错的优势互补,BI发展到一定程度和企业搜索技术的结合是必然的(几大BI厂商和搜索巨头的合作正在进行,不知道为什么百度会反其道而行放弃企业搜索部门,而裁掉的员工一下子全被国外一个做ES的公司收编,这是题外话了:),到那个时候,没有复杂的自定义查询报表,没有复杂的OLAP分析,这一切都通过企业搜索接口搞定,那时候也许就是真正智能化企业时代的到来了,不过这还需要很长的一段路要走,消除歧义,查询结果的匹配,用户查询关键字的相关性等等太多的问题需要解决。就像ttnn BI的庆兄说的:“将搜索技术融入BI,我想最值得借鉴的就是前者的应用模式。当什么时候BI的应用能够像提供一个搜索框那样简单的界面,屏蔽后台那些报表、OLAP、挖掘之类的-技术,那应该就是BI全面爆发的时候。”我觉得现在讲把搜索技术全面融入BI还为时尚早,也顶多是企业搜索领域和BI的一小部分应用有关而已;但把BI范畴的一些技术(仓库,挖掘,OLAP分析等)融入搜索引擎却是大有可为,各大搜索巨头也开始注意到这方面了,WEB数据仓库,WEB数据挖掘(行为挖掘,结构挖掘,日志挖掘),查询词关联分析等。当然这些应用的大部分效果是在搜索服务商企业内部中体现出来的;而对像我等亿万搜索用户来讲,还是期待第四代搜索引擎-智能型搜索引擎的到来吧。


下面引用了一些BI与Search相关的专题和讨论,感兴趣的朋友可以去看看。
1、BI+搜索=?
《ttnn BI》论坛
http://groups.google.com/group/ttnn/browse_thread/thread/ed9ee5a12f853ab5/d6c3c6c4a527c548?lnk=raot#d6c3c6c4a527c548
有一种趋势预测,说BI跟搜索将会结合。关于这个话题,ttnn中曾有所讨论,大家也赞同融合搜索是BI的趋势之一。
以前并没有细想他们之间的联系,他们之间共同点似乎是在一堆乱七八糟的东西里面筛选出有价值的东西。BI号称从数据提取信息,再从信息提取知识。而搜索号称是从-垃圾数据里面提取金子。特别后者在对非结构化信息的处理上面,肯定是目前BI的技术不能解决的。将两者结合成为未来的BI趋势之一,恐怕得从更高的层面来分析了-。
是否是趋势并不只是看用户的需求,厂商的宣传介入力度同样有很大影响。我想这里头google的力量不容小觑吧。所以,也不用费脑子去想他是否真的是趋势,反正-在最近几年里面,很多厂商愿意将两者绑在一起说事。
上个礼拜,《网络世界》要针对这个话题采访我。开始我以为是因为自己跟他们熟络,找不到人才找我的。但毕竟对这个话题没有好好考虑,便上网搜了一把。发现一个问-题,国内关于搜索和BI结合的文章还真的不多,可见这个趋势至少在国内是还没见动静的。搜索出来的链接不少,但大多是重复的,转过来转过去。转的较多的主要有两-篇相关的文章。一篇叫做《当搜索遇到商业智能 BI搜索有何不同?》,看内容,恐怕是从国外网站翻译过来的一篇。另一篇是讲google跟BI的,内容一样,名字却很多种。比如《Google已经悄悄部署世-界上最大数据仓库》、《BI高攀Google》、《当Google爱上BI》...打开一看,发现文字很熟悉,看了一半,发现原来这篇是我自己写的。这才明白,-恐怕记者是先接到了这个选题,也如我这般上网搜索,却发现主要这两篇文章。另一篇找不到主,于是便找到了我。
我一直对这个BI+搜索不是非常感冒,文章中很明显表露。不过我是个悲观主义者。从两者的技术逻辑看,他们两个融合并不值得大说特说。但从当今的热点和市场宣传-出发,将他们渲染成为一个大趋势,发现到也是情理之中的。
BI跟搜索比,显然在热度和成熟度方面还不太够。因此,《BI高攀Google》这个名字真的道出这个潜台词。在BI没有产生新概念的时候,需要引入新的东西,-这时候,搜索技术就是个非常好的选择。这不,cognos、sas、bo纷纷跟google走到一起。而《当google爱上BI》这个标题表达了不同的含义,-这意思是说当今的搜索技术需要寻求BI技术的帮助。我认为第一个标题恐怕更加合适,这是目前BI厂商积极推进的另外一个新概念而已。
搜索有专业的核心技术,有简洁的应用模式(至少是被证明了的)——一个搜索框就OK了,可以说搜索是技术型的。BI是应用型的,更多是整合之类的事情,跟人打交-道比较多,但至今BI的应用模式仍然不够简洁。报表恐怕是最简洁的,但体现的价值有限。其他的诸如OLAP、数据挖掘,大家并不容易明白怎么跟自己的业务结合起-来应用。DW、OLAP、DM的概念已经毫无新意,BPM、MDM、Operational
BI也叫嚣好几年了,需要新概念刺激。也许真的是就是搜索技术。从另一方面分析,BI的核心技术在什么地方,在数据整合,在数据分析上面。将搜索技术融入其中的-一个考虑是将将非结构化数据管理起来,这是BI的一个野心,却有可能偷鸡不成蚀把米——反倒丢了自己管理结构化数据的地位,那就划不来了。
将搜索技术融入BI,我想最值得借鉴的就是前者的应用模式。当什么时候BI的应用能够像提供一个搜索框那样简单的界面,屏蔽后台那些报表、OLAP、挖掘之类的-技术,那应该就是BI全面爆发的时候。


2、Google和BI有什么关系?
Google和BI有什么关系?这个站在风头浪尖的公司,用"火"字来形容不为过。将BI跟它扯上关系,似乎有些攀高亲的意思。现在,BI确实已经和搜索技术联?系起来,后者正是google的擅长所在。而对于BI厂商,在产品中融入搜索的功能似乎也是一个潮流,例如BO在前几个月发布的一个什么版本中也着重强调它的模?糊搜索功能。
对于非结构化的文本搜索方面,ttnn中曾经好几次谈到这个话题。搜索、文本挖掘,这些技术是相似的,特别是后者中,出现了"挖掘"的字样,很明显和数据挖掘这?个术语关联到一块。以前曾经听一个公司介绍他们的文本挖掘产品,主要特点就是订阅关键字,然后从各新闻网站中采集到相关的内容。此处的相关,按照这个产品的说法?,并非简单的文字匹配,还考虑到语义。例如搜索BI,也能够将相近的,诸如"商业智能"、"商务职能"都纳入搜索范围的。并且可以会一些关联性分析之类的东东,?例如关键词主要出现的位置,和哪些词一起出现的频率。这种技术应用在竞争情报分析上面还是挺有趣的。现在,搜索引擎大多也在提供类似的功能,google有al?ert,也是通过订阅关键字,返回相关的网页链接。百度也有这样的东东。但显然,他们的特点在于搜索,也就是信息采集阶段,分析的功能还是不够强。
如果将对这种非结构化的信息处理和传统数据仓库中ETL相比,搜索就相当于E的位置,它负责抽取。而网络上各种新闻、文档,也就成了数据源。如果要对非结构化信?息进行分析,还是得转换成结构化的,也就必须要经过转换,甚至装载的步骤。
这种需求似乎也正在出现,最近一段时间,就听到客户需要这么一个东东——能够搜索本地文档的工具。这些文档包括mail、pdf、word文档等等。一听到这样?的需求,不就是google
desktop提供的功能吗?正好自己机器上装了,便演示一把,果然不错。但还需要改进的是,能够有权限控制,不同的用户能够搜索到不同级别的文档。另外,当然?就看能不能将这个界面整合到自己的portal当中去了。
除了搜索技术,去年年底的时候,google曾经买下一家作web分析的公司(Urchin),并且将它作为一种免费的服务放在网上。一开始,只要有googl?e帐号的都可以自动申请服务,后来改成审批申请了。这项服务可以为网站监控流量,从哪里来,往哪里去,访问次数等等,提供一些可视化报表来展现。分析部分是非常?简单的,普通的报表展现。后台则是要求你在网页上嵌入一段代码,可以采集到网站的访问信息。当这项免费服务推出的时候,那些原来在这项领域中,现在成为goog?le竞争对手的公司,想必非常恼火吧。
再看看数据分析一块,最常用的数据分析工具是什么?Excel算是吧,或者称之为一种spreadsheet产品。现在google也有类似的玩意儿,在
http://spreadsheets.google.com ,也可以申请帐号一试。不过还好,功能还是比较简单,顶多是些公式计算的功能,远没有达到MS
Excel那样复杂的程度,譬如作图就不行。但也有其本身的特点,因为是在网络上面的,因此google似乎就是强调可以share spreadsheet。
不过其实可以看到google这些产品和服务,多还是围绕它搜索的核心的,说得虚一些,都可以叫做信息采集。配一些简单的分析功能,倒能形成比较完整的服务,但?如果要说专业,还不算。因此,google也选择了和专业BI厂商合作,譬如它的企业级搜索产品Onebox,就已经和Cognos、SAS展开合作。
BI的内容不少。这些大家伙们其实也都是比较专注的,其中单独的模块都能形成独特的产品,譬如元数据、数据质量,更别提这一块信息采集了。只是国内的这种市场并?没有细分,"专注"对于公司来说确实是一个不小的考验。

 


阅读全文 | 回复(0) | 引用通告 | 编辑 

发表评论:
载入中……

    

<TTNN杂志列表>                                <Blog文章导航>                                        <BI资源列表>

Powered by Oblog.