载入中…
公告栏:
当前位置: 中国商业智能网 >> 资讯 >> BI资讯 >> 文章正文
大数据的小世界
作者:中国商业智能网    来源:本站原创    点击数:    时间:2012-4-19
【摘要】当我们谈论大数据和数据仓库时,提及Hadoop几乎是不可避免的。

当我们谈论大数据和数据仓库时,提及Hadoop几乎是不可避免的。

但Hadoop并非空穴来风,就像大多数的大数据技术,它在这一领域与其它技术具有密切的关系。在这种情况下,Hadoop利用映射/缩减技术形成一种数据框架,用以存储数据,而且获得这些数据的应用程序可以运行,可以追溯到另一种数据仓库技术: 企业搜索。

企业搜索,也称为实时搜索,是一种数据存储的方法,应用搜索的观念并将其应用于大量的非结构化或部分结构化的数据(如文件)的收集时。

最好的文件储存系统将利用某种XML或基于SGML的标记,让那些文件的内容很有条理。但在现实中,文件会与这种理想的标记有些出入。这也正是企业搜索的用武之地了。

企业搜索产品,比如ElasticSearch, Apache Lucene和 Apache Solr,用一种被称为切面的概念,让你能像关系型数据库中的字段那样处理文件中的数据。从本质上来说切面是反相索引,让你在一份文件中找到具体的信息,如地址或者其它的客户信息。

企业搜索最好用在你把一大套这种类型的文件精选一遍时,而且需要做一些简单的数据挖掘商业智能BI)分析。结构化数据越多越好: 企业搜索在处理网络博客这样的文件时确实很好,它有一致的结构化足以能够更深的数据挖掘。

企业搜索和当前被大肆宣传的Hadoop之间的连接在于两种技术的创造者:Doug Cutting。Cutting目前是商业Hadoop供应商Cloudera的一位架构师,他在1998年把, Lucene一起作为一种Java搜索引擎库。

但是生活(与网路的兴起)让Cutting远离了他的Java项目。到2000结束之际,Cutting选择把这个完美的搜索引擎库在SourceForge的 GPL授权之下开源。在潜在用户强烈的回推之后,Cutting后来将授权转向了更少限制的 LGPL。

在该项目于2001年被邀请加入Apache软件基金会时,Cutting被鼓励带着它们去报价,从那时起Lucene就在ASF的保护之下,并在Apache开源协议下授权。

Cutting继续在Lucene工作 ,开发技术进入开源Nutch搜索引擎,它相对于Lucene这样的平台来说是一种完全在线的应用程序。Nutch也偏向于适应于网络搜索,并使用了许多企业搜索中的特性,如网页的抓取,文件格式及文字检测和语法分析。

但是,就算Nutch证明了它的强大功能,它也不能扩展到足以搜索企业级的数据集。多结点的安装,甚至只有四个节点,也将被证明很难管理。在Nutch中任何超过1亿页的空间配置和资源管理都将证明是难以承受的。

因此在2008年,Hadoop诞生了,它利用分布式计算技术并成为Nutch运行的新框架。Hadoop分布式文件系统再加上MapReduce(两者都在谷歌项目上被模仿),将是Nutch框架运行的基础。

Cutting的Lucene不仅培育了基于MapReduce的 Hadoop技术的创造,它还形成了其他企业搜索技术的基础。特别是ElasticSearch和Apache Solr都是使用了Lucene 的Java搜索库的企业网络搜索工具。

在企业搜索领域对于这两个工具哪个更好有很多的争论。据说Solr非常快,但ElasticSearch的分布式能力意味着可以在许多分布式资源上共享工作,因此能提供类似的性能。

技术的进化很有趣,但不只是从一种单纯深奥的立场。了解这些技术如何融合在一起,会让用户更好地了解哪一种解决方案更适合他们。

责任编辑:朱莉   
 
  • 上一篇文章:

  • 下一篇文章:
  • 发表评论】【加入收藏】【告诉好友】【打印此文】【关闭窗口
    ChinaBI版权、投稿与免责申明:
    1)凡本网署名文字、图片和音视频稿件,版权均属中国商业智能网所有。任何媒体、网站或个人未经本网协议授权不得转载、链接、转贴或以其他方式复制发表。已经本网协议授权的媒体、网站,在下载使用时必须注明稿件来源:中国商业智能网,违者本网将依法追究责任。
    2)本网注明“本站来源处不写本站原创”的文章均为转载稿,本网转载出于传递更多信息之目的。如本网转载稿涉及版权等问题,请作者速来电或来函与本网联系。
      网友评论:(只显示最新10条。评论内容只代表网友观点,与本站立场无关!)
    最新热点
    娱乐资讯
    最新推荐
    网站合作、内容监督、商务咨询、投诉建议 电话:0512-62861389  邮箱:chianbi@126.com
    Copyright 2004-2014 中国商业智能网版权所有   |    苏 ICP 备 13004727 号