打印本文 打印本文  关闭窗口 关闭窗口  
Hadoop和Cassandra的近期合作
作者:杜号权  文章来源:本站原创  点击数  更新时间:2011/4/18 8:56:12  文章录入:admin  责任编辑:秦晓健

开源软件公司DataStax于上周三宣布,该公司正在研发一套软件,BriskCassandra的非关系型数据库与Apache Hadoop的数据处理框架结合起来,把看似在价值观上相互矛盾的快速的数据访问与深入的分析相融合。

DataStax公司(之前被称为Riptano)创始人之一兼首席执行官(CEO) 麦特。费沃说,被称为Brisk的新产品会结合低延迟的数据存储和提取与对这一数据进行深入的数据分析。

通常,Cassandra被用于网络2.0的公司,这些公司需要一种快速、可扩展的方法来存储简单的数据集,而Hadoop则被用来分析横跨许多服务器的大量数据。

通常情况下,依靠实时数据库运行繁重的数据分析已经不被看好,因为它会拖慢数据库的反应速度。然而,这次宣布的软件,DataStax利用了Cassandra能够在多个节点之间分发数据的优势。

通过这个设置,数据可以被重复, 交换服务器将保留一份副本,而另一份存放于服务器的数据副本将被用来进行分析。“这两部分的数据不会相互干扰,”费沃说。

费沃解释说,最初的客户可能是互联网服务公司,这些公司已经使用了Cassandra进行大批量数据的抓取和检索。DataStax公司还向其他企业销售这一软件,作为一种潜在的低成本并且速度快的数据库和 CIO/dwh/> 数据仓库选择

The initial version of Brisk will use Hadoop version 0.20.2, the Hive data warehouse infrastructure version 0.7, and Cassandra 0.7.4. It will keep Hadoops MapReduce, job tracker and task tracker functionality, but will replace the underlying Hadoop File System (HDFS) with a Cassandra interface called CassandraFS, explains a DataStax white paper describing the technology.

一份DataStax的白皮书中这样描述它的技术:Brisk的初期版本将会使用Hadoop版本0.20.2Hive数据仓库基础版0.7Cassandra 0.7.4版。它将继续沿用Hadoop MapReduce,作业跟踪器和任务跟踪功能,但将用被称为CassandraFS Cassandra界面替换基本Hadoop文件系统(HDFS)

Apache开源软件授权,DataStax计划于近两个月之内,发行此分发数据库。
打印本文 打印本文  关闭窗口 关闭窗口