诗与远方

[转载]列存储数据库:apache的cassandra

最近想了解点大数据方向的东西,然后就放狗搜了一遍:无外乎hadoop,spark之类的,想到以前听说过也简单的看过hadoop相关资料,这个东西感觉挺麻烦的,要装hdfs,存数据要找hbase。虽然它目前是一个比较火的东西,但是一般用户也搞不定它。因为我想的既然说到大数据,那么首先得要找存储的东西,因为只有存起来你才能更好的利用这些数据。我比较理想的数据存储方案是:能够横向扩展:要比oracle、mysql这些方便;性能够高:不能因为扩展问题丢了性能。

1、首先排除的是hadoop的hbase:我没有这么多精力去玩它,并且里面的元节点的设计感觉也是麻烦的事。

2、然后排除swift:记得当时在成都Intel举办的一场小型技术研讨会,里面说到用openstack的swift存储数据,并且从资料上看这个东西是没有元节点的问题。不过当时他们提供的测试性能主要是针对多读少写的情况,写的速度大概在5-10MB/s(这个有点时间了,可能有出入),另外从百度文库的《openstack Swift安装测试报告》也有相似的结论;由于是对象存储,缺少某些查询支持;安装复杂:这个结论可以从《openstack Swift安装测试报告》上得出。

3、最后查询到apache的cassandra:

百度百科是这样描述它的:

Cassandra是一套开源分布式NoSQL数据库系统。它最初由Facebook开发,用于储存收件箱等简单格式数据,集GoogleBigTable的数据模型与Amazon Dynamo的完全分布式的架构于一身Facebook于2008将 Cassandra 开源,此后,由于Cassandra良好的可扩放性,被Digg、Twitter等知名Web 2.0网站所采纳,成为了一种流行的分布式结构化数据存储方案。

通过cassandra的官方站点的资料,看到它也没有元节点的概念,自成一个环形,能够线性扩展,安装简单……总之很多优点;当然查到说facebook后来放弃了它,还是用了hbase(这个就管不了了,从技术上说它还是不错的)。目前(屁民瑞威写文章的时候:2014-08-25)最新稳定的版本是2.0.10,接下来的一些文章将简要介绍这个被facebook遗弃的孤儿。

参考:

百度文库:《openstack Swift安装测试报告》

百度百科:http://baike.baidu.com/view/1350234.htm;

cassandra官方站点:http://cassandra.apache.org/。

原文地址:http://pimin.net/archives/81