Cassandra数据分布之5分区器

分区器决定了数据在集群中节点的分布。分区器的功能是通过为每一行数据的分区键(partion key)分配一个令牌(token)，然后通过这个令牌(token)将数据保存在cassandra集群中。

Cassandra提供了如下如下4种分区器。Cassandra中的实现如下图：

ByteOrderedPartitioner：有序分区器，它将键值数据看做是裸字节。LocalPartitioner：对分区键未做任何处理的分区器。Murmur3Partitioner：基于MurmurHash哈希算法，能将数据均匀地分布在集群上。OrderPreservingPartitioner：令牌是基于键值的UTF-8字符串。各行是按照键值的顺序存储的，按照排序顺序对齐物理结构。此分区器查询并不比随机分区器更有效率——它只提供顺序性。它的一个缺点是非常容易让环不均衡，，所以非常有可能导致最后大量数据位于某些节点，而其它节点的数据很少。那些存在很多数据的节点，使得环非常不平衡，常常被看做是“热点”。RandomPartitioner：它使用BigIntegerToken存放MD5哈希值，通过哈希值来决定键值放在环上的具体位置。这样做的好处是可以让键值很均匀地分布到集群中，因为这个分布是随机的。它的不足在与区间查询的效率不高，因为在一个指定区间的键值可能会分布在环上很分散的位置，而且键值的区间查询返回的数据也是随机顺序的。

分区器可以通过修改配置文件cassandra.yaml中partitioner的配置来设置。你也可以实现org.apache.cassandra.dht.IPartitioner接口来创建自己的分区器，并放到Cassandra的classpath下。

参考：cassandra权威指南，官网Partitioner

Cassandra数据分布系列文章：

Cassandra数据分布测试

有时不但是必要的，而且是很有必要的。

相关文章：

你感兴趣的文章：

标签云：