Friendfeed的MySQL key/value储存【转】

Friendfeed的MySQL key/value存储【转】

http://timyang.net/data/friendfeed-mysql-schema-less/

这是一篇2009年初的资料How FriendFeed uses MySQL to store schema-less data,相信大部分人已经看过了。如Fenng的中文介绍FriendFeed 使用 MySQL 的经验。本文从不同的角度再补充下。作者几个月前也曾经在广州技术沙龙作过一次Key value store漫谈的演讲，许多参会人员对key value方向存在强烈的使用意愿，但同时也对完全抛弃MySQL存在疑虑，本文介绍的方案也可以给这些人员一些架构参考。

需求

250M entities, entities表共有2.5亿条记录，当然是分库的。

典型解决方案:RDBMS

问题：由于业务需要不定期更改表结构，但是在2.5亿记录的表上增删字段、修改索引需要锁表，最长需要1小时到1天以上。

Key value方案

评估Document类型数据库，如CouchDB
CouchDB问题：?Performance？广泛使用？稳定性？抗压性？

MySQL方案

MySQL相比Document store优点：

不用担心丢数据或数据损坏
Replication
非常熟悉它的特性及不足，知道如何解决

结论

综合取舍，使用MySQL来存储key/value(schema-less)数据,value中可以放：
Python dict
JSON object

实际friendfeed存放的是zlib压缩的Python dict数据，当然这种绑定一种语言的做法具有争议性。

表结构及Index设计模式

feed数据基本上都存在entities表中，它的结构为

mysql> desc entities;
+----------+------------+------+-----+-------------------+----------------+
| Field??? | Type?????? | Null | Key | Default?????????? | Extra????????? |
+----------+------------+------+-----+-------------------+----------------+
| added_id | int(11)??? | NO?? | PRI | NULL????????????? | auto_increment |
| id?????? | binary(16) | NO?? | UNI |?????????????????? |??????????????? |
| updated? | timestamp? | YES? | MUL | CURRENT_TIMESTAMP |??????????????? |
| body???? | mediumblob | YES? |???? | NULL????????????? |??????????????? |
+----------+------------+------+-----+-------------------+----------------+

假如里面存的数据如下

{
"id": "71f0c4d2291844cca2df6f486e96e37c",
"user_id": "f48b0440ca0c4f66991c4d5f6a078eaf",
"feed_id": "f48b0440ca0c4f66991c4d5f6a078eaf",
"title": "We just launched a new backend system for FriendFeed!",
"link": "http://friendfeed.com/e/71f0c4d2-2918-44cc-a2df-6f486e96e37c",
"published": 1235697046,
"updated": 1235697046,
}

如果要对link字段进行索引，则用另外一个表来存储。

mysql> desc index_link;
+-----------+--------------+------+-----+---------+-------+
| Field???? | Type???????? | Null | Key | Default | Extra |
+-----------+--------------+------+-----+---------+-------+
| link????? | varchar(255) | NO?? | PRI |???????? |?????? |
| entity_id | binary(16)?? | NO?? | PRI |???????? |?????? |
+-----------+--------------+------+-----+---------+-------+
2 rows in set (0.00 sec)

优点是

增加索引时候只需要 1. CREATE TABLE，2.更新程序
删除索引时候只需要 1. 程序停止写索引表(实际就是一个普通表)，2. DROP TABLE 索引表

这种索引方式也是一种值得借鉴的设计模式，特别是key value类型的数据需要索引其中的内容时。

1 楼 w11h22j33 2011-11-01

multicache4j – 为Java集成各种cache组件和ehcache

http://blog.csdn.net/liuzhongbing/article/details/6148675

项目地址：http://code.google.com/p/multicache4j/

2 楼 w11h22j33 2011-11-01

免责声明： 本文仅代表作者个人观点，与无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

需求

典型解决方案:RDBMS

Key value方案

MySQL方案

结论

表结构及Index设计模式

相关资料

相关文章：

你感兴趣的文章：

标签云：