MogileFS 的介绍(MogileFS 系列1)
MogileFS 是一个开源的分布式文件系统,用于组建分布式文件集群,由 LiveJournal 旗下 Danga Interactive 公司开发,Danga 团队开发了包括 Memcached、MogileFS、Perlbal 等不错的开源项目:(注:Perlbal 是一个强大的 Perl 写的反向代理服务器)。
目前使用 MogileFS 的有图片托管网站 yupoo,digg, 土豆, 豆瓣,1 号店, 大众点评等网站。
MogileFS 是 51.com 的存储设计的大师碧轩非常推荐的,51 的集群文件系统也是基于这个原理实现的。简单来讲 MogileFS 是基于 Google File System 实作出来的.
官方的介绍网站:
http://www.danga.com/mogilefs/
Google Code 上的信息
http://code.google.com/p/mogilefs/
这个地址有很多值得读读的信息,还有那些用户在使用 MogileFS ,以级使用多大的量,详细内容见http://code.google.com/p/mogilefs/wiki/Users。
普通文件存储的方法
- rsync
- NAS/SAN
- FTPd
- WebDAV
MogileFS 特性就介绍,官方介绍
(1. 应用层 - 不需要特殊的核心组件
(2. 无单点失败 ― MogileFS分布式文件存储系统安装的三个组件(存储节点、跟踪器、跟踪用的数据库),均可运行在多个 机器上,因此没有单点失败。(你也可以将跟踪器和存储节点运行在同一台机器上,这样你就没有必要用4台机器)推荐至少两台机器。
(3. 自动的文件复制 ― 基于不同的文件“分类”,文件可以被自动的复制到多个有足够存储空间的存储节点上,这样可以满足这个“类别”的最少复制要求。比如你有一个图片网站,你可以设置原始的JPEG图片需要复制 至少三份,但实际只有1or2份拷贝,如果丢失了数据,那么MogileFS分布式文件存储系统可以重新建立遗失的拷贝数。用这种办法,MogileFS(不做RAID)可以节约磁盘,否则你将存储同样的拷贝多份,完全没有必要。
(4. “比RAID好多了”- 在一个非存储区域网络的RAID(non-SAN RAID)的建立中,磁盘是冗余的,但主机不是,如果你整个机器坏了,那么文件也将不能访问。 MogileFS分布式文件存储系统在不同的机器之间进行文件复制,因此文件始终是可用的。
传输中立,无特殊协议 ― MogileFS分布式文件存储系统客户端可以通过NFS或HTTP来和MogileFS的存储节点来通信,但首先需要告知跟踪器一下。
(5. 简单的命名空间 -文件通过一个给定的key来确定,是一个全局的命名空间。你可以自己生成多个命名空间,只要你愿意,不过这样可能在同一MogileFS中会造成key冲突。
(6. 不用共享任何东西 ― MogileFS分布式文件存储系统不需要依靠昂贵的SAN来共享磁盘,每个机器只用维护好自己的磁盘。
(7. 不需要RAID ― 在MogileFS中的磁盘可以是做了RAID的也可以是没有,如果是为了安全性着想的话RAID没有必要买了,因为MogileFS分布式文件存储系统已经提供了。
MogileFS 的结构图
在使用前,我们需要对 MogileFS 有个基本的了解,就是他的三个大的部分,Tracker and Database 和 Storage Nodes, Client 组成。由二个服务进程 MogileFSd 和 mogstored .
如图:
客户端。连接到一个域,然后在域中拿着文件的 key 来查文件的位置,然后通过集群中的位置来打开这个文件
下面的部分的详细介绍
MogileFS 的三个大的部分
前面提到 Tracker and Database 和 Storage Nodes, Client 组成,我们这先不讲 Client.因为Client实际上是一个 Perl 的 pm,可以写程序调用该 pm 来使用 MogileFS 系统,对整个系统进行读写操作。另外,象 nginx 之类有相关的模块。另外也有做成象文件系统一样采用fuse方式挂载.
Trackers(跟踪器 ,调度器)-MogileFSd
这个是 MogileFS 的核心部分,通俗点讲,就他是一个调度器。MogileFSd 进程就是 trackers程序,类似 MogileFS 的 wiki 上介绍的,trackers 做了很多工作,Replication ,Deletion,Query,Reaper,Monitor等等。这个是基于事件的( event-based ) 父进程/消息总线来管理所有来之于客户端应用的交互(requesting operations to be performed), 包括将请求负载平衡到 “query workers” 中,让 MogileFSd 的子进程去处理. mogadm,mogtool 的所有操作都要跟 trackers 打交 道,Client 的一些操作也需要定义好 trackers,因此最好同时运行多个 trackers 来做负载均衡。trackers 也可以只运行在一台机器 上,也可以跟其他程序运行在一起(不建议)
配置文件: /etc/mogilefs/mogilefsd.conf
数据库(MySQL)部分
如上图所显示的,数据库用来存放 MogileFS 的元数据 (命名空间, 和文件在哪里). 是 Trackers 来操作和管理它。你可以用 mogdbsetup 程序来初始化数据库。因为数据库保存了MogileFS的所有元数据,如果这儿挂了,那么整个 MogileFS 将处于不可用状态。因此最好是HA结构。
存储节点(Storage Nodes )-mogstored,Apache,Nginx
实际文件存放的地方. 存储节点是一个 HTTP 服务器,用来做删除,存放,重命名等事情,任何 WebDAV 服务器都可以, 不过推荐使用 mogstored 。 MogileFSd 可以配置到两个机器上使用不同端口… mogstored 为所有 DAV 操作 (和流量监测), 并且你自己选择的快速的 HTTP 服务器用来做 GET 操作(给客户端提供文件). 典型的应用是一个挂载点有一个大容量的 SATA 磁盘,它们被挂载到 /var/mogdata/devNN. 只要配置完配置文件后 mogstored 程序的启动将会使本机成为一个存储节点。当然还需要 mogadm 这个工具增加这台机器到 Cluster 中。
配置文件: /etc/mogilefs/mogstored.conf
MogileFS 的二个服务进程
对应上面的部分
MogileFSd ― MogileFS 的主守护进程,就是上面指的 trackers(跟踪器 ),由 /etc/MogileFS/MogileFSd.conf 这个配置文件控制。
mogstored ― MogileFS 存储守护进程, 这个就是上面指的存储节点(Storage Nodes ),由 /etc/MogileFS/mogstored.conf 这个配置文件控制。
MogileFS 的其它
有几个小工具,主要就是 mogadm,mogtool 这两个工具了,用来在命令行下控制整个 MogileFS 系统以及查看状态等等。我后面会针对这个进行详细的讲解。
建议继续学习:
- 分布式缓存系统 Memcached 入门 (阅读:14828)
- Zookeeper工作原理 (阅读:10603)
- GFS, HDFS, Blob File System架构对比 (阅读:9481)
- Zookeeper研究和应用 (阅读:8617)
- 分布式日志系统scribe使用手记 (阅读:8132)
- 一致性哈希算法及其在分布式系统中的应用 (阅读:8032)
- 分布式哈希和一致性哈希 (阅读:7771)
- HBase技术介绍 (阅读:6861)
- 分布式系统的事务处理 (阅读:6161)
- Memcache分布式部署方案 (阅读:5548)
扫一扫订阅我的微信号:IT技术博客大学习
- 作者:扶凯 来源: 扶凯
- 标签: MogileFS 分布式 文件系统
- 发布时间:2011-09-07 23:21:13
- [51] WEB系统需要关注的一些点
- [49] Go Reflect 性能
- [48] Oracle MTS模式下 进程地址与会话信
- [46] IOS安全–浅谈关于IOS加固的几种方法
- [45] Twitter/微博客的学习摘要
- [45] find命令的一点注意事项
- [45] android 开发入门
- [45] 图书馆的世界纪录
- [44] 如何拿下简短的域名
- [44] 【社会化设计】自我(self)部分――欢迎区