Benjamin

静以修身，俭以养德，非澹薄无以明志，非宁静无以致远。

随笔 - 397, 文章 - 0, 评论 - 196, 引用 - 0

数据加载中……

HDFS简介

HDFS，其实是Hadoop Distributed File System的简称即分布式文件系统，基于Hadoop分布式集群来实现大规模数据存储。

HDFS对需要存储的数据，进行写入和读出，通过“目录树”来定位文件。当收到数据存储请求时，HDFS将文件进行分块（Block），一批数据会被分成若干个Block，然后分配到集群当中的计算机进行存储；当需要提取这些数据时，再通过定位文件所在位置，找到需要的数据。

基于这样划分数据块的做法，一个文件的大小可以大于网络中任意一个磁盘的容量。文件的所有块不需要存储在同一个磁盘上，因此它们可以利用集群上的任意一个磁盘进行存储。

简化了存储子系统的设计，将存储子系统控制单元设置为块，可简化存储管理，同时元数据就不需要和块一同存储，用一个单独的系统就可以管理这些块的元数据。并且，数据块适合用于数据备份进而提供数据容错能力和提高可用性。

HDFS进行数据存储时，涉及到三个节点，Namenode，Datanode以及Secondary Namenode。

Namenode：HDFS的守护进程，用来管理文件系统的命名空间，负责记录文件是如何分割成数据块，以及这些数据块分别被存储到那些数据节点上，它的主要功能是对内存及IO进行集中管理。

Datanode：文件系统的工作节点，根据需要存储和检索数据块，并且定期向namenode发送他们所存储的块的列表。

Secondary Namenode：辅助后台程序，与NameNode进行通信，以便定期保存HDFS元数据的快照。

posted on 2024-02-12 22:46 Benjamin 阅读(77) 评论(0) 编辑收藏引用所属分类: 数据库

只有注册用户登录后才能发表评论。
【推荐】100%开源！大型工业跨平台软件C++源码提供，建模，组态！

相关文章: MySQL切换PostgreSQL注意事项 Reids持久化之AOF Redis持久化之RDB Reids集群的Redis Cluster模式 Redis集群的Sentinel(哨兵)模式的搭建 HDFS简介 mongodb添加账号及权限 sql server导入mdf和ldf文件 mysql ERROR 1698 (28000) 解决方法 linux+redis查看zset类型数据

网站导航: 博客园 IT新闻 BlogJava 博问 Chat2DB 管理