加入收藏 | 设为首页 | 会员中心 | 我要投稿 唐山站长网 (https://www.0315zz.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 传媒 > 正文

一文读懂HDFS架构与设计

发布时间:2021-02-24 14:11:29 所属栏目:传媒 来源:互联网
导读:Hadoop Distributed File System)是我们熟知的Hadoop分布式文件系统,是一个高容错的系统,能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS以流式数据访问模式存储超大文件,将数据按块分布式存储到不同机器上, 并被设计成 适合运行在普通廉

Hadoop Distributed File System)是我们熟知的Hadoop分布式文件系统,是一个高容错的系统,能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS以流式数据访问模式存储超大文件,将数据按块分布式存储到不同机器上, 并被设计成 适合运行在普通廉价硬件之上。 本文根据Hadoop官网HDFS Architecture这一章节提炼而成, 加上笔者自己的理解,希望能够帮助读者快速掌握HDFS 。

2 HDFS特点

流式数据访问:这点初学者可能不好理解,流式数据访问模式是HDFS数据访问特点之一,是指收集到部分数据就开始处理,而不是收集到全部数据再处理,否则会导致比较大的延迟,也会消耗大量内存。

大规模数据集:HDFS对大文件存储比较友好,HDFS上的一个典型文件大小一般都在GB至TB级。

一次写入多次读取:HDFS数据访问特点之一,文件经过创建、写入和关闭之后就不能够改变。这也简化了数据一致性问题,并且使高吞吐量的数据访问成为可能。

不支持低延时数据访问:这也是HDFS数据访问的特点,HDFS关系的是高吞吐量,不适合那些低延时数据访问的应用。

单用户写入,不支持任意修改:HDFS的数据以读为主,只支持单个写入者,并且写操作总是以添加的形式在文末追加,不支持在任意位置进行修改。

3 HDFS架构

HDFS采用Master/Slave架构。一个HDFS集群有两个重要的角色,分别是Namenode和Datanode。Namenode是管理节点,负责管理文件系统的命名空间(namespace)以及客户端对文件的访问。Datanode是实际存储数据的节点。HDFS暴露了文件系统的命名空间,用户能够以操作文件的形式在上面操作数据。HDFS架构图如下:

(编辑:唐山站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读