如何从根源上解决 HDFS 小文件问题

  • 时间:
  • 浏览:0
  • 来源:uu快3官方邀请码_uu快3app赚钱_彩神8

评论

0/30000

之前 您发现本社区含有涉嫌抄袭的内容,欢迎发送邮件至:yqgroup@service.aliyun.com 进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。

展开阅读全文

我们我们我们 知道,HDFS 被设计成存储大规模的数据集,我们我们我们 还必须在 HDFS 上存储 TB 甚至 PB 级别的海量数据。而哪些数据的元数据(比如文件由哪些块组成、哪些块分别存储在哪些节点上)完整都有由 NameNode 节点维护,为了达到高效的访问, NameNode 在启动的之前 会将哪些元数据完整加载到内存中。而 HDFS 中的每三个 多多多文件、目录以及文件块,在 NameNode 内存都有有记录,每二根信息共要占用3000字节的内存空间。由此可见,HDFS 上指在少量的小文件(这里说的小文件是指文件大小要比三个 多多多 HDFS 块大小(在 Hadoop1.x 的之前 默认块大小64M,还必须通过 dfs.blocksize 来设置;只是 到了 Hadoop 2.x 的之前 默认块大小为128MB了,还必须通过 dfs.block.size 设置) 小得多的文