网站建设 >

查看其它板块

Hadoop中HDFS小文件产生场景及其处理方案

影响：
    1、文件的元数据存储在namenode中，每个文件的元数据都差不多大，小文件过多会极大的占用namonode
的内存，制约集群的扩展。（主要影响）
    2、在对小文件进行处理的时候，一个小文件对应一个maptask，一个maptask会起一个jvm进程，进程的
开启销毁会严重性能。（jvm复用）

产生场景：
    1、实时处理：比如我们使用 Spark Streaming 从外部数据源接收数据，然后经过 ETL 处理之后存储
       到 HDFS 中。这种情况下在每个 Job 中会产生大量的小文件。
    2、hive中对表执行insert操作，每次插入都在表目录下形成一个小文件。
       创建表结构相同的表，create table t_new as select * from t_old;
       老表根据实际情况可以删除就删除。
    3、hive中执行简单过滤操作，符合过滤条件的数据存在很多block块中，只走map，map输出有很多小文    
       件。 
        开启map端的聚合。       
    4、mapreduce正常执行产生小文件。
        将mapreduce输出不直接写hdfs，而是写入到hbase中。
        设置map端文件合并及reduce端文件合并。
    5、输入数据文件为小文件。
        小文件合并后再计算。
        CombineFileInputFormat： 它是一种新的inputformat，用于将多个文件合并成一个单独的    
                            split，另外，它会考虑数据的存储位置。

通用处理方案：
1、Hadoop Archive
    Hadoop Archive或者HAR，是一个高效地将小文件放入HDFS块中的文件存档工具，它能够将多个小文件
打包成一个HAR文件，这样在减少namenode内存使用的同时，仍然允许对文件进行透明的访问。

2、Sequence file
    sequence file由一系列的二进制key/value组成，如果为key小文件名，value为文件内容，则可以将
大批小文件合并成一个大文件。

底层处理方案：
HDFS-8998:
    DataNode划分小文件区，专门存储小文件。一个block块满了开始使用下一个block。
HDFS-8286：
    将元数据从namenode从内存移到第三方k-v存储系统中。
 HDFS-7240：
    Apache Hadoop Ozone,hadoop子项目，为扩展hdfs而生。

网站名称：Hadoop中HDFS小文件产生场景及其处理方案
文章转载：http://www.cdkjz.cn/article/ppgisg.html

返回首页了解更多建站资讯

多年建站经验

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

咨询相关问题或预约面谈，可以通过以下方式与我们联系

大客户专线成都：13518219792 座机：028-86922220

在线咨询提交需求

友情链接交换友情链接

西部信息服务器托管德昌麦琪建站成都小程序开发公司成都网站建设公司成都网站维护微信服务号订阅号开发成都联通服务器托管高端网站设计推广名片设计犀浦封阳台

成都网站建设公司地址：成都市青羊区太升南路288号锦天国际A座10层建设咨询028-86922220

专家团队为您提供成都网站建设,成都网站设计,成都品牌网站设计,成都营销型网站制作等服务,成都建网站就找快上网！ | 成都网站建设哪家好？ | 网站建设地图

网站建设

网站推广

案例

方案

电商网站开发

微信小程序

我们

联系

精准传达 • 有效沟通

查看其它板块

Hadoop中HDFS小文件产生场景及其处理方案

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接

网络推广

Network promotion

网站方案

Solution

电商网站开发

E-commerce & System

我们

About Us

联系

Contact Us

精准传达 • 有效沟通

查看其它板块

Hadoop中HDFS小文件产生场景及其处理方案

相关资讯

阿里云服务器怎么生成镜像 阿里云自定义镜像导入与使用

姓域名怎么设置 域名怎么写

阿里云服务器传大文件 阿里云内网传文件

腾达路由器好用吗 腾达路由器好用吗一个月网费多少

linux终端拷贝命令 linux 拷贝命令

bi系统和sap系统区别的简单介绍

帝国cms手机版伪静态 帝国cms 手机

go语言范式 go语言模板

多一份参考，总有益处

联系快上网，免费获得专属《策划方案》及报价

大客户专线 成都：13518219792 座机：028-86922220

友情链接 交换友情链接

阿里云服务器怎么生成镜像阿里云自定义镜像导入与使用

姓域名怎么设置域名怎么写

阿里云服务器传大文件阿里云内网传文件

腾达路由器好用吗腾达路由器好用吗一个月网费多少

帝国cms手机版伪静态帝国cms 手机

大客户专线成都：13518219792 座机：028-86922220

友情链接交换友情链接