博客
关于我
聊聊HDFS中的副本放置策略和磁盘选择策略间的选择“矛盾”
阅读量:367 次
发布时间:2019-03-05

本文共 2191 字,大约阅读时间需要 7 分钟。

副本放置策略与磁盘选择策略的矛盾及优化

前言

在HDFS(分布式文件系统)中,文件块的写入策略由两大类策略决定:副本放置策略(BlockPlacementPolicy)和磁盘选择策略(VolumeChoosingPolicy)。这两者在目标节点选择上存在某种矛盾,值得深入探讨。

副本放置策略与磁盘选择策略的矛盾

矛盾的根源

副本放置策略通过BlockPlacementPolicy类决定文件块的目标写入节点,而磁盘选择策略则通过VolumeChoosingPolicy类决定目标节点上的具体磁盘目录。目前的实现中,DataNode端完全忽略NameNode提供的目标位置选择,这种做法是否合理值得商榷。

代码分析

以下代码展示了服务端选择目标存储位置的逻辑:

DatanodeStorageInfo chooseStorage4Block(DatanodeDescriptor dnd, long blockSize, List
results, StorageType storageType) {
DatanodeStorageInfo storage = dnd.chooseStorage4Block(storageType, blockSize);
if (storage != null) {
results.add(storage);
} else {
logNodeIsNotChosen(dnd, "no good storage to place the block ");
}
return storage;
}
public DatanodeStorageInfo chooseStorage4Block(StorageType t, long blockSize) {
final long requiredSize = blockSize * HdfsServerConstants.MIN_BLOCKS_FOR_WRITE;
final long scheduledSize = blockSize * getBlocksScheduled(t);
long remaining = 0;
DatanodeStorageInfo storage = null;
for (DatanodeStorageInfo s : getStorageInfos()) {
if (s.getState() == State.NORMAL && s.getStorageType() == t) {
if (storage == null) {
storage = s;
}
long r = s.getRemaining();
if (r >= requiredSize) {
remaining += r;
}
}
}
if (requiredSize > remaining - scheduledSize) {
LOG.debug("The node {} does not have enough {} space (required={}, scheduled={}, remaining={}).",
this, t, requiredSize, scheduledSize, remaining);
return null;
}
return storage;
}

两大发现

  • BlockPlacementPolicy同样会对目标写入目录进行选择
  • 当前的选择逻辑总是选择第一个有效的存储位置
  • 矛盾的解决方案

    选择一致化改造

    为解决此问题,我们提出了“选择一致化”改造,旨在优化目标存储位置的选择逻辑。

  • 数据传输改进

    • 将服务端选择的目标存储位置标识(storageID)传递至DataNode端的VolumeChoosingPolicy中。
    • 该改造涉及更新多个类文件,社区已完成相关工作(JIRA:HDFS-9807),VolumeChoosingPolicy接口将新增参数storageId
  • 服务端存储选择策略

    • 定义新的策略类DatanodeStorageInfoChoosingPolicy,负责服务端磁盘目录的选择。
    • 该策略应基于块大小和预定块数量进行优化(JIRA:HDFS-11464)。
  • 一致化策略实现

    • 定义新的策略类VolumeChoosingPolicyt,同时实现VolumeChoosingPolicyDatanodeStorageInfoChoosingPolicy接口,确保服务端选择结果与DataNode策略一致。
  • 结论

    副本块的存储策略与磁盘选择策略的协同优化对HDFS的读写效率至关重要。建议将提案应用于内部版本进行测试和分析,以进一步提升HDFS的性能表现。

    转载地址:http://tang.baihongyu.com/

    你可能感兴趣的文章
    nginx添加模块与https支持
    查看>>
    Nginx用户认证
    查看>>
    Nginx的location匹配规则的关键问题详解
    查看>>
    Nginx的Rewrite正则表达式,匹配非某单词
    查看>>
    Nginx的使用总结(一)
    查看>>
    Nginx的使用总结(三)
    查看>>
    Nginx的使用总结(二)
    查看>>
    Nginx的可视化神器nginx-gui的下载配置和使用
    查看>>
    Nginx的是什么?干什么用的?
    查看>>
    Nginx访问控制_登陆权限的控制(http_auth_basic_module)
    查看>>
    nginx负载均衡和反相代理的配置
    查看>>
    nginx负载均衡器处理session共享的几种方法(转)
    查看>>
    nginx负载均衡的5种策略(转载)
    查看>>
    nginx负载均衡的五种算法
    查看>>
    nginx转发端口时与导致websocket不生效
    查看>>
    Nginx运维与实战(二)-Https配置
    查看>>
    Nginx配置Https证书
    查看>>
    Nginx配置ssl实现https
    查看>>
    Nginx配置TCP代理指南
    查看>>
    Nginx配置——不记录指定文件类型日志
    查看>>