博客
关于我
聊聊HDFS中的副本放置策略和磁盘选择策略间的选择“矛盾”
阅读量:367 次
发布时间:2019-03-05

本文共 2161 字,大约阅读时间需要 7 分钟。

副本放置策略与磁盘选择策略的矛盾及优化

前言

在HDFS(分布式文件系统)中,文件块的写入策略由两大类策略决定:副本放置策略(BlockPlacementPolicy)和磁盘选择策略(VolumeChoosingPolicy)。这两者在目标节点选择上存在某种矛盾,值得深入探讨。

副本放置策略与磁盘选择策略的矛盾

矛盾的根源

副本放置策略通过BlockPlacementPolicy类决定文件块的目标写入节点,而磁盘选择策略则通过VolumeChoosingPolicy类决定目标节点上的具体磁盘目录。目前的实现中,DataNode端完全忽略NameNode提供的目标位置选择,这种做法是否合理值得商榷。

代码分析

以下代码展示了服务端选择目标存储位置的逻辑:

DatanodeStorageInfo chooseStorage4Block(DatanodeDescriptor dnd, long blockSize, List
results, StorageType storageType) { DatanodeStorageInfo storage = dnd.chooseStorage4Block(storageType, blockSize); if (storage != null) { results.add(storage); } else { logNodeIsNotChosen(dnd, "no good storage to place the block "); } return storage;}
public DatanodeStorageInfo chooseStorage4Block(StorageType t, long blockSize) {    final long requiredSize = blockSize * HdfsServerConstants.MIN_BLOCKS_FOR_WRITE;    final long scheduledSize = blockSize * getBlocksScheduled(t);    long remaining = 0;    DatanodeStorageInfo storage = null;    for (DatanodeStorageInfo s : getStorageInfos()) {        if (s.getState() == State.NORMAL && s.getStorageType() == t) {            if (storage == null) {                storage = s;            }            long r = s.getRemaining();            if (r >= requiredSize) {                remaining += r;            }        }    }    if (requiredSize > remaining - scheduledSize) {        LOG.debug("The node {} does not have enough {} space (required={}, scheduled={}, remaining={}).",                this, t, requiredSize, scheduledSize, remaining);        return null;    }    return storage;}

两大发现

  • BlockPlacementPolicy同样会对目标写入目录进行选择
  • 当前的选择逻辑总是选择第一个有效的存储位置
  • 矛盾的解决方案

    选择一致化改造

    为解决此问题,我们提出了“选择一致化”改造,旨在优化目标存储位置的选择逻辑。

  • 数据传输改进

    • 将服务端选择的目标存储位置标识(storageID)传递至DataNode端的VolumeChoosingPolicy中。
    • 该改造涉及更新多个类文件,社区已完成相关工作(JIRA:HDFS-9807),VolumeChoosingPolicy接口将新增参数storageId
  • 服务端存储选择策略

    • 定义新的策略类DatanodeStorageInfoChoosingPolicy,负责服务端磁盘目录的选择。
    • 该策略应基于块大小和预定块数量进行优化(JIRA:HDFS-11464)。
  • 一致化策略实现

    • 定义新的策略类VolumeChoosingPolicyt,同时实现VolumeChoosingPolicyDatanodeStorageInfoChoosingPolicy接口,确保服务端选择结果与DataNode策略一致。
  • 结论

    副本块的存储策略与磁盘选择策略的协同优化对HDFS的读写效率至关重要。建议将提案应用于内部版本进行测试和分析,以进一步提升HDFS的性能表现。

    转载地址:http://tang.baihongyu.com/

    你可能感兴趣的文章
    Objective-C实现NMS非极大值抑制(附完整源码)
    查看>>
    Objective-C实现NMS非极大值抑制(附完整源码)
    查看>>
    Objective-C实现Node.Js中生成一个UUID/GUID算法(附完整源码)
    查看>>
    Objective-C实现not gate非门算法(附完整源码)
    查看>>
    Objective-C实现NQueen皇后问题算法(附完整源码)
    查看>>
    Objective-C实现number of digits解字符数算法(附完整源码)
    查看>>
    Objective-C实现NumberOfIslands岛屿的个数算法(附完整源码)
    查看>>
    Objective-C实现numerical integration数值积分算法(附完整源码)
    查看>>
    Objective-C实现n个取m个数的组合算法(附完整源码)
    查看>>
    Objective-C实现N数理论(质素相关)算法(附完整源码)
    查看>>
    Objective-C实现n皇后问题算法(附完整源码)
    查看>>
    Objective-C实现O(E + V) 中找到 0-1-graph 中的最短路径算法(附完整源码)
    查看>>
    Objective-C实现OCR文字识别(附完整源码)
    查看>>
    Objective-C实现odd even sort奇偶排序算法(附完整源码)
    查看>>
    Objective-C实现ohms law欧姆定律算法(附完整源码)
    查看>>
    Objective-C实现P-Series algorithm算法(附完整源码)
    查看>>
    Objective-C实现page rank算法(附完整源码)
    查看>>
    Objective-C实现PageRank算法(附完整源码)
    查看>>
    Objective-C实现pancake sort煎饼排序算法(附完整源码)
    查看>>
    Objective-C实现pascalTriangle帕斯卡三角形算法(附完整源码)
    查看>>