NCCL中设置不同的RDMA优先级

Hurray

2020年10月14日

11985次浏览

5条评论

3060字

> `NCCL`用在`分布式深度学习训练`中时，如果所在集群流量混杂，则可以考虑调整优先级`QoS`的方法来保证分布式训练性能。使用[IB]^(Infiniband)网络可以达到[RDMA ]^(Remote Direct Memory Access)的低延迟保证。`NCCL`中提供了环境变量以支持`IB`环境下的`QoS`支持。 [TOC] ## 具体方法设置环境变量： ```txt NCCL_IB_HCA 该环境变量用于获取虚机用的那个ib设备 NCCL_IB_GID_INDEX，该环境变量指定用ib设备的哪个index来跑rocev2。 NCCL_IB_TC，用于设置流量的DSCP，例如105，就是设置流的优先级。 ``` --- ## IB piority原理 `RDMA`是无法容忍丢包的，也就是说`RDMA`需要`loseless`网络环境，这是`infiniband`网络的天然优势。但我们的`IDC`是`ethernet`网络环境，无法提供`loseless`的网络，因此为了让`RDMA`跑在`etherne`t上，必须想办法为ethernet提供不丢包的网络，`RoCEv2`诞生了（`RoCEv1`只能跑在一个`二层局域网`环境下，要求都在一个网段，限制比较大。`RoCEv2`可以利用`三层网络`）。简单来说，`RoCEv2`是在（主机上部署`PFC`+`DCQCN`算法）+（交换机使能`ECN`）+（交换机`QoS`设置）来保证网络在因为网络拥塞快发生丢包的时候，及时让发送端降速，来保证网络不丢包。 ### PFC 首先来说一下[PFC ]^(priority flow control)。最开始为了保证`loseless`环境，就只使用了`PFC`技术。它的原理是把主机发出来的数据流分成了几个优先级（一般是8个，0-5是业务流，6-7是控制流），然后可以为不同数据流指定不同优先级（怎么指定下文再说），如果不指定，默认就为0。 ![](https://file.hurray0.com/uploads/menu/138/35a857b987e8ee6557a71eda2e6a869f.png) 当设备的出口转发发生拥塞，导致接收报文的入端口`Buffer` 占用超过`PFC` 水线，会触发Pause 帧进行反压上游设备停止发包，具体机制描述如下： * 交换机SW2 的端口2 在转发数据流时出现拥塞，导致数据流在入口1 的`Buffer` 占用超过`PFC` 水线触发Pause 帧反压SW1 的端口2，以停止Priority 为3 的数据流发向SW2； * 收到Pause 帧的上游设备SW1 会暂停该优先级的数据流发送，同时SW1 的入端口1 还在接收数据流，导致SW1 的入端口1 的`Buffer` 占用增加。因此，SW1 的入端口1 的Buffer 占用依赖SW2 的入端口1 的`Buffer` 占用； * 如果上游设备SW1 的入端口1 的`Buffer` 也超过`PFC` 水线，会触发Pause 帧继续向上游反压； * 最终，从源头上降低该优先级数据流的速率，防止`拥塞`场景下出现丢包。但`PFC`有很多缺点（如`PFC死锁`等），而且一级一级反压反应太慢了，因此又发明了`DCQCN`。__不过在这里，我们先记住，数据流会被划分为几个优先级，然后在不同优先级上可以分别使能`PFC`（不使能就不反压了）。__ __需要重点强调的时，在使能`DCQCN`的时候，`PFC`不是不使用了。他们两个是相辅相成的，`DCQCN`做为先头兵，先使能，控制发端降速，如果效果不好，再使能`PFC`（后边再详细讲）__ ### DCQCN 在`IP`的包头里边有个叫“区分服务”的8bit字段，这个字段又分成了2部分，6bit的dscp优先级，2bit的ecn字段。6bit对应64个优先级，2bit的ecn，00代表不支持ecn标记，10和01表示支持ecn，11表示网络发生拥塞，ecn已经置位了。 ![](https://file.hurray0.com/uploads/menu/138/da732a74f47b685b4ae355575b14d667.png) 大致原理如下： ![](https://file.hurray0.com/uploads/menu/138/1de2b1f2984f7f0e5b12c9563bb0d971.png) * Sender发送端（RP）发送`IP 报文`标记ECN(ECN=10)； * 交换机（CP）在队列拥塞的情况下（判断的标准是根据dcqcn算法，跟pfc的水线不一样）收到该报文，将ECN 字段修改为11 并转发出去； * Receiver接收服务器（NP）收到ECN 为11 的报文发送拥塞，正常处理该报文； * 接收端产生拥塞通告，周期发送[CNP ]^(Congestion Notification Packets)报文，ECN字段为01，要求报文不能被网路丢弃； * 交换机收到CNP 报文后正常转发该报文； * 发送服务器收到ECN 标记为01 的CNP 报文解析后对相应的数据流限速算法；一般来说，`DCQCN`判断拥塞的标准要被PFC严格（为了先使能`DCQCN`），因此sender一般不会等到一级一级的反压就会降速，避免网络发生拥塞丢包，从而保证loseless环境。但有一种情况可能会让`DCQCN`还没生效`PFC`就生效了，比如Sender和Receiver之间的交换机跳数太多。。有可能出现CNP报文还没到达Sender，一些交换机就拥塞了，然后一级一级反压，导致sender的pfc先生效了。因此，在使用`DCQCN`算法的时候，一般来说，交换机跳数不要太多。 ### 交换机`ECN`与`QoS`设置 `ecn`不用设置，现在的交换机默认都支持`ecn`。在上边我们知道，交换机端口是有`buffer`的，用来缓存来不及发送的数据包。默认情况下，大家都是共享`buffer`，但如果划分了优先级后，还存在一个共享buffer的话，就不合理了。例如某环境下我们只用了3个优先级，分别是0，3和6。0对应普通的`tcp`/`udp`。3对应`rdma`流量，6对应的是`dcqcn`的控制报文。buffer分开后就可以分别使能`dcqcn`了。同时我们对调度也进行了相应的设置，在拥塞情况下，rdma:普通流量=2:1。也就是100G带宽，在满负载情况下可以保证`rdma`66G，普通流量33G ### 优先级与环境变量设置前边说了，数据流被分为了不同的优先级，但如果不设置的话，优先级默认都是0。因此必须为`RDMA`设置优先级为3。但有问题的是，`PFC`使用了8个优先级，`DSCP`呢使用了6个bit位，有64个优先级。如何关联起来？实际上，交换机很难为64个优先级同时作用`dcqcn`和`pfc`等功能，一般都是划分为不超过6个，最多4个（流量根据优先级可以形象比喻为金银铜铁）。因此，在实际判定的时候，只看最高的3位。如下所示： dscp 8bit = 6bit优先级+2bit ecn 011 000 01 最后两位一般都是01和10，来表示支持`ecn`，那么前6位，如果rdma是优先级3的话，最好保证最高3为是011就可以了，中间的3位任意。那么理论上，可以为 011 000 01 011 001 01 。。。。。。 011 000 10 011 001 10 。。。。。 1. `NCCL_IB_HCA` 该环境变量用于获取虚机用的那个ib设备 2. `NCCL_IB_GID_INDEX`，该环境变量指定用ib设备的哪个index来跑`rocev2`。 ![](https://file.hurray0.com/uploads/menu/138/752f43940dc447ba861b0478f792f2c2.png) 3. `NCCL_IB_TC`，用于设置流量的`DSCP`，优先级3为105，就是设置流的优先级。 ### 主机和交换机上的一些配置 * 主机： ![](https://file.hurray0.com/uploads/menu/138/3494fe5dfa59ace8f932fea228e6de0c.png) * 交换机： ![](https://file.hurray0.com/uploads/menu/138/8f35f69622def4dea1ab6fbc5e195971.png) ![](https://file.hurray0.com/uploads/menu/138/fc022b54e85a9a0b4b54a2419939d71f.png) _本文鸣谢@tanglei_ 其他资料：[https://cloud.tencent.com/developer/article/1078931]()

版权属于：Hurray's InfoShare

本文链接：https://hurray0.com/menu/138/

如果没有特别声明，则为本博原创。转载时须注明出处及本声明！

最后修改： 2020年10月16日 02:09 AM