登入帳戶  | 訂單查詢  | 購物車/收銀台(0) | 在線留言板  | 付款方式  | 運費計算  | 聯絡我們  | 幫助中心 |  加入書簽
會員登入   新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2025年度TOP分類瀏覽雜誌 臺灣用戶
品種:超過100萬種各類書籍/音像和精品,正品正價,放心網購,悭钱省心 服務:香港台灣澳門海外 送貨:速遞郵局服務站

新書上架簡體書 繁體書
暢銷書架簡體書 繁體書
好書推介簡體書 繁體書

一月出版:大陸書 台灣書
12月出版:大陸書 台灣書
11月出版:大陸書 台灣書
十月出版:大陸書 台灣書
九月出版:大陸書 台灣書
八月出版:大陸書 台灣書
七月出版:大陸書 台灣書
六月出版:大陸書 台灣書
五月出版:大陸書 台灣書
四月出版:大陸書 台灣書
三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書
12月出版:大陸書 台灣書

『簡體書』存储网络中拥塞的检测、排查和预防

書城自編碼: 4188713
分類:簡體書→大陸圖書→計算機/網絡網絡與數據通信
作者: [美]帕雷什·古普塔,[美]爱德华·马祖雷克
國際書號(ISBN): 9787111794394
出版社: 机械工业出版社
出版日期: 2025-12-01

頁數/字數: /
書度/開本: 16开 釘裝: 平装

售價:HK$ 163.9

我要買

** 我創建的書架 **
未登入.



新書推薦:
《阳明先生年谱》明刻本合集对照
《 《阳明先生年谱》明刻本合集对照 》

售價:HK$ 140.8
女人30+,养气血、调脾胃、防衰老(北京卫视《养生堂》《我是大医生》特邀中医养生专家第七批名老中医沈
《 女人30+,养气血、调脾胃、防衰老(北京卫视《养生堂》《我是大医生》特邀中医养生专家第七批名老中医沈 》

售價:HK$ 61.6
征服新世界:西班牙全球帝国之路,1493—1898
《 征服新世界:西班牙全球帝国之路,1493—1898 》

售價:HK$ 96.8
不纠结了 摆脱选择焦虑的极简法则  高敏感、优柔寡断、总陷入选择内耗的 纠结星人 自救指南
《 不纠结了 摆脱选择焦虑的极简法则 高敏感、优柔寡断、总陷入选择内耗的 纠结星人 自救指南 》

售價:HK$ 54.8
当战争来敲门(牛津二战史,耶鲁、剑桥大学教授推荐)
《 当战争来敲门(牛津二战史,耶鲁、剑桥大学教授推荐) 》

售價:HK$ 96.8
初老的身体:更年期新规则指南(第2版)
《 初老的身体:更年期新规则指南(第2版) 》

售價:HK$ 140.8
摘星星的人
《 摘星星的人 》

售價:HK$ 47.1
名侦探的守则(东野圭吾:反套路!玩梗诡计,吐槽套路,爆笑推理!“你怎么看出我男扮女装的?”)
《 名侦探的守则(东野圭吾:反套路!玩梗诡计,吐槽套路,爆笑推理!“你怎么看出我男扮女装的?”) 》

售價:HK$ 64.9

編輯推薦:
本书从技术和实践的角度,系统地分析了存储网络中拥塞的成因、表现及其应对策略。书中不仅涵盖了从检测拥塞的工作流程到在复杂环境下排查拥塞的完整思路,还介绍了具体的工具和技术,指导读者应对不同存储设备、协议及架构下的拥塞。
內容簡介:
本书是构建高效率的存储网络和快速解决拥塞问题的完整实用指南。本书首先介绍了存储网络拥塞,其次讨论了光纤通道结构中的拥塞及其检测、故障排除和预防,以及如何通过存储I/O性能监控解决拥塞,然后研究了以太网和TCP存储网络中的拥塞管理,最后阐述了思科UCS服务器中的拥塞管理。通过案例研究,本书介绍了作者多年经验的行之有效的故障排除方法,以及用于监控存储结构和获得预测性信息的分析技术,以检测大规模存储网络中的拥塞。
關於作者:
帕雷什·古普塔(Paresh Gupta)
在计算机行业有近20年的经验。拥有近20年计算机行业经验,现任思科技术营销工程部高级领导,负责推动SAN分析、Nexus控制面板、UCS、MDS等产品技术及市场发展。他长期研究存储网络拥塞问题,发明多项专利,开发众多功能,培训数千人。他开发的UTM和MTM流量监控应用程序,被全球数百家企业使用。
爱德华·马祖雷克(Edward Mazurek)
拥有40余年计算机网络经验。曾在IBM工作18年,后在思科技术支持中心工作22年,负责数据中心网络技术,包括MDS、UCS及Nexus系列产品的SAN、FC和FCoE等。他拥有两项CCIE认证,是CCIE荣誉会员,主导开发了思科MDS 9000和Nexus 9000交换机的拥塞处理机制,开发的应用程序受思科工程师和合作伙伴青睐,还在网络拥塞领域拥有多项专利。


刘准,现为紫金山网络与安全实验室系统工程师,曾就职于中兴通信股份有限公司(主要从事路由器数据平台研发工作)和华为股份有限公司(从事路由器数据平台研发工作),现主要从事新型网络操作系统研发工作,拥有网络方向专利10余篇,其中QUIC相关专利6篇。
目錄
译者序
推荐序
前言
献辞
致谢
关于技术审稿人
第1章 存储网络中的拥塞简介1
1.1 数据中心的存储类型1
1.1.1 基于位置的存储类型1
1.1.2 基于访问级别的存储类型2
1.2 存储协议、传输和网络4
1.2.1 基于帧格式和编码的网络类型4
1.2.2 基于流量控制使用情况的网络类型6
1.2.3 跨越网络类型的边界8
1.2.4 网络层之上9
1.2.5 再次跨越网络类型的边界11
1.3 存储网络16
1.3.1 存储网络架构16
1.3.2 术语18
1.3.3 光纤通道和FCoE术语18
1.3.4 存储的选择19
1.3.5 存储网络的选择20
1.3.6 存储流量的专用网络与共享网络20
1.3.7 存储网络的常见问题21
1.4 存储网络中的拥塞概述22
1.4.1 拥塞扩散22
1.4.2 存储网络中拥塞的原因24
1.4.3 存储网络中拥塞的来源29
1.4.4 存储网络中拥塞的常见问题30
1.5 NVMe-oF32
1.6 QoS33
1.6.1 网络延迟的来源34
1.6.2 存储网络中QoS的常见问题35
1.7 本章小结37
1.8 参考文献38
第2章 理解光纤通道网络中的拥塞40
2.1 光纤通道流量控制40
2.1.1 B2B信用的初始传递41
2.1.2 帧流期间的B2B信用返回42
2.1.3 多跳网络中的B2B流量控制46
2.2 光纤通道网络中的拥塞扩散49
2.2.1 慢速设备导致的拥塞50
2.2.2 过度利用导致的拥塞52
2.2.3 比较慢排空和过度利用导致的拥塞54
2.2.4 单交换机网络中的拥塞56
2.2.5 ISL中的拥塞56
2.2.6 缓冲和吸收拥塞的能力61
2.3 光纤通道交换机内的帧流62
2.3.1 思科MDS交换机内的帧交换63
2.3.2 光纤通道交换机的帧交换架构64
2.4 比特差错对拥塞的影响67
2.4.1 光纤通道帧格式68
2.4.2 光纤通道分层69
2.4.3 光纤通道上的数据传输69
2.4.4 光纤通道端口上的计数器75
2.4.5 案例研究:一家在线零售商78
2.4.6 比特差错对拥塞的影响总结81
2.5 B2B信用的丢失与恢复81
2.5.1 比特差错导致的发送B2B信用丢失81
2.5.2 零remaining-Tx-B2B-credits持续较长时间83
2.5.3 通过B2B状态变更机制实现信用丢失恢复84
2.5.4 通过链路重置协议实现信用丢失恢复88
2.5.5 B2B状态变更机制与链路重置协议的比较89
2.6 光纤通道计数器总结89
2.7 本章小结91
2.8 参考文献92
第3章 检测光纤通道网络中的拥塞93
3.1 拥塞检测工作流程93
3.1.1 拥塞的影响(拥塞严重程度)93
3.1.2 拥塞的原因94
3.1.3 拥塞的源头(肇事者)94
3.1.4 拥塞的扩散(受害者)95
3.1.5 拥塞事件的时间95
3.1.6 如何检测拥塞95
3.1.7 何处检测拥塞96
3.1.8 拥塞方向:入口或出口96
3.2 拥塞检测指标97
3.3 思科MDS交换机的拥塞检测指标98
3.3.1 发送信用不可用时间(μs):TxWait99
3.3.2 接收信用不可用时间(μs):RxWait103
3.3.3 发送信用不可用持续时间(ms):Slowport-monitor104
3.3.4 发送信用不可用持续时间(100 ms):Tx-credit-not-available107
3.3.5 TxWait、Slowport-monitor和Tx-credit-not-available之间的差异109
3.3.6 何时启用Slowport-monitor112
3.3.7 接收信用不可用持续时间(100 ms):Rx-credit-not-available113
3.3.8 超时丢弃114
3.3.9 发送信用丢失恢复116
3.3.10 链路故障:链路重置失败,接收队列非空(LR Rcvd B2B)117
3.3.11 信用和剩余信用119
3.3.12 信用降至零120
3.3.13 链路利用率121
3.3.14 比特差错124
3.4 自动警报124
3.5 使用远程监控平台检测拥塞130
3.5.1 NDFC拥塞和慢排空分析 130
3.5.2 MDS流量监控应用程序132
3.5.3 指标导出机制136
3.5.4 监控网络流量的陷阱139
3.6 检测慢排空和过度利用导致的拥塞142
3.7 同时出现慢排空和过度利用143
3.8 检测长距链路上的拥塞144
3.9 本章小结144
3.10 参考文献145
第4章 排查光纤通道网络中的拥塞146
4.1 排查方法与工作流程146
4.1.1 拥塞的严重程度和级别 146
4.1.2 排查的目标148
4.1.3 方法149
4.2 排查拥塞的提示与技巧156
4.2.1 首先排查较高级别的拥塞156
4.2.2 使用show tech-support slowdrain命令158
4.2.3 时钟同步和时序考量 159
4.2.4 超时丢弃异常159
4.2.5 启用和使用自动警报功能160
4.2.6 使用远程监控平台(NDFC或DCNM)160
4.3 排查拥塞的思科MDS NX-OS命令160
4.3.1 show interface命令161
4.3.2 show interface counters [detailed]命令162
4.3.3 show interface txwait-history | rxwait-history命令165
4.3.4 OBFL命令:show logging onboard166
4.3.5 常用排查命令172
4.3.6 系统消息:show logging log178
4.4 案例研究1:在单交换机网络中寻找拥塞的肇事者和受害者179
4.4.1 网络A分析180
4.4.2 网络B分析187
4.4.3 肇事者分析188
4.4.4 受害者分析189
4.4.5 案例研究1总结202
4.5 案例研究2:信用丢失恢复导致帧丢弃202
4.5.1 初步调查203
4.5.2 网络A分析204
4.5.3 网络B分析209
4.5.4 肇事者分析218
4.5.5 受害者分析220
4.5.6 案例研究2总结223
4.6 案例研究3:单一设备的过度利用导致严重拥塞225
4.6.1 3级225
4.6.2 2级225
4.6.3 肇事者分析242
4.6.4 受害者分析242
4.6.5 案例研究3总结245
4.7 案例研究4:长距ISL导致拥塞246
4.7.1 3级247
4.7.2 2级247
4.7.3 1.5级247
4.7.4 肇事者分析255
4.7.5 受害者分析255
4.7.6 案例研究4总结256
4.8 本章小结257
4.9 参考文献258
第5章 通过存储I/O性能监控解决拥塞259
5.1 为什么要监控存储I/O性能259
5.2 如何以及在何处监控存储I/O性能260
5.2.1 主机中的存储I/O性能监控260
5.2.2 存储阵列中的存储I/O性能监控260
5.2.3 网络中的存储I/O性能监控261
5.3 思科SAN分析架构262
5.3.1 流量检查262
5.3.2 指标计算263
5.3.3 指标导出263
5.4 理解存储网络中的I/O流263
5.4.1 光纤通道网络中的I/O流263
5.4.2 I/O流与I/O操作266
5.5 I/O流指标267
5.5.1 延迟指标267
5.5.2 性能指标270
5.6 I/O操作和网络流量模式272
5.6.1 光纤通道网络中的读I/O操作272
5.6.2 光纤通道网络中的写I/O操作273
5.6.3 网络流量方向274
5.6.4 网络流量吞吐量 276
5.6.5 I/O操作、流量模式和网络拥塞的相关性276
5.6.6 案例研究1:一家贸易公司通过SAN分析预测了拥塞问题277
5.6.7 案例研究2:一所大学通过纠正多路径配置错误避免了拥塞问题280
5.6.8 案例研究3:一家能源公司成功解决了拥塞问题282
5.6.9 案例研究4:一家银行通过基础设施优化解决了拥塞问题285
5.7 本章小结287
5.8 参考文献288
第6章 预防光纤通道网络中的拥塞289
6.1 消除或减少拥塞概述290
6.1.1 定义方法的结果291
6.1.2 手动与自动方法的对比291
6.2 链路容量292
6.3 通过断开肇事设备实现拥塞恢复292
6.3.1 断开肇事设备的考虑因素293
6.3.2 如何断开连接293
6.4 通过丢弃帧实现拥塞恢复294
6.4.1 根据在交换机中的存留时间丢弃帧294
6.4.2 根据边缘端口的慢排空丢弃帧295
6.5 流量隔离300
6.5.1 分类流量以实现隔离302
6.5.2 将流量隔离至专用ISL302
6.5.3 案例研究:一家银行通过流量隔离避免了拥塞307
6.5.4 使用虚拟链路进行流量隔离310
6.5.5 流量隔离的考虑因素325
6.6 在存储阵列上使用限速器预防拥塞326
6.7 在交换机上使用动态入口速率限制预防拥塞328
6.7.1 DIRL如何预防拥塞328
6.7.2 DIRL的优势330
6.7.3 启用和使用思科MDS交换机上的DIRL331
6.7.4 DIRL的效果332
6.7.5 DIRL与其他方法的比较343
6.8 通过向终端设备发送通知预防拥塞345
6.8.1 光纤通道网络中通知和信号的准备情况346
6.8.2 光纤通道网络中的通知和信号346
6.8.3 RDF、EDC、FPIN和拥塞信号的示例349
6.8.4 对比拥塞预防方法:使用DIRL与通知终端设备353
6.9 网络设计的考虑因素354
6.9.1 降低存储端口的链路速率354
6.9.2 边缘-核心-边缘、边缘-核心或折叠核心设计355
6.9.3 在单个交换机上增加流量本地化357
6.9.4 将大型网络分成较小的孤岛网络357
6.10 本章小结358
6.11 参考文献359
第7章 以太网存储网络中的拥塞管理360
7.1 以太网流量控制360
7.1.1 以太网流量控制原理360
7.1.2 以太网暂停帧与光纤通道B2B信用的比较371
7.1.3 优先级流量控制372
7.1.4 融合以太网377
7.1.5 配置无损以太网377
7.1.6 专用和融合以太网378
7.2 理解无损以太网中的拥塞379
7.2.1 无损以太网中的慢排空379
7.2.2 无损以太网中的链路过度利用379
7.2.3 比特差错379
7.2.4 单交换机无损以太网中的拥塞扩散379
7.2.5 边缘-核心无损以太网中的拥塞扩散380
7.2.6 无损脊叶网络中的拥塞扩散381
7.3 检测无损以太网中的拥塞383
7.3.1 拥塞方向:入口或出口383
7.3.2 拥塞检测指标383
7.3.3 存储I/O性能监控394
7.3.4 在远程监控平台上检测拥塞397
7.4 排查无损以太网中的拥塞400
7.4.1 目标400
7.4.2 拥塞的严重程度和级别400
7.4.3 方法401
7.4.4 排查脊叶拓扑中的拥塞401
7.4.5 实际效果验证402
7.4.6 使用远程监控平台排查拥塞402
7.4.7 同一网络中的FC和FCoE 404
7.4.8 同一链路上的多个无损类别406
7.4.9 无损流量和有损流量之间的带宽分配407
7.5 预防无损以太网中的拥塞409
7.5.1 消除或减少拥塞概述410
7.5.2 通过丢弃帧进行拥塞恢复411
7.5.3 路由无损以太网中的拥塞通知415
7.6 使用VXLAN的无损流量423
7.6.1 VXLAN概述423
7.6.2 VXLAN传输423
7.6.3 物理拓扑423
7.6.4 MAC地址学习424
7.6.5 通过VXLAN实现无损流量传输424
7.6.6 VXLAN封装424
7.6.7 VXLAN解封装425
7.6.8 通过VXLAN进行拥塞通知425
7.6.9 VXLAN的流量控制和拥塞通知425
7.6.10 VXLAN中的拥塞管理426
7.7 本章小结426
7.8 参考文献427
第8章 TCP存储网络中的拥塞管理429
8.1 理解TCP存储网络中的拥塞429
8.1.1 与无损网络的比较429
8.1.2 iSCSI和NVMe/TCP如何交换数据430
8.1.3 TCP存储网络中的拥塞437
8.2 存储I/O性能监控438
8.2.1 TCP流监控与I/O流监控439
8.2.2 iSCSI的I/O操作440
8.2.3 NVMe/TCP的I/O操作441
8.2.4 I/O操作、流量模式和网络拥塞的相关性443
8.2.5 与无损网络的比较443
8.2.6 从TCP流性能估算I/O流性能444
8.2.7 IP MTU和TCP MSS的考虑因素444
8.3 预防TCP存储网络中的拥塞445
8.3.1 消除或减少拥塞概述446
8.3.2 TCP存储网络中的拥塞通知447
8.3.3 交换机缓冲区的管理450
8.3.4 与无损以太网的比较454
8.3.5 与光纤通道网络的比较454
8.3.6 主动队列管理455
8.4 检测TCP存储网络中的拥塞458
8.4.1 终端设备内的拥塞源头459
8.4.2 网络中的拥塞源头460
8.4.3 使用远程监控平台检测拥塞465
8.4.4 使用思科Nexus Dashboard Insights检测拥塞465
8.4.5 指标导出机制465
8.5 排查TCP存储网络中的拥塞466
8.5.1 目标467
8.5.2 拥塞的严重程度和级别467
8.5.3 方法467
8.5.4 TCP存储网络中的负载均衡468
8.5.5 专用和共享存储网络的QoS考虑因素468
8.5.6 同一网络中的FCoE、RoCE、iSCSI和NVMe/TCP469
8.6 无损网络中的iSCSI和NVMe/TCP470
8.7 使用VXLAN的iSCSI和NVMe/TCP470
8.8 基于TCP/IP的光纤通道471
8.8.1 思科FCIP交换机上存储流量的TCP优化471
8.8.2 检测FCIP链路上的拥塞472
8.9 改进的TCP实现476
8.10 本章小结477
8.11 参考文献477
第9章 思科UCS服务器中的拥塞管理479
9.1 思科UCS架构479
9.1.1 UCS域480
9.1.2 UCS域中的流量480
9.1.3 UCS域中的流量控制481
9.2 理解UCS域中的拥塞481
9.3 检测UCS域中的拥塞482
9.3.1 入口拥塞 482
9.3.2 出口拥塞482
9.3.3 FI服务器端口与IOM/FEX交换矩阵端口之间的拥塞482
9.3.4 UCS拥塞检测的注意事项483
9.4 UTM应用程序484
9.4.1 UTM的发展历程484
9.4.2 UTM入门 485
9.4.3 UTM架构486
9.4.4 使用UTM的概述486
9.4.5 使用UTM排查拥塞486
9.4.6 UTM的拥塞排查工作流程487
9.4.7 案例研究1:查找UCS域的拥塞原因及源头491
9.4.8 案例研究2:背板端口慢排空导致的拥塞495
9.4.9 案例研究3:FI上行端口的非均匀利用497
9.4.10 案例研究4:多路径I/O不均衡导致的拥塞499
9.5 本章小结500
9.6 参考文献500
內容試閱
拥塞可能是全球存储网络中最棘手的问题之一。多年来,我们与成千上万的用户合作,协助他们检测和排查存储网络中的拥塞问题,并加以预防。我们观察到的一般情况是,大多数用户缺乏对这一问题的全面了解,而且能够切实阐述这一问题的资料并不多。一端是应用程序开发人员,假设他们对存储的访问不受限制,底层基础设施的细节与他们的关系不大;另一端是存储基础设施团队,他们负责存储的管理和分配;网络团队将这两者连接起来,但是通过网络传输的I/O操作对网络团队的可见性有限。这种认识上的不足导致检测和解决问题的延迟。早期的拥塞现象经常被忽视,直到应用程序的性能严重下降才会引起重视,这将导致企业收入损失和管理员工作时间延长。
然而,在大多数生产网络中,完全消除拥塞不太可能。因此,更现实的目标应该是降低拥塞的严重程度,以便应用程序的性能可以接受。
就本书而言,任何用于从远程存储设备读取数据或者写入数据到远程存储设备的网络都是存储网络。远程存储可以是SAN存储阵列、NAS设备、公有云,甚至是使用软件定义存储(Software-Defined Storage,SDS)解决方案或分布式文件系统(如Hadoop分布式文件系统HDFS)的商用服务器。
在这些网络中,拥塞造成的影响远比通用网络严重,因为如果数据访问速度慢,应用程序就无法继续运行。尽管减少乃至消除存储网络的拥塞一直是重中之重,但在过去十年中,随着数据量呈爆炸式增长,以及全闪存存储的广泛使用,全球数据中心的拥塞越发突出。此外,NVMe和NVMe-oF等新兴技术有望将网络利用率提高到前所未有的水平。
存储网络中的拥塞有许多名称,光纤通道用户通常称之为慢排空(Slow Drain),尽管正如你将看到的,这个术语仅涵盖了问题的一小部分;在无损以太网中,近几年出现了“PFC风暴”这个术语,基本上指的是同一现象;在TCP/IP网络社区中,TCP内置的流量控制和拥塞控制机制是众所周知的。本书阐明了所有这些概念,并介绍了它们与存储流量的相关性,更重要的是,本书的重点是介绍用户可以采取哪些措施来检测、排查和预防存储网络中的拥塞。
本书读者对象
除了阐述技术原理,本书还着重介绍了技术的实际应用。在现实世界的限制和挑战下,“直接升级”这种解决方案既不可行,也无法快速应用,本书将给出可操作的方案。书中解释了为什么一些解决方案尽管在技术上是可行的,但由于不符合业务或运营目标而无法应用。我们为技术、产品和解决方案的用户编写了本书,在思科我们称之为客户。本书尤其是为这些特定的客户而写的:
运营、设计或维护承载块存储、文件存储或对象存储流量网络的人员。
在存储网络中遇到拥塞,并试图自行学习这一主题的人员。
想要了解光纤通道、无损以太网和TCP数据平面细节的人员。
具有存储背景,但没有太多TCP/IP网络经验的人员。
有TCP/IP背景,但缺乏处理存储流量经验的人员。
想要学习各种传输和网络技术如何处理存储流量的人员。
正在考虑部署NVMe-oF,并想了解NVMe-oF对网络拥塞的影响的人员。
本书不涉及的内容
本书的重点是介绍特定技术领域(存储网络)中的特定主题(拥塞)。本书不是一本关于存储网络的通用书籍,不涉及如何设计、配置和运行存储网络。
此外,本书无意左右任何采购决策。光纤通道、无损以太网(FCoE、RoCE和RoCEv2)和TCP都有各自的使用场景,只要使用得当,就能达到各自的目的。
请记住,与数据平面相比,本书对控制平面的关注较少。本书不涉及路由协议、发现机制、安全策略、光纤通道分区等;此外,FICON和In?niBand也超出了本书的范围。
最后,如服务器、主机操作系统、存储阵列和NAS设备等终端设备内部的架构以及设备内部的拥塞,也超出了本书的范围。
阅读本书的先决条件
如果你正在阅读本书,那么你可能已经经历过存储网络拥塞或其变体,如慢排空、过度利用或PFC风暴。
我们不能说这是一本面向初学者的书,对存储架构和存储网络有基本的了解会有所帮助。对这些技术了解有限的读者仍然可以从本书中受益,而不必担心这些网络是如何配置的。例如,本书不介绍光纤通道网络中分区的配置;同样,本书也不涉及用于传输存储流量的IP以太网中服务质量的配置。
本书的案例研究
本书提供了大量的案例研究,所有案例都是真实的。多年来,我们与成千上万的机构合作,协助它们检测、排查和预防存储网络中的拥塞,我们从中选择了一些我们认为可以帮助读者的案例研究。
聚焦存储网络中的块存储流量
本书主要讨论存储网络中的块存储流量,原因有二。第一,在所有类型的存储流量中,块存储对网络的要求最为严格。如果一个网络满足块存储要求,它就能轻松满足文件存储和对象存储的要求。第二,所有类型的存储流量在网络上产生的流量模式都很相似。从块存储网络的拥塞管理中学到的知识,可以应用到其他类型的网络中。
光纤通道
本书重点介绍了光纤通道,也同样关注了以太网和TCP。光纤通道章节的篇幅比以太网和TCP章节的多,原因如下:
光纤通道网络仍然是承载块存储流量最常见的网络。
即使不使用光纤通道,也可以从中学习到很多知识,因为光纤通道被全球各类组织用于传输块存储流量。此外,在所有类型的网络中,光纤通道拥有最悠久的存储流量传输历史。因此,从光纤通道中汲取经验并发扬光大将是明智之举。
以太网和TCP章节的许多部分都参考了前面的光纤通道章节,因为无论何种传输类型,上层协议(SCSI和NVMe)都是相同的。如果不是前面的光纤通道章节已经阐述了具体细节,无损以太网和TCP章节的篇幅将显著增加。
尽管有许多说法和预测,但现实情况是,光纤通道仍然是全球大多数数据中心承载块存储流量的首选网络。
根据2022年的数据,光纤通道交换机的总可寻址市场(Total Addressable Market,TAM)约20亿美元,在过去15年中,这个市场规模并没有发生太大变化。事实上,由于速率的提升(从16 GFC到32 GFC,再到64 GFC),每隔4~5年,TAM就会增加5%~8%。更重要的是,光纤通道SAN仅占外部存储系统总支出的10%~15%,2022年,外部存储系统总支出约为310亿美元,绝大多数外部存储设备都是通过光纤通道SAN连接的。此外,还有一部分投资用于购买通过光纤通道SAN连接到外部存储阵列的服务器和适配器。除了拥有稳定的市场,光纤通道还有明确的未来发展路线图。截至本书撰写时,单通道128 GFC标准已经获得批准,256 GFC标准也正在制定中。
我们与世界各地的各类组织开展合作,这些组织的生产环境中部署了成千上万个光纤通道端口,将光纤通道SAN用于关键的一级工作负载。我们认为,无论从短期看还是从长期来看,这些组织都不会轻易放弃光纤通道技术。
关于光纤通道的书籍并不多,介绍其实际应用的书籍就更少了,这是导致许多用户对拥塞管理缺乏全面了解的主要原因。因此,对用户来说,检测、排查和预防拥塞的难度可能会比较大。
请考虑以下几点:
高校很少会讲授光纤通道和其他存储网络变体的知识,因此,新的行业人才没有机会学习这些知识。
数据通信的基础知识课程通常从局域网(LAN)、广域网(WAN)和存储区域网络(SAN)这三类网络讲起。现在,几乎每个人都能看到身边的局域网(例如家庭和学校的WiFi网络),还能看到互联网,这就是一种广域网。然而,如果不从事涉及管理存储区域网络的工作,那么人们是没有机会接触存储区域网络的。
云浪潮盖过了其他技术的风头,导致人们产生了存储网络和相关技术无关紧要的观点。因此,新的行业人才看不到学习存储网络的价值。
当新手开始从事存储基础设施和网络管理工作时,可供选择的学习资源和途径非常有限。现有的书籍已经过时,理论解释往往不注重管理生产网络的实际细节,供应商文档面向产品的使用,协议规范难以阅读,而且针对的是产品开发人员而非用户。多年来,我们已经看到成千上万的用户对这个主题的学习需求,因此,我们花了一段时间来为本书进行规划。
本书结构
第1章介绍了数据中心的存储类型、存储协议、传输和网络。该章阐述了有关NVMe-oF、服务质量(Quality of Service,QoS)和存储网络拥塞管理的整体概念,还包括多年来我们常被问及的问题以及我们对这些问题的回答。
第2章涵盖以下内容:
光纤通道B2B(Bu?er-to-Bu?er,缓存到缓存)流量控制。
拥塞源,如终端设备、ISL(Inter-Switch Link,交换机间链路)和交换机。
拥塞的原因,如慢排空、链路过度利用、比特差错以及ISL上的信用不足。
比特差错对拥塞的影响、光纤通道网络上数据传输的详细信息,以及用于监控链路健康状况的数据平面计数器。
前向纠错(Forward Error Correction,FEC)以及它如何为预测拥塞提供信息。
B2B信用的丢失与恢复以及B2B状态变更机制。
该章还提供了一家在线零售商的案例研究,以说明主动监控在存储网络中的重要性。
第3章涵盖以下内容:
拥塞检测工作流程,以及检测拥塞的内容、位置和方法等。
拥塞检测指标,如TxWait、RxWait和慢速端口监控等。
思科MDS交换机端口监控功能的自动警报和示例。
在远程监控平台和自定义应用程序上进行拥塞检测。
用于监控拥塞的指标导出机制。
长距链路上的拥塞检测。
该章还讨论了监控网络流量和拥塞时的常见问题。
第4章涵盖以下内容:
拥塞的严重程度、级别和症状。
受害者的类型,如直接受害者、间接受害者和同路径受害者。
拥塞检测的排查方法与工作流程。
排查拥塞的提示与技巧。
排查拥塞的思科MDS NX-OS命令。
该章通过多个案例研究演示了如何在生产网络中排查拥塞问题。
第5章涵盖以下内容:
监控存储I/O性能的重要性。
如何以及在哪些位置监控存储I/O性能。
思科SAN分析架构。
光纤通道网络中的I/O流。
I/O流指标的基础知识和一些使用案例。
SCSI和NVMe的I/O操作及其对网络流量模式和拥塞的影响。
该章还演示了如何使用思科SAN分析来找出根本原因,以及通过存储网络的I/O流级可见性来预测拥塞的可能性。
第6章涵盖以下内容:
消除或减少存储网络拥塞的各种方法。
通过断开肇事设备来恢复拥塞。
在思科MDS交换机上,通过拥塞丢弃超时和无信用丢弃超时功能,提前丢弃帧来恢复拥塞。
通过将流量隔离到专用链路或虚拟链路的技术来实现拥塞隔离。
在思科MDS交换机上,使用拥塞隔离等功能自动调整虚拟链路的流量分配。
在存储阵列上使用限速器预防拥塞。
在思科MDS交换机上,通过动态入口速率限制(Dynamic Ingress Rate Limiting,DIRL)预防拥塞。
通过光纤通道网络性能影响通知(Fabric Performance Impact Notification,FPIN)帧和拥塞信号,向终端设备发送通知来预防拥塞。
网络设计的考虑因素。
该章不仅详细介绍了各种预防拥塞的方法,还展示了这些方法的实际应用,并提供了一家银行在其存储网络中预防拥塞的典型案例研究。
第7章涵盖以下内容:
二层和三层网络中的链路级流量控制(Link-Level Flow Control,LLFC)和优先级流量控制(Priority Flow Control,PFC),以及相关的暂停阈值。
以太网流量控制与光纤通道流量控制的比较。
在脊叶等网络设计中,由于慢排空、链路过度利用、比特差错和长距链路等原因导致的拥塞。
FCoE和RoCE网络中的I/O操作及其对网络流量和拥塞的影响。
在具有一个或多个无损流量类别的融合以太网中进行拥塞排查。
PFC风暴。
使用暂停超时和PFC看门狗预防拥塞。
RoCEv2拥塞管理(RoCEv2 Congestion Management,RCM)。
在VXLAN中传输无损流量时的拥塞管理。
该章还详细介绍了在融合以太网中,当有损流量和无损流量共享同一网络时,如何排查网络拥塞问题,以及一种流量类型对另一种流量类型的影响。
第8章涵盖以下内容:
脊叶网络架构TCP存储网络中的拥塞。
使用iSCSI和NVMe/TCP的I/O操作及其对网络流量和拥塞的影响。
TCP存储网络中的拥塞预防,并介绍了显式拥塞通知(Explicit Congestion Notification,ECN)的实际使用。
交换机缓冲区管理和主动队列管理机制。
FCIP的拥塞管理。
该章重点介绍了块存储的流量,特别面向两类用户:一类是有光纤通道经验但没有太多TCP/IP经验的用户,另一类是有TCP/IP经验但没有太多处理存储流量经验的用户。该章简要说明了TCP的可靠传输、流量控制和拥塞控制,并将这些概念与光纤通道和无损以太网进行了比较,还简要介绍了非标准的TCP实现,如DCTCP。
第9章涵盖以下内容:
思科UCS(Unified Computing System,统一计算系统)架构、流量和流量控制。
UCS域中的拥塞。
UCS流量监控(UCS Traffic Monitoring,UTM)及其在检测和排查UCS服务器拥塞问题中的应用。
即使对于那些不使用思科UCS的人来说,该章也提供了一个非常好的学习机会,可以了解在共享链路上承载无损和有损流量的融合网络中的拥塞管理。该章讨论了如何使用基于时间的趋势和比较分析等技术,以及如何使用最少的信息来检测

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 海外用户
megBook.com.hk
Copyright © 2013 - 2026 (香港)大書城有限公司  All Rights Reserved.