vSAN延伸集群:创建、配置与故障处理全攻略
创作时间:
作者:
@小白创作中心
vSAN延伸集群:创建、配置与故障处理全攻略
引用
CSDN
1.
https://blog.csdn.net/Tassel_YUE/article/details/142733252
vSAN延伸集群是实现两地双活数据中心的一种解决方案,通过在多个站点之间构建高可用的存储集群,确保数据的可靠性和业务的连续性。本文将详细介绍vSAN延伸集群的创建、网络配置、资源要求、高级功能配置、维护和故障处理等内容,帮助读者全面了解和掌握这一技术。
vSAN延伸集群简介
vSAN延伸集群是一种两地双活数据中心的解决方案,通常采用x+y+1的配置方式,其中x表示站点A中的ESXi主机数量,y表示站点B中的主机数量,1表示站点C中的见证主机。最小配置为1+1+1(双节点vSAN集群),最大配置为20+20+1。
延伸集群创建
- 新建集群
- 集群添加主机(虽然延伸集群一般用于多数据中心的vSAN集群构建,但在vCenter中无法直接对跨数据中心的主机进行集群管理,因此需要将所有主机添加到同一个数据中心)
- 配置集群
延伸集群的网络配置建议
- 三个站点:首选站点、第二站点、见证站点
- 站点主机与见证主机间的延迟要求:
- 每个站点主机数小于 11 的延伸集群的 RTT 必须小于 200 毫秒。
- 每个站点主机数等于或大于 11 的延伸集群的 RTT 必须小于 100 毫秒。
- 首选站点与备选站点的延迟要求:RTT必须小于5ms。
- 跨站点通讯不支持NAT。
- 建议将vSAN流量与VSAN见证分别绑定在不同的VMKernel网卡上。
- ESXi8.0,8.0U1上,运行命令: esxcli vsan network ip add -i vmkx -T witness 指明vmkernel x 作为witness见证口
- 8.0U2上可以在UI中配置。
vSAN延伸集群的端口要求
生产环境中,防火墙需要开放以下对应端口:
服务 | 端口号 | 协议 | 对象 |
|---|---|---|---|
vSAN 集群服务 | 12345, 23451 | UDP | vSAN 主机 |
vSAN 数据传输 | 2233 | TCP | vSAN 主机 |
vSAN VASA Vendor Provider | 8080 | TCP | vSAN 主机和vCenter |
vSAN 单播见证 | 12321 | UDP | vSAN 主机和vSAN 见证 |
见证主机的资源要求
每个见证组件占用16MB空间。以下是不同规模环境下的资源要求:
资源 | Tiny (10VM/750组件 1集群) | Med (500VM/21000组件 21集群) | Large (500+VM/64000组件 24集群) | Extra (500+VM/64000组件 64集群) |
|---|---|---|---|---|
vCPU | 2 | 2 | 2 | 2 |
Mem | 8GB | 16GB | 32GB | 32GB |
启动磁盘 | 12GB | 12GB | 12GB | 12GB |
缓存盘 | 10GB | 10GB | 10GB | 10GB |
容量盘 | 15GB | 350GB (16MB*21000组件) | 3x350GB | 3x350GB |
见证节点带宽占用计算
每1000组件占2Mbps带宽。以下是两种场景下的带宽估算:
- 假设100台虚拟机,PFTT=1,SFTT=1时:
- 每台虚拟机占用100G空间,实际占用400G磁盘
- 一台VM最少7个主目录组件+7个swap组件+7个vmdk组件
- 关机未开机:100台VM就是:10021/10002Mbps=4.2Mbps
- 开机后生成swap对象(配置内存大小-内存预留)
- 假设100台虚拟机,PFTT=0,SFTT=1时:
- 创建的存储策略为无-将数据保留在首选站点(延伸集群)
- 1个故障 RAID1
- 一台VM最少3个主目录组件+3个swap组件+3个vmdk组件
vSAN延伸集群的允许故障数
- PFTT (Primary Failures To Tolerate)
- 0:只允许在一个故障域/站点存储对象(此时亲和性策略起效)
- 1:在两个节点存储对象
- SFTT(Secondary Failures To Tolerate)
- 在同一个站点中,磁盘/主机可以出错的数量
- 读取发生在本地,写入根据存储策略决定。
- 当 FTT 设置为无并设置了“首选”或“辅助”时,VSAN 延伸集群支持启用对称多处理容错(SMP-FT)虚拟机。在 FTT设置为1或更大值的延伸集群上,VSAN 不支持 SMP-FT 虚拟机。
vSAN延伸集群不同配置下的空间占用
可用性 | PFTT | SFTT | 在首选站点中的空间占用 | 在辅助站点中的空间占用 | 空间占用倍数 |
|---|---|---|---|---|---|
双节点无冗余 | 1 | 0 | 100 | 100 | 2x |
双节点RAID1 (1 Failure) | 1 | 1 | 200 | 200 | 4x |
双节点RAID1 (2 Failures) | 1 | 2 | 300 | 300 | 6x |
双节点RAID1 (3 Failures) | 1 | 3 | 400 | 400 | 8x |
双节点RAID5 (1 Failure) | 1 | 1 | 133 | 133 | 2.66x |
双节点RAID6 (2 Failures) | 1 | 2 | 150 | 150 | 3x |
首选站点RAID1 (1 Failure) | 0 | 1 | 200 | 0 | 2x |
首选站点RAID1 (2 Failures) | 0 | 2 | 300 | 0 | 3x |
首选站点RAID1 (3 Failures) | 0 | 3 | 400 | 0 | 4x |
首选站点RAID5 (1 Failure) | 0 | 1 | 133 | 0 | 1.33x |
首选站点RAID6 (2 Failures) | 0 | 2 | 150 | 0 | 1.5x |
辅助站点RAID1 (1 Failure) | 0 | 1 | 0 | 200 | 2x |
辅助站点RAID1 (2 Failures) | 0 | 2 | 0 | 300 | 3x |
辅助站点RAID1 (3 Failures) | 0 | 3 | 0 | 400 | 4x |
辅助站点RAID5 (1 Failure) | 0 | 1 | 0 | 133 | 1.33x |
辅助站点RAID6 (2 Failures) | 0 | 2 | 0 | 150 | 1.5x |
vSAN延伸集群的HA配置
- 主机故障响应:无需修改
- 主机隔离:切换成Poweroff关闭再重新启动虚拟机
- 处于PDL和APD:禁用(由于都用于共享存储,但vSAN是用的自身磁盘)
- 主机故障切换容量:预留的CPU和内存容量均为50%(用于最极端一个站点全部挂掉,迁移到备选站点拉起VM)
- 检测信号数据存储选择策略:勾选使用指定列表中的政据存储并根病需要目动补充
- 高级选项:设置两个隔离地址,分别为witness的vmk和vSAN的vmk
vSAN延伸集群的DRS配置
- vSAN7U2更新了可以感知vSAN的功能,设置为全自动就可以了
- vSAN7U2之前,需要设置为半自动,等待数据同步完后,再手动drs
vSAN存储策略以及虚拟机/主机策略的互操作
当存储策略与虚拟机/主机策略设置不合理时,会导致VM计算资源与存储资源不在同一站点,使得VM性能差,但不会有任何报错
vSAN延伸集群的维护
- 维护见证主机(见证站点级别故障的见证主机)
- 不会迁移任何数据
- 见证不会在任何站点主机上重建
- 见证主机缺失时无法应对站点级别故障(VSAN7 Update 3前)
- 维护站点主机
- 考虑数据是否需要迁移
- 注意维护时对容量的影响
vSAN延伸集群的故障处理
单主机故障
- 读取依旧在本站点内进行(PFTT=1,SFTT=1,RAID1)
- 如有本地资源,将在60分钟后重建副本
- 如没有本地可用副本,将访问另一站点
见证站点故障
- 见证主机故障不会影响虚拟机的运行,但任何一个其他站点故障将直接使VSAN集群瘫痪(VSAN 7Update 3前)。
数据站点故障
- 故障站点中的所有VM会被关机
- 辅助站点中的节点会重新选举集群Master主机(共享存储最多,相同看id)
- 确认哪些虚拟机需要在辅助站点启动,然后启动虚拟机
数据站点恢复
- VSAN 6.7之后,智能故障感知技术可以使得在ISL未恢复之前,辅助站点依旧运行虚拟机。
- 此外,应在大致同一时间恢复故障站点中的所有主机,以避免没有必要的数据传输与重建
多故障处理
- 在此类型的故障修复过程中,先修复见证主机可以使虚拟机对象重新上线,但是不能重新指派witness虚拟机(因为新的witness没有元数据)。
- 核心是存活votes数量大于总votes 50%。
提升VSAN集群中虚拟机的生存能力
- VSAN7 Update 3中引入了新的票数运算机制。在数据站点故障时,存活数据站点提高自身票数使得在见证主机故障的情况下依旧可以超过50%票数。
- PFTT=1、SFTT=1、Raid1情况下:
- 正常状态:首选站点每个组件1票,共3票;辅助站点每个组件1票,共3票;见证主机上组件3票
- 单站点故障:存活站点每个组件3票,共9票;辅助站点不变,各1票,共三票;见证主机上组件1票。故障恢复后,恢复到正常状态
- 新功能的限制:
- 只在延伸集群和双节点集群时起效
- 只发生在数据站点故障在前,见证站点故障在后的情况
热门推荐
各种玫瑰花的含义是什么?如何根据颜色选择玫瑰花表达情感?
大规模泛癌筛选揭示抗癌药物组合的新希望
大规模泛癌筛选揭示抗癌药物组合的新希望
红莲子的功效和作用是什么
燕窝炖红莲子怎么做才好吃及做法与功效
涉外律师分享:在美国被起诉怎么应对
涉外律师分享:在美国被起诉怎么应对
跑步燃脂真相:高效减肥的底层逻辑
涨知识|冬天停训如何维持跑步能力?靠吃!
书香盈心,黄金屋与颜如玉的探索之旅
买车时全款付清和还贷5年,区别有多大?幸亏知道的早呀
新手入门股票怎么买卖?限价委托与市价委托有什么区别?
权威解读:贷款居间合同免费下载的法律风险与防范
人老可以腿不老,力量训练不可少
如何制作Bingsu:韩国传统刨冰的完美指南
红花适合什么时候种 红花怎么种植
63㎡北欧风小户型:巧妙规划收纳空间,打造温馨家居
日本天皇为什么不审判:揭秘日本皇室的神秘面纱
🐦国内近期试点开放的7种鹦鹉:你最想养哪个?
怎么训鹦鹉,掌握这些技巧让你的鹦鹉更聪明
混合性结缔组织病的治疗方法
怎么判断你的结缔组织病严不严重?从这3方面入手判断
怎么通过身份证查询名下电话卡
研究发现:心率越低,人的寿命就越长
中国孩子的抑郁患病率是2%,但为什么你感觉不止这个数?
如何提高四川中职语文考试成绩?
最新!北京平均工资公布!
共模电感在电路中起什么作用?
尿失禁:不只是老年人的问题
精确施工指南,光伏电缆敷设的步骤与顺序