vSAN延伸集群:创建、配置与故障处理全攻略
创作时间:
作者:
@小白创作中心
vSAN延伸集群:创建、配置与故障处理全攻略
引用
CSDN
1.
https://blog.csdn.net/Tassel_YUE/article/details/142733252
vSAN延伸集群是实现两地双活数据中心的一种解决方案,通过在多个站点之间构建高可用的存储集群,确保数据的可靠性和业务的连续性。本文将详细介绍vSAN延伸集群的创建、网络配置、资源要求、高级功能配置、维护和故障处理等内容,帮助读者全面了解和掌握这一技术。
vSAN延伸集群简介
vSAN延伸集群是一种两地双活数据中心的解决方案,通常采用x+y+1的配置方式,其中x表示站点A中的ESXi主机数量,y表示站点B中的主机数量,1表示站点C中的见证主机。最小配置为1+1+1(双节点vSAN集群),最大配置为20+20+1。
延伸集群创建
- 新建集群
- 集群添加主机(虽然延伸集群一般用于多数据中心的vSAN集群构建,但在vCenter中无法直接对跨数据中心的主机进行集群管理,因此需要将所有主机添加到同一个数据中心)
- 配置集群
延伸集群的网络配置建议
- 三个站点:首选站点、第二站点、见证站点
- 站点主机与见证主机间的延迟要求:
- 每个站点主机数小于 11 的延伸集群的 RTT 必须小于 200 毫秒。
- 每个站点主机数等于或大于 11 的延伸集群的 RTT 必须小于 100 毫秒。
- 首选站点与备选站点的延迟要求:RTT必须小于5ms。
- 跨站点通讯不支持NAT。
- 建议将vSAN流量与VSAN见证分别绑定在不同的VMKernel网卡上。
- ESXi8.0,8.0U1上,运行命令: esxcli vsan network ip add -i vmkx -T witness 指明vmkernel x 作为witness见证口
- 8.0U2上可以在UI中配置。
vSAN延伸集群的端口要求
生产环境中,防火墙需要开放以下对应端口:
服务 | 端口号 | 协议 | 对象 |
---|---|---|---|
vSAN 集群服务 | 12345, 23451 | UDP | vSAN 主机 |
vSAN 数据传输 | 2233 | TCP | vSAN 主机 |
vSAN VASA Vendor Provider | 8080 | TCP | vSAN 主机和vCenter |
vSAN 单播见证 | 12321 | UDP | vSAN 主机和vSAN 见证 |
见证主机的资源要求
每个见证组件占用16MB空间。以下是不同规模环境下的资源要求:
资源 | Tiny (10VM/750组件 1集群) | Med (500VM/21000组件 21集群) | Large (500+VM/64000组件 24集群) | Extra (500+VM/64000组件 64集群) |
---|---|---|---|---|
vCPU | 2 | 2 | 2 | 2 |
Mem | 8GB | 16GB | 32GB | 32GB |
启动磁盘 | 12GB | 12GB | 12GB | 12GB |
缓存盘 | 10GB | 10GB | 10GB | 10GB |
容量盘 | 15GB | 350GB (16MB*21000组件) | 3x350GB | 3x350GB |
见证节点带宽占用计算
每1000组件占2Mbps带宽。以下是两种场景下的带宽估算:
- 假设100台虚拟机,PFTT=1,SFTT=1时:
- 每台虚拟机占用100G空间,实际占用400G磁盘
- 一台VM最少7个主目录组件+7个swap组件+7个vmdk组件
- 关机未开机:100台VM就是:10021/10002Mbps=4.2Mbps
- 开机后生成swap对象(配置内存大小-内存预留)
- 假设100台虚拟机,PFTT=0,SFTT=1时:
- 创建的存储策略为无-将数据保留在首选站点(延伸集群)
- 1个故障 RAID1
- 一台VM最少3个主目录组件+3个swap组件+3个vmdk组件
vSAN延伸集群的允许故障数
- PFTT (Primary Failures To Tolerate)
- 0:只允许在一个故障域/站点存储对象(此时亲和性策略起效)
- 1:在两个节点存储对象
- SFTT(Secondary Failures To Tolerate)
- 在同一个站点中,磁盘/主机可以出错的数量
- 读取发生在本地,写入根据存储策略决定。
- 当 FTT 设置为无并设置了“首选”或“辅助”时,VSAN 延伸集群支持启用对称多处理容错(SMP-FT)虚拟机。在 FTT设置为1或更大值的延伸集群上,VSAN 不支持 SMP-FT 虚拟机。
vSAN延伸集群不同配置下的空间占用
可用性 | PFTT | SFTT | 在首选站点中的空间占用 | 在辅助站点中的空间占用 | 空间占用倍数 |
---|---|---|---|---|---|
双节点无冗余 | 1 | 0 | 100 | 100 | 2x |
双节点RAID1 (1 Failure) | 1 | 1 | 200 | 200 | 4x |
双节点RAID1 (2 Failures) | 1 | 2 | 300 | 300 | 6x |
双节点RAID1 (3 Failures) | 1 | 3 | 400 | 400 | 8x |
双节点RAID5 (1 Failure) | 1 | 1 | 133 | 133 | 2.66x |
双节点RAID6 (2 Failures) | 1 | 2 | 150 | 150 | 3x |
首选站点RAID1 (1 Failure) | 0 | 1 | 200 | 0 | 2x |
首选站点RAID1 (2 Failures) | 0 | 2 | 300 | 0 | 3x |
首选站点RAID1 (3 Failures) | 0 | 3 | 400 | 0 | 4x |
首选站点RAID5 (1 Failure) | 0 | 1 | 133 | 0 | 1.33x |
首选站点RAID6 (2 Failures) | 0 | 2 | 150 | 0 | 1.5x |
辅助站点RAID1 (1 Failure) | 0 | 1 | 0 | 200 | 2x |
辅助站点RAID1 (2 Failures) | 0 | 2 | 0 | 300 | 3x |
辅助站点RAID1 (3 Failures) | 0 | 3 | 0 | 400 | 4x |
辅助站点RAID5 (1 Failure) | 0 | 1 | 0 | 133 | 1.33x |
辅助站点RAID6 (2 Failures) | 0 | 2 | 0 | 150 | 1.5x |
vSAN延伸集群的HA配置
- 主机故障响应:无需修改
- 主机隔离:切换成Poweroff关闭再重新启动虚拟机
- 处于PDL和APD:禁用(由于都用于共享存储,但vSAN是用的自身磁盘)
- 主机故障切换容量:预留的CPU和内存容量均为50%(用于最极端一个站点全部挂掉,迁移到备选站点拉起VM)
- 检测信号数据存储选择策略:勾选使用指定列表中的政据存储并根病需要目动补充
- 高级选项:设置两个隔离地址,分别为witness的vmk和vSAN的vmk
vSAN延伸集群的DRS配置
- vSAN7U2更新了可以感知vSAN的功能,设置为全自动就可以了
- vSAN7U2之前,需要设置为半自动,等待数据同步完后,再手动drs
vSAN存储策略以及虚拟机/主机策略的互操作
当存储策略与虚拟机/主机策略设置不合理时,会导致VM计算资源与存储资源不在同一站点,使得VM性能差,但不会有任何报错
vSAN延伸集群的维护
- 维护见证主机(见证站点级别故障的见证主机)
- 不会迁移任何数据
- 见证不会在任何站点主机上重建
- 见证主机缺失时无法应对站点级别故障(VSAN7 Update 3前)
- 维护站点主机
- 考虑数据是否需要迁移
- 注意维护时对容量的影响
vSAN延伸集群的故障处理
单主机故障
- 读取依旧在本站点内进行(PFTT=1,SFTT=1,RAID1)
- 如有本地资源,将在60分钟后重建副本
- 如没有本地可用副本,将访问另一站点
见证站点故障
- 见证主机故障不会影响虚拟机的运行,但任何一个其他站点故障将直接使VSAN集群瘫痪(VSAN 7Update 3前)。
数据站点故障
- 故障站点中的所有VM会被关机
- 辅助站点中的节点会重新选举集群Master主机(共享存储最多,相同看id)
- 确认哪些虚拟机需要在辅助站点启动,然后启动虚拟机
数据站点恢复
- VSAN 6.7之后,智能故障感知技术可以使得在ISL未恢复之前,辅助站点依旧运行虚拟机。
- 此外,应在大致同一时间恢复故障站点中的所有主机,以避免没有必要的数据传输与重建
多故障处理
- 在此类型的故障修复过程中,先修复见证主机可以使虚拟机对象重新上线,但是不能重新指派witness虚拟机(因为新的witness没有元数据)。
- 核心是存活votes数量大于总votes 50%。
提升VSAN集群中虚拟机的生存能力
- VSAN7 Update 3中引入了新的票数运算机制。在数据站点故障时,存活数据站点提高自身票数使得在见证主机故障的情况下依旧可以超过50%票数。
- PFTT=1、SFTT=1、Raid1情况下:
- 正常状态:首选站点每个组件1票,共3票;辅助站点每个组件1票,共3票;见证主机上组件3票
- 单站点故障:存活站点每个组件3票,共9票;辅助站点不变,各1票,共三票;见证主机上组件1票。故障恢复后,恢复到正常状态
- 新功能的限制:
- 只在延伸集群和双节点集群时起效
- 只发生在数据站点故障在前,见证站点故障在后的情况
热门推荐
热月政变与雾月政变:改变法国命运的关键事件
杂咏一百首·蒙恬
散热器怎么检查?检查散热器需要关注哪些方面?
关于波斯文化的5本书
独家观察:内娱需要一档全开麦、不修音、一次过的音综吗?
家用充电桩功率大讨论:对你有什么影响?
民国军阀往事:新旧桂系的四大巨头
二战日本黑科技:换装反舰导弹和防空导弹的“大和”号战列舰
张若虚《春江花月夜》原文及翻译
二线城市1月楼市回温,二线城市房价上涨能否持续?
中药炙甘草的功效与作用
红斑狼疮10大忌口水果
红斑狼疮10大忌口水果
桂花树的养殖方法和注意事项,桂花树种植技术
如何根据不同的应用场景选择合适规格的钻尾钉?
抑郁症的主要临床表现及日常注意事项
如何合理调整保险保额?这类保额调整有哪些影响因素?
探索智能驾驶:L2辅助驾驶技术大揭秘
成都至深圳动卧列车开通!设520个卧铺位及“办公区”,每周双向开行各4趟
山楂适合什么地方种植?山楂的种植环境和条件是什么?
最大似然估计详解:从基本概念到具体应用
研究证实:虾青素能明显增强机体局部和全身的免疫能力
小牛电动车电池寿命及保养指南
展台设计的重要性
家用内墙乳胶漆选购指南与涂刷技巧
揭秘物质状态变化:从固态到液态,是吸热还是放热?
杂食性人类为何选择吃素?素食文化的起源
喜火的人适合佩戴什么?喜火的女人干什么发财?
九紫离火年戴紫色还是红色?9紫离火运最忌什么颜色?
疼痛管理指南:从药物到非药物治疗的全方位解析