vSAN延伸集群:创建、配置与故障处理全攻略
创作时间:
作者:
@小白创作中心
vSAN延伸集群:创建、配置与故障处理全攻略
引用
CSDN
1.
https://blog.csdn.net/Tassel_YUE/article/details/142733252
vSAN延伸集群是实现两地双活数据中心的一种解决方案,通过在多个站点之间构建高可用的存储集群,确保数据的可靠性和业务的连续性。本文将详细介绍vSAN延伸集群的创建、网络配置、资源要求、高级功能配置、维护和故障处理等内容,帮助读者全面了解和掌握这一技术。
vSAN延伸集群简介
vSAN延伸集群是一种两地双活数据中心的解决方案,通常采用x+y+1的配置方式,其中x表示站点A中的ESXi主机数量,y表示站点B中的主机数量,1表示站点C中的见证主机。最小配置为1+1+1(双节点vSAN集群),最大配置为20+20+1。
延伸集群创建
- 新建集群
- 集群添加主机(虽然延伸集群一般用于多数据中心的vSAN集群构建,但在vCenter中无法直接对跨数据中心的主机进行集群管理,因此需要将所有主机添加到同一个数据中心)
- 配置集群
延伸集群的网络配置建议
- 三个站点:首选站点、第二站点、见证站点
- 站点主机与见证主机间的延迟要求:
- 每个站点主机数小于 11 的延伸集群的 RTT 必须小于 200 毫秒。
- 每个站点主机数等于或大于 11 的延伸集群的 RTT 必须小于 100 毫秒。
- 首选站点与备选站点的延迟要求:RTT必须小于5ms。
- 跨站点通讯不支持NAT。
- 建议将vSAN流量与VSAN见证分别绑定在不同的VMKernel网卡上。
- ESXi8.0,8.0U1上,运行命令: esxcli vsan network ip add -i vmkx -T witness 指明vmkernel x 作为witness见证口
- 8.0U2上可以在UI中配置。
vSAN延伸集群的端口要求
生产环境中,防火墙需要开放以下对应端口:
服务 | 端口号 | 协议 | 对象 |
|---|---|---|---|
vSAN 集群服务 | 12345, 23451 | UDP | vSAN 主机 |
vSAN 数据传输 | 2233 | TCP | vSAN 主机 |
vSAN VASA Vendor Provider | 8080 | TCP | vSAN 主机和vCenter |
vSAN 单播见证 | 12321 | UDP | vSAN 主机和vSAN 见证 |
见证主机的资源要求
每个见证组件占用16MB空间。以下是不同规模环境下的资源要求:
资源 | Tiny (10VM/750组件 1集群) | Med (500VM/21000组件 21集群) | Large (500+VM/64000组件 24集群) | Extra (500+VM/64000组件 64集群) |
|---|---|---|---|---|
vCPU | 2 | 2 | 2 | 2 |
Mem | 8GB | 16GB | 32GB | 32GB |
启动磁盘 | 12GB | 12GB | 12GB | 12GB |
缓存盘 | 10GB | 10GB | 10GB | 10GB |
容量盘 | 15GB | 350GB (16MB*21000组件) | 3x350GB | 3x350GB |
见证节点带宽占用计算
每1000组件占2Mbps带宽。以下是两种场景下的带宽估算:
- 假设100台虚拟机,PFTT=1,SFTT=1时:
- 每台虚拟机占用100G空间,实际占用400G磁盘
- 一台VM最少7个主目录组件+7个swap组件+7个vmdk组件
- 关机未开机:100台VM就是:10021/10002Mbps=4.2Mbps
- 开机后生成swap对象(配置内存大小-内存预留)
- 假设100台虚拟机,PFTT=0,SFTT=1时:
- 创建的存储策略为无-将数据保留在首选站点(延伸集群)
- 1个故障 RAID1
- 一台VM最少3个主目录组件+3个swap组件+3个vmdk组件
vSAN延伸集群的允许故障数
- PFTT (Primary Failures To Tolerate)
- 0:只允许在一个故障域/站点存储对象(此时亲和性策略起效)
- 1:在两个节点存储对象
- SFTT(Secondary Failures To Tolerate)
- 在同一个站点中,磁盘/主机可以出错的数量
- 读取发生在本地,写入根据存储策略决定。
- 当 FTT 设置为无并设置了“首选”或“辅助”时,VSAN 延伸集群支持启用对称多处理容错(SMP-FT)虚拟机。在 FTT设置为1或更大值的延伸集群上,VSAN 不支持 SMP-FT 虚拟机。
vSAN延伸集群不同配置下的空间占用
可用性 | PFTT | SFTT | 在首选站点中的空间占用 | 在辅助站点中的空间占用 | 空间占用倍数 |
|---|---|---|---|---|---|
双节点无冗余 | 1 | 0 | 100 | 100 | 2x |
双节点RAID1 (1 Failure) | 1 | 1 | 200 | 200 | 4x |
双节点RAID1 (2 Failures) | 1 | 2 | 300 | 300 | 6x |
双节点RAID1 (3 Failures) | 1 | 3 | 400 | 400 | 8x |
双节点RAID5 (1 Failure) | 1 | 1 | 133 | 133 | 2.66x |
双节点RAID6 (2 Failures) | 1 | 2 | 150 | 150 | 3x |
首选站点RAID1 (1 Failure) | 0 | 1 | 200 | 0 | 2x |
首选站点RAID1 (2 Failures) | 0 | 2 | 300 | 0 | 3x |
首选站点RAID1 (3 Failures) | 0 | 3 | 400 | 0 | 4x |
首选站点RAID5 (1 Failure) | 0 | 1 | 133 | 0 | 1.33x |
首选站点RAID6 (2 Failures) | 0 | 2 | 150 | 0 | 1.5x |
辅助站点RAID1 (1 Failure) | 0 | 1 | 0 | 200 | 2x |
辅助站点RAID1 (2 Failures) | 0 | 2 | 0 | 300 | 3x |
辅助站点RAID1 (3 Failures) | 0 | 3 | 0 | 400 | 4x |
辅助站点RAID5 (1 Failure) | 0 | 1 | 0 | 133 | 1.33x |
辅助站点RAID6 (2 Failures) | 0 | 2 | 0 | 150 | 1.5x |
vSAN延伸集群的HA配置
- 主机故障响应:无需修改
- 主机隔离:切换成Poweroff关闭再重新启动虚拟机
- 处于PDL和APD:禁用(由于都用于共享存储,但vSAN是用的自身磁盘)
- 主机故障切换容量:预留的CPU和内存容量均为50%(用于最极端一个站点全部挂掉,迁移到备选站点拉起VM)
- 检测信号数据存储选择策略:勾选使用指定列表中的政据存储并根病需要目动补充
- 高级选项:设置两个隔离地址,分别为witness的vmk和vSAN的vmk
vSAN延伸集群的DRS配置
- vSAN7U2更新了可以感知vSAN的功能,设置为全自动就可以了
- vSAN7U2之前,需要设置为半自动,等待数据同步完后,再手动drs
vSAN存储策略以及虚拟机/主机策略的互操作
当存储策略与虚拟机/主机策略设置不合理时,会导致VM计算资源与存储资源不在同一站点,使得VM性能差,但不会有任何报错
vSAN延伸集群的维护
- 维护见证主机(见证站点级别故障的见证主机)
- 不会迁移任何数据
- 见证不会在任何站点主机上重建
- 见证主机缺失时无法应对站点级别故障(VSAN7 Update 3前)
- 维护站点主机
- 考虑数据是否需要迁移
- 注意维护时对容量的影响
vSAN延伸集群的故障处理
单主机故障
- 读取依旧在本站点内进行(PFTT=1,SFTT=1,RAID1)
- 如有本地资源,将在60分钟后重建副本
- 如没有本地可用副本,将访问另一站点
见证站点故障
- 见证主机故障不会影响虚拟机的运行,但任何一个其他站点故障将直接使VSAN集群瘫痪(VSAN 7Update 3前)。
数据站点故障
- 故障站点中的所有VM会被关机
- 辅助站点中的节点会重新选举集群Master主机(共享存储最多,相同看id)
- 确认哪些虚拟机需要在辅助站点启动,然后启动虚拟机
数据站点恢复
- VSAN 6.7之后,智能故障感知技术可以使得在ISL未恢复之前,辅助站点依旧运行虚拟机。
- 此外,应在大致同一时间恢复故障站点中的所有主机,以避免没有必要的数据传输与重建
多故障处理
- 在此类型的故障修复过程中,先修复见证主机可以使虚拟机对象重新上线,但是不能重新指派witness虚拟机(因为新的witness没有元数据)。
- 核心是存活votes数量大于总votes 50%。
提升VSAN集群中虚拟机的生存能力
- VSAN7 Update 3中引入了新的票数运算机制。在数据站点故障时,存活数据站点提高自身票数使得在见证主机故障的情况下依旧可以超过50%票数。
- PFTT=1、SFTT=1、Raid1情况下:
- 正常状态:首选站点每个组件1票,共3票;辅助站点每个组件1票,共3票;见证主机上组件3票
- 单站点故障:存活站点每个组件3票,共9票;辅助站点不变,各1票,共三票;见证主机上组件1票。故障恢复后,恢复到正常状态
- 新功能的限制:
- 只在延伸集群和双节点集群时起效
- 只发生在数据站点故障在前,见证站点故障在后的情况
热门推荐
异常概述及其抛出与捕获机制
子平八字基本框架
一文读懂AI智能体:概念、与大语言模型的区别及应用场景
卢梭《忏悔录》:文学史上最早最有影响的自我暴露作品之一
哈佛大学教授:10年内有望逆转衰老,人类平均寿命延长40年
怎样在高中英语教学中合理利用插图
洗牙还要验血?我是不是被忽悠了?丨贤医健康说
徒步行军与摩托化行军:部队如何选择合适的行军方式?
臀部发力走路真的能瘦腿吗?正确姿势详解
业务团队如何快速做规划
如何做到“食不过量”?这些坑许多人都踩过哟
如何精确计算逆回购的利息收益?这种收益计算如何影响投资决策?
15种常见食用菌营养成分分析及评价
国产动画技术再突破 “00后”青年高天健参与《哪吒2》制作
为什么“0”的概念如此难以理解?甚至成了判断“意识”的关键!
长期患克罗恩病,易增加患癌风险!做好预防,出现症状及时就医
如何探究黄金的价格情况?这种价格情况如何进行深入了解?
ENFJ如何处理冲突
2025了!面对孩子厌学,如何支招?
CPU温度太高?5个实用解决方案帮你轻松应对
供应商关系管理系统(SRM):企业降本增效的关键工具
水门事件,是让尼克松下台的关键转折,其中的核心原因是什么?
全麦面包:健康生活的首选
电动车充电红绿灯交替?三种原因及解决方案全解析
2024年贵州电气工程师考试报名条件
《猫鼠游戏》:终其一生你最想成为的那个人,其实就是你自己
俗话“真姑母,假舅母,半真半假是姨母”,是啥意思?有道理吗?
燃气热水器水气双调什么意思
成语“身陷囹圄”怎么读?详细解释与用法
身陷囹圄怎么读?成语发音及解释!