六种GPU虚拟化:除了直通、全虚拟化 (vGPU)还有谁?
创作时间:
作者:
@小白创作中心
六种GPU虚拟化:除了直通、全虚拟化 (vGPU)还有谁?
引用
CSDN
1.
https://blog.csdn.net/zhengmx100/article/details/136809717
在大类上计算虚拟化技术有这3种: 软件模拟、直通独占(如网卡独占、显卡独占)、直通共享(如vCPU 、vGPU)。但对于显卡GPU而言我总结细化出至少这6种分类(其中第四、五种都是第三种的具体实现):
- 第一种、软件模拟(eg sGPU), 又叫半虚拟化。
- 第二种、直通独占(pGPU) , 有的文章翻译为透传 。Openstack/KVM/ESX等IaaS场景用到。
- 第三种、直通共享(基于SR-IOV技术虚拟出vGPU) , 在技术上分类叫全虚拟化 。三个大厂有部分型号GPU支持,具体型号见 https://open-iov.org/index.php/GPU_Support 。这是AMD首先搞出来的,但似乎他们后来也转向GPU分片虚拟化了,这个网站AMD的产品反而没几款。
- 第四种、GPU分片虚拟化(mediated passthrough),也属于全虚拟化技术。其热度很高,基于VFIO mediated passthrough framework的GPU虚拟化方案。该方案由NVIDIA提出,并联合Intel一起提交到了Linux kernel 4.10代码库,该方案的kernel部分代码简称mdev模块。把会影响性能的访问直接passthrough给虚拟机,把性能无关,功能性的MMIO访问做拦截并在mdev模块内做模拟。商业产品有NVIDIA GRID vGPU 与Intel的GVT-g系列,前者不开源,后者大部分开源。
- 第五种、多实例 GPU (MIG)技术,也属于全虚拟化技术。MIGNvidia 搞出的新技术,可将单个 GPU 分区为最多 7个完全的隔离vGPU实例,减少资源争抢的延时,提高物理 GPU 利用率。但可惜目前仅昂贵和国内禁售的NVIDIA A100 GPU 支持。
- 第六种。Time-Slicing GPU(时间共享GPU)。把本来再空间上并行(时间独占)的成百上千的GPU流水线进行的时间维度的分割和共享。各个GPU厂家都有类似的技术。英伟达的技术文档:https://docs.nvidia.com/datacenter/cloud-native/gpu-operator/latest/gpu-sharing.html 。
注意,以上第四种是收费的,所以企业用户要去英伟达官网购买license。英伟达又卖硬件又卖软件license,赚钱能力真强。
第五种MIG则是买到昂贵的A100卡就能用了,不需要license。
普通玩k8s的企业,则用免费的Time-Slicing GPU (时间分片共享GPU)。
多扯淡一句,深度思考下,是否还有其他分类呢?比如上面的第六种是不是进程虚拟化呢?在docker出现后, 人们突然发现以前使用冯·诺依曼架构的 CPU/GPU 的方式也是一种虚拟化: - CPU 原理上是pipeline流水线上的时间维度分片的算力虚拟化,
- GPU原理是空间维度分片的算力虚拟化。
eg.一台电脑只有一块CPU、一块GPU, 但多个程序(进程)都可以使用它们,对于进程而言难道不算虚拟化? 我想起当年“云计算(cloud computing)”这个词被创造后,以前在网页上提供购物、E-mail 、CRM等的,都说自己也在做云计算。现在第六种GPU虚拟化方式出来了,也就算它是进程虚拟化~
GPU软件模拟模式 (sGPU)
软件虚拟化就不讲了,因为真实场景太少,做做实验还将就用,没法用在生产环境,毕竟性能损失太多。
GPU 直通模式 (pGPU)
几种GPU的虚拟化技术,直通是最早出现,即技术上最简单和成熟的方案。厂家(Nvidia ,AMD ,Intel等 )的GPU,只要支持IOMMU的理论上都可以,即直通模式的实现依赖于IOMMU的功能。
优点:
- 原理简单。GPU直通模式的技术方案与虚拟化领域其他PCI直通(eg.网卡直通 ,USB 直通)原理相同
- 兼容性好
- 硬件驱动无需修改,不依赖GPU厂商,技术简单。所以小型GPU集群的运维的技术成本低,
缺点 - 不支持热迁移/在线迁移(Live Migration)
- 不支持GPU资源的分割(即对显存的分割,所以出现了下文的几种技术),不能充分利用高价买的GPU
- 缺少物理机层面的GPU性能监控API接口,在大型GPU集群中,这又导致运维成本上升。
安全性:
由于GPU的复杂性和安全隔离的要求,GPU直通技术相对于任何其他设备来说,会有额外的PCI 配置空间模拟和MMIO的拦截(参见QEMU VFIO quirk机制)。比如Hypervisor或者Device Module 不会允许虚拟机对GPU硬件关键寄存器的完全的访问权限,
GPU 全虚拟化(vGPU)
原理:在硬件实现GPU全虚拟化,将虚拟图形处理单元(vGPU)透传给虚拟机使用。
本文开头介绍过,GPU全虚拟化技术先后有SR-IOV(开源技术) 。还有vGPU 、MIG。它们虚拟出来的GPU都是vGPU。
GPU虚拟化的实现原理简介:
物理GPU虚拟化为多个虚拟机GPU,每个虚拟GPU直接分配给虚拟机使用,通过软件调度的方式在主机(Host)与计算机的来宾账户(Guest)之间提供一个中间设备来允许Guest虚拟机访问Host中的物理GPU。
NVIDIA 官网说的Grid vGPU优势:
- 安全性高。具有完全输入输出内存管理单元( IOMMU )保护的虚拟机能够同时直接访问单个物理 GPU 。
- 通过实时虚拟机迁移进行虚拟机管理
- 支持运行混合的 VDI 和计算工作负载,以及与许多行业虚拟机监控程序的集成。
Grid vGPU劣势:使用NVIDIA 的vGPU需要license,这块费用需要考虑在技术选型里面。
英伟达GPU虚拟化技术的对比
后三种比较常见:
热门推荐
专家建议:脑梗及高血压的7个预防要点
肇庆七星岩:人间仙境的详细介绍与攻略
俄罗斯米格-31战斗机改进:将具备打击高超音速飞行器能力
珍珠奶茶的历史与制作工艺揭秘
无土栽培基质配方详解:从材料选择到具体配比
中医说——梅核气
云浮如何“反弹琵琶”,向教育要动力赢未来?
如何提高漫画创作技巧?从绘画到故事全方位指南
茶中之王:普洱茶的健康益处与文化价值
东北虎和非洲狮发生争斗,谁的胜算更大?听听“虎吹”怎么说的!
德国大麻部分合法化,遭多方反对
机械硬盘数据恢复指南:六种实用方法助你找回丢失数据
科学认知!四环素牙和氟斑牙的区别:成因|症状|治疗方法|潜在危害都有显著差异!
投屏技术在家庭娱乐中的实用性与乐趣探索
白俄罗斯留学:全面解析留学优劣势,助你做出明智选择
南京夫子庙:穿越千年,邂逅秦淮古韵
初创企业团队建设与管理指南:从愿景设定到员工关怀
格拉斯哥大学硕士申请条件详解
职业健康体检须知
4家机构预测:2025年,房价还要调整,最高25%!
哪吒再次搅动四海:影史票房前五!国产动画的破界重生与文化密码
集合空降、装甲等元素 多军兵种合成训练于近日开展
从极简装修看今年装修降级有多严重
刘洋:从太空归来的传奇女性,传递梦想与勇气的力量
走进西安地铁8号(环)线 揭开特色车站神秘面纱
音乐剧《人间失格》:“零余者”的自我叩问
珠海5地入选!最美公共文化新空间值得一逛
换汇避坑小科普:认识现钞和现汇的区别,减少换汇损失
2024海南热带海洋学院各省录取分数线是多少 附历年最低分
快递费怎么寄便宜?这份省钱指南请收好