

qGPU on TKE腾讯云发布下一代GPU容器共享技术,阿里gpu云TKE腾讯云上的QGPU发布下一代GPU容器共享技术背景QGPU是腾讯云推出的GPU共享技术。支持多个容器间共享GPU卡,并提供容器间内存和计算能力隔离的能力,从而保证使用粒度更小的GPU卡的基础上的业务安全,达到提高GPU利用率,降低客户成本的目的......
背景
QGPU是腾讯云推出的GPU共享技术。支持多个容器间共享GPU卡,并提供容器间内存和计算能力隔离的能力,从而保证使用粒度更小的GPU卡的基础上的业务安全,达到提高GPU利用率,降低客户成本的目的。
TKE上的QGPU依托腾讯云TKE开源的Nano GPU调度框架[1],可以实现GPU计算能力和显存的细粒度调度,支持多容器共享GPU和多容器跨GPU资源分配。同时,依托底层强大的qGPU隔离技术,可以将GPU的显存和计算能力进行强隔离。在通过共享使用GPU的同时,尽可能保证业务性能和资源不受干扰。
功能优势
qGPU方案通过更有效地调度NVIDIA GPU卡上的任务,达到在多个容器之间共享和使用的目的。支持的功能如下:
灵活性:用户可以自由配置GPU的显存大小和计算能力比例。
云原生:支持标准Kubernetes,兼容NVIDIA Docker解决方案。
兼容性:不修改镜像/不替换CUDA库/不编译业务,易于部署,业务无感知。
高性能:底层操作GPU设备,高效收敛,吞吐量接近零损耗
强隔离:支持显存和计算能力严格隔离,业务共享不受影响。
技术架构
TKE上的QGPU采用Nano GPU调度框架,通过Kubernetes扩展调度机制,同时支持GPU计算能力和内存资源调度。并且依托Nano GPU的容器定位机制,支持精细化GPU卡调度、多容器GPU卡共享分配和多容器GPU跨卡分配。
QGPU直接利用NVIDIA GPU的底层硬件特性进行调度,实现了细粒度的计算能力隔离,打破了传统CUDA API劫持方案只能使用CUDA内核进行计算能力隔离的限制,提供了更好的QoS保障。
客户收入
1.多任务灵活共享GPU,提高利用率
2.GPU资源被强隔离,业务共享不受影响。
3.完全面向Kubernetes,商业使用零成本
未来规划
1.支持细粒度的资源监控:TKE上的qGPU将支持Pod和容器级GPU使用情况的收集,从而实现更细粒度的资源监控和与GPU灵活性的集成。
2.支持线下混合:TKE上的qGPU将支持线上业务和线下业务的高低优先级混合,最大化GPU利用率。
3.支持qGPU计算能力池化:基于qGPU的GPU计算能力池化可以解耦CPU、内存资源和异构计算资源。
参考数据
[1]Nano GPU调度框架:[https://github.com/nanogpu]
特别声明:以上文章内容仅代表作者本人观点,不代表ESG跨境电商观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与ESG跨境电商联系。
二维码加载中...
使用微信扫一扫登录
使用账号密码登录
平台顾问
微信扫一扫
马上联系在线顾问
小程序
ESG跨境小程序
手机入驻更便捷
返回顶部