qGPU on TKE騰訊云發(fā)布下一代GPU容器共享技術(shù),阿里gpu云TKE騰訊云上的QGPU發(fā)布下一代GPU容器共享技術(shù)背景QGPU是騰訊云推出的GPU共享技術(shù)。支持多個(gè)容器間共享GPU卡,并提供容器間內(nèi)存和計(jì)算能力隔離的能力,從而保證使用粒度更小的GPU卡的基礎(chǔ)上的業(yè)務(wù)安全,達(dá)到提高GPU利用率,降低客戶(hù)成本的目的......
背景
QGPU是騰訊云推出的GPU共享技術(shù)。支持多個(gè)容器間共享GPU卡,并提供容器間內(nèi)存和計(jì)算能力隔離的能力,從而保證使用粒度更小的GPU卡的基礎(chǔ)上的業(yè)務(wù)安全,達(dá)到提高GPU利用率,降低客戶(hù)成本的目的。
TKE上的QGPU依托騰訊云TKE開(kāi)源的Nano GPU調(diào)度框架[1],可以實(shí)現(xiàn)GPU計(jì)算能力和顯存的細(xì)粒度調(diào)度,支持多容器共享GPU和多容器跨GPU資源分配。同時(shí),依托底層強(qiáng)大的qGPU隔離技術(shù),可以將GPU的顯存和計(jì)算能力進(jìn)行強(qiáng)隔離。在通過(guò)共享使用GPU的同時(shí),盡可能保證業(yè)務(wù)性能和資源不受干擾。
功能優(yōu)勢(shì)
qGPU方案通過(guò)更有效地調(diào)度NVIDIA GPU卡上的任務(wù),達(dá)到在多個(gè)容器之間共享和使用的目的。支持的功能如下:
靈活性:用戶(hù)可以自由配置GPU的顯存大小和計(jì)算能力比例。
云原生:支持標(biāo)準(zhǔn)Kubernetes,兼容NVIDIA Docker解決方案。
兼容性:不修改鏡像/不替換CUDA庫(kù)/不編譯業(yè)務(wù),易于部署,業(yè)務(wù)無(wú)感知。
高性能:底層操作GPU設(shè)備,高效收斂,吞吐量接近零損耗
強(qiáng)隔離:支持顯存和計(jì)算能力嚴(yán)格隔離,業(yè)務(wù)共享不受影響。
技術(shù)架構(gòu)
TKE上的QGPU采用Nano GPU調(diào)度框架,通過(guò)Kubernetes擴(kuò)展調(diào)度機(jī)制,同時(shí)支持GPU計(jì)算能力和內(nèi)存資源調(diào)度。并且依托Nano GPU的容器定位機(jī)制,支持精細(xì)化GPU卡調(diào)度、多容器GPU卡共享分配和多容器GPU跨卡分配。
QGPU直接利用NVIDIA GPU的底層硬件特性進(jìn)行調(diào)度,實(shí)現(xiàn)了細(xì)粒度的計(jì)算能力隔離,打破了傳統(tǒng)CUDA API劫持方案只能使用CUDA內(nèi)核進(jìn)行計(jì)算能力隔離的限制,提供了更好的QoS保障。
客戶(hù)收入
1.多任務(wù)靈活共享GPU,提高利用率
2.GPU資源被強(qiáng)隔離,業(yè)務(wù)共享不受影響。
3.完全面向Kubernetes,商業(yè)使用零成本
未來(lái)規(guī)劃
1.支持細(xì)粒度的資源監(jiān)控:TKE上的qGPU將支持Pod和容器級(jí)GPU使用情況的收集,從而實(shí)現(xiàn)更細(xì)粒度的資源監(jiān)控和與GPU靈活性的集成。
2.支持線(xiàn)下混合:TKE上的qGPU將支持線(xiàn)上業(yè)務(wù)和線(xiàn)下業(yè)務(wù)的高低優(yōu)先級(jí)混合,最大化GPU利用率。
3.支持qGPU計(jì)算能力池化:基于qGPU的GPU計(jì)算能力池化可以解耦CPU、內(nèi)存資源和異構(gòu)計(jì)算資源。
參考數(shù)據(jù)
[1]Nano GPU調(diào)度框架:[https://github.com/nanogpu]
特別聲明:以上文章內(nèi)容僅代表作者本人觀點(diǎn),不代表ESG跨境電商觀點(diǎn)或立場(chǎng)。如有關(guān)于作品內(nèi)容、版權(quán)或其它問(wèn)題請(qǐng)于作品發(fā)表后的30日內(nèi)與ESG跨境電商聯(lián)系。
二維碼加載中...
使用微信掃一掃登錄
使用賬號(hào)密碼登錄
平臺(tái)顧問(wèn)
微信掃一掃
馬上聯(lián)系在線(xiàn)顧問(wèn)
小程序
ESG跨境小程序
手機(jī)入駐更便捷
返回頂部