千鋒教育-做有情懷、有良心、有品質(zhì)的職業(yè)教育機(jī)構(gòu)

手機(jī)站
千鋒教育

千鋒學(xué)習(xí)站 | 隨時(shí)隨地免費(fèi)學(xué)

千鋒教育

掃一掃進(jìn)入千鋒手機(jī)站

領(lǐng)取全套視頻
千鋒教育

關(guān)注千鋒學(xué)習(xí)站小程序
隨時(shí)隨地免費(fèi)學(xué)習(xí)課程

當(dāng)前位置:首頁(yè)  >  技術(shù)干貨  > 如何搭建基于容器的深度學(xué)習(xí)環(huán)境

如何搭建基于容器的深度學(xué)習(xí)環(huán)境

來(lái)源:千鋒教育
發(fā)布人:xqq
時(shí)間: 2023-12-06 14:50:50 1701845450

歷史上,人工智能的概念幾經(jīng)沉浮。如今,憑借低成本的存儲(chǔ)、高性能的算力和改進(jìn)的訓(xùn)練方法,舊的概念再次煥發(fā)出新的生機(jī)。以TensorFlow和PyTorch為代表的一眾深度學(xué)習(xí)框架的出現(xiàn),更是將這個(gè)領(lǐng)域的門(mén)檻降到天下何人不煉丹的程度。

然而,深度學(xué)習(xí)靠框架,框架還要挑CUDA。

技術(shù)的飛速發(fā)展和訓(xùn)練框架的野蠻迭代背后,是一地不兼容的版本號(hào),和繞口令一般的困境。

不同的PyTorch版本依賴不同的CUDA版本

不同的TensorFlow版本依賴不同的cuDNN版本

不同的cuDNN版本也依賴不同的CUDA版本

不同的CUDA版本依賴不同的NVIDIAGPU驅(qū)動(dòng)版本

最后不同操作系統(tǒng)的不同版本只支持個(gè)別版本的GPU驅(qū)動(dòng)

所以新手最常遇到的場(chǎng)景是,為了運(yùn)行一份最后更新于三年前的、散發(fā)著古早味的、據(jù)說(shuō)很厲害的代碼,降級(jí)并重裝整個(gè)操作系統(tǒng),并且常常因?yàn)檎`信了網(wǎng)上流傳的同樣古早的二手知識(shí)而以失敗告終。

基于云的GPU環(huán)境一般都會(huì)提供預(yù)裝的鏡像,但畢竟選擇有限,不能覆蓋所有的場(chǎng)景。數(shù)據(jù)科學(xué)家們大多不是工程師,糾纏這些底層細(xì)節(jié)既不擅長(zhǎng)也無(wú)意義。工程化的缺失一直是深度學(xué)習(xí)領(lǐng)域面臨的重大問(wèn)題,年輕的煉丹師們流汗又流淚。

本文將介紹如何基于容器技術(shù)快速供給和切換不同的cuDNN/CUDA運(yùn)行時(shí),輕松搭建不同版本的深度學(xué)習(xí)環(huán)境。

GPU容器化的核心是NVIDIA Container Toolkit:

不同的容器共享GPU硬件和驅(qū)動(dòng),上層的cuDNN/CUDA組件已經(jīng)預(yù)先打包在鏡像里,CUDA與底層的驅(qū)動(dòng)和操作系統(tǒng)實(shí)現(xiàn)解耦,不同版本的運(yùn)行時(shí)可以在同一臺(tái)主機(jī)上共存,宿主機(jī)上只需要安裝最新版本的NVIDIA GPU驅(qū)動(dòng)即可。

盡管很寬泛,但是NVIDIAContainer Toolkit對(duì)操作系統(tǒng)的發(fā)行版和版本號(hào)還是有基本的要求:

上表中常用的操作系統(tǒng),Debian過(guò)于保守,Ubuntu太過(guò)激進(jìn),裝機(jī)量較大的CentOS又前途不明,所以我們選擇完全兼容CentOS又有Oracle官方長(zhǎng)期支持保障的Oracle Linux作為環(huán)境安裝的基石,這里使用最新的8.4版本。

首先安裝GPU驅(qū)動(dòng),NVIDIA提供了三種安裝方式:本地全量rpm包、網(wǎng)絡(luò)rpm倉(cāng)庫(kù)和二進(jìn)制可執(zhí)行文件。毫無(wú)疑問(wèn)應(yīng)該選擇本地全量rpm包,因?yàn)榕f的依賴包不久就會(huì)被從網(wǎng)絡(luò)上移除,而GPU硬件的使用壽命明顯遠(yuǎn)遠(yuǎn)長(zhǎng)于這些軟件,所以不建議選擇網(wǎng)絡(luò)倉(cāng)庫(kù),以免將來(lái)無(wú)法重新安裝;不選擇二進(jìn)制可執(zhí)行文件是因?yàn)榘惭b后難以干凈地移除,升級(jí)時(shí)可能會(huì)遇到?jīng)_突。

在https://developer.nvidia.com/cuda-downloads下載全量rpm包:

安裝內(nèi)核頭文件,注意OracleLinux默認(rèn)使用的是UEK內(nèi)核,如果使用主線內(nèi)核請(qǐng)做相應(yīng)調(diào)整(安裝kernel-devel):

【代碼】

安裝驅(qū)動(dòng)模塊和必要的依賴:

【代碼】

第二步,安裝并啟動(dòng)Docker服務(wù):

【代碼】

最后,安裝NVIDIA Container Toolkit并且重啟Docker服務(wù):

【代碼】

NVIDIA在https://gitlab.com/nvidia/container-images/cuda/blob/master/doc/supported-tags.md提供了從CUDA 9.2到CUDA 11..4.1的多種官方鏡像,創(chuàng)建不同版本的cuDNN/CUDA運(yùn)行時(shí)只需要簡(jiǎn)單拉取對(duì)應(yīng)的鏡像即可。

比如安裝PyTorch 1.9.0所需的CUDA 10.2:

【代碼】

【輸出】

不要被右上角的CUDA版本號(hào)嚇到,它只是表明當(dāng)前宿主機(jī)的GPU驅(qū)動(dòng)所能支持CUDA的最高版本,容器中真正的CUDA版本可以通過(guò)nvcc命令來(lái)驗(yàn)證:

【代碼】

【輸出】

祝煉丹成功。

聲明:本站稿件版權(quán)均屬千鋒教育所有,未經(jīng)許可不得擅自轉(zhuǎn)載。
10年以上業(yè)內(nèi)強(qiáng)師集結(jié),手把手帶你蛻變精英
請(qǐng)您保持通訊暢通,專(zhuān)屬學(xué)習(xí)老師24小時(shí)內(nèi)將與您1V1溝通
免費(fèi)領(lǐng)取
今日已有369人領(lǐng)取成功
劉同學(xué) 138****2860 剛剛成功領(lǐng)取
王同學(xué) 131****2015 剛剛成功領(lǐng)取
張同學(xué) 133****4652 剛剛成功領(lǐng)取
李同學(xué) 135****8607 剛剛成功領(lǐng)取
楊同學(xué) 132****5667 剛剛成功領(lǐng)取
岳同學(xué) 134****6652 剛剛成功領(lǐng)取
梁同學(xué) 157****2950 剛剛成功領(lǐng)取
劉同學(xué) 189****1015 剛剛成功領(lǐng)取
張同學(xué) 155****4678 剛剛成功領(lǐng)取
鄒同學(xué) 139****2907 剛剛成功領(lǐng)取
董同學(xué) 138****2867 剛剛成功領(lǐng)取
周同學(xué) 136****3602 剛剛成功領(lǐng)取
相關(guān)推薦HOT
嵌入式培訓(xùn)課程:探索技術(shù)的無(wú)限可能

近年來(lái),嵌入式系統(tǒng)的廣泛應(yīng)用已經(jīng)深刻改變了我們的生活方式。從智能手機(jī)到智能家居,從汽車(chē)到醫(yī)療設(shè)備,嵌入式技術(shù)已經(jīng)成為現(xiàn)代社會(huì)不可或缺的...詳情>>

2023-12-12 11:02:35
嵌入式開(kāi)發(fā):Linux網(wǎng)絡(luò)編程的探索與實(shí)踐

在當(dāng)今的科技世界中,嵌入式系統(tǒng)已經(jīng)滲透到我們生活的方方面面,從智能手機(jī)、電視、汽車(chē)到醫(yī)療設(shè)備等。而在這些設(shè)備中,Linux網(wǎng)絡(luò)編程扮演著至...詳情>>

2023-12-12 09:55:55
Java游戲項(xiàng)目開(kāi)發(fā):技術(shù)概覽與實(shí)踐

在數(shù)字化世界中,游戲已經(jīng)成為了人們休閑娛樂(lè)的重要方式之一。隨著科技的不斷進(jìn)步,游戲開(kāi)發(fā)行業(yè)也在不斷發(fā)展,而Java作為一門(mén)廣泛使用的編程語(yǔ)...詳情>>

2023-12-12 08:49:15
Web前端的基石:HTML

在數(shù)字化的時(shí)代,網(wǎng)頁(yè)設(shè)計(jì)已經(jīng)成為了一個(gè)重要的領(lǐng)域。而在這個(gè)領(lǐng)域中,HTML(HyperTextMarkupLanguage)無(wú)疑是最基礎(chǔ)、最重要的一環(huán)。它是構(gòu)建...詳情>>

2023-12-12 08:15:55
嵌入式開(kāi)發(fā):內(nèi)存分配的方式

嵌入式系統(tǒng)開(kāi)發(fā)中,內(nèi)存分配是一個(gè)至關(guān)重要的話題。嵌入式系統(tǒng)通常具有有限的內(nèi)存資源,因此合理的內(nèi)存分配方式對(duì)系統(tǒng)的性能和穩(wěn)定性至關(guān)重要。...詳情>>

2023-12-12 06:35:55
快速通道