AWS 宣布具有 EC2 UltraClusters 功能的 Amazon EC2 P4d 實例全面上市
西雅圖--今天,Amazon.com 公司(納斯達(dá)克股票代碼:AMZN)旗下的 Amazon Web Services, Inc. (AWS) 宣布全面推出 Amazon Elastic Compute Cloud (Amazon EC2) P4d 實例,這是下一代的與上一代 P3 實例相比,GPU 驅(qū)動的實例為機器學(xué)習(xí)訓(xùn)練和高性能計算 (HPC) 工作負(fù)載提供 3 倍更快的性能、高達(dá) 60% 的成本以及 2.5 倍的 GPU 內(nèi)存。 P4d 實例具有 8 個 NVIDIA A100 Tensor Core GPU 和 400 Gbps 的網(wǎng)絡(luò)帶寬(比 P3 實例多 16 倍)。使用具有 AWS 的 Elastic Fabric Adapter (EFA) 和 NVIDIA GPUDirect RDMA(遠(yuǎn)程直接內(nèi)存訪問)的 P4d 實例,客戶能夠創(chuàng)建具有 EC2 UltraClusters 功能的 P4d 實例。借助 EC2 UltraClusters,客戶可以將 P4d 實例擴展到超過 4,000 個 A100 GPU(是任何其他云提供商的兩倍),方法是利用 AWS 設(shè)計的與 Amazon FSx 集成的非阻塞 PB 級網(wǎng)絡(luò)基礎(chǔ)設(shè)施實現(xiàn) Lustre 高性能存儲,提供按需訪問超級計算級性能,以加速機器學(xué)習(xí)訓(xùn)練和 HPC。要開始使用 P4d 實例,請訪問:
AWS 宣布推出由具有 UltraClusters 功能的 NVIDIA A100 GPU 提供支持的 EC2 P4d 實例,用于機器學(xué)習(xí)訓(xùn)練和 HPC。
數(shù)據(jù)科學(xué)家和工程師通過創(chuàng)建更大、更復(fù)雜的模型來繼續(xù)突破機器學(xué)習(xí)的界限,這些模型為廣泛的用例提供更高的預(yù)測精度,包括自動駕駛汽車的感知模型訓(xùn)練、自然語言處理、圖像分類、對象檢測和預(yù)測分析。針對大量數(shù)據(jù)訓(xùn)練這些復(fù)雜模型是一項計算、網(wǎng)絡(luò)和存儲密集型任務(wù),通常需要數(shù)天或數(shù)周時間??蛻舨粌H希望縮短訓(xùn)練模型的時間,而且還希望降低總體訓(xùn)練支出??偟膩碚f,長訓(xùn)練時間和高成本限制了客戶訓(xùn)練模型的頻率,這意味著機器學(xué)習(xí)的開發(fā)和創(chuàng)新速度較慢。
P4d 實例性能的提高可將機器學(xué)習(xí)模型的訓(xùn)練時間縮短多達(dá) 3 倍(將訓(xùn)練時間從幾天縮短到幾小時),額外的 GPU 內(nèi)存可幫助客戶訓(xùn)練更大、更復(fù)雜的模型。隨著數(shù)據(jù)變得越來越豐富,客戶正在訓(xùn)練具有數(shù)百萬甚至數(shù)十億參數(shù)的模型,例如用于文檔摘要和問答的自然語言處理、自動駕駛汽車的對象檢測和分類、大規(guī)模內(nèi)容審核的圖像分類、推薦電子商務(wù)網(wǎng)站的引擎和智能搜索引擎的排名算法——所有這些都需要增加網(wǎng)絡(luò)吞吐量和 GPU 內(nèi)存。 P4d 實例在一個 EC2 實例中配備 8 個 NVIDIA A100 Tensor Core GPU,能夠?qū)崿F(xiàn)高達(dá) 2.5 petaflops 的混合精度性能和 320 GB 的高帶寬 GPU 內(nèi)存。 P4d 實例是業(yè)內(nèi)首個通過 Elastic Fabric Adapter (EFA) 和 NVIDIA GPUDirect RDMA 網(wǎng)絡(luò)接口提供 400 Gbps 網(wǎng)絡(luò)帶寬的實例,可在服務(wù)器之間實現(xiàn) GPU 之間的直接通信,從而降低延遲并提高擴展效率,有助于消除跨多個服務(wù)器的擴展瓶頸-node 分布式工作負(fù)載。每個 P4d 實例還提供 96 個 Intel Xeon Scalable (Cascade Lake) vCPU、1.1 TB 系統(tǒng)內(nèi)存和 8 TB 本地 NVMe 存儲,以減少單節(jié)點訓(xùn)練時間。通過將上一代 P3 實例的性能提高一倍以上,P4d 實例可以將訓(xùn)練機器學(xué)習(xí)模型的成本降低多達(dá) 60%,從而為客戶提供比昂貴且不靈活的本地系統(tǒng)更高的效率。 HPC 客戶還將受益于 P4d 提高的處理性能和 GPU 內(nèi)存,適用于地震分析、藥物發(fā)現(xiàn)、DNA 測序、材料科學(xué)以及金融和保險風(fēng)險建模等要求苛刻的工作負(fù)載。
P4d 實例還基于 AWS Nitro 系統(tǒng)構(gòu)建,AWS 設(shè)計的硬件和軟件使 AWS 能夠向客戶提供越來越廣泛的 EC2 實例和配置選擇,同時提供與裸機無法區(qū)分的性能,提供快速存儲和網(wǎng)絡(luò),并確保更安全的多租戶。 P4d 實例將網(wǎng)絡(luò)功能卸載到專用 Nitro 卡上,從而加速多個 P4d 實例之間的數(shù)據(jù)傳輸。 Nitro 卡還支持 EFA 和 GPUDirect,這允許 GPU 之間的直接跨服務(wù)器通信,從而促進 P4d 實例的 EC2 UltraCluster 之間的更低延遲和更好的擴展性能。這些 Nitro 支持的功能使客戶能夠在 EC2 UltraClusters 中啟動 P4d,并按需和可擴展地訪問 4,000 多個 GPU,以實現(xiàn)超級計算機級性能。
“我們的客戶使用 AWS 服務(wù)構(gòu)建、訓(xùn)練和部署機器學(xué)習(xí)應(yīng)用程序的速度非???。與此同時,我們從這些客戶那里聽說,他們想要一種成本更低的方式來訓(xùn)練他們的大型機器學(xué)習(xí)模型,”AWS EC2 副總裁 Dave Brown 說。 “現(xiàn)在,借助由 NVIDIA 最新 A100 GPU 和 PB 級網(wǎng)絡(luò)提供支持的 P4d 實例的 EC2 UltraClusters,我們正在為幾乎所有人提供超級計算級性能,同時將訓(xùn)練機器學(xué)習(xí)模型的時間縮短 3 倍,并降低成本與上一代實例相比,最多可訓(xùn)練 60%?!?/p>
客戶可以使用 AWS Deep Learning Containers 在 P4d 實例上運行容器化應(yīng)用程序,其中包含適用于 Amazon Elastic Kubernetes Service (Amazon EKS) 或 Amazon Elastic Container Service (Amazon ECS) 的庫。為了獲得更全面的托管體驗,客戶可以通過 Amazon SageMaker 使用 P4d 實例,從而為開發(fā)人員和數(shù)據(jù)科學(xué)家提供快速構(gòu)建、訓(xùn)練和部署機器學(xué)習(xí)模型的能力。 HPC 客戶可以利用帶有 P4d 實例的 AWS Batch 和 AWS ParallelCluster 來幫助高效地編排作業(yè)和集群。 P4d 實例支持所有主要的機器學(xué)習(xí)框架,包括 TensorFlow、PyTorch 和 Apache MXNet,讓客戶可以靈活地選擇最適合其應(yīng)用程序的框架。 P4d 實例已在美國東部(弗吉尼亞北部)和美國西部(俄勒岡)推出,并計劃很快在其他區(qū)域推出。 P4d 實例可以按需購買、使用 Savings Plans、使用預(yù)留實例或作為 Spot 實例購買。
GE Healthcare 是 GE 價值 167 億美元的醫(yī)療保健業(yè)務(wù)。作為全球領(lǐng)先的醫(yī)療技術(shù)和數(shù)字解決方案創(chuàng)新者,GE Healthcare 使臨床醫(yī)生能夠在其 Edison 智能平臺的支持下,通過智能設(shè)備、數(shù)據(jù)分析、應(yīng)用程序和服務(wù)做出更快、更明智的決策。 “在 GE Healthcare,我們?yōu)榕R床醫(yī)生提供工具,幫助他們匯總數(shù)據(jù)、將 AI 和分析應(yīng)用于該數(shù)據(jù),并發(fā)現(xiàn)可改善患者結(jié)果、提高效率和消除錯誤的見解,”人工智能副總裁兼總經(jīng)理 Karley Yoder 說。 GE醫(yī)療。 “我們的醫(yī)學(xué)成像設(shè)備會產(chǎn)生大量數(shù)據(jù),需要我們的數(shù)據(jù)科學(xué)家處理。使用以前的 GPU 集群,訓(xùn)練復(fù)雜的 AI 模型(例如 Progressive GAN)需要數(shù)天時間才能進行模擬并查看結(jié)果。使用新的 P4d 實例將處理時間從幾天縮短到幾小時。我們發(fā)現(xiàn),在訓(xùn)練具有各種圖像大小的模型時速度提高了兩到三倍,同時通過增加批量大小實現(xiàn)了更好的性能,并通過更快的模型開發(fā)周期實現(xiàn)了更高的生產(chǎn)力。”
豐田研究院 (TRI) 成立于 2015 年,致力于為豐田開發(fā)自動駕駛、機器人和其他人體放大技術(shù)。 “在 TRI,我們正在努力打造一個人人都可以自由行動的未來,”TRI 基礎(chǔ)設(shè)施工程技術(shù)主管 Mike Garrison 說。 “上一代 P3 實例幫助我們將機器學(xué)習(xí)模型的訓(xùn)練時間從幾天縮短到幾小時,我們期待使用 P4d 實例,因為額外的 GPU 內(nèi)存和更高效的浮點格式將使我們的機器學(xué)習(xí)團隊能夠訓(xùn)練更多以更快的速度完成復(fù)雜模型?!?/p>
怡安是一家全球領(lǐng)先的專業(yè)服務(wù)公司,提供廣泛的風(fēng)險、退休和健康解決方案。 Aon PathWise 是一種基于 GPU 且可擴展的 HPC 風(fēng)險管理解決方案,保險公司和再保險公司、銀行和養(yǎng)老基金可以使用它來應(yīng)對當(dāng)今的關(guān)鍵挑戰(zhàn),例如對沖策略測試、監(jiān)管和經(jīng)濟預(yù)測以及預(yù)算編制。 “Aon PathWise 允許(再)保險公司和養(yǎng)老基金使用下一代技術(shù),以快速解決當(dāng)今的關(guān)鍵保險挑戰(zhàn),例如對沖策略測試、監(jiān)管和經(jīng)濟預(yù)測以及預(yù)算編制,”PathWise 總裁兼首席執(zhí)行官 Peter Phillips 說。 “通過使用具有 2.5 petaflops 混合精度性能的 AWS P4d 實例,我們能夠在不損失性能的情況下為客戶提供兩倍的成本降低,并且可以為最苛刻的要求提供 2.5 倍的速度提升計算。速度很重要,借助 AWS 的新實例,我們繼續(xù)讓客戶滿意?!?/p>Rad AI 由放射科和人工智能專家組成,構(gòu)建的產(chǎn)品可最大限度地提高放射科醫(yī)師的工作效率,最終使醫(yī)療保健更廣泛地獲得并改善患者的治療效果。 “在 Rad AI,我們的使命是為每個人增加醫(yī)療保健的可及性和質(zhì)量。 Rad AI 專注于醫(yī)學(xué)成像工作流程,可以節(jié)省放射科醫(yī)生的時間、減少倦怠并提高準(zhǔn)確性,”Rad AI 聯(lián)合創(chuàng)始人 Doktor Gurson 說。 “我們使用人工智能來自動化放射學(xué)工作流程并幫助簡化放射學(xué)報告。借助新的 EC2 P4d 實例,我們看到了比上一代 P3 實例更快的推理速度和 2.4 倍的模型訓(xùn)練速度和更高的準(zhǔn)確度。這允許更快、更準(zhǔn)確的診斷,以及更多地獲得我們在美國的客戶提供的高質(zhì)量放射服務(wù)?!?/p>
OmniSci 是加速分析的先驅(qū)。 OmniSci 平臺用于商業(yè)和政府部門,以發(fā)現(xiàn)超出主流分析工具限制的數(shù)據(jù)洞察力。 “在 OmniSci,我們正在努力打造一個數(shù)據(jù)科學(xué)和分析融合以打破和融合數(shù)據(jù)孤島的未來??蛻粽诶盟麄兊暮A繑?shù)據(jù),其中可能包括位置和時間,通過時空數(shù)據(jù)的精細(xì)可視化,不僅可以全面了解正在發(fā)生的事情,還可以了解何時何地。我們的技術(shù)可以看到森林和樹木,”O(jiān)mniSci 美國公共部門副總裁 Ray Falcione 說。 “通過使用 P4d 實例,與上一代 GPU 實例相比,我們能夠顯著降低部署平臺的成本,從而使我們能夠經(jīng)濟高效地擴展海量數(shù)據(jù)集。 A100 的網(wǎng)絡(luò)改進提高了我們擴展到數(shù)十億行數(shù)據(jù)的效率,并使我們的客戶能夠更快地收集洞察力。”
Zenotech Ltd 正在通過使用 HPC 云重新定義在線工程,提供按需許可模型以及利用 GPU 帶來的極致性能優(yōu)勢。 “在 Zenotech,我們正在開發(fā)工具,使設(shè)計師能夠創(chuàng)造出更高效、更環(huán)保的產(chǎn)品。我們跨行業(yè)開展工作,我們的工具通過使用大規(guī)模仿真提供更深入的產(chǎn)品性能洞察力,”Zenotech 董事兼聯(lián)合創(chuàng)始人 Jamil Appa 說。 “與上一代 GPU 相比,使用 P4d 實例使我們能夠?qū)⒛M運行時間減少 65%。這種加速大大縮短了我們解決問題的時間,使我們的客戶能夠比以前更快地將設(shè)計推向市場或進行更高保真度的仿真?!?/p>
關(guān)于亞馬遜網(wǎng)絡(luò)服務(wù)
14 年來,Amazon Web Services 一直是世界上最全面、應(yīng)用最廣泛的云平臺。 AWS 為計算、存儲、數(shù)據(jù)庫、網(wǎng)絡(luò)、分析、機器人、機器學(xué)習(xí)和人工智能 (AI)、物聯(lián)網(wǎng) (IoT)、移動、安全、混合、虛擬和增強現(xiàn)實(VR 和 AR)提供超過 175 項功能齊全的服務(wù))、媒體和應(yīng)用程序開發(fā)、部署和管理,來自 24 個地理區(qū)域內(nèi)的 77 個可用區(qū) (AZ),并宣布計劃在印度尼西亞、日本、西班牙和瑞士再增加 12 個可用區(qū)和四個 AWS 區(qū)域。數(shù)以百萬計的客戶(包括發(fā)展最快的初創(chuàng)公司、最大的企業(yè)和領(lǐng)先的政府機構(gòu))信任 AWS 來支持他們的基礎(chǔ)設(shè)施、變得更加敏捷并降低成本。
關(guān)于亞馬遜
亞馬遜遵循四項原則:以客戶為中心而非以競爭對手為中心、對發(fā)明的熱情、對卓越運營的承諾以及長期思考??蛻粼u論、一鍵購物、個性化推薦、Prime、亞馬遜物流、AWS、Kindle Direct Publishing、Kindle、Fire 平板電腦、Fire TV、亞馬遜 Echo 和 Alexa 是亞馬遜率先推出的一些產(chǎn)品和服務(wù)。
點擊咨詢現(xiàn)在有哪些新興平臺值得關(guān)注 >>>
特別聲明:以上文章內(nèi)容僅代表作者本人觀點,不代表ESG跨境電商觀點或立場。如有關(guān)于作品內(nèi)容、版權(quán)或其它問題請于作品發(fā)表后的30日內(nèi)與ESG跨境電商聯(lián)系。
二維碼加載中...
使用微信掃一掃登錄
使用賬號密碼登錄
平臺顧問
微信掃一掃
馬上聯(lián)系在線顧問
小程序
ESG跨境小程序
手機入駐更便捷
返回頂部