主站
商城
論壇
自運(yùn)營(yíng)

注冊(cè)

新聞
專(zhuān)欄
娛樂(lè)
硬件
商城
電競(jìng)
下載
論壇
MOD站
風(fēng)靈月影

您的位置：首頁(yè) > 新聞 > 電腦配件 > 新聞詳情

16384塊N卡訓(xùn)練4050億參數(shù)大模型：3小時(shí)報(bào)錯(cuò)一次

時(shí)間：2024-07-29 12:06:05

來(lái)源：快科技
作者：上方文Q
編輯：liyunfei

如今的AI大模型規(guī)模越來(lái)越龐大，動(dòng)輒成百上千億參數(shù)，訓(xùn)練過(guò)程不僅需要數(shù)萬(wàn)甚至十幾萬(wàn)塊GPU加速卡，出錯(cuò)的幾率也越來(lái)越高。Meta(Facebook)就披露了一份驚人的報(bào)告。

Meta在報(bào)告中披露，為了訓(xùn)練自己的Llama 3 4050億參數(shù)大模型，使用了包含16384塊NVIDIA H100 80GB GPU的集群，一共花了45天，期間居然出現(xiàn)了419次意外報(bào)錯(cuò)，平均每3個(gè)小時(shí)就一次，而一半的錯(cuò)誤都和GPU及其自帶的HBM3內(nèi)存有關(guān)。

16384塊N卡訓(xùn)練4050億參數(shù)大模型：3小時(shí)報(bào)錯(cuò)一次

要知道，大模型訓(xùn)練的工作量異常龐大，而且需要高度同步，一次錯(cuò)誤就可能導(dǎo)致整個(gè)訓(xùn)練工作必須從頭再來(lái)。

報(bào)告顯示，為期45天的預(yù)訓(xùn)練階段中，總共出現(xiàn)了466次工作中斷，其中47次是計(jì)劃內(nèi)的自動(dòng)維護(hù)，419次是意外的，且大部分都來(lái)自硬件問(wèn)題，GPU又是最多的，占了其中的58.7%。

具體來(lái)說(shuō)，148次即30.1%的意外中斷來(lái)自各種GPU失效(包括NVLink總線(xiàn))，72次即17.2%來(lái)自HBM3內(nèi)存失效——畢竟，700W的功耗太熱了。

16384塊N卡訓(xùn)練4050億參數(shù)大模型：3小時(shí)報(bào)錯(cuò)一次

還有19次來(lái)自GPU SRAM，17次來(lái)自GPU處理器，6次來(lái)自GPU靜默數(shù)據(jù)錯(cuò)誤，6次來(lái)自GPU散熱和傳感器。

其他錯(cuò)誤來(lái)自軟件bug、網(wǎng)線(xiàn)和網(wǎng)卡等等各個(gè)方面。有趣的是，CPU錯(cuò)誤只出現(xiàn)了2次。

還好，Llama 3團(tuán)隊(duì)非常給力，在這么高的出錯(cuò)幾率下，依然維持了超過(guò)90%的有效訓(xùn)練時(shí)間，而且只有三次GPU報(bào)錯(cuò)需要大量人工干預(yù)，其他都被自動(dòng)化管理糾正了。

0

相關(guān)資訊

標(biāo)簽：顯卡

玩家點(diǎn)評(píng) （0人參與，0條評(píng)論）

收藏

違法和不良信息舉報(bào)

分享:

注冊(cè)

熱門(mén)評(píng)論

全部評(píng)論

近期熱門(mén) 更多+

女皇回歸瞄準(zhǔn)《GTA6》：若他人破解失敗，我會(huì)出手！ RTX 5060Ti 16款游戲?qū)崪y(cè)：光柵性能平均比3080慢11% 美國(guó)宣布豁免電腦、芯片、智能手機(jī)等電子產(chǎn)品的新關(guān)稅韓國(guó)獲批餃子外形專(zhuān)利：中餐館賣(mài)餃子或?qū)⑶謾?quán) 老司機(jī)歡呼《第一后裔》五月將加入“動(dòng)態(tài)運(yùn)動(dòng)”功能網(wǎng)易單機(jī)策略《萬(wàn)民長(zhǎng)歌：三國(guó)》預(yù)告限量測(cè)試上線(xiàn) Win11更新后出現(xiàn)神秘文件夾！微軟：別刪，不是Bug Epic官方：游戲并不讓人沉迷許多玩家領(lǐng)了都不玩

他們都在說(shuō) 再看看

公版2499 加稅245% 等于

回頭草 4月17日

RTX 5060國(guó)行定價(jià)公布：2499元 5月正式上市

可以的。狗又有福利去吃了。老板是個(gè)好人。[贊個(gè)]

每天想尼多一點(diǎn) 4月17日

《最后生還者2》劇集第二季頑皮狗新作女主演員現(xiàn)身被吐槽

一個(gè)韓國(guó)人，一個(gè)印度人，這個(gè)世界上最?lèi)盒牡膬蓚€(gè)國(guó)家和民族。

梗哥 4月16日

韓國(guó)獲批餃子外形專(zhuān)利：中餐館賣(mài)餃子或?qū)⑶謾?quán)

專(zhuān)欄文章更多+

偶遇鄰家老奶超強(qiáng)肘擊，拼盡全力無(wú)法戰(zhàn)勝

厭倦了千篇一律的“銀河城”，為什么只有它能挑起我的游玩欲？

你是說(shuō)，我可以和“飛翔荷蘭人”狠狠打炮？

荒誕的翻唱“拿粑粑做蛋撻”，讓楊坤當(dāng)場(chǎng)狀告四川芬達(dá)

單機(jī)發(fā)售更多+

秘影曼德拉 act 2025-04-17

太空房地產(chǎn) sim 2025-04-15

盟軍敢死隊(duì)：起源 rts 2025-04-09

午夜以南 act 2025-04-09

最后生還者2重制版 act 2025-04-04

inZOI sim 2025-03-28

原子隕落 stg 2025-03-27

維納斯璀璨假期：死或生Xtreme avg 2025-03-27

3DM自運(yùn)營(yíng)游戲推薦更多+

開(kāi)始游戲進(jìn)入官網(wǎng)

傳奇歲月
開(kāi)始游戲進(jìn)入官網(wǎng)

原始傳奇
安卓下載
 進(jìn)入官網(wǎng)

斗羅大陸（我唐三認(rèn)可0.1折）
安卓下載
 進(jìn)入官網(wǎng)

妖神記之巔峰對(duì)決
安卓下載
 進(jìn)入官網(wǎng)

無(wú)雙戰(zhàn)車(chē)（悟空沉默）
開(kāi)始游戲
 進(jìn)入官網(wǎng)

深淵契約
開(kāi)始游戲
 進(jìn)入官網(wǎng)

貓狩紀(jì)0.1折
開(kāi)始游戲
 進(jìn)入官網(wǎng)

靈劍仙師（斗破蒼穹）

搞笑娛樂(lè) 更多+

日本妹Cos《星刃》伊芙2B皮膚美圖高衩黑絲肉腿

3DM輕松一刻第1446期看這瀟灑的身影摔得多慘！

周五福利囧圖云飛系列和美女近距離的親身接觸！

韓國(guó)美女表恩智福利圖賞：純欲系身材很性感！

綜合內(nèi)容

單機(jī)游戲

游戲下載補(bǔ)丁MOD 原創(chuàng)攻略 XBOX PS5 發(fā)售表

手機(jī)游戲

安卓游戲蘋(píng)果游戲手游攻略手游禮包專(zhuān)題合集排行榜

網(wǎng)絡(luò)游戲

網(wǎng)游資訊競(jìng)技賽事網(wǎng)游活動(dòng) 網(wǎng)游大全新游試玩激活碼

關(guān)于3DMGAME|招聘信息|網(wǎng)站地圖|聯(lián)系我們|媒體信息|家長(zhǎng)監(jiān)護(hù)申請(qǐng)引導(dǎo)|家長(zhǎng)監(jiān)護(hù)|漢化翻譯

京ICP備14006952號(hào)-1 京B2-20201630 京網(wǎng)文（2019）3652-335號(hào) 滬公網(wǎng)安備 31011202006753號(hào)違法和不良信息舉報(bào)/未成年人舉報(bào)：legal@3dmgame.com

CopyRight?2003-2018 違法和不良信息舉報(bào)（021-54473036） All Right Reserved

登錄后免費(fèi)暢享游戲內(nèi)容

APP玩家專(zhuān)屬福利：每日登錄抽大獎(jiǎng)，各類(lèi)福利領(lǐng)不停

驗(yàn)證碼登錄密碼登錄

自動(dòng)登錄忘記密碼新會(huì)員注冊(cè)

登錄

社交賬號(hào)登錄

3DM 歡迎新人加入

區(qū)號(hào):

賬號(hào):

密碼:

確認(rèn)密碼:

驗(yàn)證碼:

獲取驗(yàn)證碼

收不到驗(yàn)證碼？去反饋

注冊(cè)

我已同意《3DM賬號(hào)協(xié)議》

已有賬號(hào)？去登錄

APP掃碼登錄

打開(kāi)“3DM游戲APP 首頁(yè)”

右上角“掃一掃”

下載3DM游戲APP

下載3DM游戲APP

立領(lǐng) 5元現(xiàn)金紅包!