半夏小說

我的系統能刷數學經驗_第120章 新的主線任務_多維度的學者(1)

關燈

他想起了AI發展史上,那篇如同“聖經”般的論文——《Attention Is All You Need》。

2017年,谷歌的研究員們,發表了這篇劃時代的論文,首次提出了“Transformer”架構。這篇論文,就像理學界的“相對論”,它為整個AI領域,提供了一個全新的、顛覆的底層範式。

但是,從《Attention Is All You Need》這篇僅僅8頁的論文,到今天能與人類對答如流的ChatGPT-4,中間隔着許多東西。

徐辰的腦海中,浮現出了那篇論文的作者名單。其中一位作者,Noam Shazeer,曾經說過的一句名言,那句話後來為了AI圈的信條:

“Money is all you need.”(你只需要錢。)

這雖然是一句玩笑,卻道出了大模型訓練最殘酷的真相。

……

大模型的訓練,是一個極其複雜的系統工程,更是一場燒錢的遊戲。

首先是數據工程。如何從PB級的原始文本中,清洗出高質量的預訓練語料?如何設計Tokenizer(分詞)以平衡詞表大小和序列長度?如何構建多樣化的指令微調(SFT)數據集?這些都是秘而不宣的行業機

其次是訓練穩定。在數千張GPU上進行分佈式訓練,如何理梯度炸或消失?如何設計混合度訓練策略(Mixed Precision Training)以兼顧速度和度?任何一個環節的參數設置不當,都可能導致Loss(損失函數)無法收斂,甚至訓練崩潰。

還有那個著名的“規模定律”(Sg Laws)。Jared Kaplan在2020年提出的這個定律,就像是AI領域的“爾定律”。它冷酷地指出:模型的能與計算量、數據集大小和參數數量之間,存在着嚴格的冪律關係。這意味着,想要更智能的模型?沒別的辦法,堆算力,堆數據,堆錢!

最後是對齊。如何通過RLHF(基於人類反饋的強化學習),利用PPO(近端策略優化)算法,將模型的輸出分佈與人類的價值觀偏好對齊,使其既有用又安全?這更是一個充滿了玄學和經驗主義的領域。

deeN uoY llA sI noitnettA

FHLR

0001

3

稿

IAIA

IA

稿

3.VL

宿

ICS3

宿

稿IA

IA

滿