半夏小說

我的系統能刷數學經驗_第167章 重啟SLRM研究 三(1)

關燈

在接下來的幾天里,北大計算中心的GPU集群再次滿負荷運轉。

十幾個不同版本的模型,在西張A100顯卡上日夜不停地叉訓練、驗證、迭代。

徐辰編寫了一個自化的超參數搜索腳本,讓計算機自己去尋找那個最優的解。

屏幕上,十幾條Loss曲線像賽跑一樣織在一起,有的早早收斂,有的半路崩盤,有的則還在頑強地掙扎。

最終,在燒掉了數千塊錢的電費後,一個名為“v4_final_best”的模型版本穎而出。

它在CLUTRR驗證集上的準確率穩定在了98.8%,比之前的Demo版本又提升了3.5個百分點。

這類預測模型,準確率理論上是到不了100%的,人類在這個數據集上的平均準確率,也不過是99%左右。畢竟,人也會犯錯,也會看花眼。

而且在AI評測中,為了防止模型“過擬合”或者“作弊”,有時候會故意在測試集中摻雜量的噪聲數據。如果一個模型在這些明顯錯誤的題目上也答“對”了,即輸出了錯誤的標註答案,那就說明這個模型可能是在“背題”,而不是在“推理”。

所以98.8%算得上己經接近理論極限了。

看着這個數字,徐辰滿意地點了點頭。

“就是它了。”

……

MRLS

s/snekot 54 B7-newQ

s/snekot 8.0 MRLS + B7-newQ

s/snekot 8.0

便

MRLS

UPGluMtaMremrofsnarT

MRLS

lebmuGsulptfosxamnim

eroC rosneTUPG

05remrofsnarTMRLS

IArekooH araSelgooG

UPGremrofsnarT

UPG

remrofsnarTMRLS

使eroC rosneTUPG

UPGUPC

MRLS

UPGUPC

UPTMRLS

UPTMRLS