ChatGPT 等 LLM 使用強化學習而非監督學習進行微調的 5 個原因_HAT

Author：

Time：1900/1/1 0:00:00

撰文：Tanya Malhotra

來源：Marktechpost

編譯：DeFi 之道

圖片來源：由無界版圖AI工具生成

隨著生成性人工智能在過去幾個月的巨大成功，大型語言模型（LLM）正在不斷改進。這些模型正在為一些值得注意的經濟和社會轉型做出貢獻。OpenAI 開發的 ChatGPT 是一個自然語言處理模型，允許用戶生成有意義的文本。不僅如此，它還可以回答問題，總結長段落，編寫代碼和電子郵件等。其他語言模型，如 Pathways 語言模型（PaLM）、Chinchilla 等，在模仿人類方面也有很好的表現。

Binance將于6月12日15時對BNB Beacon Chain進行預計一小時的錢包維護:6月8日消息，據官方公告顯示，Binance 將于北京時間 6 月 12 日 15 時對 BNB Beacon Chain（BEP2）進行錢包維護，預計需要 1 小時時間。錢包維護期間，BNB Beacon Chain（BEP2）的數字資產/Token 交易將不受影響，Binance 將于 2023 年 06 月 12 日 14:55 暫停 BNB Beacon Chain（BEP2）的充值和提現業務。[2023/6/8 21:23:24]

大型語言模型使用強化學習（reinforcement learning，RL）來進行微調。強化學習是一種基于獎勵系統的反饋驅動的機器學習方法。代理（agent）通過完成某些任務并觀察這些行動的結果來學習在一個環境中的表現。代理在很好地完成一個任務后會得到積極的反饋，而完成地不好則會有相應的懲罰。像 ChatGPT 這樣的 LLM 表現出的卓越性能都要歸功于強化學習。

華為版ChatGPT將于7月初發布，名為“盤古Chat”:金色財經報道，近日從華為內部獲悉，華為公司將發布一款直接對標ChatGPT的多模態千億級大模型產品，名為“盤古Chat”。預計華為盤古Chat將于今年7月7日舉行的華為云開發者大會（HDC.Cloud 2023）上對外發布以及內測，產品主要面向To B/G政企端客戶。這意味著，在國產大模型軍備競賽中，繼阿里、百度之后，又一重要科技巨頭入局。基于華為的技術能力，盤古Chat有望成為國內技術能力最強的ChatGPT產品，同時華為生態產業鏈企業也將因此受益。（鈦媒體）[2023/6/4 21:14:55]

ChatGPT 使用來自人類反饋的強化學習（RLHF），通過最小化偏差對模型進行微調。但為什么不是監督學習（Supervised learning，SL）呢？一個基本的強化學習范式由用于訓練模型的標簽組成。但是為什么這些標簽不能直接用于監督學習方法呢？人工智能和機器學習研究員 Sebastian Raschka 在他的推特上分享了一些原因，即為什么強化學習被用于微調而不是監督學習。

KyberSwap宣布集成預言機Chainlink以增強喂價機制:去中心化交易平臺KyberSwap宣布集成預言機Chainlink以增強喂價機制。（Cointelegraph）[2020/6/14]

不使用監督學習的第一個原因是，它只預測等級，不會產生連貫的反應；該模型只是學習給與訓練集相似的反應打上高分，即使它們是不連貫的。另一方面，RLHF 則被訓練來估計產生反應的質量，而不僅僅是排名分數。

韓國coinnest將與OceanChain等企業召開研討會:4月30日韓國加密貨幣交易所進行每月一次的研討會。本次研討會參加的企業有OceanChain，FreyrChain, TEK&LAW, UnitedBitcoin, BitcoinGold 等。[2018/4/18]

Sebastian Raschka 分享了使用監督學習將任務重新表述為一個受限的優化問題的想法。損失函數結合了輸出文本損失和獎勵分數項。這將使生成的響應和排名的質量更高。但這種方法只有在目標正確產生問題-答案對時才能成功。但是累積獎勵對于實現用戶和 ChatGPT 之間的連貫對話也是必要的，而監督學習無法提供這種獎勵。

不選擇 SL 的第三個原因是，它使用交叉熵來優化標記級的損失。雖然在文本段落的標記水平上，改變反應中的個別單詞可能對整體損失只有很小的影響，但如果一個單詞被否定，產生連貫性對話的復雜任務可能會完全改變上下文。因此，僅僅依靠 SL 是不夠的，RLHF 對于考慮整個對話的背景和連貫性是必要的。

監督學習可以用來訓練一個模型，但根據經驗發現 RLHF 往往表現得更好。2022 年的一篇論文《從人類反饋中學習總結》顯示，RLHF 比 SL 表現得更好。原因是 RLHF 考慮了連貫性對話的累積獎勵，而 SL 由于其文本段落級的損失函數而未能很好做到這一點。