比特幣交易所 比特幣交易所
Ctrl+D 比特幣交易所
ads

金融圈注意了 BloombergGPT來了_BLO

Author:

Time:1900/1/1 0:00:00

ChatGPT引爆的AI熱潮也“燒到了”金融圈,彭博社重磅發布為金融界打造的大型語言模型——BloombergGPT。

3月30日,根據彭博社最新發布的報告顯示,其構建迄今為止最大的特定領域數據集,并訓練了專門用于金融領域的LLM,開發了擁有500億參數的語言模型——BloombergGPT。

報告顯示,該模型依托彭博社的大量金融數據源,構建了一個3630億個標簽的數據集,支持金融行業內的各類任務。該模型在金融任務上的表現遠超過現有模型,且在通用場景上的表現與現有模型也能一較高下。

一般來說,在NLP領域,參數數量和復雜程度之間具有正相關性,GPT-3.5模型的參數量為2000億,GPT-3的參數量為1750億。

Ripple:金融機構可在XRPL上發行穩定幣:金色財經報道,Ripple官方今日發文稱,銀行必須了解如何利用公共區塊鏈網絡的益處來發行穩定幣。Ripple稱,銀行等金融機構可以使用已發行貨幣在XRP分類帳(XRPL)上發行穩定幣。Ripple還提供了具體操作步驟。[2021/1/9 15:41:45]

關于BloombergGPT

報告指出,研究人員利用彭博社現有的數據,對資源進行創建、收集和整理,通過構建迄今為止最大的特定領域數據集來完成BloomberGPT,并基于通用和金融業務的場景進行混合模型訓練:

彭博社主要是一家金融數據公司,數據分析師在公司成立的四十年的時間里收集了大量的金融文件,擁有廣泛的金融數據檔案,涵蓋了一系列的主題。

泰國金融科技公司DeeMoney與Ripple合作處理實時交易:Ripple宣布與專門從事數字跨境匯款業務的泰國金融科技公司DeeMoney合作,通過RippleNet處理實時交易。[2020/3/19]

我們將這些數據添加到公共數據集中,以創建一個擁有超過7000億個標簽的大型訓練語料庫。

使用這個訓練語料庫的一部分,我們訓練了一個具有彭博風格的,達500億參數的模型,該模型是根據Hoffmann和LeScao等人的指導方針設計,基于通用和金融業務的場景進行混合模型訓練。

結果表明,我們的混合訓練方法使我們的模型在金融任務上的表現大大超過了現有的模型,而在通用場景上的表現則與之相當甚至優于現有模型。

動態 | 國網金融科技集團正式發布電力票據交易服務平臺:據中電新聞網 報道,國網金融科技集團在上海正式發布電力票據交易服務平臺及典型產品應用“電e票”“票付通”。國網金融科技集團是公司系統內較早開展區塊鏈技術研究應用的單位,已建成國內權威的能源區塊鏈公共服務平臺,獲得工信部《賽迪許可鏈測評合格證書》,代表國家電網公司作為唯一央企與北京互聯網法院天平鏈互信互通。[2019/8/6]

1.BloombergGPT優勢:特定領域模型仍有其不可替代性且彭博數據來源可靠

在論文中,彭博社指出,現階段,通用的自然語言處理模型可以涵蓋許多領域,但針對特定領域模型仍有其不可替代性,因彭博社的大多數應用均為金融領域,著手構建了一個針對金融領域的模型尤其優勢,同時可以在通用LLM基準測試上保持競爭力:

聲音 | Facebook高管David Marcus:Libra協會計劃在金融犯罪執法局注冊,成為一家貨幣服務公司:據金十消息,Facebook(FB.O)區塊鏈負責人David Marcus稱,Libra不會投入使用,除非監管問題解決。他還稱,Libra不會和主權貨幣競爭。Marcus還表示,Libra協會計劃在美國財政部下屬的金融犯罪執法局注冊,成為一家貨幣服務公司。協會的成員將要求遵守反洗錢和銀行保密法的規定,以提供互聯網金融服務。[2019/7/15]

除了構建金融領域的LLM外,本文的經驗也為其他研究領域的專用模型提供了參考。我們的方法是在特定領域和一般數據源上訓練LLM,以開發在特定領域和通用基準上表現優異的模型。

此外,我們的訓練數據不同于傳統的網絡爬取數據,網絡上的數據總有重復和錯誤,但我們的數據來源可靠。

動態 | Cardano基金會加入全球數字金融:據financemagnates報道,Cardano Foundation周四宣布加入全球數字金融(Global Digital Finance),為加密政策的治理和標準化做出貢獻。據介紹,GDF是一家總部位于倫敦的行業會員機構,為代幣銷售,代幣平臺,基金和基金經理制定了全面的行為準則和總體原則。該組織還對其成員的網站進行評級,以確保他們遵守某些標準。[2019/7/5]

2.BloombergGPT的訓練數據集:

BloombergGPT的訓練數據庫名為FINPILE,由一系列英文金融信息組成,包括新聞、文件、新聞稿、網絡爬取的金融文件以及提取到的社交媒體消息。

為了提高數據質量,FINPILE數據集也使用了公共數據集,例如ThePile、C4和Wikipedia。FINPILE的訓練數據集中大約一半是特定領域的文本,一半是通用文本。為了提高數據質量,每個數據集都進行了去重處理。

對金融領域的理解更準

報告指出,在金融領域中的自然語言處理在通用模型中也很常見,但是,針對金融領域,這些任務執行時將面臨挑戰:

以情感分析為例,一個題為“某公司將裁員1萬人”,在一般意義上表達了負面情感,但在金融情感方面,它有時可能被認為是積極的,因為它可能導致公司的股價或投資者信心增加。

報告指出,從測試來看,BloombergGPT在五項任務中的四項表現最佳,在NER中排名第二。因此,BloombergGPT有其優勢性。

測試一:ConvFinQA數據集是一個針對金融領域的問答數據集,包括從新聞文章中提取出的問題和答案,旨在測試模型對金融領域相關問題的理解和推理能力。

測試二:FiQASA,第二個情感分析任務,測試英語金融新聞和社交媒體標題中的情感走向。

測試三:標題,數據集包括關于黃金商品領域的英文新聞標題,標注了不同的子集。任務是判斷新聞標題是否包含特定信息,例如價格上漲或價格下跌等。

測試四:FPB,金融短語庫數據集包括來自金融新聞的句子情緒分類任務。

測試五:NER,命名實體識別任務,針對從提交給SEC的金融協議中收集金融數據,進行信用風險評估。

對于ConvFinQA來說,這個差距尤為顯著,因為它需要使用對話式輸入來對表格進行推理并生成答案,具有一定挑戰性。

ChatGPT為彭博點贊

華爾街見聞就這個問題專門詢問了ChatGPT,ChatGPT認為BloombergGPT是一項很有意義的技術進步:

它是專門為金融領域開發的一種語言模型,可以更好地處理金融領域的數據和任務,并且在金融領域的基準測試中表現出色。

這將有助于金融從業者更好地理解和應用自然語言處理技術,促進金融科技的發展。同時,BloombergGPT還可以為其他領域的語言模型的發展提供參考和借鑒。總的來說,BloombergGPT是一個有益的技術創新。

Tags:GPTERGBLOLOOMChainGPTPhantasma EnergyBLOGGER價格Loom Network

幣贏交易所
金色觀察 | 為何要反對Arbitrum基金會掌控7.5億枚ARB代幣的提案_BIT

文/Blockworks?Research,譯/金色財經xiaozouBlockworksResearch對AIP-1提案投反對票.

1900/1/1 0:00:00
以太坊上海升級 對用戶、以太坊和SEC意味著什么?_ETH

如果一切按計劃進行,兩個星期后,以太坊將推出備受期待的「上海升級」。此次升級,允許質押者取出質押在信標鏈上的ETH,這意味著以太坊順利達成了長達數年的POS轉變.

1900/1/1 0:00:00
CFTC 的指控引發擔憂:這對于幣安以及加密行業意味著什么?_NCE

原文來源:CryptoSlate美國商品期貨交易委員會(CFTC)已起訴全球最大的加密貨幣交易平臺Binance及其首席執行官趙長鵬(CZ),指控其允許美國人交易加密貨幣衍生品.

1900/1/1 0:00:00
DAO已經“爛大街”?不 你需要區分真DAO與假DAO_AVE

在如今的Web3世界里,“DAO”已經失去了明確的含義。原文:《DefiningRealandFakeDAOs》byGabrielShapiro TLDR 在最純粹的形式下,“DAO”指的是一個.

1900/1/1 0:00:00
Sui公鏈技術特性分析:為什么適合DeFi項目部署?_EFI

原文:《WhyDeFionMove/Sui?ATwo-PartDeepDive.》 編譯:SUIWorld 眾所周知,SUINetwork是基于Move語言的新L1公鏈之一.

1900/1/1 0:00:00
晚間必讀5篇 | 詳解美國財政部的DeFi風險評估報告_DEFI

1.以太坊12日上海升級哪些網站可以實時查看關鍵指標Shapella的主要代碼更改是EIP4895,它添加了一個新的系統級操作來支持驗證者提款.

1900/1/1 0:00:00
ads