比特幣交易所 比特幣交易所
Ctrl+D 比特幣交易所
ads
首頁 > FIL > Info

高中教師養出40億美元超級獨角獸 Stable Diffusion背后數據集創建者_AION

Author:

Time:1900/1/1 0:00:00

他本是一位普普通通的高中教師,卻活生生養出一個估值40億美元獨角獸。

而且方法也是非常的獨特——

打造了世界最大的免費開源數據集,卻從未從中收取過一分錢,也婉拒了各類工作的邀請。

他叫舒曼,在德國漢堡市的高中教物理和計算機科學。

兩年前他創立了LAION(相當于CLIP圖文數據集),如今被用于各種生成模型,包括谷歌Imagen、Parti,以及驚艷全球的Stable Diffusion。

就連Stable Diffuision背后公司Stability AI的創始人曾親自來送錢時,他都表現出嗤之以鼻的樣子,認定“這個人一定是瘋了”。

或許他怎么也沒想到,只不過兩年前靈機一動,就帶來了生成式AI的劇變。

2021年新年之際,OpenAI重磅推出DALL-E,GPT-3首次成功實現跨界:

只需對著它說上一段話,就能生成對應圖片。

一時間風光無兩,吳恩達在內的科技大佬們都激動了,網友們都稱其為甲方克星。

Wormhole測試網已上線Base Goerli:2月26日消息,互操作性協議Wormhole在推特上表示,在Coinbase宣布推出以太坊Layer 2網絡Base測試網48小時后,Wormhole測試網已經上線Base Goerli。

此前2月23日消息,Coinbase 宣布推出以太坊Layer 2網絡Base測試網。Base建立在開源OP Stack之上,不會發行專用代幣。Coinbase將與Optimism合作構建OP Stack。此外,Coinbase及其風險投資部門Coinbase Ventures將推出Base生態系統基金,以在種子前階段對基于Base的公司和組織進行大量投資。[2023/2/26 12:30:09]

但在德國漢堡市郊區的一間房屋內,這位高中教師舒曼(Christoph Schuhmann)卻產生了對數據私有化的擔憂:

如果這一切都集中在一家、兩家或三家公司,那將對社會產生非常糟糕的影響。

當時,OpenAI發表了背后關鍵模型CLIP的論文。論文中顯示,CLIP在4億個圖像-文本對上進行了預訓練,在沒有精細調整的情況下,最終在各種多模態基準中實現高性能。

韓國加密交易所Gopax需向其理財產品GOFi客戶償還約4700萬美元資金:1月6日消息,韓國加密交易所Gopax需要向其加密理財產品GOFi客戶償還高達600億韓元(約合4700萬美元)的資金,包括定期存款固定產品、沒有定期存款期限的自由形式產品、存款服務利息以及因暫停提款而產生的延遲利息。

2022年11月份,Gopax宣布因GOFi受合作伙伴Genesis暫停贖回的影響,GOFi延遲還本付息。2023年1月初,據Decenter報道,幣安已于近日完成對韓國交易所Gopax的收購盡職調查,正在進行確認程序等最后步驟。不過朝鮮日報稱,幣安一位職員表示,關于收購Gopax的事情還沒有任何決定。[2023/1/6 10:58:36]

由此可見數據集對于CLIP的重要性,但OpenAI并沒有進行公開,它只開源了CLIP的代碼和模型權重。

(看來從那時候就已經變得Close了)

于是乎,舒曼就開始在Discord網羅了一群同為AI愛好者的朋友,嘗試復制OpenAI同等水平的「文本-圖像對」數據集。

沒想到這一搞就搞了大半年,直到2021年8月他們首次發布了LAION-400M數據集,里面包含了4.13億圖像-文本對。

Web3游戲平臺kytokyo與ImmutableX合作:金色財經報道,新加坡游戲公司Storms今天宣布與ImmutableX建立合作關系,作為其即將推出的Web3游戲平臺kyjake的第二層解決方案。

ImmutableX將為kyyo提供Web3基礎設施,通過其ZK-rollup技術實現快速而安全的擴展,而kyyo也讓目前受Web 2.0發行經濟限制的傳統游戲開發商更容易通過kyyo平臺整合和發行他們的游戲。(prnewswire)[2022/10/28 11:50:26]

回顧整個創建過程,舒曼對彭博社這樣形容:

就像是用數百萬張抽認卡來教一個人一門外語。

他們用一個非盈利組織Common Crawl在2014年到2021年期間,抓取的隨機HTML代碼來定位網絡上的圖像,并將這些圖像與描述性文本聯系起來,最后還得根據一定規則來過濾掉不適合的樣本。

比如,刪除了所有文本長度少于五個字符;圖像小于5KB的的樣本;關鍵字帶有NSFW的……幾周之內,他們就擁有了300萬對圖文對。

數據集發布之后就收到了各種反響,被用于諸多論文和實驗。其中最具代表性的,就是Google Brain去年(2022)發布的Imagen——文本生成圖像的擴散模型。

韓國首爾海關自2月以來已查獲20億美元與虛擬資產相關非法外匯交易:8月30日消息,韓國海關總署(KCS)首爾總部今日宣布,該機構通過今年2月以來開展的針對與虛擬資產相關的非法外匯交易的調查,發現了總計2.715萬億韓元(約合20億美元)的非法外匯交易。在相關案件中,共逮捕16人,7人因過失被處以罰款,送檢2人,7人正在接受調查。調查結果發現,多起與虛擬資產購買有關的非法外匯交易發生在位于海外的虛擬資產交易所。(Newspim)[2022/8/30 12:57:43]

與此同時,更多機構開始關注到這個非盈利組織并給予資金支持。2021年他們就收到了HuggingFace的一次性捐贈。

但印象最深的一次,還要屬一個對沖基金經理來到Discord聊天室。

當時他二話不說直接送錢,大概意思是:我給你們支付算力費用,沒有任何附加條件。

舒曼團隊對這個行為嗤之以鼻,甚至覺得他是個瘋子:

一開始我們非常懷疑,但大概一個月后,我們獲得了價值近1萬美元的云計算服務。

Celsius:暫停所有的提款、交易和賬戶之間的轉賬:6月13日消息,Celsius發布公告稱,由于今天的極端市場情況,我們宣布Celsius暫停所有的提款、交易和賬戶之間的轉賬。我們今天采取這一行動是為了使Celsius能夠更好地履行其提款義務。為了履行這一承諾,并堅持我們的風險管理框架,我們已經在我們的使用條款中激活了一個條款,這將允許這一過程的發生。

此前報道,Celsius總計持有100.1萬枚以太坊,僅26.8萬枚為具備完全流動性的ETH。[2022/6/13 4:21:35]

后來,這個所謂的“瘋子”創辦了Stability AI,使用LAION數據集推出了Stable Diffusion,引領了生成式AI的浪潮,順便還拐走了LAION組織的兩個研究人員。

如今Stability AI正在尋求40億美元(折合276億元)估值,這主要歸功于LAION提供的數據。

據彭博社消息,舒曼卻并沒有從LAION中獲利,原因很簡單:不感興趣,希望保持這份工作的獨立性。

因此他還婉拒了各類工作邀請,依舊選擇在德國漢堡當一名普普通通的高中老師。

即便如此,隨著LAION知名度打響,他還是避免不了地卷入到各種紛擾之中。

目前,LAION已經發布了10項數據集,最具代表性的就是去年3月發布的LAION-5B,由58.5億個圖像文本組成,是當前最大的免費開源數據集。

作為LAION-400M的繼任者,它收到了來自HuggingFace、Stability AI以及Doodlebot資助。

結果一發布就遭到了不小的爭議,網友們紛紛質疑其數據未經整理,導致充斥大量的非法內容,對此LAION工程師Romain Beaumont回應:

非標注數據集是自我監督學習的基礎,這是機器學習的未來。沒有人工標注的圖像/文本是一項功能,而非錯誤。

早在Imagen發布時,也專門針對LAION-400M做出警示:因為依賴于這種未經整理的網絡數據, 集成了大模型的社會偏見和限制,因此不適合公開使用。

據彭博社消息,為了打造LAION,舒曼團隊從亞馬遜網絡服務、Shopify等公司獲取視覺數據,還有包括YouTube縮略圖、各類新聞網站上的內容。

對此舒曼表示,任何在網上免費提供的東西都是公平競爭,歐盟也沒有人工智能法規。

更何況,也沒有人知道OpenAI實際上用什么樣的數據集訓練AI的。

目前,LAION被迫卷入兩場訴訟之中,一起是Stability AI與Midjourney等集體訴訟,被指使用藝術家的版權圖片來訓練他們的模型;

另一起是Getty Images起訴Stability AI,稱其1200萬張照片被LAION取走,并用來訓練Stable Diffusion。

而舒曼將LAION比作大信息技術海嘯之上一艘“小型研究船”,采取海下的樣本向世界展示。

其實早在構建數據庫時,他們就在運行一個自動化過濾工具,不過舒曼感興趣的不是清理,而是從這些資產中學習。

我們本可以從公布的數據中過濾掉暴力,但我們決定不這樣做,因為這將加快暴力檢測軟件的開發。

現在更多關于監管的建議在推動,各個科技大廠也在采取相應的措施,比如英偉達就開源了護欄工具,來防止大模型來胡說八道。

但在舒曼看來,數據集不應該被監控。這也正是當時創建LAION時候的初心。

他還警告,如果我們試圖放慢速度、過度監管,就會有很大的危險,最終只有少數大公司能負擔得起所有的正式要求。

前段時間,在LAION與全球志愿者的合力之下,他們完成了ChatGPT最大開源平替OpenAssistant的發布。

60萬余條訓練數據全部由人工生成,涵蓋了廣泛的話題和語言風格,一時間引發眾人關注,HuggingFace也直接拿來用來構建它自己的聊天軟件HuggingChat。

不可否認的是,他已經在用開源數據集,加劇了生成式AI的浪潮。

但在舒曼的個人網站上,看到的只是一位兩個孩子的父親,在德國當著終身制公務員,游走于中學校之間講授物理和計算機科學。

舒曼擁有維也納大學計算機科學與物理學學位。在學習這兩個專業之前,他還學了心理學。(大概完成了50%的學士學位然后就轉專業了)。

除此之外,他還在學習表演,制作了一部關于孩子學習的紀錄片「Schools of Trust」。

最近,這位高中教師也沒閑著,他還將作為2023年智源大會嘉賓參與邀請報告與線上論壇環節。

參考鏈接:https://laion.ai/blog/laion-400-open-dataset/https://www.bloomberg.com/news/features/2023-04-24/a-high-school-teacher-s-free-image-database-powers-ai-unicornshttp://christoph-schuhmann.de/https://www.infoq.com/news/2022/05/laion-5b-image-text-dataset/https://laion.ai/projects/

來源:元宇宙之心

元宇宙之心

企業專欄

閱讀更多

金色薦讀

金色財經 善歐巴

Chainlink預言機

區塊律動BlockBeats

白話區塊鏈

金色早8點

Odaily星球日報

歐科云鏈

MarsBit

深潮TechFlow

Tags:IONAIONLAIAIOONION幣aion幣是什么幣LAI價格aioz幣價

FIL
區塊鏈金融司法治理的困境及其化解:以穩定幣相關司法文書為視角_區塊鏈

作者簡介 鄧建鵬,法學博士,中央財經大學法學院教授、博士生導師;張夏明,中央財經大學法學院博士研究生。本文發表于《武漢大學學報(哲社版)》2023年第二期.

1900/1/1 0:00:00
Coinbase起訴SEC全文:請在合理時間內回應加密規則請愿書_COIN

作者:Coinbase 編譯:Felix, PANews今天(4月24日),Coinbase在聯邦法院向美國證券交易委員會(SEC)提起訴訟.

1900/1/1 0:00:00
灰度報告:Ordinals能否釋放比特幣新潛力?_DINA

比特幣自誕生以來就被譽為一種革命性的技術,有可能改變我們使用新金融層進行交易的方式。最近,出現了一項新的創新,可以為比特幣網絡開啟新的可能性,使其也可以作為文化層發揮作用.

1900/1/1 0:00:00
Sui鏈上NFT觀察:啟動期較活躍 依靠技術創新能否持續下去_區塊鏈

作者 | Andrew Hayward 編譯 | PANews5月3日,Sui Network主網正式上線,但在這一里程碑事件之前,一個活躍的NFT社區已經在這個新興區塊鏈上扎根.

1900/1/1 0:00:00
人工智能如何實現有趣的Web 3用例?_區塊鏈

自從ChatGPT和GPT-4推出后,有很多關于人工智能如何革新一切,包括Web 3的內容。多個行業的開發者報告稱,通過利用ChatGPT作為共同駕駛員來自動化任務,如生成樣板代碼、進行單元測試.

1900/1/1 0:00:00
深度解讀以太坊質押的現狀與未來發展_ETH

Ethereum 質押機制的現在和未來可以概括為以下四個方面: 市場領袖 最佳收益率 趨勢 未來的催化劑 ETH 在 Crypto 中擁有最好的 Tokenomics.

1900/1/1 0:00:00
ads