比特幣交易所 比特幣交易所
Ctrl+D 比特幣交易所
ads
首頁 > UNI > Info

別再用平均池化層了!Meta AI把注意力塞到池化層,性能提升0.3_atc

Author:

Time:1900/1/1 0:00:00

編輯:LRS

注意力機制這么好用,怎么不把它塞到卷積網絡里?最近MetaAI的研究人員提出了一個基于注意力的池化層,僅僅把平均池化層替換掉,就能獲得+0.3%的性能提升!

VisualTransformer作為計算機視覺領域的新興霸主,已經在各個研究任務中逐漸替換掉了卷積神經網絡CNN。

ViT與CNN之間存在著許多不同點,例如ViT的輸入是imagepatch,而非像素;分類任務中,ViT是通過對類標記進行決策等等。

classtoken實際上是ViT論文原作者提出,用于整合模型輸入信息的token。classtoken與每個patch進行信息交互后,模型就能了解到具體的分類信息。

并且在自注意力機制中,最后一層中的softmax可以作為注意力圖,根據classtoken和不同patch之間的交互程度,就能夠了解哪些patch對最終分類結果有影響及具體程度,也增加了模型可解釋性。

但這種可解釋性目前仍然是很弱的,因為patch和最后一層的softmax之間還隔著很多層和很多個header,信息之間的不斷融合后,很難搞清楚最后一層softmax是否真的可以解釋分類。

ZachXBT:BALD部署者已初步定位為推特用戶@milkyway16eth:8月4日消息,據鏈上偵探 ZachXBT 監測,BALD 部署者已初步定位為推特用戶 Milkyway(@milkyway16eth)。目前該賬號已顯示處于保護狀態,但從其簡介欄中可以了解到其自稱是 DeFi Farmer 和 ponzi 投機家。

另據推特用戶Mike McDonald推文,Mike曾在 2021 年贏得國際象棋世界錦標賽 5 萬美元,當時由地址 0xF3a…F50c 向其付款,該地址歸Milkyway所有。而該地址與 BALD 部署者(0xcc…6389)關系密切,0xF3a…F50c 曾向 BALD 部署者地址累計轉移 1,483 萬 USDC 和 400 cbETH,BALD 部署者地址向 0xF3a…F50c 累積轉移 2,400 USDC 和 400 cbETH。更為直接的關系是,這兩個地址共用同一個 Binance 和 FTX 存款地址。[2023/8/4 16:17:51]

所以如果ViT和CNN一樣有視覺屬性就好了!

過去1小時銷毀超600枚ETH:金色財經報道,據ultrasound.money數據顯示,當前以太坊Gas費升至145GWei左右,過去1小時銷毀逾600枚ETH,1小時內以太坊銷毀量最高的為0x9c22d5開頭合約(ClipperV2合約,銷毀144枚ETH),其次為Uniswap Universal Router(銷毀106枚ETH)、Uniswap V2 Router2(39枚ETH)、以太坊轉賬(34ETH)。[2023/5/5 14:44:27]

最近MetaAI就提出了一個新模型,用attentionmap來增強卷積神經網絡,說簡單點,其實就是用了一個基于注意力的層來取代常用的平均池化層。

仔細一想,池化層和attention好像確實很配啊,都是對輸入信息的加權平均進行整合。加入了注意力機制以后的池化層,可以明確地顯示出不同patch所占的權重。

ZhongJie:熊市最大的挑戰就是參與的用戶變少了:金色財經現場報道,Head of Product Moledao ZhongJie在Coinlive和moledao主辦的線下活動上表示:熊市最大的挑戰就是參與的用戶變少了,當前各個項目是市值上看起來還可以,但是流動性卻有所缺少,除此之外,在應用產品上缺乏一些具體的創新,而基礎設施也還缺失一部分,導致說很多的想法和商業上的一些嘗試是沒有辦法達到理想的效果,就是說沒辦法去配套一個更廣闊的零售方式。所以機會就在這個地方。

因為行業不可能沒有泡沫,但是不代表說這個行業本身該被推翻,泡沫的另一個角度,是底層基礎設施的問題,一些比較資本的功能的制約著到市場的發展,市場需要一些新的技術帶動市場發展。

針對FTX的事件,ZhongJie 認為,這個事件是一個很大的利空的事件,對于NFT而言,也是一個長期的影響,但是從未來構建的角度來看,FTX事件不會對行業造成太大影響,恢復這一塊的投資信心,需要一個長期的過程。[2022/11/9 7:23:27]

并且與經典ViT相比,每個patch都會獲得一個單一的權重,無需考慮多層和多頭的影響,這樣就可以用一個簡單的方法達到對注意力可視化的目的了。

Jump Crypto等有意成為Cboe Digital業務股權投資合作伙伴:8月26日消息,Cboe Global Markets在完成對ErisX的收購幾個月后,正在引進一批股權合作伙伴,以幫助其發展數字資產業務。

該公司正尋求提供加密現貨和期貨相關服務,以填補高管們所稱的“巨大缺口”,即為市場中介機構提供零售和機構客戶可信賴的場所。

ErisX計劃更名為Cboe Digital。計劃中的新合作伙伴包括B2C2、DRW、GSR、Hidden Road、IMC、Interactive Brokers、Jane Street、Jump Crypto、Optiver、Robinhood、tastytrade、Virtu Financial,每個合作伙伴都打算持有Cboe的少數股權。高管們沒有透露股權的具體規模。

此外,作為ErisX和Cboe Digital業務運營的一部分,Cboe計劃成立數字咨詢委員會。(Blockworks)[2022/8/26 12:50:07]

The Sandbox美國CEO:即使處在”加密寒冬”,人們仍涌向Web3:金色財經報道,The Sandbox美國地區 CEO?Mathieu Nouzareth?在?NFT?年度行業盛會NFT.NYC大會中接受采訪時表示,即使處在\"加密寒冬\",人們仍涌向 Web3。我們希望成為虛擬世界中的曼哈頓,聚集令人興奮的品牌和藝術家,但我們的愿景并不是取代現實。Mathieu Nouzareth 在談到市場崩盤時表示:The Sandbox 并沒有切實受到影響,我認為原因是因為我們是一款游戲,游戲受宏觀經濟環境的影響較小,人們來是因為它真的很有趣,任何人都可以享受它。[2022/6/22 4:43:58]

在分類任務中更神奇,如果對每個類別使用不同顏色進行單獨標記的話,就會發現分類任務也能識別出圖片中的不同物體。

基于Attention的池化層

文章中新提出的模型叫做PatchConvNet,核心組件就是可學習的、基于attention的池化層。

模型架構的主干是一個卷積網絡,相當于是一個輕量級的預處理操作,它的作用就是把圖像像素進行分割,并映射為一組向量,和ViT中patchextraction操作對應。

最近也有研究表明,采用卷積的預處理能讓模型的性能更加穩定。

模型的第二部分column,包含了整個模型中的大部分層、參數和計算量,它由N個堆疊的殘差卷積塊組成。每個塊由一個歸一化、1*1卷積,3*3卷積用來做空間處理,一個squeeze-and-excitation層用于混合通道特征,最后在殘差連接前加入一個1*1的卷積。

研究人員對模型塊的選擇也提出了一些建議,例如在batchsize夠大的情況下,BatchNorm往往效果比LayerNorm更好。但訓練大模型或者高分辨率的圖像輸入時,由于batchsize更小,所以BatchNorm在這種情況下就不太實用了。

下一個模塊就是基于注意力的池化層了。

在主干模型的輸出端,預處理后的向量通過類似Transformer的交叉注意力層的方式進行融合。

注意力層中的每個權重值取決于預測patch與可訓練向量之間的相似度,結果和經典ViT中的classtoken類似。

然后將產生的d維向量添加到CLS向量中,并經過一個前饋網絡處理。

與之前提出的class-attentiondecoder不同之處在于,研究人員僅僅只用一個block和一個head,大幅度簡化了計算量,也能夠避免多個block和head之間互相影響,從而導致注意力權重失真。

因此,classtoken和預處理patch之間的通信只發生在一個softmax中,直接反映了池化操作者如何對每個patch進行加權。

也可以通過將CLS向量替換為k×d矩陣來對每個類別的attentionmap進行歸一化處理,這樣就可以看出每個塊和每個類別之間的關聯程度。

但這種設計也會增加內存的峰值使用量,并且會使網絡的優化更加復雜。通常只在微調優化的階段以一個小的學習率和小batchsize來規避這類問題。

實驗結果

在圖像分類任務上,研究人員首先將模型與ImageNet1k和ImageNet-v2上的其他模型從參數量,FLOPS,峰值內存用量和256張圖像batchsize下的模型推理吞吐量上進行對比。

實驗結果肯定是好的,可以看到PatchConvNet的簡單柱狀結構相比其他模型更加簡便和易于擴展。對于高分辨率圖像來說,不同模型可能會針對FLOPs和準確率進行不同的平衡,更大的模型肯定會取得更高的準確率,相應的吞吐量就會低一些。

在語義分割任務上,研究人員通過ADE20k數據集上的語義分割實驗來評估模型,數據集中包括2萬張訓練圖像和5千張驗證圖像,標簽超過150個類別。由于PatchConvNet模型不是金字塔式的,所以模型只是用模型的最后一層輸出和UpperNet的多層次網絡輸出,能夠簡化模型參數。研究結果顯示,雖然PatchConvNet的結構更簡單,但與最先進的Swin架構性能仍處于同一水平,并且在FLOPs-MIoU權衡方面優于XCiT。

在檢測和實例分割上,研究人員在COCO數據集上對模型進行評估,實驗結果顯示PatchConvNet相比其他sota架構來說,能夠在FLOPs和AP之間進行很好的權衡。

在消融實驗中,為了驗證架構問題,研究人員使用不同的架構對比了Transformer中的classattention和卷積神經網絡的平均池化操作,還對比了卷積主干和線性投影之間的性能差別等等。實驗結果可以看到卷積主干是模型取得最佳性能的關鍵,class-attention幾乎沒有帶來額外的性能提升。

另一個重要的消融實驗時attention-basedpooling和ConvNets之間的對比,研究人員驚奇地發現可學習的聚合函數甚至可以提高一個ResNet魔改后模型的性能。

通過把attention添加到ResNet50中,直接在Imagenet1k上獲得了80.1%的最高準確率,比使用平均池化層的baseline模型提高了+0.3%的性能,并且attention-based只稍微增加了模型的FLOPs數量,從4.1B提升到4.6B。

參考資料:

https://arxiv.org/abs/2112.13692

Tags:atcFLOPFLOatc幣是什么幣FLOP幣FLOP價格FLO價格FLO幣

UNI
2022年UNSW最新申請流程指南,內含詳細步驟圖!_Engine

新南威爾士大學是澳大利亞的一所公立研究型大學,主校區位于新南威爾士州的首都悉尼。學校成立于1949年,是世界研究型學府之一,也是澳大利亞八大名校成員.

1900/1/1 0:00:00
本田全新代步小車登場,適合買菜、接娃,約合人民幣8萬起_BOX

隨著五菱宏光MINIEV的熱銷,國內微型車市場的熱度被點燃,一款價格親民,適合代步買菜接娃的小車受到追捧.

1900/1/1 0:00:00
各國官方數字貨幣競速 數字人民幣走在前列_數字貨幣

來源:媒體滾動   國際商報     自2014年以來,中國一直致力于數字人民幣的研發和測試工作。  除數字人民幣外,瑞典央行的電子克朗,烏拉圭央行的電子比索等也正在開發之中.

1900/1/1 0:00:00
數字人民幣新場景落地,該把握哪些賽道機遇?_數字錢包

來源:第一財經   冬奧點燃了數字人民幣熱度  2021年數字人民幣快速發展,正在為市場所主動接受.

1900/1/1 0:00:00
狗狗幣一夜“騰飛”542倍,沈騰新晉“代言人”_狗狗幣

文/陳伊婷 編輯/大風 “我在元宇宙里倒騰狗,我就是DogeKing。”1月31日,沈騰在春晚小品上一語道破天機,本意是諷刺元宇宙和狗狗幣,沒想到現實更為魔幻,炒幣人蜂擁交易所,與“DogeKi.

1900/1/1 0:00:00
萊美藥業注射用甲潑尼龍琥珀酸鈉“過評” 用于抗炎、免疫等_

新京報訊2月23日,中恒集團宣布,控股子公司萊美藥業產品注射用甲潑尼龍琥珀酸鈉收到國家藥監局簽發的《藥品補充申請批準通知書》,通過仿制藥質量和療效一致性評價.

1900/1/1 0:00:00
ads