來源:易觀
圖片來源:由無界AI工具生成
今年以來,隨著人工智能技術不斷實現突破迭代,生成式AI的話題多次成為熱門,而人工智能內容生成的產業發展、市場反應與相應監管要求也受到了廣泛關注。為了更好地探尋其在各行業落地應用的可行性和發展趨勢,易觀對AIGC產業進行了探索并將發布AIGC產業研究報告系列。
報告以內容生成模態作為視角,涵蓋了AIGC在語言生成、圖像生成、音頻生成、視頻生成、三維生成、分子發現與電路設計等領域的技術發展、關鍵能力、典型應用場景,我國AIGC產業在商業化落地過程所面臨的挑戰和對前景的展望。希望通過梳理和把握AIGC產業的發展脈絡,為各領域的應用開發者和使用者提供參考。
在本期圖像生成篇中,報告從經典的GAN技術到目前主流的擴散模型展開,分析了圖像質量、多樣性、穩定性、可控性等模型關鍵能力的應用表現,以及在進行商業化落地時,來自數據、產品化、監管合規等方面的挑戰和解決思路。
導語
圖像作為人工智能內容生成的一種模態,一直在AIGC領域中扮演著重要角色,由于圖像生成應用的廣泛性和實用性,使其受到學術界和產業界相當多的關注。近年來,圖像生成技術也取得了很多關鍵性突破,從經典的GAN技術到目前主流的擴散模型,以及在此基礎上不斷迭代出性能更強、生成效果更好的算法和模型,極大拓展了圖像生成技術的應用領域和發展前景。而在進行商業化落地時,生成速度和穩定性的提升、可控性和多樣性的增強,以及數據隱私和知識產權等問題,也需要在圖像生成向各行各業滲透的過程中進行解決和探索。
本報告將聚焦于圖像生成的技術發展和產業應用情況,提出影響模型應用能力的關鍵因素、商業化過程中的落地挑戰,并展望未來的發展方向,以期為AIGC領域的應用開發者和使用者提供參考和借鑒。
定義
圖像生成是指運用人工智能技術,根據給定的數據進行單模態或跨模態生成圖像的過程。根據任務目標和輸入模態的不同,圖像生成主要包括圖像合成,根據現有的圖片生成新圖像,以及根據文本描述生成符合語義的圖像等。
主要類型和應用領域
根據圖像構成的類型,圖像按照顏色和灰度的多少可以分為二值圖、灰度圖、索引圖和RGB圖,圖像生成模型可實現不同圖像類型的轉換。
在實際應用中,模型的效果表現主要體現在生成圖像的質量和圖像的多樣性,其在平面設計、游戲制作、動畫制作等領域均有廣泛的應用,另外,在醫學影像合成與分析,化合物合成和藥物發現等方面,圖像生成也具有很大的應用潛力。
英國法官:Craig Wright起訴Kraken和Coinbase必須支付40萬英鎊法律費用:7月26日消息,澳大利亞計算機科學家Craig Wright必須支付40萬英鎊(約合51.6萬美元)的法律費用,以起訴加密貨幣交易所Coinbase和Kraken。
英格蘭和威爾士高等法院法官James Mellor表示,他不相信Craig Wright有能力支付訴訟費。他指出,在周二發布的一份判決書中,此前有關Craig Wright財務狀況的說法前后矛盾。
Mellor法官表示,這些證據“并不能說服我”Craig Wright或他的投資公司有流動資產來支付潛在的巨額法律費用;如果不提供擔保金,他將在幾周內撤銷此訴訟。[2023/7/26 16:00:03]
技術發展的關鍵階段
作為計算機視覺領域的重要組成部分,圖像生成的技術發展大致經歷了三個關鍵階段:
●GAN生成階段:
生成對抗網絡是上一代主流圖像生成模型,GAN通過生成器和判別器進行博弈訓練來不斷提升生成能力和鑒別能力,使生成式網絡的數據愈發趨近真實數據,從而達到生成逼真圖像的目的。但在發展過程中,GAN也存在穩定性較差、生成圖像缺乏多樣性、模式崩潰等問題。
●自回歸生成階段:
自回歸模型進行圖像生成的靈感得益于NLP預訓練方式的成功經驗,利用Transformer結構中的自注意力機制能夠優化GAN的訓練方式,提高了模型的穩定性和生成圖像的合理性,但基于自回歸模型的圖像生成在推理速度和訓練成本方面的問題,使其實際應用受限。
●擴散模型生成階段:
對于前代模型在性能方面的局限性,擴散模型已經使這些問題得到解決,其在訓練穩定性和結果準確性的效果提升明顯,因此迅速取代了GAN的應用。而對于產業應用中的大量跨模態圖像生成需求,則需要結合CLIP進行,CLIP基于文本-圖像對的訓練方式能夠建立跨模態的連接,顯著提升生成圖像的速度和質量。
目前,業內主流且生成效果優秀的圖像生成產品主要是基于擴散模型和CLIP實現的。
主流模型實現原理及優缺點
●主流模型解析
擴散模型
DigiDaigaku 母公司 Limit Break 完成對 NFT 平臺 FreeNFT 的收購:金色財經報道,NFT 項目 DigiDaigaku 母公司 Limit Break 首席執行官 Gabriel Leydon 發推稱,Limit Break 已完成對 NFT 平臺 FreeNFT 的收購,擬具體收購金額暫未對外公布。FreeNFT 是一個 Free to Own 生態的 Launchpad,DigiDaigaku 曾在該平臺上抽獎。
收購完成后,FreeNFT 仍將免費供開發人員使用,Limit Break 除了營銷和內容創作協助之外,還將為該平臺提供智能合約服務,包括合約編寫、鑄幣托管、集成 ERC-721、以及可編程版稅解決方案。[2023/3/15 13:05:27]
1、實現原理:擴散模型是通過定義一個擴散步驟的馬爾可夫鏈,通過連續向數據添加隨機噪聲,直到得到一個純高斯噪聲數據,然后再學習逆擴散的過程,經過反向降噪推斷來生成圖像。擴散模型通過系統地擾動數據中的分布,再恢復數據分布,使整個過程呈現一種逐步優化的性質,確保了模型的穩定性和可控度。
2、模型優缺點:擴散模型的優點在于其基于馬爾可夫鏈的正向及反向擴散過程能夠更加準確地還原真實數據,對圖像細節的保持能力更強,因此生成圖像的寫實性更好。特別是在圖像補全修復、分子圖生成等應用上擴散模型都能取得很好的效果。但由于計算步驟的繁雜,相應地,擴散模型也存在采樣速度較慢的問題,以及對數據類型的泛化能力較弱。
CLIP
1、原理:CLIP是基于對比學習的文本-圖像跨模態預訓練模型,其訓練原理是通過編碼器分別對文本和圖像進行特征提取,將文本和圖像映射到同一表示空間,通過文本-圖像對的相似度和差異度計算來訓練模型,從而能夠根據給定的文本生成符合描述的圖像。
2、模型優缺點:CLIP模型的優點在于其基于多模態的對比學習和預訓練的過程,能夠將文本特征和圖像特征進行對齊,因此無需事先標注數據,使其在零樣本圖像文本分類任務中表現出色;同時對文本描述和圖像風格的把握更加準確,并能夠在不改變準確性的同時對圖像的非必要細節進行變化,因此在生成圖像的多樣性方面表現更佳。
由于CLIP本質上屬于一種圖像分類模型,因此對于復雜和抽象場景的表現存在局限性,例如可能在包含時間序列數據和需要推理計算的任務中生成圖像的效果不佳。另外,CLIP的訓練效果依賴大規模的文本-圖像對數據集,對訓練資源的消耗比較大。
●國內外代表模型:
The Beacon或將與NFT項目DigiDaigaku達成合作:12月11日消息,Treasure生態鏈游The Beacon繼宣布與全鏈NFT游戲Ether Orcs合作為其創世NFT持有者在游戲中免費提供獨家NFT后,詢問NFT項目DigiDaigaku CEO Gabriel Leydon是否為DigiDaigaku持有者添加類似資產。對此Gabriel Leydon表示認可,稱將立即私信聯系。[2022/12/11 21:37:02]
影響模型應用能力的關鍵因素
從實際應用視角來看,圖像生成模型的關鍵能力包括圖像質量、圖像多樣性,以及圖像穩定性和可控性,這些能力決定了模型在應用表現上的差異。
●圖像質量
圖像質量包括生成圖像的像素值,精細化程度,是否能夠充分展現優秀的畫質和細節信息的豐富程度,例如物體的細節、紋理和色彩,以及圖像的真實程度,也就是在基于真實場景圖像生成任務中,圖像的整體表達能夠符合現實世界的基本邏輯。例如在產品包裝設計、海報設計等行業客戶需求中,通常對于圖像的尺寸、分辨率、噪聲、亮度、深度等有著具體要求,需要結合應用場景對圖像精度進行準確把握。
●圖像多樣性
在圖像多樣性的應用上,主要取決于模型對于像素生成過程的控制能力,以及通過對數據分布的預測探索更加多樣化的圖像表達,從而能夠更好地進行圖像細節的控制,滿足多種風格化生成的要求。其中,個人用戶看重構圖、顏色、主題和實體的細節表現力和風格的表達,以及圖像的幻想程度、藝術性等。行業用戶則在此基礎上,更加強調在生成多張圖像或是不同風格圖像時,對語義一致性的把握,因此在滿足圖像多樣性要求的同時能夠保持核心元素表達的統一,將更有利于實現商用。
●圖像穩定性
實際應用中,原始圖像可能會存在光線不足、模糊抖動,因此需要圖像生成模型對于輸入數據的噪聲具有一定的魯棒性,例如扭曲、失真、異常描述等,能夠在存在干擾的情況下仍然生成高質量的圖像。
●圖像可控性
圖像可控性是使用者能夠對生成圖像進行細節控制和后續調整,例如圖像的顏色、形狀、紋理以及生成的物體數量等。可控性是圖像生成產品實現成熟商業化的前提。
個人用戶的實際需求主要在能否通過調整文本描述來修改局部細節,進行二次圖像生成。行業用戶對圖像可控性的要求更高,包括能否進行全景控制、精確區域控制、任意細節控制等,因此需要考慮控制條件的注入、對新數據的泛化能力以及除文本外的其他控制方法。
PeckShield:DigiDaigaku CEO 推特賬戶攻擊者盜取的 MAYC#5738 已售出:金色財經報道,PeckShield 發推表示,DigiDaigaku CEO 推特賬戶攻擊者盜取了 MAYC #5738 NFT,并在 OpenSea 上以 11.45 WETH 的價格出售,獲利近 1.8 萬美元。[2022/11/3 12:13:10]
典型產業應用場景
圖像生成是計算機視覺領域的重要組成部分,與圖像生成相關的典型應用場景包括圖像分類、圖像分割、圖像生成、圖像風格轉換、圖像修復、圖像超分辨率等,結合數字信號處理技術、傳感技術、虛擬現實技術的快速發展,目前已經廣泛應用在各行各業的場景中。
●圖像分類、圖像分割:可以在工業、工程設計等領域輔助進行目標識別、圖像相似度檢索,輔助CAD設計等;在醫學領域可以幫助進行醫學影像標注、解剖、病理結構變化分析等。另外,圖像生成模型在零樣本分類任務中的良好表現,可以在不需要進行額外訓練的情況下快速創建項目,有效提升了模型的工程化能力,降低了對數據標注的要求和訓練成本。
●圖像生成和圖像風格轉換:在藝術設計、產品設計、動畫與游戲制作等方面均有充分的商業化潛力,可以將其大量應用于創作藝術作品,根據設計者的草稿圖、創意概念來生成圖像,以及圖像合成、圖像編輯、增強圖像藝術性等,從而能夠幫助設計師、建模師進行動漫人物、游戲場景的制作,幫助完成海報、產品LOGO和產品包裝設計等工作。在電商的應用方面,圖像生成可以在虛擬試衣間、模擬商品展示等場景提升用戶的在線購物體驗。
●圖像修復:能夠根據已有圖像的上下文信息修復缺失部分,例如上色、去除噪聲或填充缺失部分,對圖像對比度、銳度或色彩鮮艷度等圖像要素的增強等,可以應用于數字化歷史文獻的修復、圖像修補等。在攝影與影視制作方面,對老照片、老電影的修復和畫質提升都具有很強的應用價值。
●圖像超分辨率:能夠從低分辨率圖像恢復和重建高分辨率圖像,在醫學影像處理場景中,結合模型的數據合成和預測能力進行圖像識別、特征提取和圖像重建,能夠幫助醫生創建逼真的病例和解剖結構,生成CT掃描圖像,輔助進行病情的分析診斷。另外,在天文觀測和衛星遙感觀測等方面,利用圖像超分辨率能夠提升成像設備的性能,并克服時間差異、氣象變化等因素引起的圖像場景變化,為天文探索發現增加了更多可能性。
未來,隨著圖像生成技術的發展,其與3維生成的強相關性將會更多在視頻、教育、建筑以及虛擬空間建模等方向形成縱深探索。模型的穩定可控能力是影響未來發展的核心要素,目前圖像生成內容仍然存在較大的不確定性,對于藝術創作有助于激發靈感,但對圖像本身可控性要求極高的領域來說,生成圖像是否與預期目標相符,以及對圖像精度的精準控制十分關鍵,這將有利于拓展其在生物醫藥、工業制造、航空航天等領域的應用前景。
NFT項目DigiDaigaku 24小時交易額漲幅近400%:金色財經報道,據NFTGO數據顯示,NFT項目DigiDaigaku 24小時交易額達791,990.95美元,漲幅達393.91%。該項目曾于8月9日采取FreeMint形式發售,據OpenSea數據顯示,當前該項目地板價為7.5ETH。[2022/8/29 12:55:00]
商業化過程中面臨的挑戰
●國內外主流圖像生成產品及商業模式
從國內外市場需求和規模來看,目前圖像生成在AIGC領域中總體的商業化進展較快。
國外主流的圖像生成平臺以Midjourney、StableDiffusion、DALL-E2為代表。其中,Midjourney采用閉源付費模式,在對DiffusionModel精調后部署在Discord上,用戶通過與bot的交互來獲得圖片,從生成效果來說其對藝術風格的把握獨樹一幟。Midjourney通過早期開放公測積累了大量用戶群,在Discord頻道中形成了高活躍度的社群,以SaaS付費訂閱模式提供通用或定制化服務,構建起了較為成熟的商業模式。
而StableDiffusion則完全開源,因此模型的優化迭代速度非常快,形成了較好的開發者生態,其盈利手段主要通過API收費和面向專業領域的B端用戶提供定制化模型服務;此外,StableDiffusion可以作為插件應用嵌入Photoshop,支持直接在PS上生成圖像并保存,能夠為專業設計工作者的效率和體驗帶來顯著提升。
DALL-E2通過百億級大規模參數集進行訓練,能夠形成穩定和高質量的圖像,生成效果更接近真實照片,目前DALL-E2采取閉源付費模式,而依托OpenAI與微軟的深度合作關系,搭載ChatGPT能力并將產品嵌入微軟的辦公生態,將使DALL-E2建立起核心競爭優勢。
另外,Adobe也推出了圖像生成模型集Firefly,并融入到Adobe工作流,Adobe還強調其訓練數據來自AdobeStock素材庫、公開許可內容和版權已過期的公共領域內容,可以生成專為商業使用的高質量圖像,并計劃和Photoshop、Illustrator、Premiere等系列產品深度整合,這些手段將有利于建立面向專業設計領域的客戶優勢,提升用戶粘性。
對于國內市場而言,隨著我國自主研發模型的技術進展,文心一格、CogView、ZMO等AI圖像生成產品通過模型調優和知識增強訓練,對中文提示詞具備更強的理解能力,在美術創作、廣告設計等領域已經形成了一定的用戶基礎。其中,文心一格提供面向C端用戶的免費和付費模式,依托文心大模型的能力,文心一格在多模態交互方面具有明顯優勢;CogView通過API開放能力,支持與企業AI底座的能力對接和模型微調,并提供面向B端用戶的定制訓練和私有化部署服務;ZMO則將商業化重點聚焦在圖生圖任務中,進行產品圖到營銷海報等真實場景的圖像生成,積累了一定規模且有付費意愿的小B端用戶。可以預見,國內圖像生成領域的商業化進程速度將加快并迎來用戶的快速增長期,但仍然需要結合技術能力和產品能力進行深度打磨,通過構建數據層、模型層、應用層的生態閉環形成可持續發展。
●圖像生成商業化落地挑戰
結合國外主流平臺的成功經驗與國內市場情況,打造成熟的商業模式需要關注來自三個方面的挑戰。
●數據能力挑戰
圖像生成的效果很大程度依賴于訓練數據的規模和數據質量,圖像生成產品在向更多專業領域和行業深入時,需要考慮行業存在的數據壁壘、數據量不足、數據質量不高等問題。另外,針對不同行業的特定場景的圖像生成要求,需要結合行業知識進行增量訓練,但目前圖像生成模型仍然存在對復雜語義和抽象關系上的理解難度。
在模型訓練階段,可以通過數據增強策略、利用合成數據預訓練等方式進行優化,提升下游任務的性能。但在商業化過程中,還需要考慮資源、性能、成本的平衡。因此,針對不同類型的用戶群體,構建數據資產經營的閉環將起到決定作用。
對于C端用戶,通過結合用戶所輸入的提示詞、生成圖像選擇等進行交互行為和偏好分析,利用這些沉淀的數據形成可靠的數據資產,以此提升數據篩選、標注和分類能力,以及模型的中文語義理解能力和圖像風格化能力,更有針對性地進行模型迭代;同時引導用戶形成中文生成內容社區,來優化內容分發方式,針對不同的用戶圈層和付費意愿打造差異化的服務模式。Midjourney的一個關鍵成功因素就是基于Discord建立內容社區形成用戶共創的格局,從而不斷沉淀數據資產,提升用戶粘性。
對于B端用戶,可以借鑒StabilityAI的商業模式,通過建立適用性良好的框架積累不同行業客群,沉淀內容和行業經驗,以此提供面向用戶特定需求的定制模型,例如能夠對動畫制作、影視制作、建筑設計等行業高質量的藝術效果圖的需求進行模型調優和二次開發,形成具有行業屬性的圖像生成產品,將是國內圖像生成下階段商業化的成功關鍵。
●產品化能力挑戰
圖像生成模型落地應用的過程中,需要解決模型訓練階段和下游任務實現之間的差距,滿足產業場景下對圖像生成的實際需求。例如在實際應用時,用戶所輸入的提示詞直接決定了圖像生成的實際效果,因此模型對于prompt的理解和運用非常關鍵。如果能在文生圖過程中,減少文本描述量和復雜度的情況下保持對語義的準確把握,將明顯降低用戶的使用門檻;在此基礎上,在用戶意圖的基礎上進行擴展,生成超越預期的高質量圖像,將有效提升用戶體驗,提升產品化能力。
而影響圖像生成的產品化能力的因素,一是模型本身的性能能否直接滿足應用要求,二是能否在產品中引入附加工具來解決模型局限性問題,而可控性是產品化的核心挑戰。
其中一個實現方式是通過擴大參數集和數據集規模來提升模型性能,并提高對圖像編輯、圖像風格轉化、圖像超分辨率等多種下游任務融合應用的能力,從而支持多種個性化需求和控制生成圖像的細節,相應地,也需要更強的模型部署能力、環境和配套資源。
另外,還可以通過引入ControlNet等微調模型來生成指定要求的圖像,實現對畫面中的物體位置、人物姿勢等精確控制,優化圖像生成模型不可控的問題,并能夠進行視角調整、光影調整、細節添加等,以滿足B端用戶對于產品可控性的更高要求,同時也有利于在控制訓練成本的前提下實現產品的快速落地。
●監管合規挑戰
生成式AI的發展不可避免引發來自人工智能技術應用風險的問題,商業化的一大前提是需要滿足監管的合規性要求,近日網信辦已經下發了《生成式人工智能服務管理辦法》的征求意見稿,也將加速AIGC對于數據使用和行業發展的規范化。對于圖像生成類產品,合規性考量主要包括隱私保護、版權保護、人工智能治理三個方面。
隱私保護方面,由于使用圖像生成工具進行內容創作的成本低、操作簡單、逼真程度高,在一定程度上造成了信息濫用問題,可能導致隱私泄露、偽造欺詐引發的信息安全和財產損失,例如將深度合成的人臉圖像用于金融領域的身份識別欺詐,利用含有欺騙性或者其他有害的圖像內容進行傳播和其他不當行為等。因此需要提升圖像在生成、流轉、存儲等過程中的數據安全,以及加強對偽造圖像的判別和提示。
版權保護方面,圖像生成模型基于網絡公開數據進行訓練,將可能會產生涉及圖像知識產權的風險,例如有研究指出生成模型可能存在從訓練數據中復制圖像而不是生成新圖像。目前,一些行業和相關機構已經要求所有生成式AI內容必須注明來源,或是直接禁用生成式AI的使用。圖像生成作品是否應該受到版權保護,原創內容與生成內容的比例應該如何界定等,都是圖像生成在實際應用中需要考量的問題。
人工智能治理方面,一是公平性問題,由于圖像生成模型的訓練數據包含大量未經過清洗的數據集,使圖像生成模型中可能隱藏的如性別、種族、文化等數據偏見。二是模型可解釋性問題,大模型在深度神經網絡結構層級越來越復雜的情況下,存在對底層數據的淹沒問題,導致模型的可解釋性變弱,解析生成模型內部表征的難度變得越來越高。圖像生成模型可以創建逼真場景或人物圖像,其可解釋性也與實際商用的可能性強相關。因此建立可信可控的人工智能需要納入從模型訓練到產品落地的全過程。
前沿探索與趨勢展望
目前,圖像生成技術的前沿探索主要聚焦在如何加強對圖像實體關系的深度理解、提升多模態間轉換生成效果、提高采樣速度和樣本質量的研究等方面,從而提升模型對復雜和抽象任務的圖像生成效果,以及形成更強的跨模態能力和實用性。
其中,OpenAI提出的全新圖像生成模型ConsistencyModels,不僅能夠解決擴散模型迭代步驟多、采樣速度慢的問題,并且無需對抗訓練可以直接生成高質量樣本,可以快速完成圖像修復、圖像超分辨率等多種圖像任務,表現出了更強的應用潛力。另外,對于傳統的GAN結構在增加架構容量導致的不穩定問題,已經有研究提出了全新的生成對抗網絡架構,在推理速度和圖像生成效果方面展現了更好的性能,可以看到GAN在圖像編輯、圖像轉換等場景的應用潛力仍然存在。
從產業應用層面來看,隨著用戶規模化效應顯現和治理規范的落地,下一階段圖像生成將向更加標準、細分的市場需求方向發展。在面向類型不同的使用者時,對生成效果的要求也存在不同的視角和選擇偏好,C端用戶關注圖像生成平臺的便捷性、付費模式、圖像風格等使用體驗。B端用戶則更加看重圖像生成的產品能力、服務模式,行業應用場景的豐富程度,以及與自有產品和系統結合的適用性、本地化部署要求等,用戶的定制化需求也將明顯增加。
因此需要在技術層面、商業模式層面進行共同探索,例如開發者生態、部署策略、垂直場景應用、IP合作分成、用戶運營等,構建健康合規發展的產業生態模式,將有利于推動國內圖像生成領域的產品化落地。
在即將到來的坎昆升級中,以太坊將迎來重大改變,將使得以太坊Layer?2的速度提高?10?x,甚至有機會提高?100?倍且成本更低。本文將探討坎昆升級的影響以及可能受益的L2項目.
1900/1/1 0:00:00最近,NFT交易市場Blur宣布了一項針對NFT的新借貸協議BlurLending,又名Blend,讓NFTfi市場又攪起了波瀾.
1900/1/1 0:00:00來源:量子位 作者:蕭簫 大模型們胡說八道太嚴重,英偉達看不下去了。他們正式推出了一個新工具,幫助大模型說該說的話,并回避不應該觸碰的話題.
1900/1/1 0:00:00在ChatGPT?的影響下,目前?OpenAI?成為了全球最火爆的AI公司。然而回顧過去,它與馬斯克之間的恩怨從創立之初就埋下了.
1900/1/1 0:00:00摘要 2023年加密市場從去年的深熊里大幅反彈,很多人可能還未來的及‘上車’,此時對比資產凈值仍有5折左右折價的Grayscale信托份額顯得格外有吸引力;基于以太坊Web3核心基礎設施的地位.
1900/1/1 0:00:00作者:kenyou由GweiResearch編譯Ordinals?NFT?和?BRC-20?代幣的出現,再次將比特幣生態系統的可擴展性推向了風口浪尖.
1900/1/1 0:00:00