今年,GPT、AI繪畫等人工智能大模型工具火熱,許多人也想來追一波AI創業熱潮,相關創業項目層出不窮。優質數據對AI大模型訓練至關重要,只有擁有足夠多的數據,才能訓練出智能、強大的AI工具。我國互聯網蓬勃發展二十余年,還能缺少數據?這不,曼昆律師最近接到網友咨詢,準備用爬蟲爬取知乎數據,做一個知乎GPT機器人豈不美哉?且慢,這其中的法律風險不可忽視。
01 爬蟲是把雙刃劍
爬蟲技術是一種通過編程自動從互聯網上獲取數據的技術。它的名字形象、生動地表明了它的工作原理:模擬人類在網頁瀏覽器中瀏覽網頁的過程,進行數據采集和數據抓取。
網絡爬蟲廣泛應用于搜索引擎、數據采集、廣告過濾、大數據分析等領域。作為一種功能強大的信息采集程序,它能夠顯著提高工作效率,尤其是對海量數據的收集和整理。
“澳本聰”Craig Wright起訴比特幣開發者案即將開庭:金色財經報道,有“澳本聰”之稱的Craig Wright在英國起訴了16名比特幣開發者,該案件即將在倫敦開庭審理。
Craig Wright起訴包括Roger Ver、Blockstream聯合創始人Matt Corallo和Greg Maxwell等16名開發者,要求其賠償因丟失或被黑客盜取的價值40億美元的比特幣。該案曾于2022年3月被駁回。[2023/2/4 11:47:01]
然而,一旦技術被不正當使用,也會引發“蟲災”,導致網絡擁堵、崩潰、服務器癱瘓甚至引發數據安全風險。我們熟悉的“裁判文書網”也不能幸免:
DigiDaigaku CEO:已購買2023超級碗廣告進行宣傳:10月13日消息,DigiDaigaku 首席執行官 Gabriel Leydon 宣布,DigiDaigaku 母公司 Limit Break 已購買 2023 年 2 月 12 日的超級碗商業廣告,廣告將為 DigiDaigaku 進行宣傳。此外,Gabriel Leydon 透露,視頻廣告中將出現 1 枚 DigiDaigaku Genesis 和 1 枚 Hero,用戶將有機會贏得廣告中出現的 NFT。[2022/10/13 14:26:35]
圖:2019年,最高人民法院發布的《關于“中國裁判文書網”網站建設建議的答復》
02 使用爬蟲技術的風險
爬蟲作為一項獲取數據的技術手段,并未被法律禁止。但使用方式及使用目的決定了是否會產生違法的行為和后果。
ADAM與游戲公會生態系統AiGuild達成戰略合作:據官方消息,5月27日,首個基于Web3.0的加密數據計算網絡ADAM與游戲公會生態系統AiGuild正式達成戰略合作。雙方就GameFi,NFT,鏈上游戲數據及Web3.0的未來發展等方面達成合作共識。
ADAM是首個Web3.0時代的數據加密計算網絡,擁有批量化數據加密傳輸功能,能夠連接實現世界數據與區塊鏈系統,愿景是挖掘數據的真實價值,使每一個參與數據流通的角色,都能夠從中受益。
AiGuild 是一個一體化的游戲公會生態系統,在這個 Web3 游戲世界中,擁有身份 (DID) 的人可以展示他們的成就、結交朋友、探索游戲,甚至可以直接將 DID 貨幣化并且隨身攜帶。[2022/5/27 3:45:53]
使用爬蟲技術, 能在短時間內對網站進行大量訪問,頻繁抓取頁面和數據。這可能會導致網站的帶寬和服務器負載急劇增加,從而影響網站的正常運行,甚至導致宕機或響應緩慢,干擾被訪問網站的正常運營,嚴重時可構成犯罪。
Coinbase工程師Craig Hammel加入Moralis擔任高級技術顧問:12月2日消息,Moralis是一個去中心化應用程序 ( DApp ) 平臺,Coinbase工程師Craig Hammel加入該公司擔任高級技術顧問,Craig Hammel將把他的知識用于Moralis項目,增強其擴展和整合其他區塊鏈的能力。Hammel還將協助Moralis將其工具引入移動設備和游戲引擎,例如Unity。
據此前報道,總部位于斯德哥爾摩的下一代區塊鏈開發平臺Moralis完成1340萬美元種子輪融資,EQT Ventures領投。(dailycoin)[2021/12/3 12:47:23]
楊某授權公司員工張某開發某信貸系統軟件,該軟件內的“網絡爬蟲"功能能與深圳市居住證網站鏈接。2018年5月,該軟件連續兩小時對深圳市居住證系統查詢大量訪問,致使深圳市居住證系統無法正常運作,極大地影響了該居住證系統使用方深圳市局人口管理處的日常運作。二人均構成破壞計算機信息系統罪。[(2019)粵0305刑初193號]
99Ex與電商平臺愛國者aigo達成戰略合作:官方消息,99Ex和知名電商平臺愛國者aigo達成戰略合作,共同成立新加披基金會 AIGO FOUNDATION LTD ,同時愛國者通證AIGO也將入駐99Pool,未來99Ex聯合99Pool將與愛國者aigo在電商實體經濟轉型、區塊鏈項目孵化、數字資產交易服務等多方面展開全方位深度合作。
據悉,愛國者aigo是一個專注于用戶的智能電子產品品牌,旗下業務涵蓋智能存儲、互聯終端、智能硬件、智能家居等領域。
99Ex是一個基于區塊鏈技術應用的多語言創新數字資產交易平臺,由OK CAPITAL、科銀資本、連接資本、鏈興資本戰略投資,累計交易用戶100萬+,日均交易用戶20萬+。[2020/7/30]
與使用方式相比,如何使用爬取的信息和數據,對爬蟲行為的定性影響更大。
非法使用爬取的數據和信息主要有:
(1)盜取個人信息:使用爬蟲技術惡意抓取網站上的個人信息,可能涉及侵犯他人隱私、個人信息,嚴重可構成侵犯公民個人信息罪。
(2)商業競爭中的不正當行為:使用爬蟲技術獲取競爭對手的商業秘密、定價信息、用戶數據等,對數據整合后“搬家”到其他平臺,通過這種便捷的方式獲取大量有價值的數據、信息,以謀取不正當競爭優勢。
在“酷米客訴車來不正當競爭糾紛案”中,法院認為,未經權利人許可,利用網絡爬蟲技術進入權利人的服務器后臺的方式非法獲取并無償使用權利人的實時公交信息數據的行為,實為一種“不勞而獲”、“食人而肥”的行為,且具有非法占用他人無形財產權益,破壞他人市場競爭優勢,構成不正當競爭。
(3)侵犯知識產權:爬取受版權保護的內容,然后用于未經授權的公開傳播或商業用途,屬于侵犯知識產權的行為。
03 爬蟲數據“投喂”大模型的風險
通過前面的分析可知,使用爬蟲技術的風險主要在于爬取的方式以及爬取的內容,那是不是控制爬取的頻率和內容,爬取公開內容,用來訓練機器人就沒有什么風險了呢?
首先,知乎官方賬號早在2018年就發布了《關于知乎用戶權益保護升級的公告》,提到:知乎對第三方開放知乎內容的使用采取白名單制,第三方需要通過官方合作渠道進行申請。如果爬取行為違反了知乎的服務條款,知乎可能采取封禁賬號、IP地址或者其他法律行動。
摘自《知乎機構號使用規范》(試行)
其次,知乎上的內容通常由用戶原創或授權發布,著作權歸用戶本人所有。未經授權地爬取和使用這些內容,可能涉及侵犯知乎的版權和著作權。
其實,訓練AI大模型,“數據盜竊”并非個案。上個月,筆神作文公開指控昔日合作伙伴學而思,認為學而思通過爬蟲方式“偷數據”訓練自家AI產品。筆神作文表示,將通過司法程序解決糾紛,要求“學而思”支付1元賠償金,公開道歉,并刪除已爬取的數據。
04 小結
在人工智能創業的熱潮中,數據變得越來越重要。在面對爬蟲技術帶來的誘惑時,應當認識到,雖然爬蟲技術本身并未被禁止,但其不當使用可能導致法律問題,尤其是在涉及個人信息、隱私、版權和不正當競爭等方面。
《生成式人工智能服務管理暫行辦法》中明確提到,訓練數據處理活動時,應當使用具有合法來源的數據和基礎模型。各位老板在創業過程中,要確保數據采集的合法性和道德性。如果想要使用爬取的數據訓練AI大模型,務必事先獲得數據來源方的授權,并遵守相關平臺的規定。
劉紅林律師
個人專欄
閱讀更多
Foresight News
金色財經 Jason.
白話區塊鏈
金色早8點
LD Capital
-R3PO
MarsBit
深潮TechFlow
探討賬戶抽象(AA)的價值前,需要先復習拜占庭問題和以太坊的痛點。在傳統互聯網中,當 A 付錢給 B 進行網購時,發生了兩件事情: 1、A&nb.
1900/1/1 0:00:00Gavin Wood為Polkadot提出了一種新的租賃方案,核時間將以NFT的形式進行租賃,它將向NFT一樣可以任意切割和組合.
1900/1/1 0:00:00作者:worldcoin whitepaper;翻譯:金色財經Worldcoin的創立旨在創建一個全球包容的身份和金融網絡,為大多數人所擁有.
1900/1/1 0:00:00作者:Sarah Zheng, Suvashree Ghosh and Kiuyan Wong;Bloomberg;編譯:松雪.
1900/1/1 0:00:00“沒收虛擬貨幣”,究竟是怎么執行的?執行機關是怎么把這些虛擬貨幣變現的?這些變現方式是否會違反法律規定?本文將為大家講解加密貨幣的司法執行.
1900/1/1 0:00:00本文分別從流動性質押協議、流動性質押DeFi協議以及去中心化解決方案三個維度對LSD賽道進行了整體梳理,并對代表性協議作了概要性分析,認為當前三大敘事方向基本形成.
1900/1/1 0:00:00