国产一区精品久久,国产在线精品一区二区三区四区

OpenAI被指控偷竊數(shù)據(jù)?數(shù)據(jù)安全成大模型產(chǎn)品“阿克琉斯之踵”_天天熱資訊

2023-06-30 06:54:45

“盡管制定了購買和使用個人信息的協(xié)議，但被告采取了不同的方法：竊取?！苯眨慌涿耸恳源藶槔碛?，向OpenAI，以及其投資方之一的微軟公司發(fā)起集體訴訟。

起訴書稱，OpenAI從互聯(lián)網(wǎng)上竊取了3000億個單詞，它們來自“書籍、文章、網(wǎng)站和帖子——包括未經(jīng)同意獲得的個人信息”。

【資料圖】

目前這些指控仍是一面之詞。不過，這已經(jīng)不是這家公司第一次陷入數(shù)據(jù)安全、個人信息泄露相關(guān)的指控了。

“OpenAI是否按照其隱私政策合法合理地收集并利用用戶個人信息，以及是否有效識別并剔除其訓(xùn)練數(shù)據(jù)來源中‘偶然’包含的個人信息?？赡苁窃撈鹪V訟的爭議焦點所在?！北本┐蟪陕蓭熓聞?wù)所高級合伙人鄧志松表示。

以大模型原理構(gòu)建的生成式人工智能產(chǎn)品，是算力與數(shù)據(jù)加持下的“暴力美學(xué)”，數(shù)據(jù)是門檻，語料庫海量數(shù)據(jù)存在高度的數(shù)據(jù)合規(guī)風(fēng)險。擁有1億用戶、數(shù)十億訪問量的ChatGPT因為“樹大”其問題首當(dāng)其沖，但以數(shù)據(jù)為基石的大模型，數(shù)據(jù)安全問題正變得越來越重要，甚至可能成為產(chǎn)品的“阿克琉斯之踵”。

AI新秀變“數(shù)據(jù)小偷”？

根據(jù)ChatGPT的開發(fā)者OpenAI提供的信息，ChatGPT的三個主要信息來源是互聯(lián)網(wǎng)上的公開信息、從第三方處通過許可獲取的信息以及用戶或模型訓(xùn)練者提供的信息（如用戶與ChatGPT的聊天記錄）。

這份將近160頁的起訴書聲稱，OpenAI 秘密從互聯(lián)網(wǎng)上竊取了 3000 億個單詞，竊聽了“書籍、文章、網(wǎng)站和帖子——包括未經(jīng)同意獲得的個人信息”。

具體而言，該集體訴訟的原告認為，為了贏得“人工智能軍備競賽”，OpenAI從ChatGPT的交互對話以及集成ChatGPT的應(yīng)用程序中“收集、存儲、跟蹤、共享和披露”數(shù)百萬人的個人信息，包括產(chǎn)品詳細信息、帳戶信息、姓名、聯(lián)系方式、登錄憑據(jù)、電子郵件、支付信息、交易記錄、瀏覽器數(shù)據(jù)、社交媒體信息、聊天日志、使用數(shù)據(jù)、分析、cookie、搜索和其他在線活動。

原告認為，此舉違反了服務(wù)協(xié)議條款以及州和聯(lián)邦的隱私和財產(chǎn)法。起訴書指出，這一數(shù)據(jù)竊取行為的受害人預(yù)計有數(shù)百萬，潛在損失達 30 億美元。原告訴求則是，要求法院暫時凍結(jié) OpenAI 產(chǎn)品的商業(yè)訪問和進一步開發(fā)。

鄧志松告訴21世紀經(jīng)濟報道記者，ChatGPT運行的原理通過“閱讀”大量現(xiàn)有文本并學(xué)習(xí)詞語在上下文中的出現(xiàn)方式來預(yù)測可能出現(xiàn)在回應(yīng)中的最可能的詞語。此前，OpenAI方面聲稱不會“主動”收集個人信息用于模型訓(xùn)練，但各渠道訓(xùn)練數(shù)據(jù)可能“偶然”包含個人信息，人工智能模型可能會從中了解如何在回應(yīng)用戶時正確使用人名、地址等信息，同時它們堅稱這些信息不會被用于建立用戶畫像、廣告推廣等商業(yè)用途。

“OpenAI是否按照其隱私政策合法合理地收集并利用用戶個人信息，以及是否有效識別并剔除其訓(xùn)練數(shù)據(jù)來源中‘偶然’包含的個人信息。這兩個問題可能是該起訴訟的爭議焦點所在?！编囍舅煞治?，未經(jīng)用戶許可擅自抓取并利用其個人信息，可能涉嫌違反所在司法轄區(qū)的個人信息保護法律法規(guī)，并構(gòu)成民事侵權(quán)。

不過，受訪專家也指出，目前“竊取”暫時仍是原告方的一面之詞，還不能據(jù)此貿(mào)然將OpenAI所實施的個人信息收集活動定性為違法行為。

如何理解數(shù)據(jù)“竊取”

綜合來看，合規(guī)、知情-同意成為這起訴訟的風(fēng)暴眼。

“第一是信息的來源，尤其是訓(xùn)練用的物料是否能說得清、是否合規(guī)；第二，在與用戶交互的過程中是否涉及到了用戶的隱私信息?！睌?shù)安信CTO崔維友也指出，“竊取”很可能是在用戶沒有充分知情的情況下拿到了用戶的個人數(shù)據(jù)。

“盡管 OpenIAI對其數(shù)據(jù)收集和做法 ‘絕對保密’，但就我們了解，該公司使用（至少）5個不同的數(shù)據(jù)集來訓(xùn)練ChatGPT?！备鶕?jù)起訴書陳述，OpenAI使用的數(shù)據(jù)集中有部分數(shù)據(jù)的抓取并不合規(guī)。

以WebTex2這一OpenAI "專有 "人工智能語料庫為例。原告指出，為了構(gòu)建這一語料庫，OpenAI抓取了社交媒體網(wǎng)站Reddit上所有獲得至少3個 "喜歡"（在Reddit上被稱為 "Karma "投票）的帖子所鏈接的所有網(wǎng)頁，以及Reddit帖子和相關(guān)評論。而Reddit中受歡迎的內(nèi)容除了來自其網(wǎng)站本身，還包括大量來自YouTube、Facebook、TikTok和Instagram等社交媒體的鏈接。這些鏈接及與之關(guān)聯(lián)的個人信息在沒有通知相關(guān)方獲得同意的情況下被大量抓取。

值得注意的是，公開資料顯示，今年4月，Reddit官方宣布將對調(diào)用其API的公司收費，原因正是OpenAI、谷歌等公司利用該平臺上的數(shù)據(jù)訓(xùn)練模型。

袁立志指出，當(dāng)前人工智能大模型訓(xùn)練數(shù)據(jù)主要有應(yīng)用存量數(shù)據(jù)、商業(yè)和開放數(shù)據(jù)、公共互聯(lián)網(wǎng)數(shù)據(jù)和用戶使用數(shù)據(jù)等幾大來源，而不同的數(shù)據(jù)源的使用則各有不同優(yōu)劣。“要做到完全合規(guī)，并不容易?！彼毖浴?

數(shù)據(jù)安全——大模型產(chǎn)品的“必答題”

人工智能發(fā)展的突破得益于高質(zhì)量數(shù)據(jù)的發(fā)展。大模型的最新進展依賴于更高質(zhì)量、更豐富的訓(xùn)練數(shù)據(jù)集。如何判斷數(shù)據(jù)收集行為以及留存的數(shù)據(jù)內(nèi)容是否合規(guī)，已成為當(dāng)前相關(guān)技術(shù)發(fā)展亟待解決的問題，更是大模型產(chǎn)品未來健康發(fā)展的關(guān)鍵。

“雖然ChatGPT表示，存儲訓(xùn)練和運行模型所需的數(shù)據(jù)會嚴格遵守隱私和安全政策，但在未來可能出現(xiàn)網(wǎng)絡(luò)攻擊和數(shù)據(jù)爬取等現(xiàn)象，仍存在不可忽視的數(shù)據(jù)安全隱患。特別是涉及國家核心數(shù)據(jù)、地方和行業(yè)重要數(shù)據(jù)以及個人隱私數(shù)據(jù)的抓取、處理以及合成使用等過程，需平衡數(shù)據(jù)安全保護與流動共享?！蹦祥_大學(xué)法學(xué)院副院長、中國新一代人工智能發(fā)展戰(zhàn)略研究院特約研究員陳兵說。

大成律師事務(wù)所高級合伙人肖颯則強調(diào)了AI技術(shù)“文本數(shù)據(jù)挖掘功能”潛藏的合規(guī)風(fēng)險。她表示，該功能不僅可以“主動”搜集和存儲數(shù)據(jù)，并且能在不斷的數(shù)據(jù)處理過程中形成自己的處理模式。若其所搜集的數(shù)據(jù)(含個人信息)并未取得合法授權(quán)，相關(guān)的處理活動就可能涉嫌違法違規(guī)。

這已經(jīng)不是ChatGPT第一次陷入數(shù)據(jù)泄露的風(fēng)波。今年3月，其Redis 開源庫中的錯誤導(dǎo)致本 ChatGPT 服務(wù)中暴露了其他用戶的個人信息和聊天標(biāo)題。在ChatGPT被接連發(fā)現(xiàn)意外泄露用戶聊天記錄后，意大利數(shù)據(jù)保護局（Garante per la Protezione dei Dati Personali）于3月底宣布將暫時禁用ChatGPT并對該工具涉嫌違反隱私規(guī)則展開調(diào)查。加拿大也對OpenAI“未經(jīng)同意收集、使用和披露個人信息”的投訴進行調(diào)查。

但這并不是OpenAI這家公司、ChatGPT這個產(chǎn)品的個例，其暴露出的隱私泄露、存儲敏感信息、未授權(quán)訪問等數(shù)據(jù)安全問題是大模型產(chǎn)品落地應(yīng)用后可能普遍面臨的問題。

CCIA數(shù)據(jù)安全工作委員會指出，大模型使用來自互聯(lián)網(wǎng)的公開文本數(shù)據(jù)作為預(yù)訓(xùn)練數(shù)據(jù)，這些數(shù)據(jù)可能包含一些用戶的個人信息，這些信息可能被LLM無意中學(xué)習(xí)和記憶，并在后續(xù)的應(yīng)用中泄露出來。預(yù)訓(xùn)練和微調(diào)過程中需要對數(shù)據(jù)進行收集、存儲、分析和處理，這些操作可能會侵犯用戶的個人信息權(quán)利，如知情權(quán)、選擇權(quán)、刪除權(quán)等。用戶可能沒有充分的意識和能力來保護自己的個人信息，也沒有足夠的透明度和監(jiān)督機制來確保數(shù)據(jù)處理方遵守相關(guān)的法律法規(guī)和倫理規(guī)范。

并且，由于參數(shù)量巨大，大模型需要借助分布式計算和云服務(wù)等技術(shù)來進行訓(xùn)練和部署，這就增加了數(shù)據(jù)被竊取、篡改、濫用或泄露的風(fēng)險。

自ChatGPT發(fā)布后，中國企業(yè)目前已經(jīng)發(fā)布了超70個基礎(chǔ)大模型。雨后春筍般的大模型，在接下來商用過程中如何做到數(shù)據(jù)合規(guī)，已經(jīng)成為每一個產(chǎn)品需要面對的“必答題”。

在袁立志看來，未來，針對不同的數(shù)據(jù)來源，企業(yè)應(yīng)采取不同手段保證訓(xùn)練數(shù)據(jù)合規(guī)。原有業(yè)務(wù)的存量數(shù)據(jù)，如果用以大模型訓(xùn)練，屬于變更使用，需要再次得到用戶同意；如果爬取互聯(lián)網(wǎng)公開數(shù)據(jù)，則需做好數(shù)據(jù)清理、匿名化等處理，同時注意爬蟲技術(shù)本身的法律風(fēng)險；如果購買商用數(shù)據(jù)或者使用開源數(shù)據(jù)，則需要企業(yè)內(nèi)做好相關(guān)合規(guī)審查，保障安全。至于用戶使用過程中產(chǎn)生的數(shù)據(jù)，如與大模型對話的聊天記錄，C端數(shù)據(jù)在事前告知用戶獲得同意后使用；接入API使用的B端數(shù)據(jù)，由于與企業(yè)高度相關(guān)，模型默認不會收集和使用。

“合規(guī)確實是后發(fā)的大模型訓(xùn)練者需要面對的棘手問題。”袁立志坦言，從業(yè)者只能參照自身現(xiàn)實情況，選擇盡可能安全透明、成本可控的方法。

AI的浪潮不會停歇，如何掌好前行的船舵，在企業(yè)生存與合規(guī)生產(chǎn)間找到平衡向前，或許已經(jīng)成為第四次工業(yè)革命下的時代命題。

（文章來源：21世紀經(jīng)濟報道）

標(biāo)簽：

關(guān)閉

OpenAI被指控偷竊數(shù)據(jù)?數(shù)據(jù)安全成大模型產(chǎn)品“阿克琉斯之踵”_天天熱資訊

相關(guān)推薦

精彩組圖

精彩放送

OpenAI被指控偷竊數(shù)據(jù)?數(shù)據(jù)安全成大模型產(chǎn)品“阿克琉斯之踵”_天天熱資訊

“八八戰(zhàn)略”20周年，AI畫出來的浙江會是什么樣？

視點！古城揚州實力“圈粉”多國“Z世代”青年

焦點日報：全國田徑冠軍賽：謝震業(yè)男子200米奪冠 小將朱勝龍110米欄摘金

第十四屆夏季達沃斯論壇閉幕-焦點觀察

相關(guān)推薦

精彩組圖

精彩放送

“八八戰(zhàn)略”20周年，AI畫出來的浙江會是什么樣？

視點！古城揚州實力“圈粉”多國“Z世代”青年

焦點日報：全國田徑冠軍賽：謝震業(yè)男子200米奪冠小將朱勝龍110米欄摘金