ChatGPT 與此類大型語言模型從輸入的資料學習,當你與 AI 聊天機器人分享敏感的商業資訊時其實相當冒險。
文/Michael Hill‧譯/Nica
隨著 AI 聊天機器人相關事蹟製造頭條的潛力,圍繞著 ChatGPT 的狂熱持續延燒。吸引許多資安領域工作者目光的其中一項議題是:是否透過技術攝入機敏商業資料,會令企業組織處於風險之中。部份人士擔心的是若有人輸入機敏資訊 ─ 季度報告、內部報告資料、銷售數字等諸如此類,再要求 ChatGPT 撰寫相關文件,那麼任何人只要在此之後詢問 ChatGPT 相關內容,就能獲得該公司資訊。
[ 2023年企業IT投資重點為何?資安、人才、ESG如何部署?下載 CIO大調查報告 立即揭曉!]
聊天機器人經由使用者輸入而記憶與學習,這種影響的波及範圍會很大:想像一下處理內部報告時,內容含有必須於董事會上討論揭露公司問題的新公司資料。讓業主資訊就這樣洩露出去,可能削弱股價、影響消費者態度與客戶信任。更糟的是洩露議程法律事項讓公司必須承擔真正的責任。不過,只是把資料輸入給聊天機器人就會發生上述任何狀況嗎?
研究調查公司 Cyberhaven 在二月探索了這個概念,將重點集中在 OpenAI 如何利用人們輸入到 ChatGPT,做為訓練資料以改善其技術的內容上,得到輸出與輸入極為相似的結果。Cyberhaven 主張輸入至 ChatGPT 的機密資料可能被揭露給第三方:若以高層提供的資訊為基礎,向 ChatGPT 提問特定問題。
ChatGPT 不會儲存使用者輸入的資料 ─ 會嗎?
英國國家網路安全中心(NCSC)在三月分享了這個議題的看法,指出 ChatGPT 與其他大型語言模型(LLM)目前為止不會自動將查詢得到的資訊添加到模型裡供其他人查詢。意思是說,查詢裡內含的資訊,不會造成將私有資料納入 LLM 的可能性。「然而,查詢內容是提供 LLM 的企業組織看得到的(就 ChatGPT 而言,對 OpenAI 也是如此)」它指出。
「這些查詢被儲存,幾乎可以說某個時間點一定會被用來開發 LLM 服務或模型。這可能意謂著 LLM 供應商(或其合作夥伴/承包商)能夠讀取查詢內容,並以某種型式將之納入未來版本。」它補充道。另一個風險則是,隨著越來越多企業組織生產或使用 LLM,被線上儲存的查詢可能遭駭、被洩露,或意外被開放存取,NCSC 表示。
總之,對於在 ChatGPT 裡輸入或使用機敏營運資料的隱憂確實有它的理由,儘管這些風險可能沒有那些新聞頭條寫得如此隨處可見。
輸入機敏資料至 ChatGPT 的可能風險
LLM 展現出一種新興行為模式稱之為「語境學習」(in-context learning)。對話期間,當模型接收輸入,它可以成為以這些輸入內容為基礎執行任務的條件。「這可能就是人們擔心資訊洩露時所指的現象。不過,來自一位使用者對話的資訊,不可能洩露給另一位使用者的對話。」WithSecure 的資深研究人員 Andy Patel 如此說。另一項隱憂,則是輸入至 ChatGPT 介面的提示,會被收集成為未來的訓練資料。」
[ 推薦閱讀:ChatGPT 改變網路釣魚遊戲規則 ]
Patel 表示,雖然擔心聊天機器人會攝入機敏資訊再原封不動產出使用是有道理的,但為了納入資料必須訓練新的模型。訓練 LLM 是既昂貴又耗時的程序,他表示若不久的將來有模型是透過 ChatGPT 收集而來的資料進行訓練,他會很驚訝。「若最後建立出來的新模型包含 ChatGPT 提示所搜集的內容,我們的恐懼會變成成員推理攻擊(membership inference attacks)。這類攻擊有可能暴露訓練資料裡的信用卡號碼或個人資訊。然而,沒有現象顯示針對 LLM 賦與 ChatGPT 或其他類似系統能力的成員推理攻擊。」意即,未來模型受到成員推理攻擊的破壞可能性不大,但 Patel 也承認,存放提示的資料庫遭駭或被洩露是有可能的。
AI 的第三方連動可能暴露資料
問題最有可能來自於未確切陳述隱私權條款的外部供應商,因此,以其他型式資安工具或平台使用它們就有可能讓任何私有資料處於風險之中,Orange Cyberdefense 資深安全性研究人員 Wicus Ross 如此表示。「Slack 與 Microsoft Team 這類 SaaS 平台,都有清楚的資料與處理程序界線,資料暴露予第三方的風險較低。然而,若使用必須與使用者互動的第三方附加元件或機器人提升服務,這些清楚的界線很快就模糊了,無論它們是否與 AI 連結。」他表示。「第三方處理者缺乏明確條款保證資訊不會洩露,就必須假定它已不再具私密性。」
Netskope 的 EMEA 資安長(CISO)Neil Thacker 提到,除了一般使用者分享的機敏資料外,企業還應該留意提示注入攻擊(prompt injection attacks),它會揭露開發人員先前在調整工具時提供的指令,或讓它忽略之前程式的指令。「近期案例包括 Twitter 惡作劇改變機器人行為模式,以及 Bing Chat 議題,這些案例裡,研究人員找到方式,讓 ChatGPT 揭露先前可能由 Microsoft 撰寫應為隱藏的指令。」
管控提交至 ChatGPT 的資料
據 Cyberhaven 所述,如今員工貼至 ChatGPT 的內容中機敏資料佔 11%,企業洩露機敏資料予 ChatGPT 一周平均數百次。「ChatGPT 已經從宣傳炒作轉為真實世界,企業組織在公司上下以實際執行的實驗方式將它加入企業以 ML/AI 為基礎的其他工具裡,但務必謹慎行事,尤其是在共享機密資訊之處。」Thacker 表示。「若企業代管資料遭到外洩,必須考量資料擁有者與可能影響的各個層面。來個小練習,當這些服務遭到破壞,資訊安全專家應該/至少能夠識別可能存取的資料種類。」
[ 加入 CIO Taiwan 官方 LINE 與 Facebook ,與全球 CIO 同步獲取精華見解 ]
總而言之,企業有責任確保其使用者完全知曉哪些資訊應該與不應該揭露予 ChatGPT。企業組織應謹慎對待本身選擇在提示之後提交的資料,NCSC 表示:「你要確保那些想用 LLM 實驗的人有能力這麼做,但必須以不會置企業資料於風險之中的方式。」
警告員工聊天機器人的潛在危險
然而,識別與管控員工提交至 ChatGPT 的資料並不容易,Cyberhaven 提出警告。該組織表示,「員工將公司資料輸入至 ChatGPT 並不會上傳檔案,只是複製貼上內容到他們的網路瀏覽器。許多資安產品是為保護檔案(被貼上機密標籤的那些)不被上傳所設計,但當內容是從檔案複製出來的情況,就無法追蹤了。」更有甚者,傳往 ChatGPT 的企業資料通常不具有資安工具能查詢的可識別模式,例如信用卡號碼或社會保險號碼,Cyberhaven 表示。「無法更進一步瞭解背景資訊,目前的資安工具就無法識別某人輸入自助餐廳菜單與企業併購計劃的差異。」
為提升能見度,企業組織應在其資安網路閘道器(SWG)上實施政策,識別 AI 工具的使用,還可以套用資料外洩防護(DLP)政策,找出被提交至這些工具的資料,Thacker 表示。
Jamf 產品組合策略副總裁 Michael Covington 表示,企業組織應更新資訊保護政策,確保可接受的機敏資料處理應用程式類型得到妥善的記錄。「管控資料流動始於妥善記錄的文件與知情政策。」他表示。「此外,企業組織還應該探索如何利用這些新技術,以計劃周全的方式提升營運效能。不要因為害怕或不確定而抗拒這些服務,應該指派一些員工探索看起來有潛力的新工具,這麼一來你才能早一步瞭解風險,確保在早期終端使用者想開始使用這些工具時提供適當保護。」
(本文授權非營利轉載,請註明出處:CIO Taiwan)