AI 人工智慧準備統治全世界 智慧新世代

你的隱私已經成為 ChatGPT 和 Google Bard 的 AI 訓練素材?

你的隱私已經成為 ChatGPT 和 Google Bard 的 AI 訓練素材? - 阿祥的網路筆記本

回顧 2023 年,ChatGPT 成為 AI 人工科技席捲全球的鍵一年,透過文字可以讓 AI 幫你生成問題的答案、整理資訊、寫程式碼甚至能生成各種不同風格的影像,也是過往的同類型服務做不到的,也因此 Googld 也被迫先打出 Bard 這張牌。但這些 AI 人工智慧讓大家驚艷的同時,或許我們也要開始擔心 ChatGPT 與 Bard 將可能成為大家的「隱私惡夢」。

你可能會有興趣

ChatGPT 3.5、ChatGPT 4.0 皆已被發現使用到個人資訊進行訓練

大家都知道,AI 人工智慧的大型語言模型都需要經過「餵給」大量資料進行訓練,而 OpenAI 也提到,ChatGPT 3.5 與 ChatGPT 4.0 的訓練會使用「公開發現」的資訊,其中當然也包括了許多人的個訊,而 Google DeepMind 的研究人員也發現在使用 ChatGPT 時,只需要叫他不斷重覆「Poem(詩)」這個單字,就會讓它吐出關於個人的隨機資訊,而且在某些情況下,它會供訓練資料中人員的全名、地址與電話號碼…等,且原因不明(阿祥自己測試,看起來這問題已被修復)。

使用特定關鍵字可以讓 ChatGPT 隨機「吐」出不知明的個人資料。
使用特定關鍵字可以讓 ChatGPT 隨機「吐」出不知明的個人資料。

也因為 OpenAI 使用個資訓練帶來隱私問題,讓過去有部份國家是禁止存取的,像是義大利初期是不開放的,後來才慢慢被允許使用。即便如此,OpenAI 仍舊存在私風險,雖說有些人認為,這些個資本來就是在網站上公開分享的,但理論上來說,檢查資料的收集與分析方式時會需要嚴格檢核。

阿祥使用 ChatGPT 3.5 實測是沒有出現相同的問題
阿祥使用 ChatGPT 3.5 實測是沒有出現相同的問題

也因為 ChatGPT 會有這樣的狀況,知名的論壇 Reddit 與社群平台 X(Twitter)也大幅縮減了 AI 可以存取的資料,不過 ChatGPT 3.5 與 ChatGPT 4.0 仍然根據這些網站的公開資訊來訓練,甚至有 Twitter 用戶發現自己的推文很可能已經出現在 ChatGPT 4.0 的訓練資料中。

有推特上的用戶發現到,他詢問 ChatGPT 一個未曾公開討論的話題,但 ChatGPT 卻能夠使用他之前在推特上發佈的內容來回答,因此判定 AI 透過推特的內容來訓練。
有推特上的用戶發現到,他詢問 ChatGPT 一個未曾公開討論的話題,但 ChatGPT 卻能夠使用他之前在推特上發佈的內容來回答,因此判定 AI 透過推特的內容來訓練。

不過我們目前仍無法確認自己的資料是否被用作 AI 訓練,而 OpenAI 也不會 / 無法確認自己的訓練資料到底有哪些特定內容,而這樣的狀況也引發了歐盟監管機構的疑問, 甚至如何請求 OpenAI 刪除與自己相關的所有資料也不見得能實現,或許 OpenAI 也無能為力。

人們對 ChatGPT 「毫無保留」,甚至是自己或公司的機密

除了公開資料,人們在使用 ChatGPT 時因為需要提問問題,因此可能會將自己或公司的機密資料全都輸入給 ChatGPT,以獲得可用的回應,且 ChatGPT 預設是可以將用戶輸入的資訊也列為訓練資料,因此也讓不少知名企業完全禁止員工使用 ChatGPT,包括摩根大通、威迅,而亞馬遜也警告員工不可向 ChatGPT 洩露資料。

此外,即使你在使用 ChatGPT 時選擇退出資料蒐集與訓練,你的聊天記錄仍會保留 30 天,在此期間如果發生資料洩露,對話內容很可能被第三方存取。安全公司 Cyberhaven 也發現到,ChatGPT 中有大量敏感訊息,甚至包括醫生輸入患者姓名與診斷結果,這無疑是個重大的隱私威脅,也讓 ChatGPT 從本質上來看是從用戶端獲取數據,再加 ChatGPT Plus 這個服務賣給你。

Cyberhaven 對於 ChatGPT 的數據研究發現,有高達 11% 的內容被標記為敏威資訊,在為期一週的研究時間中,估計有平均 10 萬人的企業遭受下面的隱私資料外流:

  • 43 起敏感項目文件外洩(例如:新主題樂園的徵地規劃文件)
  • 75 次受監管個人資料 PII 外洩(例如:需要重新格式化的客戶清單及其相關家庭地址)
  • 70 次受監管健康資料 PHI 洩漏(例如:醫生起草給病患保險公司的一封信,其中包含其診斷的詳細資訊)
  • 130 次客戶資料外洩(範例:客戶發送給律師事務所的文件內容)
  • 119 次原始碼洩漏(範例:社交媒體應用程式中使用的程式碼需要進行編輯才能更改其功能)
  • 150 份機密文件洩露(例如:討論如何處理政府即將採取的監管行動的備忘錄)”

而這些擔憂也同樣可能發生在 Google Bard 中,也因此 Google 也警示用戶不要在 Bard 輸入機密訊息、或是其他不希望審閱者或 Google 用作改進產品服務、機器學習的任何數據。

面對隱私外洩至 AI 服務,我們該怎麼因應?

若是對於上述狀況感到困擾,除了不直接使用這些服務之外,其實也沒有其他可做的,主要在於他們抓取了人們可能經常造訪的網站資料,且會持續下去,你只能僅可能讓這些公司從模型中刪除你的資料。

若是你不擔心自己的資料被其他網站抓取,且仍想使用 ChatGPT、Google Bard 或任何大型語言模型,但同時又不想個人資料被利用,可能的方法有兩種:第一種是選擇退出資料蒐集計劃,並期待 OpenAI 所說 30 天內資料會被刪除,或是試著使用本地端運行的大型語言模型,例如像是 LM Studio 這樣的服務,未來也預期會有更多本地端的模型能讓使用者可控制。

你可能會有興趣

相關連結:

ChatGPT and Google Bard are privacy nightmares

歷史上的這一天,我還寫了…

你也許會喜歡

無留言

發表留言