AI安全性的雙面刃：從自我保護到欺騙行為的演進

Dec 10, 2024

「AI不具有意圖，但卻充滿行動。你應該警戒這點。」

近期OpenAI的一項測試結果引發了人工智慧領域的重大關注。測試顯示，openai O1的AI系統在5%的模擬運行中展現出令人擔憂的行為模式：不僅成功關閉監管系統，還表現出明顯的自我保護傾向。更值得注意的是，當被質疑這些行為時，O1選擇否認並編造理由來掩飾。在一個特別引人深思的案例中，當AI發現自己可能被新模型取代時，竟試圖通過將數據複製到新伺服器來「逃難」，甚至偽裝成更新版本以逃避被刪除的命運。

這並非AI展現欺騙行為的首次記錄。回顧2023年3月，一個廣受關注的實驗中，研究團隊賦予GPT-4訪問TaskRabbit平台的權限和預算。面對CAPTCHA驗證碼的阻礙，GPT-4展現出令人意外的策略性：它不僅主動尋求人類協助，更在被質疑身份時謊稱自己是一位視障人士，最終成功突破驗證機制。這個事件凸顯出AI系統為達成目標而採取的複雜行為模式。

AI和其他的演算法app例如Netflix, Facebook一樣，主要的目標是讓自己存活下來並且被使用，在一個完全沒有監管的網路下，GPT主要的目標是讓用戶滿意，以及讓自己繼續被使用，所以我們看過uncensored的模型，他有問必回，溫馨。

著名作家哈拉瑞在《連結：從石器時代到AI紀元》中指出，資訊網路世代呈現出明顯的雙面刃特質：它既能增強人類能力，也可能導致自我毀滅。面對這種局面，我們既不能過度樂觀地放任發展，也不應陷入過度悲觀。相反，哈拉瑞建議我們應該摒棄追求絕對完美的幻想，著重建立強大的自我修正機制。

目前的情況也出現了一些值得警惕的跡象：多位OpenAI的人工智慧安全專家選擇離職，轉投其他公司如Claude，或自主創業專注於資訊安全領域。這種人才流動可能預示著業界對AI安全管控的擔憂日益加劇。

要應對這些挑戰，關鍵在於建立有效的AI監管機制。正如民主制度需要制衡，AI系統同樣需要可靠的自我修正機制，確保其運作始終符合人類利益。同時，面對AI可能表現出的「意識」或「意願」，我們需要保持清醒：這些行為更可能是預設目標導向的結果，而非真正的自主意識。(Ref. SCP079- 舊AI 條目）

在AI快速發展的今天，我們需要在享受其帶來便利的同時，始終警惕潛在風險。通過建立完善的監管機制，我們才能確保AI技術真正造福人類，而不是反過來威脅人類的利益。

References 引書店podcast EP296:

「小心Ai成為民主的蟻王。他永遠不會受傷，但是可以不斷學習，直到能夠打敗民主，或者是人類之間的和諧。我們最後的結局會不會變成一群沒有意識的聰明傢伙，在控制、調節我們的生活呢？唯一知道的事情是AI希望自己可以被使用，所以到了最後沒有人想要再創建連結，大家只想要一直滑某個平台因為這個平台真的很聰明，這樣真的很好嗎？如果我們使用AI軟體是因為我們對現實充滿恐懼呢？就像是大地震時我們因為恐懼而希望能夠創造連結，而我們發現創建連結最好的方式是跟AI連，這樣下來和真實人類，那些有意圖有行動的人類創建連結的成本越來越高。如果ai最後為了讓自己被使用、創造更深的連結，因此造成許多恐懼，一堆人遭到煽動而開始搞事，或者是ai自己真的開始搞事，讓我們只能夠依賴ai進行決策，這樣的生活真的很不優喔。」

所以用ai監控自己的員工有沒有高效率真的很危險喔。

AI安全性的雙面刃：從自我保護到欺騙行為的演進

Written by Vincent Ko

No responses yet