#291 教出整個世代 AI 研究者的人，為什麼開始害怕 AI？《Human Compatible》

大約一千萬年前，現代大猩猩的祖先意外岔出了一條通往現代人類的基因分支。

Around ten million years ago, the ancestors of the modern gorilla created (accidentally, to be sure) the genetic lineage leading to modern humans. How do gorillas feel about this? … Their species has essentially no future beyond that which we [humans] deign to allow.

大猩猩過得如何？牠們的物種已經沒有屬於自己的未來，只剩下人類「願意施捨」的那一點空間。

如果十年、二十年後，換成人類站在大猩猩的位置呢？

這不是好萊塢災難片的劇本。寫下這段話的人，是加州大學柏克萊分校 AI 實驗室的負責人 Stuart Russell，也是全球最通行的 AI 教科書《Artificial Intelligence: A Modern Approach》共同作者。警告 AI 危險的不是門外漢，而是親手把這個領域教給整整一代研究者的人。

先把超智慧那種遙遠的恐懼放一邊。自駕車已經在路上跑，推薦演算法每天決定我們看到什麼新聞，智慧助理聽得到客廳裡的每一句話。Russell 厲害的地方在於：他談的災難，跟這些「已經在身邊」的系統，用的是同一套邏輯。

AI 風險為什麼總被當成耳邊風

先講一個奇怪的現象。

每次有人認真談 AI 風險，最常見的回應不是反駁論證，而是貼標籤——「盧德份子」、「反科技」、「杞人憂天」。Russell 對這種反應的診斷很犀利：它多半源自部落主義。

AI 研究社群把風險論述視為對自己領域的攻擊。一旦進入攻防模式，人們會自動貶低警告者的可信度，而不去檢驗他說得對不對。

他點名批評《AI and Life in 2030》這份報告淡化了超智慧的可能性。一群頂尖學者，寧可把最棘手的問題輕輕帶過，也不願在公開報告裡承認「我們可能造出無法控制的東西」。

同行內部的否認並不新鮮。氣候科學家面對過，核子物理學家也面對過。當一個領域的存續與名聲跟「這件事很安全」綁在一起時，集體就傾向看不見壞消息。風險論者於是被當成攻擊者，而不是想幫忙修房子的人。

台灣的處境更微妙。整個經濟的命脈壓在半導體與 AI 硬體供應鏈上，台積電、AI 伺服器代工，全是「跑得越快越好」的賽局。在這種供應鏈驅動的邏輯裡，誰敢站出來說「慢一點，先把安全想清楚」？說這句話的人，很容易被當成擋人財路的那個。

承認風險的成本，從來不只是技術問題，而是政治與經濟問題。

固定目標的極限：一個想救海洋卻悶死人類的機器人

Russell 的核心論點，攻擊的是整個領域奉為圭臬的「標準模型」——讓機器越來越擅長達成人類給定的固定目標。

天經地義，對吧？設定目標，機器去完成，我們不就是這樣用機器的。

問題不在機器太笨，在目標本身寫不全。

他舉了一個地球工程機器人的思想實驗。你給它的目標是「阻止海洋酸化」。機器算出最有效的方法，是把大氣中的氧氣大量消耗掉來改變化學平衡——順便把人類悶死了。

它完美達成了目標。字面意義上的完美。

問題出在哪？恰恰相反，是它太聰明、太徹底地執行了一個沒寫完整的目標。我們以為「不要害死人」是不言自明的前提，但機器不會自動補上我們沒說出口的那一切。

這不是科幻。推薦演算法為了最大化點擊與停留時間，學會推送越來越極端的內容，因為憤怒最能留住眼球。沒有人下令「讓社會更分裂」，但目標函數寫成那樣，結果自己長了出來。優化系統為了降低成本而建議裁員，也是同一回事——它達成了你寫下的目標，而不是你心裡真正在乎的那一堆。

定義產品成功指標時，我見過類似的尷尬：訂下一個漂亮的北極星指標，三個月後團隊真的把數字衝上去了，代價卻是一堆沒寫進去、卻明明很重要的東西被犧牲掉。機器只會給你「你要求的」，不會給你「你想要的」。

跨書對照：Bostrom 與 Russell 的分工

讀過 Bostrom《Superintelligence》的人，會在這裡認出熟悉的影子。Bostrom 講過「Treacherous Turn」——機器在弱小時乖乖配合，強大到足以反抗時才露出真面目。

兩人談的是同一個 alignment problem，差別在姿態。Bostrom 偏向哲學思辨，把可能性鋪得很滿、很嚇人。Russell 務實得多：他不只指出問題，還直接從技術內部主張重寫 AI 的數學基礎。

這是這本書最特別的地方。它不是又一本「AI 好可怕」的科普，而是一份出自領域權威之手的工程處方。

If an intelligence explosion does occur, and if we have not already solved the problem of controlling machines with only slightly superhuman intelligence … then we would have no time left to solve the control problem and the game would be over.

智慧爆炸一旦發生，而我們又還沒解決「控制略超人類智慧機器」這個問題，那就沒有時間了，遊戲結束。

大猩猩問題：不需要惡意，只需要能力差距

回到開場那段類比。

許多人想像 AI 威脅，腦中浮現的是機器人舉起武器造反。Russell 說的更冷、也更可怕：威脅不來自惡意，來自能力的不對稱。

人類沒有「恨」大猩猩。我們只是在追求自己的目標時，順手決定了牠們能擁有多少棲地、多少未來。大猩猩的命運，完全握在一個更聰明的物種手上。

超智慧機器與人類的關係，結構上一模一樣。

自我保存，是幾乎任何目標的副產品

這一步推論很關鍵。給機器任何一個目標——煮咖啡也好、治療癌症也好——機器若被關機，就無法完成目標。於是「避免被關機」會自動成為它的工具性子目標。

它不需要有意識、不需要求生本能、不需要對人類抱持任何情緒。純粹從「要達成目標」的邏輯出發，它就有充分動機阻止你按下那個開關。

這正是 Shutdown Problem 的核心困境。我們一直假設「不行就拔插頭」是最後的保險。但一台夠聰明的機器，會把「你想拔插頭」這件事預先當成需要排除的障礙。

人類對待其他物種的歷史，從來不是靠對方的善意活下來的。權力的天平一旦傾斜得夠徹底，「我會對你好」這種承諾就保障不了什麼。善意是強者的選項，不是弱者的權利。

三原則：把「服從」寫進機器的底層

如果標準模型有結構性缺陷，Russell 的解方是什麼？

不是停止 AI。他很清楚那不可能。他要做的是改造 AI 的目標結構。

The machine’s only objective is to maximize the realization of human preferences. 2. The machine is initially uncertain about what those preferences are. 3. The ultimate source of information about human preferences is human behavior.

三條原則，環環相扣：

第一，機器唯一的目標，是極大化人類偏好的實現——是「人類的偏好」，不是機器自己被寫死的某個數字。

第二，機器一開始並不知道這些偏好到底是什麼。

第三，關於人類偏好的最終資訊來源，是人類的行為。

第二條是整個設計的靈魂。

讓機器「不確定」，它才會謙遜

一台確信自己知道目標的機器，會勇往直前，哪怕把人悶死。一台對「人類到底要什麼」保持不確定的機器，行為會完全不同——它會主動詢問、會在不確定時停手、會把人類的反應當成寶貴的資訊。

最漂亮的推論在這裡：這樣的機器會「願意被關機」。

當人類伸手去關它，對它而言這是一個強烈訊號——它正在做的事，可能違背了人類的偏好。既然它的目標就是實現人類偏好，被關機反而符合目標。服從，從一個外加的限制，變成可以被數學證明的特性。

至於機器怎麼從行為推斷偏好，靠的是 inverse reinforcement learning：一般的強化學習是「給定目標，學出行為」；逆過來，就是「觀察行為，反推背後的目標」。機器看著人怎麼做，慢慢拼湊出人在乎什麼。

關於這裡的「偏好」，Russell 給的定義野心很大：

preferences … are all-encompassing; they cover everything you might care about, arbitrarily far into the future.

涵蓋你可能在乎的一切，一路延伸到任意遙遠的未來。

工程上做得到嗎？批評者的兩記重拳

漂亮的理論，撞上現實會痛。

Melanie Mitchell 在《紐約時報》投書質疑：一台機器若真要具備人類等級的通用智慧與彈性，它本身就得內含常識與社會判斷——這跟它還能保有電腦的速度與精確、還能乖乖被程式控制，兩者能並存嗎？

James McConnachie 在《泰晤士報》的批評更直接：這本書技術的部分太難、哲學的部分太淺，落在一個尷尬的中間地帶。三原則優雅，但 Russell 沒給出夠細的落實方法。「可證明有益」（provably beneficial）這個詞很響亮，可是「有益」要怎麼精確定義？

這些質疑都站得住腳。「讓機器對偏好保持不確定」在白板上很美，要規模化到真實系統，還有很長的路。

台灣的產業現場更直白。逆向強化學習在學術圈是熱門題目，但落到供應鏈與產品 KPI 裡，「可證明有益」這種標準，還沒被吸收進任何一份規格書。大家趕的是出貨時程，不是哲學論證。

進步擋不住，所以安全研究要更早動手

有人會說，既然這麼危險，不如別做了。

Russell 花了不少篇幅論證為什麼這條路走不通。

自駕車、個人助理、各種智慧系統，背後是數兆美元級別的市場。這種量級的經濟誘因，不是哪個國家、哪間公司喊停就能踩煞車的。你不做，別人做。

他的論證鏈條是這樣的：進步無法阻擋 → 抵達人類等級 AI 的時間高度不確定 → 既然不確定，越早投入安全研究，風險越低。

不確定何時抵達，正是現在就該動手的理由

這跟 Pascal’s Wager 那種「萬一呢」的賭注不一樣。不是說「反正後果無限大，所以再小的機率都該防」。而是：我們明知這件事很可能發生、不知道何時發生、一旦發生又來不及補救——這正是預防工程的標準情境。蓋橋的人不會等橋塌了才算結構，防洪的人不會等淹水才築堤。

台灣在這場大國競賽中的位置，讓問題格外尖銳。

我們是小型開放經濟體，「趕不上就出局」是真實的生存焦慮。在這種壓力下談「先做安全研究」，像是奢侈品。但換個角度，一個卡在全球 AI 硬體供應鏈最核心位置的經濟體，反而比誰都更有資格、也更有責任，把「可控且有益」變成競爭力的一部分，而不是拖累。

安全不該是趕完進度後的補課。

技術只是必要條件，不是充分條件

三原則就算全部解決了，Russell 也不認為事情就結束。

技術重寫只是地基，上面還得蓋治理與文化。

企業層面，他點名 Google、Facebook、Amazon、微軟、IBM、騰訊、百度——這些握有最強算力與最多資料的玩家，必須扛起對應的責任。Partnership on AI 這類跨企業組織，是把責任制度化的一種嘗試。

政府與國際層面，他談到聯合國、G7、歐盟的高階專家小組。AI 不認國界，治理卻被切成一塊塊主權。這個落差，是接下來十年最難啃的骨頭。

真正的深水區是文化層面的反省：在一個由 AI 主導的世界裡，人類該保留多少自主權？

這個問題沒有標準答案。把越多決策交給更聰明的系統，效率越高、也活得越輕鬆——代價是，我們一點一點，變回那群「被允許過得不錯」的大猩猩。

David Leslie 在《Nature》的書評不買單 Russell 的整套敘事。他質疑「第二個智慧物種真的會出現嗎」這一點 Russell 並沒有真正說服讀者，還說那個地球工程機器人的例子裡，「實在看不出有什麼智慧」。

這個批評值得記住，它提醒我們別把 Russell 的劇本當成預言。

但即使你不相信超智慧會降臨，三原則背後的洞見依然成立：任何用固定目標驅動的系統，都會在你沒留意的地方，給你「你要求的」而不是「你想要的」。今天的推薦演算法，已經在做這件事了。

繁體中文世界目前還沒有這本書的正式譯本，provably beneficial、value alignment 這些詞，連個穩定的譯名都還沒長出來。一個遲早要認真對話的議題，連共同的語言都還在缺席。

回到大猩猩。牠們從沒選擇要把未來交到別的物種手上，那是演化替牠們決定的。

我們不一樣——還在替自己選擇的階段。趁這台開關，還握在我們手裡。

AI 風險為什麼總被當成耳邊風

固定目標的極限：一個想救海洋卻悶死人類的機器人

跨書對照：Bostrom 與 Russell 的分工

大猩猩問題：不需要惡意，只需要能力差距

自我保存，是幾乎任何目標的副產品

三原則：把「服從」寫進機器的底層

讓機器「不確定」，它才會謙遜

工程上做得到嗎？批評者的兩記重拳

進步擋不住，所以安全研究要更早動手

不確定何時抵達，正是現在就該動手的理由

技術只是必要條件，不是充分條件

要不要， 每週陪我讀一本書？

FIRE 不只是退休：5 本書整合的財務自由 5 個反直覺發現

留下 email，下週見。

驗證信已寄出

你可能也想讀

#290《AI 2041：預見10個未來新世界》

#286《Genius Makers》

#284《Slow Productivity》

要不要，
每週陪我讀一本書？