今年五月底,我花了幾天把過去半年讀過、用過、跟客戶討論過的 AI 動態重新整理了一遍。結論是:AI 產業正在經歷一次體質轉換——不是衰退,而是從「展示震撼力」轉向「扛起真實業務」。這兩件事看起來都很好,但對實際要做決策的人來說,它們代表非常不同的行動邏輯。我想從四個面向,把這半年我認為真正重要的事說清楚。

模型戰場:天花板附近開始塞車

過去半年最引人注目的模型動態,其實不是哪個基準測試被刷新,而是能力逼近頂端的模型數量突然暴增,而且推論成本直直往下掉。

以五月初為例,GPT-5.5 Instant 取代原本的預設成為 ChatGPT 的新面孔;Gemini 3.1 Flash Lite 緊接著在各大 API gateway 上線。這兩個版本都不是 OpenAI 或 Google 的旗艦,但這恰好是重點——當「夠強又夠快夠便宜」的模型成為數億人的預設入口,旗艦模型的光環就開始在日常使用中稀釋。

Anthropic 在四月十六日推出的 Claude Opus 4.7 是這個趨勢裡比較有意思的對照組。SWE-bench Verified 的通過率從 80.8% 升到 87.6%,複雜多步驟任務的可靠度有明顯提升,定價卻維持原位——$5/$25 per million tokens 不動。更值得玩味的是 Anthropic 公開承認 Opus 4.7 仍落後尚未發布的內部模型「Mythos」,一方面坦誠,另一方面也預告了競爭不會在這裡停止。模型的競爭重心,正從「誰先發表突破」轉向「誰的迭代節奏能持續維持優勢」。

主要 AI 模型 SWE-bench Verified 分數比較
SWE-bench Verified 分數比較——Claude Opus 4.7 以 87.6% 領先,DeepSeek V4 開源模型緊追在後

然而整個上半年真正值得記住的技術新聞,我覺得是來自中國的開源浪潮。十二天之內,GLM-5.1、MiniMax M2.7、Kimi K2.6、DeepSeek V4 四個開源 coding 模型接連問世,能力接近頂尖,但推論成本不到 Claude Opus 4.7 的三分之一。這件事對商業選型的衝擊比技術本身更大:它意味著「同等能力、更低成本」的解法已經存在,問題只剩下你願不願意花時間整合與維護開源模型。

架構創新方面,SubQ 推出了首個商用「次二次方(sub-quadratic)」語言模型,支援 1,200 萬 tokens 的上下文窗口。這不是突破性的應用,但它指向一個趨勢:研究社群的注意力開始從「參數更多」轉向「在受限條件下做更多事」,這對需要長文件理解、長流程 Agent 的企業應用是好消息。

錢與企業:PoC 年代正式結束

如果說技術面是「進入整理期」,商業面是「全面加速」,兩者之間的落差就是現在最有意思的張力。

Q1 2026 全球創投 AI 融資流向圖
Q1 2026 全球創投 $2,970B,AI 吸納 80%——四大前沿實驗室佔整季 65%

2026 年第一季,全球創投規模約達 2,970 億美元,其中 80% 流向 AI。光是 OpenAI(1,220 億)、Anthropic(300 億)、xAI(200 億)、Waymo(160 億)四家,就吃下了整季全球創投的 65%。這個數字如果你不覺得誇張,可以換個角度想:這四家公司一季募到的錢,相當於前幾年整個台灣科技業年度市值的數倍。OpenAI 同期成立了一家 40 億美元的子公司,專門做企業 AI 導入服務。這個動作說明了一件事:前沿模型公司意識到,單靠模型授權並不夠,「怎麼幫企業真正用起來」本身就是一個可以獨立成線的業務。

企業端的數字也呼應了這個方向。根據多份調查,約 88% 的企業已在至少一個業務環節常態使用 AI,72% 以上的企業已在生產環境部署或積極試行 agentic AI。更重要的轉變是,在 2025 年還是主流的「探索型 PoC」,今年開始真正簽量產合約——四大會計師事務所全面完成 AI 部署的時間點,恰好落在五月初,被業界普遍視為企業 AI 跨過臨界點的象徵

M&A 的熱點也在位移。過去幾年最貴的被併購標的多是通用模型公司,今年的倍數明顯向垂直領域集中:醫療、法律、金融、製造業的 AI-native 解法,開始拿到最高的估值溢價。市場在用真實的錢,告訴你下一個五年的競爭場域在哪。

Agent 落地:瓶頸不在模型,在部署

這是我在第一線工作中感受最深的一塊,資料也在印證我的直覺。

五月初,Claude Security 以公開 Beta 形式上線,使用 Opus 4.7 掃描整個 codebase、自動產出修補 patch,Bristol Myers Squibb 宣布為超過三萬名員工全面部署 Claude Enterprise,Anthropic 與 PwC 擴大合作,將 Claude Code 和 Cowork 推給 PwC 的三萬名全球顧問。這些消息乍看是「AI 進大廠」的常規新聞,但如果你把這些案例和幾個關鍵數字放在一起看,會讀出不同的訊息。

Agent 試點失敗示意:機器人被 Governance Gate 擋在生產環境外
88% 的 Agent 試點從未進入生產——卡關的幾乎不是模型本身,而是治理與合規基礎設施

88% 的 Agent 試點從未進入生產環境。 這個數字出現在多份產業報告,描述的失敗原因高度一致:問題幾乎從來不出在模型本身,而是出在部署的周邊——隔離機制、治理框架、合規要求、資料落地規定、企業內部的安全稽核流程。換句話說,你花三個月做出來的 Agent,在最後進生產環境前被資安團隊擋住,這才是今年最普遍的 AI 故事。

另一個被反覆提到的摩擦是:AI 產碼的速度,已經超過團隊能驗證的速度。Cursor、Claude Code、Codex、Google Jules 在今年全都達到了「會寫、寫得快、大多數情況下寫得不錯」的水準,但這件事本身帶來了一個新問題:你的 code review 流程、測試覆蓋率、CI/CD 的把關機制,有沒有辦法跟上這個速度?如果沒有,Agent 幫你生出來的技術債,可能比人工寫碼時期還快累積。

Anthropic 在五月的「Code with Claude」活動中發布了幾個值得注意的能力更新:session 之間的記憶整理(他們稱之為「Dreaming」)、結果導向的 Outcomes 設定、以及 lead-agent + sub-agent 的多層 orchestration 架構。這些都在指向同一個方向:Agent 的設計邏輯正在從「單次任務執行」演進成「可以跨時間、跨工作流程持續運作的自主系統」。

監管:不是消失,是換一種方式施壓

法規面的主線在 2026 年上半年出現了一個有趣的轉折,值得花一點時間理解,因為它對台灣的企業或開發者也有間接影響。

全球 AI 監管天平:EU AI Act 延期 vs. 美國各州拼圖
EU AI Act Omnibus 延後高風險條款合規期限;美國仍是德州、加州、紐約各州分頭立法

EU AI Act 原本預計在今年八月讓大批條款正式生效,但五月七日,歐盟理事會與議會達成了「AI Act Omnibus」政治協議,決定延後高風險 AI 系統的合規期限,把 SME 適用的簡化框架擴大到 750 人以下、年營收 1.5 億歐元以下的公司。表面上看是「鬆綁」,實際上是承認強制大批條款在八月同時生效,對市場會造成難以吸收的衝擊,所以換成「分階段、務實緩衝」的節奏。

對歐洲以外的企業,這個訊號的意義不是「監管要縮水了」,而是:監管的方向不變,只是給你更多時間準備。如果你的產品有一天想進歐洲市場,現在開始在系統設計裡建立可稽核性與透明度機制,就不會到時候被迫倉促改架構。

美國那邊暫時沒有聯邦統一標準。德州 RAIGA、加州 AI 透明度法、紐約 RAISE Act,這幾部法在今年分別生效或修法,方向雖然不一致,但共同的趨勢是都在往「透明度與通報義務」這個方向靠攏——你用了什麼 AI、在哪些決策裡用、用來對誰做決定,這些都需要能說清楚。

顧問視角:想導入 AI 的企業,現在該做三件事

把上面這些拼在一起,我想給正在考慮或正在推動企業 AI 導入的人說三件事。

第一,現在是重算成本帳的時機。 模型同等能力的成本在過去半年大幅下降,如果你的方案還預設要用最貴的旗艦模型,值得花時間重新評估。在我自己的 LINE Bot 與 RAG 知識庫架構裡,「中階模型 + 好的 retrieval 設計」往往比「旗艦模型 + 粗糙的 prompt」的結果更好、成本更低。

第二,把預算重心從「選模型」移到「建驗證機制」。 88% 的試點死在部署,不是死在模型。在動手做 Agent 之前,先把「這個 Agent 出錯時我怎麼知道」「誰有權限批准它的輸出」「資料怎麼不出境」想清楚,省下的時間遠大於多換幾個模型試效果。

第三,不要等監管定案才動。 EU 緩衝、美國分散,這容易讓人覺得「現在還不急」。但無論最終框架怎麼定,「系統產出要可解釋」「用了什麼模型要能說清楚」「針對特定族群的決策要能稽核」這幾件事,幾乎是全球各路監管的最大公因數。把這些做進系統設計,比起事後補救便宜得多。

2026 年的 AI,正在從展示台走進車間。選哪個模型從來不是最難的問題;難的是怎麼讓它穩定、合規、划算地在你的業務裡持續運作。這件事,才剛開始有人真正想清楚。


參考來源