2026 年上半年，AI 到底走到哪裡了？

今年五月底，我花了幾天把過去半年讀過、用過、跟客戶討論過的 AI 動態重新整理了一遍。結論是：AI 產業正在經歷一次體質轉換——不是衰退，而是從「展示震撼力」轉向「扛起真實業務」。這兩件事看起來都很好，但對實際要做決策的人來說，它們代表非常不同的行動邏輯。我想從四個面向，把這半年我認為真正重要的事說清楚。

模型戰場：天花板附近開始塞車

過去半年最引人注目的模型動態，其實不是哪個基準測試被刷新，而是能力逼近頂端的模型數量突然暴增，而且推論成本直直往下掉。

以五月初為例，GPT-5.5 Instant 取代原本的預設成為 ChatGPT 的新面孔；Gemini 3.1 Flash Lite 緊接著在各大 API gateway 上線。這兩個版本都不是 OpenAI 或 Google 的旗艦，但這恰好是重點——當「夠強又夠快夠便宜」的模型成為數億人的預設入口，旗艦模型的光環就開始在日常使用中稀釋。

Anthropic 在四月十六日推出的 Claude Opus 4.7 是這個趨勢裡比較有意思的對照組。SWE-bench Verified 的通過率從 80.8% 升到 87.6%，複雜多步驟任務的可靠度有明顯提升，定價卻維持原位——$5/$25 per million tokens 不動。更值得玩味的是 Anthropic 公開承認 Opus 4.7 仍落後尚未發布的內部模型「Mythos」，一方面坦誠，另一方面也預告了競爭不會在這裡停止。模型的競爭重心，正從「誰先發表突破」轉向「誰的迭代節奏能持續維持優勢」。

主要 AI 模型 SWE-bench Verified 分數比較 — SWE-bench Verified 分數比較——Claude Opus 4.7 以 87.6% 領先，DeepSeek V4 開源模型緊追在後

然而整個上半年真正值得記住的技術新聞，我覺得是來自中國的開源浪潮。十二天之內，GLM-5.1、MiniMax M2.7、Kimi K2.6、DeepSeek V4 四個開源 coding 模型接連問世，能力接近頂尖，但推論成本不到 Claude Opus 4.7 的三分之一。這件事對商業選型的衝擊比技術本身更大：它意味著「同等能力、更低成本」的解法已經存在，問題只剩下你願不願意花時間整合與維護開源模型。

架構創新方面，SubQ 推出了首個商用「次二次方（sub-quadratic）」語言模型，支援 1,200 萬 tokens 的上下文窗口。這不是突破性的應用，但它指向一個趨勢：研究社群的注意力開始從「參數更多」轉向「在受限條件下做更多事」，這對需要長文件理解、長流程 Agent 的企業應用是好消息。

錢與企業：PoC 年代正式結束

如果說技術面是「進入整理期」，商業面是「全面加速」，兩者之間的落差就是現在最有意思的張力。

Q1 2026 全球創投 AI 融資流向圖 — Q1 2026 全球創投 $2,970B，AI 吸納 80%——四大前沿實驗室佔整季 65%

2026 年第一季，全球創投規模約達 2,970 億美元，其中 80% 流向 AI。光是 OpenAI（1,220 億）、Anthropic（300 億）、xAI（200 億）、Waymo（160 億）四家，就吃下了整季全球創投的 65%。這個數字如果你不覺得誇張，可以換個角度想：這四家公司一季募到的錢，相當於前幾年整個台灣科技業年度市值的數倍。OpenAI 同期成立了一家 40 億美元的子公司，專門做企業 AI 導入服務。這個動作說明了一件事：前沿模型公司意識到，單靠模型授權並不夠，「怎麼幫企業真正用起來」本身就是一個可以獨立成線的業務。

企業端的數字也呼應了這個方向。根據多份調查，約 88% 的企業已在至少一個業務環節常態使用 AI，72% 以上的企業已在生產環境部署或積極試行 agentic AI。更重要的轉變是，在 2025 年還是主流的「探索型 PoC」，今年開始真正簽量產合約——四大會計師事務所全面完成 AI 部署的時間點，恰好落在五月初，被業界普遍視為企業 AI 跨過臨界點的象徵。

M&A 的熱點也在位移。過去幾年最貴的被併購標的多是通用模型公司，今年的倍數明顯向垂直領域集中：醫療、法律、金融、製造業的 AI-native 解法，開始拿到最高的估值溢價。市場在用真實的錢，告訴你下一個五年的競爭場域在哪。

Agent 落地：瓶頸不在模型，在部署

這是我在第一線工作中感受最深的一塊，資料也在印證我的直覺。

五月初，Claude Security 以公開 Beta 形式上線，使用 Opus 4.7 掃描整個 codebase、自動產出修補 patch，Bristol Myers Squibb 宣布為超過三萬名員工全面部署 Claude Enterprise，Anthropic 與 PwC 擴大合作，將 Claude Code 和 Cowork 推給 PwC 的三萬名全球顧問。這些消息乍看是「AI 進大廠」的常規新聞，但如果你把這些案例和幾個關鍵數字放在一起看，會讀出不同的訊息。

Agent 試點失敗示意：機器人被 Governance Gate 擋在生產環境外 — 88% 的 Agent 試點從未進入生產——卡關的幾乎不是模型本身，而是治理與合規基礎設施

88% 的 Agent 試點從未進入生產環境。 這個數字出現在多份產業報告，描述的失敗原因高度一致：問題幾乎從來不出在模型本身，而是出在部署的周邊——隔離機制、治理框架、合規要求、資料落地規定、企業內部的安全稽核流程。換句話說，你花三個月做出來的 Agent，在最後進生產環境前被資安團隊擋住，這才是今年最普遍的 AI 故事。

另一個被反覆提到的摩擦是：AI 產碼的速度，已經超過團隊能驗證的速度。Cursor、Claude Code、Codex、Google Jules 在今年全都達到了「會寫、寫得快、大多數情況下寫得不錯」的水準，但這件事本身帶來了一個新問題：你的 code review 流程、測試覆蓋率、CI/CD 的把關機制，有沒有辦法跟上這個速度？如果沒有，Agent 幫你生出來的技術債，可能比人工寫碼時期還快累積。

Anthropic 在五月的「Code with Claude」活動中發布了幾個值得注意的能力更新：session 之間的記憶整理（他們稱之為「Dreaming」）、結果導向的 Outcomes 設定、以及 lead-agent + sub-agent 的多層 orchestration 架構。這些都在指向同一個方向：Agent 的設計邏輯正在從「單次任務執行」演進成「可以跨時間、跨工作流程持續運作的自主系統」。

監管：不是消失，是換一種方式施壓

法規面的主線在 2026 年上半年出現了一個有趣的轉折，值得花一點時間理解，因為它對台灣的企業或開發者也有間接影響。

全球 AI 監管天平：EU AI Act 延期 vs. 美國各州拼圖 — EU AI Act Omnibus 延後高風險條款合規期限；美國仍是德州、加州、紐約各州分頭立法

EU AI Act 原本預計在今年八月讓大批條款正式生效，但五月七日，歐盟理事會與議會達成了「AI Act Omnibus」政治協議，決定延後高風險 AI 系統的合規期限，把 SME 適用的簡化框架擴大到 750 人以下、年營收 1.5 億歐元以下的公司。表面上看是「鬆綁」，實際上是承認強制大批條款在八月同時生效，對市場會造成難以吸收的衝擊，所以換成「分階段、務實緩衝」的節奏。

對歐洲以外的企業，這個訊號的意義不是「監管要縮水了」，而是：監管的方向不變，只是給你更多時間準備。如果你的產品有一天想進歐洲市場，現在開始在系統設計裡建立可稽核性與透明度機制，就不會到時候被迫倉促改架構。

美國那邊暫時沒有聯邦統一標準。德州 RAIGA、加州 AI 透明度法、紐約 RAISE Act，這幾部法在今年分別生效或修法，方向雖然不一致，但共同的趨勢是都在往「透明度與通報義務」這個方向靠攏——你用了什麼 AI、在哪些決策裡用、用來對誰做決定，這些都需要能說清楚。

顧問視角：想導入 AI 的企業，現在該做三件事

把上面這些拼在一起，我想給正在考慮或正在推動企業 AI 導入的人說三件事。

第一，現在是重算成本帳的時機。 模型同等能力的成本在過去半年大幅下降，如果你的方案還預設要用最貴的旗艦模型，值得花時間重新評估。在我自己的 LINE Bot 與 RAG 知識庫架構裡，「中階模型 + 好的 retrieval 設計」往往比「旗艦模型 + 粗糙的 prompt」的結果更好、成本更低。

第二，把預算重心從「選模型」移到「建驗證機制」。 88% 的試點死在部署，不是死在模型。在動手做 Agent 之前，先把「這個 Agent 出錯時我怎麼知道」「誰有權限批准它的輸出」「資料怎麼不出境」想清楚，省下的時間遠大於多換幾個模型試效果。

第三，不要等監管定案才動。 EU 緩衝、美國分散，這容易讓人覺得「現在還不急」。但無論最終框架怎麼定，「系統產出要可解釋」「用了什麼模型要能說清楚」「針對特定族群的決策要能稽核」這幾件事，幾乎是全球各路監管的最大公因數。把這些做進系統設計，比起事後補救便宜得多。

2026 年的 AI，正在從展示台走進車間。選哪個模型從來不是最難的問題；難的是怎麼讓它穩定、合規、划算地在你的業務裡持續運作。這件事，才剛開始有人真正想清楚。

參考來源