外稿_產經, 新聞來源:商傳媒, 綜合

OpenAI發表ChatGPT Images 2.0！生成圖片支援繁中、具備「思考模式」

2026-04-22

我要分享

瀏覽數: 387

商傳媒｜責任編輯／綜合外電報導

OpenAI 今日正式發布最新圖像生成人工智慧模型 ChatGPT Images 2.0，大幅提升其在圖片中生成文字的表現與多模態整合能力。這項更新讓人工智慧不僅能繪製精美圖像，更能準確理解並生成多國語言文字，甚至能像人類一樣「思考」，透過網路搜尋與規劃來完成複雜的視覺內容。

根據《WIRED》報導，ChatGPT Images 2.0 能從單一指令生成多張圖像，並支援中文、印度文等多種非英文語言的文字輸出。其輸出內容更加細膩，能生成包含具體數據和地標的詳細資訊圖表。同時，模型也提供更彈性的長寬比客製化選項。

這款新模型的核心亮點之一是其「思考模式」（Thinking mode）。《Venturebeat》指出，此模式整合了 OpenAI 的「O-series」推理能力，採用「代理式」（agentic）方法。在生成圖像前，系統會先進行研究、規劃與推理，這讓模型能執行網路研究、識別標誌，並在保留原始風格的同時製作專業海報。OpenAI 官方發布指出，圖像本身就是一種語言，好的圖像應具備選擇、安排與揭示資訊的能力，而非僅是裝飾。

透過「思考模式」，ChatGPT Images 2.0 能生成長篇文字區塊、在單一圖像中呈現不同文本面板，甚至模擬熱門網站的使用者介面。此外，模型能複製現實人物、將網路研究結果整合至圖像中，並生成平面圖、圖像網格及多角度角色模型，這些功能亦可應用於使用者上傳的圖片。該模型還能從單一提示生成多達八張連續圖像，並在整個序列中保持角色與物件的一致性，適用於漫畫或兒童讀物創作。

在文字渲染方面，OpenAI 官方發布指出，ChatGPT Images 2.0 在密集的構圖（如科學圖表、菜單及資訊海報）中，也能產生清晰易讀的文字，並支援日文、韓文、中文、印度文及孟加拉文等高傳真度的多語言文字生成。這項技術進步被視為文字渲染能力的「巨大飛躍」。

目前，ChatGPT Images 2.0 的基礎模型已向所有 ChatGPT 及 Codex 使用者開放，而「思考模式」與更進階的「Pro」功能則提供給付費訂閱用戶。《inc.com》提及，API 使用者可整合 gpt-image-2 模型，支援最高 4K 解析度（測試版）及 3:1 到 1:3 的長寬比。

在競爭方面，OpenAI 新模型將與 Google 的 Nano Banana 系列模型展開競爭。Google 去年推出的 Nano Banana 模型曾因其超寫實人偶圖像在網路上引發廣泛討論，並於今年二月更新至 Nano Banana 2。OpenAI 強調，ChatGPT Images 2.0 內建多層安全協議，包括數位水印、內容過濾模型及主動監控，以確保模型在先進功能發展的同時，能以安全且受保護的方式運行。