
商傳媒|責任編輯/綜合外電報導
OpenAI 今日正式發布最新圖像生成人工智慧模型 ChatGPT Images 2.0,大幅提升其在圖片中生成文字的表現與多模態整合能力。這項更新讓人工智慧不僅能繪製精美圖像,更能準確理解並生成多國語言文字,甚至能像人類一樣「思考」,透過網路搜尋與規劃來完成複雜的視覺內容。
根據《WIRED》報導,ChatGPT Images 2.0 能從單一指令生成多張圖像,並支援中文、印度文等多種非英文語言的文字輸出。其輸出內容更加細膩,能生成包含具體數據和地標的詳細資訊圖表。同時,模型也提供更彈性的長寬比客製化選項。
這款新模型的核心亮點之一是其「思考模式」(Thinking mode)。《Venturebeat》指出,此模式整合了 OpenAI 的「O-series」推理能力,採用「代理式」(agentic)方法。在生成圖像前,系統會先進行研究、規劃與推理,這讓模型能執行網路研究、識別標誌,並在保留原始風格的同時製作專業海報。OpenAI 官方發布指出,圖像本身就是一種語言,好的圖像應具備選擇、安排與揭示資訊的能力,而非僅是裝飾。
透過「思考模式」,ChatGPT Images 2.0 能生成長篇文字區塊、在單一圖像中呈現不同文本面板,甚至模擬熱門網站的使用者介面。此外,模型能複製現實人物、將網路研究結果整合至圖像中,並生成平面圖、圖像網格及多角度角色模型,這些功能亦可應用於使用者上傳的圖片。該模型還能從單一提示生成多達八張連續圖像,並在整個序列中保持角色與物件的一致性,適用於漫畫或兒童讀物創作。
在文字渲染方面,OpenAI 官方發布指出,ChatGPT Images 2.0 在密集的構圖(如科學圖表、菜單及資訊海報)中,也能產生清晰易讀的文字,並支援日文、韓文、中文、印度文及孟加拉文等高傳真度的多語言文字生成。這項技術進步被視為文字渲染能力的「巨大飛躍」。
目前,ChatGPT Images 2.0 的基礎模型已向所有 ChatGPT 及 Codex 使用者開放,而「思考模式」與更進階的「Pro」功能則提供給付費訂閱用戶。《inc.com》提及,API 使用者可整合 gpt-image-2 模型,支援最高 4K 解析度(測試版)及 3:1 到 1:3 的長寬比。
在競爭方面,OpenAI 新模型將與 Google 的 Nano Banana 系列模型展開競爭。Google 去年推出的 Nano Banana 模型曾因其超寫實人偶圖像在網路上引發廣泛討論,並於今年二月更新至 Nano Banana 2。OpenAI 強調,ChatGPT Images 2.0 內建多層安全協議,包括數位水印、內容過濾模型及主動監控,以確保模型在先進功能發展的同時,能以安全且受保護的方式運行。
