2026 年 06 月 05 日decode

Ideogram v4.0：当文生图开始“把字写对”和“听结构化指令”

Ideogram文生图JSON-prompt文字渲染开源模型

播客版

Ideogram v4.0：当文生图开始“把字写对”和“听结构化指令”

6 月 3 日，Krea 在 X 上甩出一句话：「introducing Ideogram v4.0. 2k native resolution, excellent text rendering, and support for JSON prompts.」（隆重介绍 Ideogram v4.0。原生 2K 分辨率、出色的文字渲染、支持 JSON 提示词。）三个卖点，没有一句谈“画得更像”。

这正是值得拆的地方。过去两年，文生图的军备竞赛都在比谁的画面更真、谁的手指数得对、谁的光影更电影感。Ideogram 这家公司从一开始就没挤这条赛道——它押的是另一件被长期低估的事：把图里的字写对，以及让你能精确地指挥画面里每个元素摆在哪、用什么颜色、配什么字体。v4.0 把这条线推到了一个新位置，而且这次它还顺手开了源。

对做海报、电商详情页、品牌物料、社交配图的人来说，这两件事——文字准确 + 结构可控——恰恰是日常最痛的刚需。本期就把这两条主线讲透。

本期看点

Ideogram 一贯的看家本领是“图里的字写得对”，v4.0 把它推到原生 2K，且不再靠事后放大补一道工序。
真正的新东西是 JSON 提示词：模型用结构化 JSON 描述训练，你可以用带坐标、配色、字体的 JSON 直接指挥版面——图开始“可编程”。
v4.0 是 9.3B 参数的扩散 Transformer，Ideogram 第一个开放权重的文生图模型，但商用要单独授权。
文字渲染和结构控制，是做海报、电商、营销物料的真痛点；这两条线一起进步，改的是工作流，不只是出图质量。

Ideogram v4.0：当文生图开始“把字写对”和“听结构化指令” 配图 2

为什么“把字写对”对 AI 这么难

先解释一个外行容易忽略的事实：让扩散模型在图里写对一行字，比让它画一只逼真的猫难得多。

原因在于扩散模型的工作方式。它不是“先想好这里要写 SALE 三个字母，再一笔一画描出来”，而是从一团噪声里同时把整张图“显影”出来。对它而言，字母只是一种特定形状的纹理——和草叶、砖缝、毛发没有本质区别。它学到的是“这一块区域看起来像有字”，而不是“这里必须是 S-A-L-E 这四个确定的字符，顺序不能错、笔画不能多”。结果就是早期文生图里那些著名的灾难：招牌上是一串扭曲的伪英文，海报标题像被水泡过的乱码，中文则直接糊成一堆“类汉字”的方块。

字越多、字体越花、语言越复杂（中文这种笔画密集的尤其），出错概率越高。这就是为什么“图里有可读文字”长期是文生图的硬骨头，也是为什么 Ideogram 把它当成立身之本——这家公司从第一代起就以“文字渲染最强”被记住。v4.0 官方继续强调这条：标牌、logo、字幕、水印、多行文本，直接从提示词高保真生成。换句话说，它不是把文字当纹理蒙混过关，而是真把“这里要写什么字”当成一等公民来处理。

Ideogram v4.0：当文生图开始“把字写对”和“听结构化指令” 配图 3

原生 2K：少了一道工序，不只是清晰

“2k native resolution”（原生 2K 分辨率）听起来像个参数升级，但关键词是 native（原生）。

过去很多模型出高清图是两步：先在较低分辨率生成，再用一个放大模型（upscaler）把它拉到 2K。这一步会带来两个问题——放大模型有自己的“想象力”，会在拉伸时改动细节，尤其是文字，本来写对的字经过放大可能又变形；而且多一道工序就多一份时间和算力成本。Ideogram v4.0 直接在 2K 出图，省掉这道放大步骤，从推理一次性产出 2K。

对文字渲染来说这一步尤其重要：字在生成阶段就以最终分辨率被“想清楚”，不经过二次拉伸的污染，笔画更稳。对做物料的人来说，2K 意味着出来的图可以直接进印刷流程或大尺寸投放，不用再担心放大补救。模型支持 256 到 2048 像素每边的灵活分辨率，竖图、横图、方图都能直接出对应尺寸，而不是先出一张再裁。

Ideogram v4.0：当文生图开始“把字写对”和“听结构化指令” 配图 4

JSON 提示词：图开始变得“可编程”

这是 v4.0 里最该被讲透、却最容易被当成小功能略过的一条。

普通文生图的提示词是一句自然语言：“一张夏季促销海报，顶部写 SALE，背景是粉色。”模型怎么理解“顶部”、“粉色”、SALE 和背景的关系，全凭它自己猜。你改一个词，整张图可能重排，控制感几乎为零。

JSON 提示词把这件事变成了结构化指令。据技术拆解，Ideogram 4.0 训练和推理用的是同一套 JSON 描述格式：每张训练图都被拆成带样式的元素，可以带边界框（bounding box）和配色。具体来说——位置用归一化坐标（0 到 1000，原点在左上角，格式是 [y_min, x_min, y_max, x_max]）；配色每张图最多 16 个十六进制色、每个元素最多 5 个；文字元素则同时携带“要写的那串字面文字”加一段字体样式描述，专门服务多字体的海报排版。

把这串话翻译成人话：你不再是“描述一张图”，而是在“写一份版面规格”。标题放在画面上方这个矩形框里，用衬线粗体，砖红色；副标题放在下方那个框里，用细体；主色限定在这五个色值内。模型按这份规格出图，而不是凭感觉发挥。这就是“图变得可编程”的含义——画面从一段模糊的描述，变成一组可以逐字段调的参数。改标题文字不动版面，调一个色值不重排全图。

值得点明一个细节：Krea 那条推文写的是“support for JSON prompts”（支持 JSON 提示词），听起来像多了个可选输入框；但底层其实是模型本身就是用 JSON 描述训练出来的，结构化才是它的母语，纯文字提示反而是被一层“魔法提示”自动转成 JSON 再喂进去。这个区别决定了它的控制力上限——不是在自然语言模型外面套了个解析器，而是从训练那一刻起就理解版面结构。

Ideogram v4.0：当文生图开始“把字写对”和“听结构化指令” 配图 5

开了源，但商用有门槛

v4.0 还有一条容易被忽略的身份转变：它是 Ideogram 第一个开放权重（open-weight）的文生图模型。

具体是一个 9.3B 参数、34 层的单流扩散 Transformer，从零训练，不是在别人模型上微调；文本编码器用的是冻结的 Qwen3-VL-8B-Instruct。权重放在 Hugging Face 上、代码在 GitHub，本地推理和研究微调可以做。但别急着高兴——权重走的是“Ideogram 4 非商用模型协议”（Non-Commercial Model Agreement），商用必须单独买授权，代码部分则是 Apache 2.0。

这是一种越来越常见的“半开源”姿态：把模型放出来给社区跑、给研究者改，赚生态和口碑；但真要拿去做生意，回到付费 API（Turbo 每张 0.03 美元、默认 0.06、高质量 0.10）或商用授权。对个人创作者和研究者，这扇门是开的；对要把它接进产品的公司，成本账还得照算。第三方基准（DesignArena）把它排在所有开放权重模型第一，质量上胜过 Midjourney v8、与 Flux 相当，但仍不及 GPT-Image-2 这类闭源顶配——也就是说，它的卖点从来不是“画质天花板”，而是“在文字和可控这两件事上，开放阵营里没有对手”。

对从业者意味着什么

如果你做设计、电商、营销物料，这次更新改的不是“图更好看了”，而是出图能不能进生产流程。

第一，文字准确 + 原生 2K，意味着 AI 出的图第一次有机会直接用，而不是“出个草稿再让设计师重做字”。促销海报的标题、电商主图的卖点字、logo 上的品牌名、活动 banner 的日期——这些以前 AI 一碰就糊的地方，现在有了能用的工具。把“出图”从灵感阶段往“成品阶段”推了一格。

第二，JSON 提示词意味着批量化和工程化成为可能。一张图能写成结构化规格，就能被模板化、被脚本生成。电商一万个 SKU 各出一张主图、同一套版式换文字和配色批量产出活动图、品牌物料按规范自动套版——这些过去要靠设计师一张张做或靠 PS 动作硬凑的活，现在可以用“改 JSON 字段”来跑。这才是“可编程的图”对工作流的真正冲击：图从手工艺品，变成可以被程序调用的资产。

第三，别被“开源”冲昏头。个人和研究随便用，但商用要授权、要算 API 成本。真要落地，先把这笔账算清楚，再决定是自己跑权重还是走付费接口。

文生图的竞争焦点，正在从“画得像不像”转向“字写得对不对、版面控不控得住”。Ideogram v4.0 是这个转向的一个清晰路标——它赌的不是更美的图，而是更可用的图。

关键词

文生图（text-to-image）：输入一段文字，模型生成对应图像的技术，如 Midjourney、Flux、GPT-Image。
扩散模型（diffusion model）：当前主流的图像生成方式，从随机噪声逐步“显影”出图像，而不是一笔一画地画。
文字渲染（text rendering）：让生成的图里包含准确、可读的文字（而不是乱码字符）的能力。
原生 2K（native 2K）：模型直接以 2K 分辨率出图，不靠事后放大模型补救。
JSON 提示词（JSON prompt）：用结构化的 JSON 字段（位置、配色、字体、文本内容）描述画面，替代一句模糊的自然语言，让出图可精确控制、可批量化。
边界框（bounding box）：一个矩形坐标，用来指定某个元素在画面里的位置和大小。
开放权重（open-weight）：模型权重公开可下载、可本地运行，但许可证可能限制商用。

引用

Krea（@krea_ai）发布推文，2026-06-03：「introducing Ideogram v4.0. 2k native resolution, excellent text rendering, and support for JSON prompts. try it now in Krea.」（隆重介绍 Ideogram v4.0。原生 2K 分辨率、出色的文字渲染、支持 JSON 提示词。现在就在 Krea 试。）https://x.com/krea_ai/status/2062227837130887567
the decoder，《Ideogram 4.0 drops as an open-weight model with native 2K resolution and improved text rendering》：「improved text rendering in images, useful for logos and posters」「precise layout control via bounding boxes」「weights and code are available for download」「commercial use requires a paid license」。（图像文字渲染改进，对 logo 和海报有用；通过边界框精确控制版面；权重和代码可下载；商用需付费授权。）https://the-decoder.com/ideogram-4-0-drops-as-an-open-weight-model-with-native-2k-resolution-and-improved-text-rendering/
Mervin Praison，《Ideogram 4.0: 9.3B Open-Weight Image Model With 2K JSON Layout and Local Inference》：9.3B 参数、34 层单流扩散 Transformer；边界框用 0–1000 归一化坐标 [y_min, x_min, y_max, x_max]；每图最多 16 色、每元素最多 5 色；训练与推理用同一套 JSON 描述格式。https://mer.vin/2026/06/ideogram-4-0-9-3b-open-weight-image-model-with-2k-json-layout-and-local-inference/
evolink.ai，《Ideogram 4.0: What Developers Should Know》：「Ideogram 4.0 was trained on JSON captions and supports explicit composition, color palette, bounding-box layout, and typed text elements」「Ideogram has historically been strong at text rendering」。（Ideogram 4.0 用 JSON 描述训练，支持显式构图、配色、边界框版面与带类型的文本元素；Ideogram 历来以文字渲染见长。）https://evolink.ai/blog/ideogram-4-0-what-developers-should-know