GPT-4o vs ComfyUI：AI绘图工具大对决，新手必看！无需魔法国内就能访问ChatGPT，附带9款平替工作流支持在线体验。

在AI绘图领域，GPT-4o和ComfyUI正掀起一场效率与创意的革命！今天，我们深入对比这两款热门工具，看看谁更适合新手快速上手，谁又能满足专业设计师的深度需求。

测试内容：

GPT风格转绘：

原图

吉卜力

皮克斯

JOJO

comfyui风格转绘：

服装替换

提示词：让图一的角色穿上图二的衣服和图三的裤子还有图四的鞋

提示词：

创建一张人偶玩具包装盒的图片，盒子内展示了精致的3d打印的玩具，包含了角色，衣服，裤子和鞋子以及配饰等零件

将图一创建为一张人偶玩具包装盒的图片，盒子内展示了一辆外形类似于保时捷 911 的微型黄色小米跑车，一款带有明显标志的小米智能手机，一款具有独特设计元素的小米电饭煲，以及一台外壳上带有小米标志的超薄小米笔记本电脑。包装内的背景以橙色和白色的微妙科技图案为特色。

宫格表情包：

请参考图一，生成表情包，要求3*3九宫格，不同表情，保持主体形象不变

产品换背

参考图一的的风格，将图一中的产品替换为图二的产品

原图

产品图

GPT4O

comfyui生成的效果

请参考这样的风格，把产品更换为口红

GPT4O

comfyui生成的效果

请将图一的logo，添加到口红上

GPT4O

comfyui生成的效果

服装迁移

请让图一的女生穿着图二的连衣裙

原图

GPT4o

Comfyui生成效果

背景替换

参考图一的风格，将图二这个女生的背景替换掉，图像比例要求9:16

建筑设计

参考图一的风格，对图二的旧房进行改造，需要保持原有的房屋结构，画面要求比例9:16。

GPT4o

ComfyUI

请帮我制作一个汉堡的封面海报，画面比例要求9:16

文章理解能力测试：

一定要使用创建图像才会调用4O模型，不然是调用的是DELL-3

A square image containing a 4 row by 4 column grid containing 16 objects on a white background. Go from left to right, top to bottom. Here’s the list: 1. a blue star 2. red triangle 3. green square 4. pink circle 5. orange hourglass 6. purple infinity sign 7. black and white polka dot bowtie 8. tiedye “42” 9. an orange cat wearing a black baseball cap 10. a map with a treasure chest 11. a pair of googly eyes 12. a thumbs up emoji 13. a pair of scissors 14. a blue and white giraffe 15. the word “OpenAI” written in cursive 16. a rainbow-colored lightning bolt

一个方形图像，包含一个 4 行 x 4 列的网格，其中包含 16 个对象，背景为白色。从左到右，从上到下。这是列表：

1. 一颗蓝色的星星 2.红色三角形 3.绿色方块 4.粉色圆圈 5.橙色沙漏 6.紫色无限符号 7.黑白波点领结 8.tiedye “42” 9.一只戴着黑色棒球帽的橘猫 10.一张带有宝箱的地图 11.一双咕噜咕噜的眼睛 12.竖起大拇指的表情符号 13.一把剪刀 14.一只蓝白相间的长颈鹿 15.用草书 16 写的“OpenAI”一词。彩虹色的闪电

测试二：

A wide image taken with a phone of a glass whiteboard, in a room overlooking the Bay Bridge. The field of view shows a woman writing, sporting a tshirt wiith a large OpenAI logo. The handwriting looks natural and a bit messy, and we see the photographer’s reflection. The text reads: (left) “Transfer between Modalities: Suppose we directly model p(text, pixels, sound) [equation] with one big autoregressive transformer. Pros: * image generation augmented with vast world knowledge * next-level text rendering * native in-context learning * unified post-training stack Cons: * varying bit-rate across modalities * compute not adaptive” (Right) “Fixes: * model compressed representations * compose autoregressive prior with a powerful decoder” On the bottom right of the board, she draws a diagram: “tokens -> [transformer] -> [diffusion] -> pixels”

用手机拍摄的玻璃白板的广角图像，位于俯瞰海湾大桥的房间里。视野显示一名女性正在写作，她穿着一件带有大型 OpenAI 标志的 T 恤。笔迹看起来很自然，有点凌乱，我们看到了摄影师的倒影。文本为：（左）“模态之间的转移：假设我们直接用一个大的自回归变压器对 p（text， pixels， sound） [方程] 进行建模。优点： * 图像生成通过丰富的世界知识得到增强 * 下一级文本渲染 * 本地上下文学习 * 统一的训练后堆栈缺点： * 不同模态的比特率不同 * 计算不自适应“（右） ”修复： * 模型压缩表示 * 使用强大的解码器编写自回归先验“ 在板子的右下角，她画了一个图表：”标记 -> [转换器] -> [扩散] -> 像素”

上下文理解能力：

selfie view of the photographer, as she turns around to high five him

摄影师的自拍照片，她转身与他击掌