本文力求对国内众多AI产品在“图像生成与图像编辑”这一领域的具体功能进行详尽剖析,旨在协助用户深入认识不同产品的特色,从而依据个人需求作出恰当的选择。
2022年,OpenAI推出了GPT3.5,这一事件标志着以AI大模型为核心的人工智能新时代的来临。自那时起,我国众多传统大型企业以及AI领域的独角兽公司纷纷加入其中,各式各样的AI大模型及其相关产品如同春雨之后破土而出的竹笋,接连不断地涌现出来。
行业兴盛之余,也给大众用户带来了诸多选择上的难题。究竟国内各AI产品间有何不同之处?我们应当如何进行挑选?
在对比众多AI产品时,我们可将它们大致划分为两个层面:一是其核心的大模型智能水平,二是各团队所研发的具体产品功能。目前,市场上针对大模型的评测报告已较为丰富。然而,对于这些产品功能的梳理与对比,似乎还缺乏足够的关注。
鉴于此,我打算针对当前AI领域的热点——“文本生成”、“图像生成与图像处理”以及“智能体”三个方向,对国内众多AI产品的功能进行一次全面的横向比较。
自然,我的核心关注集中在“存在与否”而非“优劣之分”,也就是说,我主要关注的是这一功能在众多AI产品中是否“存在”或“不存在”,而非深入探讨其具体表现“出色”还是“不理想”,故而也不会对这一功能进行具体的评分考量。
我的目的是通过对比分析我国众多人工智能产品的各项功能,为不同需求和使用环境的用户群体提供相应的产品挑选建议。
在2024年8月进行横向数据收集,这一时间点目前设想中或许每三个月将进行一次对比更新,同时根据实际情况来决定是否提供使用建议。如若各位朋友对未涉及到的AI产品感兴趣,或对本文有任何批评或建议,欢迎在评论区留言分享。
本篇是这个系列的第二篇——“图片生成 & 图片处理”篇
一、【对比产品及项目】
严格意义上讲,“图片生成”与“图片处理”分属两个不同的专业范畴。前者涉及将文字或现有图片输入至AI系统,使其输出全新的图片内容,通常被称作“文生图”或“图生图”;而后者则是对既有的图片运用AI技术进行多样化的调整与加工。
从产品角度审视,这两者之间存在着明显的关联,因为AI在生成图片之后对其进行处理,整个过程显得非常顺畅。
而且,从用户的角度出发,一旦工作中涉及到“图片”这一环节,那么“图片生成”与“图片处理”这两个方面通常都会被包含在内。鉴于此,我们将对这两个方面进行联合比较。
关于“图片生成 & 图片处理”领域的产品对比,入围标准是:
根据既定准则,在“图像创作与图像编辑”这一领域,入选的候选产品包括:
SD,即Stable Diffusion,是一款开源的AI图像生成工具图片处理软件,它具备安装多种大型图像生成模型的特性。
对比的项目主要由以下类别组成:
二、【完整对比结果】
基于上述产品和项目,完整横向对比结果如下:
图片生成:
图片处理:
三、【结果解析】简易使用型产品包括元宝、豆包、可灵AI;类MJ型产品有江城洛神、通义万相、文心一格;而类SD型产品则涵盖了智影、WHEE+美图设计室、堆友等。四、【整体使用建议】
在“图片生成与图片处理”这一领域,其涉及的学习范围、深度以及难度均较“文本生成”更为广泛和复杂。鉴于此,我建议采取的顺序是:首先使用“文心一格”,若希望进行更深入的探索,则可转而使用“堆友”。
不建议优先选用“简易操作型”的产品。这并非因为它们的功能不足,关键在于它们在初学者友好性和操作便捷性方面,并不一定是最佳之选。尤其在“风格”设置方面,这一点表现得尤为明显。众所周知,图片的“风格”属性是其最基础的特征之一。
尽管“简易操作型”产品能够通过在提示框中描述风格来达到目的,但在进阶阶段图片处理软件,仍需切换至“选择生图模型”。因此,从入门阶段起,就应培养对“选择生图模型”控制风格的意识。另外,从便捷性角度考量,它也不如那些可直接选择风格的产品。
至于所谓的“类MJ型”产品,它们在基础的“文生图”功能上操作简便,既可满足日常需求,又易于初学者掌握。其中,“文心一格”尤为推荐,主要因其无论是图片的生成还是处理,功能都相当全面。
最终目标是深入探索AI在图像生成方面的应用,这就要求必须掌握“学习Stable Diffusion”这一技能。在这个阶段,选择产品时,我们更需关注其功能的全面性。按照这一标准,功能全面且免费使用门槛低的“堆友”无疑成为了最佳选择。
五、【附:部分产品特色功能截图】
文心一格能够将提示词中的某些信息进行结构化处理,包括画面风格、修饰性词汇以及艺术家身份。
通义万相围绕电商场景打造了相关的特色功能
腾讯智影围绕“视频+图片”打造了一系列功能
WHEE全面的AI生图能力
堆友友好且接近SD WebUI的操作界面