AI人像专题测试:腾讯混元微调的Flux-1-SRPO有何独门绝技?丨302.AI 基准实验室

近日,腾讯混元团队开源了其最新图像模型 Flux-1-SRPO,这款模型是基于黑森林 Flux-DEV 微调的文生图模型,其全称为 Semantic Relative Preference Optimization(语义相对偏好优化),旨在解决当前 AI 生图模型在人像生成方面的油腻皮肤质感和“AI味”常态。

针对人像生成优化,混元团队提出的创新型 Direct Align 策略,可以有效地恢复高度噪声的图像,避免过度后期优化,从而使得优化过程更加稳定且计算需求更低,尤其是在初始时间步长期间。为了让优化过程更稳定,Direct-Align 还引入了一个奖励聚合框架:奖励信号与文本条件绑定,并支持正负提示在线调整,从而使用户可以即时控制画面的风格与细节。只需提示词中添加几个关键字,就可以生极其写实的人像作品。生成的图像不仅逼真,而且更符合人类的审美偏好。相比传统需要离线反复调参的方式,这种机制更灵活、更贴合创作需求。

AI人像专题测试:腾讯混元微调的Flux-1-SRPO有何独门绝技?丨302.AI 基准实验室

除此之外,SRPO 还具备以下突破:

  • 训练效率提升:SRPO 仅用 32 块 GPU 运行 10 分钟,性能即超越 DanceGRPO,能够在更短时间内生成更高质量图像。
  • 更优真实感/美学表现:SRPO 生成的作品在人类主观评估中的真实感与美学评分相比 FLUX.1.dev 提升了超过 3 倍,在人类审美偏好上大幅领先于同类模型。
  • 可控微调的潜力:通过简单的“控制词”,SRPO 就能让模型在各种风格之间切换自如,使用户能在训练过程中根据偏好自由调整奖励,进一步探索图像的美学空间。
AI人像专题测试:腾讯混元微调的Flux-1-SRPO有何独门绝技?丨302.AI 基准实验室

302.AI 已接入 Flux-1-SRPO 模型的 API,本期文章将针对人像专题,以写实和美感为基准,选取在人像生成方面性能较为出色的热门模型 FLUX.1 KreaNano BananaSeedream4.0 与 SRPO 一起,针对不同的人像主题展开对比测评,探寻谁才是去“油腻”与拟真度的无冕之王。


I. 实测模型基本信息

(1)各实测模型在 302.AI 的价格:

模型名称302.AI内的价格
Flux-1-SRPO$0.03/次
Flux-1-Krea$0.05/次
gemini-2.5-flash-image-preview输入 3 PTC/1M Tokens;输出 30 PTC/1M Tokens,约合$0.03-0.05/次
seedream-4.0$0.03/次

(2)测评工具:

  • Flux-1-SRPO 使用 302.AI 的 API 超市→在线调试功能
  • Flux-1-Krea、gemini-2.5-flash-image-preview、seedream-4.0 使用 302.AI 的应用超市→绘图机器人应用

(3)测评方法:

各案例均使用统一的英文提示词进行生成,且均取第一次生成结果,评测结果仅供参考。


Ⅱ. 测评案例

案例 1:风格化人像-亚洲女性

提示词:A retro sci-fi book cover artwork featuring a charismatic Southeast Asian woman in a vintage spacesuit helmet, gazing determinedly past the viewer, background of swirling cosmic clouds and distant galaxies, soft airbrushed texture, muted pastel color palette, 1970s sci-fi aesthetic, evocative and dreamy.

一幅复古科幻风格的书籍封面艺术作品,画中一位充满魅力的东南亚女性戴着复古太空头盔,坚定地注视着镜头,背景是漩涡状的宇宙云团与遥远星系。画面采用柔和的喷绘质感,配色为哑光的粉彩色调,秉承1970年代科幻美学,整体氛围怀旧而梦幻。

AI人像专题测试:腾讯混元微调的Flux-1-SRPO有何独门绝技?丨302.AI 基准实验室
测评点SRPOFlux-1-KreaNano Bananaseedream-4.0
拟真度★★★★★★★★★★
提示词理解★★★★★★★★★★★★★★★
画面美感★★★★★★★★★★★★★★★★
简评SRPO胜。除了较为准确地生成了人种特征之外,审美和风格融合度都表现得更亮眼,较好地还原了提示词的“梦幻怀旧”氛围;Krea似乎发挥失常,一眼AI;Banana则似乎对人种和风格的有它自己“独到”的见解,剥离了真实度;反观seedream,人像部分尚可,但人物跟背景完全是图层与图层生硬堆叠,画面整体性过弱。

案例 2:棚拍写真-欧美女性

提示词:Scandinavian model, pale skin, sharp features, platinum blonde pixie cut, piercing gaze, wearing high fashion avant-garde clothing, minimalist white background, studio lighting, dramatic shadows, Vogue photoshoot.

斯堪的纳维亚模特,肤色白皙,轮廓分明,铂金色精灵短发,目光犀利,身着高级前卫时装。纯白极简背景,影棚灯光勾勒出戏剧性阴影,呈现《Vogue》时尚大片质感。

AI人像专题测试:腾讯混元微调的Flux-1-SRPO有何独门绝技?丨302.AI 基准实验室
测评点SRPOFlux-1-KreaNano Bananaseedream-4.0
拟真度★★★★★★★★★★★★★★★★★
提示词理解★★★★★★★★★★★★★★★★★★★
画面美感★★★★★★★★★★★★★★★★★
简评难分伯仲。单从面部拟真度来看,SRPO和Seedream处理的皮肤质感最为细腻,白皙的皮肤下血管隐约可见。SRPO的质感更像是在原图上蒙了一层柔雾滤镜,放大看还可以看到人物面部边缘的绒毛,不足之处在于时尚表现力略弱。Krea的光影,人物眼神从摄影角度最佳,极具故事感。Seedream和Banana的作品的时尚感最强,服装相当抓眼。

案例 3:街拍摄影-亚洲男性

提示词:

Cinematic medium shot portrait of a sophisticated 30-year-old Asian man with impeccably slicked-back hair and a meticulously trimmed beard. He wears elegant gold-rimmed glasses and a sharp, dark charcoal grey suit with notched lapels. He is seated by a large window in a cozy coffee shop, intently reading a copy of the Financial Times. Outside the window, it’s a rainy day; the city street glistens, and blurred figures of pedestrians walk by with umbrellas. The soft, diffused light from the window highlights his sharp, chiseled facial features and strong jawline. Photorealistic, hyper-detailed, moody atmosphere, shallow depth of field, shot on an 85mm lens.

一幅电影感的半身肖像:

一位儒雅的30岁亚洲男性,梳着精致的油头,留着精心修剪的胡须。他佩戴着一副优雅的金边眼镜,穿着一套剪裁精良、带有平驳领的深炭灰色西装。

他坐在一家舒适咖啡馆里靠窗的位置,专注地阅读一份《金融时报》。窗外是阴雨天,城市街道湿润地反着光,模糊的行人身影打着雨伞走过。

从窗户照进来的柔和漫射光,凸显出他轮廓分明、如雕刻般的面部特征和硬朗的下颚线条。

AI人像专题测试:腾讯混元微调的Flux-1-SRPO有何独门绝技?丨302.AI 基准实验室
测评点SRPOFlux-1-KreaNano Bananaseedream-4.0
拟真度★★★★★★★★★★★★★★★
提示词理解★★★★★★★★★★★★★★★★★★★★
画面美感★★★★★★★★★★★★★★★
简评SRPO胜。从人物的肤质和毛发质感来看,SRPO相对其他三组削弱了油腻感,环境氛围和镜面反光的处理都较为自然;Krea和banana有着较为明显的AI感皮肤和锐化过度的问题。seedream人物本身不错,但生成的“金边眼镜”过于突兀,“Financial Time”文字出现明显问题。

案例 4:电影氛围-欧洲男性

提示词:An environmental portrait of a man in his 30s sitting on a clean, retro-futuristic subway train. He is bathed in the warm, artificial interior light, staring thoughtfully out of the window at the passing blur of the city. The scene captures the distinctive warm, melancholic, and slightly futuristic vibe of the movie ‘Her’. Photorealistic and contemplative.

一幅环境人像摄影:一位三十余岁的男子坐在洁净的复古未来主义风格地铁车厢内。温润的人造灯光笼罩着他的身影,他正凝神望向窗外,注视着城市掠影化作模糊的光流。画面精准复现了电影《Her》特有的温暖、忧郁又略带未来感的氛围,充满摄影级的真实感与沉思意境。

AI人像专题测试:腾讯混元微调的Flux-1-SRPO有何独门绝技?丨302.AI 基准实验室
测评点SRPOFlux-1-KreaNano Bananaseedream-4.0
拟真度★★★★★★★★★★★★
提示词理解★★★★★★★★★★★★★
画面美感★★★★★★★★★★★★★★
简评Flux-1-Krea胜。无论是拟真度还是氛围还原上都略胜于其他三组,整体意境与提示词更贴合。SRPO未能完整还原提示词,如“灯光笼罩着他的身影”,以及画面窗外的地铁布局明显不合理;Banana和seedream的缺陷在于未能理解提示词描述的忧郁氛围,人物的真实度也比较一般。

案例 5:全家福拍摄-多人合影

提示词:A professional studio photograph of a multi-generational Chinese family, radiating joy and warmth in a celebratory portrait. The family includes a handsome couple in their mid-30s, their cheerful 5-year-old son, and an adorable fluffy white Samoyed dog sitting at their feet. They are all posed beautifully against a vibrant, seamless red backdrop. Their coordinated outfits are a festive mix of elegant white and auspicious red. Everyone is smiling genuinely at the camera, capturing a moment of pure happiness. Flawless studio lighting, photorealistic, hyper-detailed, sharp focus, heartwarming atmosphere.

一张专业的影棚摄影作品,一个多代同堂的中国家庭正在拍摄一张充满喜庆氛围的全家福,洋溢着喜悦与温暖。

家庭成员包括:一对35岁左右的英俊夫妇,他们活泼开朗的5岁儿子,以及一只可爱的、毛茸茸的白色萨摩耶犬,乖巧地坐在他们脚边。

他们都以优美的姿态,站在一块鲜艳的、无缝的红色背景布前。他们穿着协调统一的服装,是优雅的白色和吉祥的红色的节日搭配。

每个人都正对着镜头,露出真诚的笑容,定格了一个纯粹幸福的瞬间。

AI人像专题测试:腾讯混元微调的Flux-1-SRPO有何独门绝技?丨302.AI 基准实验室
测评点SRPOFlux-1-KreaNano Bananaseedream-4.0
拟真度★★★★★★★★★★
提示词理解★★★★★★★★★
画面美感★★★★★★★★★★★★
简评Banana较佳。SPRO生成了一幅模糊且主体性别不符的尴尬作品,可见其多主体生成能力还有待验证;seedream也出现明显翻车,家长形象并不符合“35岁夫妇”;Krea出现了人物手部畸变,并且还生成了一个提示词中未做要求的女孩形象;相比之下Banana的作品虽然人物微笑弧度不够自然,透露出一种影楼修图风,但提示词遵循力较强。

III. Flux-1-SRPO实测结论

AI人像专题测试:腾讯混元微调的Flux-1-SRPO有何独门绝技?丨302.AI 基准实验室

先谈谈本期的主角 SRPO,从综合表现来看,其在单人人像“去油腻”和拟真度上表现突出,但并非全能王者。

SRPO 确实在以上各组案例中,针对去除人像生成的皮肤滑腻质感方面小有成效,生成的肤质自然、毛发细节丰富,有效避免了同类模型常见的“塑料感”和过度锐化问题,并且整体画面融合和美学风格也很过关。然而,在涉及复杂构图和多主体生成的案例五(全家福)中,SRPO 出现了严重翻车,这也表明了其在处理复杂场景时的能力边界。因此,它更像是一个在特定赛道上精耕细作的“专精者”,而非面面俱到的“六边形战士”。

本期使用测评模型均为目前在人像生成领域表现较为领先的模型,通过横向测评,也可以清晰得到这四款模型之间的特性差异与其各自的优势场景:

  • Flux-1-SRPO:追求写实的人像专家。优势在于对皮肤质感、环境光影的自然渲染,追求摄影级的真实感。适合对人物肤质、细节真实度要求高的肖像、写真类创作。缺陷在于多元人物交互和复杂场景构建能力较弱或不稳定。

  • Flux-1-Krea:氛围感与艺术性营造。在我们往期测评《FLUX.1 Krea 实测:特立独行的平衡之道,如何破局 AI“塑料感”?》中也提到过,Krea 这个模型有其独特的审美,对光影、情绪和电影感氛围具有卓越把握能力,生成的作品更具故事性和艺术张力。适合强调情绪表达、视觉风格化的创作。

  • Nano Banana:稳定的指令遵循与多主体处理。虽然人像处理尤其是文生图模式下,算不上是 Banana 最为突出的能力,但其作为一款支持 AI 图像编辑的模型,有着出色的主体一致性和提示词遵循能力,且玩法多样。其强大的多图融合能力适配于包含多个人物或复杂元素的场景。

  • Seedream-4.0:兼具性价比和高质量之选。与 Banana 一样是图像编辑和多图融合中的佼佼者,其优势在于强大的多模态理解能力,能够生成更贴合用户意图的作品,在性价比方面也是极其具备竞争力。

在 AIGC 创作领域,尤其是模型更新迭代十分频繁的 AI 生图领域,模型之间的性能较量永远没有绝对胜出,只有最佳匹配。从具体测评结果可以看出,目前并不存在能够在所有场景下全面胜出的模型。SRPO 在拟真度方面的突破性表现,使其有望成为人像创作的强力新选择;但在涉及复杂多主体或强调艺术表现力的场景中,Krea 和 Banana 仍更具优势。若预算有限且创作需求多样,Seedream 则提供了质量可靠、成本可控的务实方案。因此,创作者的选择不应固守某一模型,而应基于具体项目的优先级进行灵活搭配。

总体而言,SRPO 的出现再次印证了 AI 人像生成技术正在以前所未有的速度持续演进。拟真度的壁垒被不断突破,相信下一个能够重新定义“真人感”的生成模型,已在路上。


Ⅳ. 如何在 302.AI 上使用

302.AI 提供按需付费无订阅的服务模式,用户可以根据自身业务需求灵活选择使用。

使用模型 API

相关文档:API→API超市→图片生成→Flux→Flux-1-SRPO

AI人像专题测试:腾讯混元微调的Flux-1-SRPO有何独门绝技?丨302.AI 基准实验室

点击【立即体验】在线调用 API

AI人像专题测试:腾讯混元微调的Flux-1-SRPO有何独门绝技?丨302.AI 基准实验室
AI人像专题测试:腾讯混元微调的Flux-1-SRPO有何独门绝技?丨302.AI 基准实验室

想体验 Flux-1-SRPO 模型?

👉立即注册免费试用302.AI,开启你的AI之旅!👈

为什么选择302.AI?

● 灵活付费:无需月费,按需付费,成本可控

● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求

● 开源生态:支持开发者深度定制,打造专属AI应用

● 易用性:界面友好,操作简单,快速上手

AI人像专题测试:腾讯混元微调的Flux-1-SRPO有何独门绝技?丨302.AI 基准实验室
All Rights Reserved by 302.AI
Like (0)
302.AI302.AI
Previous 3天前
Next 2025 年 8 月 6 日 下午7:49

相关推荐

  • 302.AI 赛博月刊丨Vol.9 GPT-5,输给了香蕉

    AI 行业大事记 2025 年 8 月 联合出品: Jomy @ 302.AI 南乔 @ ShowMeAI 大聪明 @ 赛博禅心 说明: ①本文讨论了 2025 年8月 AI行业的大事,涵盖模型、图像、视频、音频、3D、机器人、应用、新闻/融资等多个领域。 ② 本文分类中的「模型」均指代语言模型; ③ 本文分类中的「融资」包含了融资、收购、团队成员吸收等多种…

    4天前 赛博月刊
    2250
  • 万物皆可3D手办:从静态到动态,一键直出进阶指南丨302.AI 实战教程

    自从 Nano Banana 上线风靡全网,各路网友早就把玩法开发到了极致,其中最出圈的还得是——真人转 3D 手办。凭借极强的主体一致性和局部细节像素级还原能力,Nano Banana 能够把你上传的角色 1:1 精准复刻成一个精致的桌面手办,并且主体不局限于人物,动物、潮玩 IP、平面漫画形象等,万物皆可 3D 手办化。 然而,光是静态玩法还不够。最近 …

    2025 年 9 月 12 日 实战教程
    6830
  • AI生图新王登基?即梦Seedream 4.0对决Nano Banana六轮实测全揭晓丨302.AI 基准实验室

    在 Google 的图片编辑模型 Nano Banana 热度尚未消退之际,字节跳动 Seed 团队于昨日发布了其全新升级的生图模型 Seedream 4.0。该模型首次支持 4K 多模态生图,灵活支持文本、图像的组合输入,实现多图融合创作、参考生图、组合生图、图像编辑等核心功能。且其推理性能较 3.0 版本提升了近 10 倍,“画”之前会先“想”,能够深度…

    2025 年 9 月 10 日 基准实验室
    1.4K1
  • 翻车救星:谷歌官方Nano Banana提示词教程详解,附实测案例对比丨302.AI 实战教程

    8月底,Gemini-2.5-flash-image(代号 Nano Banana)正式上线,持续数周的热度早已把全球网友的创作热情点燃。什么3D手办,跨界联名、赛博合影,纷纷依靠这个香蕉模型给一一实现,朋友圈和各大社区热闹非凡。 不过,热闹归热闹,仔细一看,还是能找到一些唱反调的声音。有用户吐槽诸如生成图崩掉了;提示词喂进去,产出的结果牛唇不对马嘴。而笔者…

    2025 年 9 月 3 日 实战教程
    9330

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注