栏目分类
你的位置:开云(中国)Kaiyun·官方网站 登录入口 > 资讯 >
鹭羽 发自 凹非寺开云体育
量子位 | 公众号 QbitAI
AI生图再进化!图像分辨坦爽接卷到2K。
腾讯开源混元图像2.1(HunyuanImage2.1),画质告成拉满的同期,还能读懂千字长文本,致使中英文混搭渲染。

新一代模子在本事上全面升级,不仅权臣进步图文语义一致性和跨场景泛化才气,还好像精细终端场景、扮装姿态致使多物体描述,达成开源生图模子中的SOTA。
模子开源之后,在Hugging Face趋势榜上一谈飙升,当今已拿劣等别称的宝座。

话未几说,先来看几个网友试玩感受一下。
当先康康果真场景下的推崇,缜密的手部和脸部纹理,处理细节过关。
海报制作上,文本渲染也至极干净。
或者搞个好意思洲驼的观念图,亦然轻纵容松~
还有每次必不行少的动漫风枢纽:魔女宅急便(委宛猪咪版)
不错说,混元图像2.1更懂语义、更擅图文、更多格调、更高清画质……
是以我们这不迅速上手体验一波。
四大亮点开放官网,操作界面是酱紫的~聘请需要生成的图像尺寸和数目,填写prompt(上限2048),就能秒取得超高分辨率图像。
我们体验了一下,追想下来这个模子有四大亮点。
亮点1:复杂语义生成才气强
收获于各种化的大界限图文对皆数据,混元图像2.1模子对复杂语义判辨才气有了权臣进步,一些长达1k tokens长度的超长复杂prompt也能纵容完成,还能达成多主体分手描述终端生成,且确保精准生成。
比如说,我这里思要归拢页面中既有吉卜力格调,又有迪士尼嗅觉,得到的拆伙be like:
Prompt:一幅图像描述了一个写实格调的男孩,他的傍边肩膀上各坐着一只不同格调的动物。画面中央的男孩留着玄色的短发,他身穿白色T恤,服装面料具有较着的纹理和褶皱。在他的左肩上,坐着一只吉卜力卡通格调的橘色小猫,这只猫有着委宛的体格、大大的耳朵和检朴的线条,色调暄和。在他的右肩上,坐着一只迪士尼3D动画格调的金色小狗,这只狗的毛发呈现出渲染感统统的光泽和卷曲状,有着大鼻子和亮晶晶的眼睛。布景是白墙。举座画面是一幅数字画图作品,和会了照相级写实、手绘动画和3D渲染等多种格调。
亮点2:支援中英文笔墨渲染、笔墨和画面和会
模子好像在图像中当然和会中英文笔墨,适用于居品封面、插画、海报筹办等各种化筹办场景,喜跃不同界限的需求。
思要为歪果bro筹办一款蕴蓄中国标识景点的微缩模子,有长城、佛塔还有东方明珠播送电视塔,还得要个大写的“China”水印。
Prompt:A hyper-realistic photograph of a glass cube diorama on a lush, mossy forest floor, illuminated by dappled sunlight. Inside the transparent cube, an intricate landscape of miniature, highly detailed landmarks and cultural icons from China are meticulously arranged. This includes both traditional and modern architecture, such as the Great Wall winding across a terrain, a classic pagoda, and the sleek form of the Oriental Pearl Tower, all surrounded by miniature greenery. At the base of the diorama, the 3D word “China” is prominently displayed in large, bold, white block letters. The background forest is softly blurred, creating a bokeh effect that directs attention to the sharp details of the diorama. The overall look is crisp, elegant, and immersive, with a shallow depth of field.
亮点3:适用场景丰富,具备高好意思学质感
同期,模子可支援生成各式格调,如果真感东谈主物、漫画与搪胶手办等,同期具备高好意思学品性和视觉推崇力。
最近社媒都被AI生成手办刷屏了,那就试试混元图像2.1的效力叭!赛博悟空开动!
Prompt:一幅超现实目的格调的悟白手办,东谈主物飘摇在半空,体格部分化为液态银色金属,目光强横,手拿着金箍棒,布景是一条巨龙在潸潸中盘旋,鳞片耀眼精炼,场景充满力量感,空中有闪电。
亮点4:原生2K高质地图像生成
模子当今好像以其他模子1k生成的花费,高效地生成超高清2K分辨率图像,大幅进步了出图分辨率和可用性,尤其符合对画质有专科条款的讹诈场景。
比如说底下生成一个小女孩的肖像照,分辨率拉满,这下谁能分清是AI还是果真照相?(doge)
Prompt:A close-up shot focuses on a young girl with vibrant, curly hair and a gentle expression. Her face is characterized by a light dusting of sun-kissed freckles across her nose and cheeks. She wears a dress with a colorful floral pattern and holds a freshly-picked bouquet of wildflowers, including daisies and lavender, against a softly blurred background. The image presents a realistic photography style.
那问题来了,为啥混元图像2.1不错作念到这样强?来看一抄本事说明解读。
鼎新本事决策进步生图质地凭据官方先容,混元图像2.1(HunyuanImage-2.1)是一个好像生成2K(2048×2048)分辨率图像的高效文本到图像模子。
本事鼎新当先是考查数据和标注上,通过结构化标注在短、中、长和超长级别提供分层语义信息,权臣增强了模子对复杂语义的反馈才气。
鼎新性地引入OCR大家模子和IP RAG来措置通用VLM标注器在密集文本和天下学问描述方面的不及,而OCR信息很是使用双向考据战略确保了标注的准确性。
总共这个词架构不错包括两个阶段:
基础文本到图像模子:使用了32x的高压缩率的VAE, 大幅减少了DiT模子的输入token数目, 相同生成一张2K图,token数目只须16x VAE的1/4,大幅进步了考查和推理的效力。
将VAE的特征空间与DINOv2特征对皆,便于使用高压缩VAE的dit的考查,这权臣提高了推理效力,使得HunyuanImage 2.1生成2K图像的时代与其他模子生成1K图像的时代有计划。
多桶、多分辨率REPA亏欠将DiT特征与高维语义特征空间对皆,有用加快模子贬抑。
另外采取视觉-讲话多模态编码器来让模子更好地判辨场景描述、东谈主物动作和详备条款,进步模子的语义对皆才气。
以及引入多讲话ByT5文本编码器,特地用于文本生成和多讲话抒发,进步模子笔墨渲染的才气。
同期该阶段具有170亿参数的单流和双流Diffusion Transformer。
为了优化好意思学和结构连贯性,还讹诈了东谈主类反馈强化学习(RLHF),引入奖励溜达对皆算法,鼎新性地将高质地图像行为遴选样本,确保判辨和调动的强化学习拆伙。
精修模子:第二阶段引入了一个精修模子,进一步进步了图像质地和明晰度。
此外,缔造了首个系统性工业级改写模子PromptEnhancer模块,其中SFT考查结构化地重写用户文本领导以丰富视觉抒发,而GRPO考查采取细粒度语义AlignEvaluator奖励模子来大幅进步从重写文本生成的图像语义。
AlignEvaluator涵盖6个主要类别和24个细粒度评估点,模块支援中英文重写,并在增强开源和独到文本到图像模子的语义方面展现了通用适用性。
此外,还忽视了一种基于MeanFlow的新式蒸馏设施,措置了圭臬均值流考查固有的不判辨性和低效力的要害挑战。
这种设施好像仅用极少采样要领生成高质地图像,这亦然MeanFlow在工业级模子上的初次见效讹诈。
因此混元图像2.1展现了雄伟的语义对皆和跨场景泛化才气,进步了文本与图像之间的一致性,增强了对场景细节、东谈主物姿态和模式的终端,并好像生成具有不同描述的多个物体。
开源生图模子SOTA为了评估模子的语义一致性,商讨东谈主员忽视了一项基于多模态大讲话模子(MLLM)的智能评测方针SSAE(Structured Semantic Alignment Evaluation)。
该方针将300谈评测题目按12个类目索取重心,并借助MLLM自动比对图像实践与重心进行评分,最终可输出两个拆伙:平均图像准确率(图像层级的平中分数)和全局准确率(总共重心的平均得分)。
拆伙标明,混元图像2.1模子在语义对皆上的推崇跳跃于开源模子,并迫临GPT-Image等闭源交易模子的效力。
在GSB评测中,混元图像2.1也相较于闭源模子Seedream3.0胜率为-1.36%,对比开源模子Qwen-Image胜率为2.89%。
拆伙标明,混元图像2.1行为开源模子,其图像生成质地已达到闭源交易模子至极水平,并在同类开源模子中具备上风,体现了该模子在文本生成图像任务中的本事先进性与实用价值。
体验地址:https://hunyuan.tencent.com/image/zh?tabIndex=0huggingface贯穿: https://huggingface.co/tencent/HunyuanImage-2.1GitHub贯穿: https://github.com/Tencent-Hunyuan/HunyuanImage-2.1
— 完 —
量子位 QbitAI
原谅我们开云体育,第一时代获知前沿科技动态
下一篇:没有了