【来源:虎嗅网】
曾经被视为必备技能的PS,如今似乎陷入了“可学可不学”的微妙处境。
最新版本的Gemini“言出法随”,仅需一句话就能改图,成为现象级的存在,GPT-4o多模态生图功能上线以来,生成的吉卜力风格图片也几乎在一夜之间席卷网络。
面对新势力的崛起,老牌AI图像生成巨头Midjourney也不甘示弱,刚刚正式发布最新版本V7。
我们梳理了新版本的一些要点:
-
整体图像质量提高,对文字与图像提示的理解更准确,身体、手部及各种物体在细节上的一致性大幅增强。
-
人物肤色和面部细节更加自然清晰,材质纹理(如羽毛、衣物)质感表现精细,光影效果逼真。
-
能更好理解并呈现提示词描述的完整场景,元素间空间关系合理,背景与主体融合度高。
-
能准确表现特定视角,低角度和特写等拍摄风格表现专业。
-
氛围感和情感表达略弱,缺少一些戏剧性和神秘感,某些艺术风格的独特性和创意性稍显不足。
需要注意的是,V7是首个默认启用模型个性化的版本。用户需解锁个性化设置才能使用此功能,整个过程约需5分钟,且可随时开关。
V7的另一大亮点是“草稿模式”(Draft Mode)。该模式成本仅为标准模式的一半,图像渲染速度却提升至10倍。
在网页端使用时,提示栏将自动切换为“对话模式”,用户可直接通过指令调整内容,例如将猫替换为猫头鹰或将场景改为夜晚,系统会自动调整提示并生成新图像。
点击“草稿模式”并启用麦克风按钮后,用户还能进入“语音模式”,通过语音指令进行实时创作。若需明确运行草稿任务,用户可在提示后添加“--draft”参数,适用于排列组合或重复生成等场景。
Midjourney官方表示,“草稿模式”是迄今为止迭代创意的最佳方式。
用户若对草稿图像满意,可点击“增强”或“改变”按钮,以完整质量重新渲染。需要注意的是,草稿模式下的图像质量低于标准模式,但其行为和美学表现高度一致,适合快速验证想法。
图片来自:@U79916881747113
V7目前支持两种运行模式:Turbo和Relax。Turbo模式速度更快,但成本为普通V6作业的2倍;草稿模式则成本减半。标准速度模式仍在优化中,预计不久后推出。
目前,放大、编辑和重新纹理功能将回退至V6模型,未来将逐步升级至V7。情绪板和SREF功能已可用,后续更新将进一步提升性能。
Midjourney团队透露,在未来60天内,每隔一至两周将推出新功能,其中最受期待的则是全新的V7角色和对象引用系统。
话不多说,先来看图。
知名博主@nickfloats分享了Midjourney V6/V7版本基于同一提示词生成的图片对比,一起来看看。
Prompt:A young Indian woman with dark hair in an open ponytail and a black jacket stands on a university campus,looking directly at the camera.The image has a 1990s-style movie still aesthetic,with a close-up portrait on a sunny day.
(一位年轻的印度女性,黑色头发扎成松散的马尾,穿着黑色夹克,站在大学校园里,直视镜头。照片呈现出90年代电影剧照风格,背景是阳光明媚的一天,特写的肖像。)
左:V6 右:V7
新版本的光线更加自然,尤其是在人物脸部,肤色更加清晰,细节更加丰富,画面焦点更加清晰,尤其是人物的发型部分,但也因此牺牲了一些氛围和情感的表达。
Prompt:A majestic barn owl perched on an ancient,moss-covered tree branch,surrounded by the misty forest.The scene is bathed in soft light filtering through the dense foliage,creating a magical and ethereal atmosphere.Photorealistic style with attention to detail of the feathers and textures.
(一只威严的barn owl(仓鸮)栖息在一根古老、覆盖着苔藓的树枝上,周围是迷雾缭绕的森林。柔和的光线透过浓密的树叶洒下,营造出一种神秘而飘渺的氛围。画面风格为逼真的写实风格,细致入微地展现了羽毛和树皮的质感。)
左:V6 右:V7
新版本的猫头鹰羽毛纹理更加细腻,羽毛的层次感和光影效果更强,显得更加真实。猫头鹰的姿态方面,新版本更自然,身体略微倾斜,显得更有动态感,眼睛的细节也更生动,传递出一种警惕的神态。
简言之,鱼和熊掌,不可兼得,V7在追求真实感的目标上更胜一筹;V6则可能在追求画面冲击力和神秘感上更具优势。
Prompt:A person's hand points towards the window of an airplane,which is seen from inside with its wing visible in profile.The sky outside shows a clear horizon at dawn or dusk.In front of them lies a vast expanse of ocean.
(一个人的手指向飞机窗外,窗外的飞机机翼从侧面可见。外面的天空清晰,天际线显示出黎明或黄昏的景象。眼前是广阔的海洋。)
左:V6 右:V7
同样都是从飞机舷窗向外看的情景,一只手指向窗外,V7的进步肉眼可见,通过加入飞机机翼的元素,增加了画面的层次感和真实感,更能感受到身处飞机的视角。
Prompt:A close-up of broccoli being sautéed in oil,with the vegetable's green florets contrasting against a dark brown sauce.A large spoon is partially visible inside a stainless steel pot filled with caramelized and shiny black glaze on top,against a white...
(一块近距离拍摄的西兰花在油中翻炒,绿意盎然的花椰菜与深棕色的酱汁形成鲜明对比。一只大汤勺部分可见,放在一个不锈钢锅中,锅里覆盖着一层焦糖色的光泽黑色酱汁,背景是白色的...)
左:V6 右:V7
V6虽然通过特写镜头突出了酱汁和勺子,焦点非常明确,注意力很容易被吸引到酱汁的质感和细节上,但如果从提示词的要求出发,新版本展示整个锅内的西兰花和酱汁的搭配,呈现了一个更完整的烹饪场景,逻辑上更符合实际烹饪过程。
Prompt:Close-up of an anime woman's face with a shocked expression,dark hair,in the anime style.Colorful animation stills,close-up intensity,soft lighting,low-angle camera view,and high detail.
(一位动漫女性的面部特写,表情震惊,黑色头发,呈现动漫风格。色彩丰富的动画画面,特写镜头强烈,柔和的光线,低角度拍摄,细节非常精致。)
左:V6 右:V7
光影和色彩的处理上,V7也符合提示词中的“soft lighting”要求,脸部的高光和阴影过渡更加柔和自然,尤其是眼部和脸颊的光影分布,营造出更立体的效果。
Prompt:A dynamic film still of an epic space battle with sleek starfighters zooming past a massive space station,lasers firing,and a distant planet visible in the backdrop.
(一幅动态的电影画面,展示了一场史诗般的太空战斗,流线型的星际战斗机飞驰而过,巨大的太空站在一旁,激光四射,远处的行星清晰可见,构成了一幅震撼的画面。)
左:V6 右:V7
人像方面,v7在细节的精细度和真实感(服装、皮肤、光影等)上有所提升,人物的立体感和与背景的融合度更高,但在情感传递、表情的戏剧性、动态感上有所倒退。
以下为三个具体的对比案例:
Prompt:1980s mystery film,low-angle shot of an evil-eyed French Butler sporting a black suit and grasping a candle in the hallway of a creepy Victorian mansion with musty decor.The warm candle glow evokes a spooky sense of mystery
(一张1980年代神秘电影风格的低角度镜头,拍摄了一位邪恶眼神的法国管家,身穿黑色西装,手中握着一支蜡烛,站在一座装饰陈旧、充满霉味的维多利亚式大厦走廊里。温暖的烛光营造出一种阴森神秘的氛围。)
左:V6右:V7
Prompt:1990s medium-full street style fashion photo shot on Kodak 500T capturing a rugged 50-year-old man with curly gray hair,5-o'clock shadow,and a stern look walking down the sidewalk on a bright spring morning in Paris.He's wearing...
(一张1990年代中等全身街头风格的照片,使用Kodak 500T胶片拍摄,捕捉到一位五十多岁的男子,他有着卷曲的灰白色头发、胡茬和严肃的表情,正走在巴黎春日明媚的早晨人行道上。他穿着...)
左:V6 右:V7
Prompt:Cinematic,off-center,two-shot,35mm film still of a 30-year-old french man,curly brown hair and a stained beige polo sweater,reading a book to his adorable 5-year-old daughter,wearing fuzzy pink pajamas,sitting in a cozy corner nook...
(一张电影感的35毫米胶片画面,构图偏离中心,拍摄了一位30岁的法国男子,卷曲的棕色头发,穿着一件弄脏的米色polo衫,正在给他可爱的5岁女儿读书。女儿穿着柔软的粉色睡衣,坐在一个温馨的角落里。)
左:V6 右:V7
海螺AI+Midjourney会是让图片动起来的王炸组合吗?网友@ainextastro也试了试。
下面由@tanvitabs用v7生成的这张照片则将AI图像生成的坑都踩了个遍,包括凭空多出来的第三只手,T恤和西装着装上的混淆,以及不匹配的面部生成等。
最后留个课堂作业,以下是基于同一提示词生成的四张照片,你更喜欢哪个版本?请投票。
Prompt:Elegant female model standing by a large window in a sunlit room,soft morningliaht casting natural highlights and shadows on her face,wearing a flowing beigedress,relaxed pose,minimal makeup,85mm lens depth of field,lifestyle fashioneditorial,cinematic tones,airy atmosphere
(一位优雅的女性模特站在阳光洒进的房间大窗旁,柔和的晨光在她的脸上投下自然的高光与阴影,身穿一袭飘逸的米色长裙,姿势放松,妆容简约。使用85mm镜头拍摄,背景有着浅景深,营造出生活方式时尚编辑感,画面呈现电影般的色调,空气感十足。)
过去几年,AI图像生成的主旋律是追求真实、无油腻感。
去年,Flux因生成超真实人像而一举破圈,声名大噪,现在,Midjourney V7接过接力棒,以更丰富的细节、更有层次感的光影、更自然的肤质纹理,再次将“真实”推向新的高度。
但追求真实,是一切的终点吗?
最近,随着GPT-4o多模态生图功能的发布,吉卜力风格的图片几乎在一夜之间点燃了网络,也像一阵春风吹进了AI图像生成的世界。
技术选择的可能性多了,创作的玩法也跟着变了。用更通俗的话来说,现在就好比站在厨房里,你是想做顿踏实的饭,还是想整点黑暗料理的,全然在你。