主打一个张张封神，看AIGC 特种兵Midjourney 如何做到以假乱真

2022年8月，在美国科罗拉多州博览会艺术比赛上，一幅名为《太空歌剧院》的作品夺得了数字艺术类别冠军。这幅作品由游戏设计师Jason Allen使用AI绘图工具Midjourney完成，古典与科幻的巧妙融合让人很难相信这是由AI自动生成的图像，此前一直处于不温不火状态的Midjourney就这样迅速走进了大众视野。

随后，在以ChatGPT为代表的聊天机器人搅得科技圈满城风雨之时，Midjourney作为AIGC的重要分支，也完全没闲着，它最新迭代的V5版本，就是一次堪称“碾压人类画师”的更新。

今年3月，由Midjourney生成的一对中国情侣的照片再次火爆全球。照片里的情侣穿着夹克和牛仔裤，身后是上个世纪的中国建筑，整张照片瀰漫着属于90年代的複古氛围，其以假乱真的程度让人大吃一惊，生成式AI图像工具竟然已经进化到这种程度了吗？

还有更多神图在网上引起轩然大波：特朗普被捕、国足夺冠、马斯克进工厂……只要你敢想，AI就敢画。对比几年前的AI绘图效果，Midjourney的生成效果依然达到商业化水平，当Midjourney日趋代替人工製作的时候，它的商业价值就愈发不容小觑。

Midjourney没有任何巨头的重金支持，是一个自筹资金的独立研究实验室，它的发起人为曾两次拒绝苹果收购的Leap Motion公司的创始人David Holz，目前全职员工仅有11人。就是这么一个超小型团队，却是当前AI绘图领域最炙手可热的明星，甚至将OpenAI的DALL-E、Stable Diffusion等同类工具都甩在了身后。

Midjourney在AI公司Value Chain上佔据了多个位置，拥有数据层、模型层、应用层整个技术栈。它参考CLIP及Diffusion构建了自己的闭源模型，抓取公开数据进行训练，并构建了Discord中的Midjourney bot应用，用户通过与Midjourney bot进行对话式交互，提交文本提示词来快速获得想要的图片。

2022年7月，Midjourney开放Openbeta版本；2022年8月，使用Midjourney创作的画作Théâtre D’opéra Spatial（太空歌剧院）获得了美术竞赛数字艺术类别的一等奖，人们对于Midjourney的关注达到高峰。

虽然文生图领域应用层出不穷，但Midjourney保持住了在人们心目中的地位，目前仍是使用最广泛、最受用户喜爱的文生图应用。 Midjourney用户数量飞速增长，并具有很强的盈利能力。截止2023年3月，Midjourney Discord频道拥有了超1300万社区成员，是目前用户最多的服务器，年营收约为1亿美元。

Midjourney创始人坚持AI不是现实世界的複刻，而是人类想像力的延伸，塑造了充满科幻色彩的产品定位。然而并不是所有人都能轻易认可AI生成艺术，自Midjourney面世以来，这款AI绘画工具几度因为艺术深度伪造问题被推上舆论的风口浪尖，更有甚者认为其生成的图片纰漏百出。

Midjourney并没有否认以上观点，它一直相信AI工具是想像力的发动机，“人类和计算机之间存在的某些障碍阻止了我们进行最基本的交易所。” Midjourney想要加强人类与计算机的连接，将“探索思想的新载体，扩展人类想像力” 作为目标，为未来艺术创作开拓史无前例的康庄大道。

为了实现这个目标，该公司一直致力于改进算法，每隔几个月就会发布新版本的模型。 Midjourney的迭代速度相较于OpenAI可以说是有过之而无不及。去年3月份第一版本首次上线，4月份便火速更新第二版本，接着7月份上线Open Beta V3版本首次向公众开放，Midjourney V4版本去年年底几乎跟ChatGPT同期上线，而就在GPT-4推出的时候，Midjourney也在3月18日飞速推出了V5版本，而这一次的更新堪称“炸裂”。

图源Discord 官网、华泰研究

同时，V5 生成的图像具有更高的分辨率，且图像更真实细腻。默认情况下，Midjourney V5 初始图像的分辨率为1024×1024，V4 版本为512×512，V5生成的图片无论时从光影效果还是人物动作表情，都更加自然，拥有更多丰富的细节，更加接近真实的照片。

◉ 密铺功能实现无缝纹理製作

Midjourney V5 重新引入了曾在V4 中停止使用的无缝平铺功能。在Promt中添加参数（–tile），对元素进行重複、旋转等处理后，可以轻鬆实现织物、壁纸等无缝纹理图案的製作。

◉ 长宽比限制取消

V5版本解除了V4版本中的不高于1:2或不宽于2:1的自定义纵横比，可以实现任意「宽度: 长度」比，这意味着你可以利用其生成电影2.39：1的纵横比，Midjourney的应用空间进一步打开。

◉ 图像与文字指令权重可自定义

V5可以实现自定义Prompt中的图像参照权重（–iw），参数範围为0.5-2.0，数值越高，意味着上传的图片越多地影响最终生成的图像，满足用户垫图更加个性化、多元化的需求，而在前一版本中则是默认图像权重。

除以上四点，V5版本可以让人们通过更精準、细緻的Prompt输出更符合要求的图像。在此前版本，Midjourney根据文本提示即可输出具有创造性的图片，且多为卡通或超现实风格，但V5版本可以容纳真实、抽像等更广泛风格的选择，图像解像度比上个版本提高2倍。

而让人意想不到的是它终于解决了此前AI绘画行业内无法很好完成的“画手”问题，告别了手部畸形，Midjourney V5终于可以画出正常的五个手指了。除此之外，V5版本创作的玻璃及其反射的光影也都更加真实。

技术的升级让Midjourney真正实现了从图像到照片的跨越，从抢画师的饭碗进阶为抢摄影师的饭碗。只要能掌握Prompt的精髓，便可手握科技黑武器，惊喜的是V5的升级里就推出了describe功能。

只需上传一张图片，使用describe功能，Midjourney便会自动分析图片并生成4条对应的Prompt，点击下方对应的按钮便可直接生成类似的图片，当然也可以对这些Prompt进行调整。这样一来，获取更符合自己要求的Prompt就更容易。

从图像反推Prompt，Midjourney通过自行闭环推动人类不断去拥抱这项伟大的技术，大量用户的涌入也让Midjourney官方不得不暂停免费使用功能。

可以看到，Midjourney的发展用飞速来形容也毫不为过，英伟达AI科学家Jim Fan曾猜测，Midjourney是根据人类反馈RLHF进行大规模的强化学习，并且这可能是有史以来规模最大的文本到图像强化学习，用户反馈越多，它的学习效果就越好。

历史上每一次具有革命意义的技术更新，都将会迎来最终大範围落地应用的曙光。在AI科技飞飚的高速公路上，我们将会一直观望这家图片AI龙头如何秀出精彩车技，又将驶向何方。

如今，Midjourney替代了Pinterest、Google Images、Getty Images等传统图库平台，用户不再需要花费更多的时间，而是直接生成，甚至可以将一个月的工作量降低至一星期就可以完成。这对于用户而言，无疑是提高工作效率的加速器。

虽然Midjourney目前已经在AIGC领域是佼佼者的存在，但是它从未想过就止步于此。 Discord每週都会有它的公开会议，通过对其会议的相关内容的总结，关于它未来的几个发展方向，可以简单概括为以下几个方面：

更高的图片质量和更极致的图片库功能：图片修改编辑、图片扩展功能及在V6算法中的更高分辨率； V7/V8版本中，支持在图片中写文字；告别Discord，提供移动端的服务，可能有自己的APP，或将功能迁移到网站；实现实时绘图功能；发布API 用于工具的构建。

Midjourney作为功能单一的应用，未来是否会被集成变成多功能产品的一个环节，或是被技术的快速进步颠覆，目前我们还无法看清行业的终局，但Midjourney作为当前AI图片生成的龙头，观其用户口碑和产品技术的迭代速度，都让人无比期待它的未来发展。

随着AI技术的快速发展，各种工具的出现让AI的应用範围也会指数级的扩大。目前，在设计、电商、广告、游戏、影视等各个领域都涌现出了更多的用例，包括在元宇宙建设中的潜在应用，也将涉及到方方面面。因此，在娱乐性、实用性大大增强的同时，AIGC全新的赛道也在被逐渐打开，接下来就敬请拭目以待。

元宇宙方兴未艾，AIGC接踵而至，我们有理由相信，这两大科技赛道的交汇，将会为元宇宙注入更多的生机与色彩。

【声明】：本文为元宇宙之心运营团队原创，未经允许严禁转载，如需转载请联繫我们，文章版权和最终解释权归元宇宙之心所有。

资讯来源：由0x资讯编译自8BTC。版权归作者所有，未经许可，不得转载

原创文章，作者：币圈吴彦祖，如若转载，请注明出处：https://www.kaixuan.pro/news/463391/

主打一个张张封神，看AIGC 特种兵Midjourney 如何做到以假乱真

分享到：