“早期”的AIGC，已在“中途”

我思锅我在

+ 关注

2022-11-04 12:18

1622次阅读

今年6月11日，经济学人第一次采用了非人类设计的插画作为封面，作品名为“AI's new frontier（AI的新边界）”。画面里这个“人像”是位女性，让我想起那部关于AI的经典科幻电影《Her》，而眼部左上角那抹红色又像《2001太空漫游》里的机器人“HAL 9000”的眼睛一样深邃。

编辑仅仅在类似搜索网站的文字框里敲入这三个提示词（Prompt）：AI's new frontier，就在几秒钟内得到四组方案，最后选定了以上这幅作品。

“早期”的AIGC，已在“中途”

三个月后在美国科罗拉多州博览会的艺术比赛上，“数字艺术/数字修饰照片”类别里的第一名颁给了一幅充满科幻和中世纪风格的作品“Théâtre D’opéra Spatial（太空歌剧院）”，这是一位游戏工作室的行外人用AI“创作”的。

尽管他拒绝透露向机器输入的准确提示词，但表示是经过多次修改并用Photoshop等工具进行“人工”加工后，提交了三幅作品，最终只有这幅获奖。

有人说，艺术已死，似乎折射出《Her》里的主题：AI永生。而这两个事件，指向了背后同一个台“机器”——Midjourney，直译为“中途”。

Midjourney的背后不是算法，是十个人，创始人David Holz身上有无数标签：Leap Motion创始人、曾两次拒绝苹果收购以及估值缩水十倍惨淡收场等等，而这次重新出发，又引发社交媒体上无数讨论。但最吸引我的，是他如此评论AI：

AI is water, rather than tiger.（AI是水，而不是老虎）

“早期”的AIGC，已在“中途”

在野外，人遇到老虎，极有可能被老虎吃掉，老虎是危险的，为了安全我们会把他杀掉。而水，同样可能是危险的，湍急的河流可能会把人冲走，会淹死人，但我们会因此“禁用”水吗？

“Water is dangerous, yes, but you can also swim in it, you can make boats, you can dam it and make electricity. Water is dangerous, but it’s also a driver of civilization, and we are better off as humans who know how to live with and work with water. It’s an opportunity.” （水固然危险，但你可以学着游泳，可以造舟，可以造堤坝还能以此发电。水尽管危险，却是文明的驱动力，人类之所以进步正因为我们知道如何与水相处并利用好他。水给予更多的是机会。）

那如何定义Midjourney及与AIGC（AI Generated Content，AI内容生成）相关的一系列应用？

在David看来，他们是在引导人类不仅不要害怕水，还启发大家怎样更好利用水，如何建大坝，如何造船，如何利用浮力和水流等等——

去探索AI的一切潜在价值和机会。

协作，让艺术“走下神坛”

如投资实习所在《Adobe 200亿美金收购Figma，是协同的胜利》里所说，“Figma让与产品相关的所有人都能参与到设计里，更重要的是让团队以设计优先的方式去思考、感觉和工作”，最终协同带来的价值不仅仅是网络效应，而是彻底拓宽了场景，进而用户群，最后是市场规模。

当年经历过投资Figma，并写下著名博文《Why Figma Wins（为什么Figma会赢）》的Kevin Kwok也提出：

“Figma changes the game.（Figma改变了设计里的‘游戏规则’）”

同样， AIGC changes the game 。

AIGC最大的革命是将协同和创作融合在一起，并且从最源头的灵感开始，在开放的机制下激发全社会的创作力。

大多数情况下，用户基于开源的预训练模型，数据集都来自公开网络，更重要的是在Discord或开源社区里，遵循一套鼓励分享的操作守则，最后将成果也反馈于全社区。

Midjourney的社区向个人提供每月10美元和30美元的两档套餐，对应不同次数的标准生成或放大请求，每次生成会获得四组结果。使用这两档服务，用户的提示词和图片都会暴露在瀑布流式的公开频道里，除非每月再花20美元获得私密通道。

因此，在公共频道每秒钟都可以看到哪位用户用了什么提示词创作了什么样的作品，他对其中哪幅图放大或再调整。在版权归属上，Midjourney在服务条款里规定了“如果你是付费用户，虽然拥有著作权，但在公共频道里的作品和提示词仍是免版税（Royalty-free）的资源，任何人都可以在你的作品进出上重混和修改。”

虽然David没有透露是如何借鉴CLIP-guided diffusion算法，但CLIP与被视为当下最强的生成模型Stable Difussion（简称SD），都是完全开源和开放。

特别是SD背后的研发团队Stability.AI（本周宣布获得1亿美金融资，估值10亿美金），其标语就是“AI by the people, for the people（AI来自于人类，为了全人类）”，强调对开放的承诺和协作的重视。更多历史故事，参考《当下最强的 AI art 生成模型 Stable Diffusion 最全面介绍》。

基于SD的在线图像生成网站Dreamstudio都有相似的社区规则和版权归属解释，在公共频道生成的图像以及相关操作都会再次被反馈到数据集里。

只有将“协同”和“创作”融为一体，每个人才能机会创作自己的“神作”。

不过，当普通人通过AI创作获得了荣誉，一定有已经在“神坛”的人不乐意，有网友（想必是位艺术从业者）说“我们正眼睁睁看着艺术的倒塌”，也有人说“这就好比一场马拉松比赛，到最后一个人开着兰博基尼闯过终点线”。

但正如1913年福特发明第一条汽车制造流水线后，就意味着马车夫这个职业的逝去，一个叫“司机”的职业和新时代的到来——

新技术及其带来的新产物终将是不可逆的。

网上已经有众多自称“AI Artist（AI艺术家）”的人出现了，我相信这只是开始，绘画只是艺术表达的一种形式，关于AI Art的应用绝对不仅是一种“绘画”神器。

在Midjourney里，仅有30%是职业艺术家，他们把AI生成融入到商业创作的流程里，在初期就展示给客户以便选择后面优化的方向。即便在艺术创作中，各家在模型选择上的不同，也会在表现效果和应用场景中体现出差异。

YUAN初是ZMO.ai旗下的AIGC内容生成平台（点击左下角“阅读原文”尝鲜），他们基于Implicit Style Difussion模型在现实场景的成像上会更加逼真，因此有包装设计师直接用来生成巧克力盒的包装图案，还有动画设计师从生成的动漫形象里寻找灵感等等。

（左：超写实的漂亮的大地女神，周围有植物和花朵；右：生活就像一盒巧克力，你永远不知道下一块是什么，来自：YUAN初）

创作是探索无限可能和释放想象力的过程，正如“水”对于人类的启发一样，创作“门槛”被降低了，灵感在开放的世界不断被激发。

更多普通人因此进入以往“高高在上”的领域，更会诞生全新的职业。

艺术外，才是AIGC的天堂歌剧院

红杉近期发表的题为《生成式AI：一个崭新的充满创意的世界》的文章引发了热议，不仅文中的配图是通过Midjourney生成的，更“击中”我的是最后的附言：

“This piece was co-written with GPT-3. GPT-3 did not spit out the entire article, but it was responsible for combating writer’s block, generating entire sentences and paragraphs of text, and brainstorming different use cases for generative AI.（文章也是与GPT-3模型共同撰写的，尽管GPT-3没输出全篇，但全程配合作者，包括生成整段语句或文字，以及脑暴生成式AI的不同场景）”

在文字创作领域，AI已经学会在一定“提示”下帮助人类思考了。

由于工作原因，一款叫Copy.ai的产品成了我的日活工具。它利用AI生成文字内容，包括网站，Facebook页面甚至产品描述，帮助用户用“自己”的语言快速抓住客户眼球。

只需要输入产品名称和描述，选择友善、休闲、职业等不同语气或场景，它会在几秒钟时间生成在11个场景和接近百个细分场景下的文字段落：

比如在“数字广告”类别里，你可以针对Facebook广告选择生成“文章标题”，或“链接描述”，还有“图文列表”甚至“首页头文”等细分类目。
或者在“邮件”类别里，无论是“订阅取消”，“确认邮件”还是“感谢邮件”等场景都有针对的范本可选。
如果你是SaaS产品的博客写手，Copy.ai还能提示哪些关键字应该出现，并且避免语法和拼写错误。

这些还不是让我最佩服的，CEO把整个创业过程、业务数据和发展策略都公开透明地分享在了推特和Facebook社群里，这种方式在推上有特殊的标签叫“ #buildinpublic ”，许多创业者开始拥护这样大胆且自信的方式，本身就是一种“市场推广（Go-to-Martket）策略”。

CEO在推特上月更公司进展：

创立10个月，注册用户超过25万，每月订阅收入超过15万美金，融资290万美金，全职12人。
截止今年8月，注册用户突破200万，月活近40万，ARR达到870万美金，全职27人。

有时候他会向粉丝发起对未来发展的投票，从中听取最真实的反馈。有一次还让粉丝私信自己现在最痛恨产品的地方在哪里，越“狠”越能获得更高奖励。并且，公司的前三位外部员工也都从推上招来的。

这又是开放与协作的一次胜利，志同道合的一群人，为一个产品和一份事业。

其次，红杉一文里提到的“Paradigm of Interaction（交互范式）”的改变让我意识到AIGC最有意思的地方还在于所有过程行为和数据都会最终回馈到最开始的动作——创作。

以往如人脸识别，AI唯一任务是完成正确匹配，输入是人为的清晰人像，机器学的是人为告知的结果是否正确，这是单向的训练。而在AIGC的任务里，输入是人的模糊想象，输出的是一系列选择，并且可以不断修改，提示词都能像A/B测试一样，即调整一个词，其他词不变，多次尝试生成。

AI的学习范式贯穿了从创作到反复修改，再到定稿等与人交互的整个过程。

在商业场景，用户最终选择了哪幅作品，复制了哪段话，导出了哪段视频，并且曝光在特定应用里获得了什么效果，例如关注度，点击率或完播率等，都可能成为机器的输入。在这基础上，我们还能试图建立生成结果和效果的关系，或者说期望机器告诉我们她是怎么理解这里面的因果关系。

比如YUAN初曾服务的客户里，有服装电商卖家想在同一款服饰上测试几十种花纹，短时间内人工不可能做几十款样品进行拍摄、修图和投放。但AI可以快速生成无限图案，再经过优化和打标，由市场部投放并监测相关指标如CTR（Click-through Rate，点击率），在特定场景下便能逐渐训练出针对某个人群的“ 爆款”模型 。

不仅图文生成，前段时间一款AI视频生成工具Runway也在网上得到众多关注，创始人在官推上发布了一段教科书级的Demo，很好诠释了如何用文字和想象力驱动视频从灵感，到创作和剪辑，最后成片的过程。

Runway研究院的科学家Patrick Esser，也参与了与慕尼黑大学机器学习研究小组和AI开源研发团队EleutherAI等诸多非盈利组织一起训练Stable Diffusion的任务。

Facebook也很快加入AI视频生成大军，9月29日母公司Meta发布了Make-A-Video应用，可以实现直接将文字生成视频，单张或多张图片流动或者输入一个视频并生成变体。随后GoogleAI也发布了两段AI自动生成的视频，比Meta的案例更高清。

其中一段文字描述的是“在暴雨交加的海面上，穿过一场海盗船间的激烈海战（Flying through an intense battle between pirate ships in a stormy ocean）”，AI用第一视角自动生成了以下内容。

各个垂直领域的影响力飞轮在不断提速——

更多人参与和创作→更多作品反哺模型训练和调参→更好的效果和体验吸引更多人加入 。

Copy.ai成立不到两年，8月注册用户达到200万。Midjourney在今年2月底开始公测，到现在Discord里成员已超过350万。Stability.AI成立两年，Dreamstudio已经被150多万用户使用，所有渠道的日活用户已超过了1000万。

最后，我们回到AI创作的源头——Prompt，提示词。前面讲过，用户只需要输入几个单词，当然可以为了更精确的效果增加描述性语句，然后让AI发挥联想。但对普通人而言，显然单词的门槛是最低的，就像在搜索网站里的敲入关键词一样。

上一家利用好关键字并在商业领域大获成功的公司就是谷歌了。

并且搜索这个模式，是基于有限数据集找到最匹配的有限内容，而AIGC是：

无限搜索→自由联想→无限生成。

文字、图片、视频、3D...AIGC未来的商业模式和市场空间，一定是“生成”出来的。

不能缺少的中国元素

以上是我用Midjourney创作的彩色山水画，提示词是“mountain and villages, farmers and their dogs, Chinese painting, 4K, with some details（群山与村庄，农夫和他们的犬，中国画，4K画质，带上细节）”。当我选择左下角进行放大，获得了更多精妙且带水墨风格的细节，连画布也呈现被画笔浸染后的纹理。

不过有点遗憾的是，据这段时间在Midjourney社区里的观察，并没有太多中国元素的作品，三百多万用户群里中国人的比例仍较低。

但在AIGC正潜移默化影响着每个跟创意相关的产业之时，不敢想象缺少了如此庞大的人群和文明体参与会是什么后果。如今当我们与全球化“渐行渐远”之际，天然继承开放和协作精神的AIGC如果能在国内引起广泛用户的参与，将是年末最让我期待的事情。

现在中国设计师上网常聚的地方在站酷社区，不久前他们上线了AI创作实验室Beta版。让设计师和艺术家了解AI，从不惧怕到不抵触，直到逐渐明白该怎么运用到自己的创作或工作中来，这是一次非常有趣且重要的社会性实验。

（提示词：群山与村庄，农民与他们的犬，中国画，4K，来自：站酷AI创作实验室）

目前海外设计师会光顾Behance，中国设计师会浏览站酷寻找灵感，我们常听说某位艺术家的作品受到了某位前辈的风格影响，AIGC的魅力在于很多时候你无法描述作品具体来自哪一位大师，我们站在“一群巨人”的肩膀上，并且每个人的每个举动都可能影响后面的风格。

这种交互范式的转变，意味着在未来的社区里，可能不再是用户对其他用户作品的浏览、评论与点赞等单向互动，大家可以彼此实时地参与到对方的创作里，这才是真正意义上的“交互”。

设计师间的社交就变成了设计师、AI和多位设计师的共创， 社区形态或将发生革命性改变 。

这场社会性实验除了专业设计师，更需要在生活或工作里对视觉创作感兴趣的普通用户加入。“YUAN初”在海外运营时发现，到商用场景时人对现实真实图片的敏感度更高，而基于自己独特的模型能更好提升真实场景、工业设计甚至未来3D的生成效果。

此外，这次上线了生成器和编辑器两款工具，编辑器的特点也是通过文字告诉机器如何修改，即模拟Photoshop的体验实现文字驱动编辑，包括用画笔替换背景，增减元素或凭空生成以替换某些元素等。

在海外还有20%的用户把作品当做“Art therapy（艺术治疗）”，比如有用户创作出已经去世的宠物狗，用来抚慰自己和家人。还有人会把作品里的形象作为自我安慰和反省的对象。

在YUAN初社区有小孩和年轻人用来生成一长排贴纸，打印出来分享给伙伴。还有烘焙师用来生成动物形状的面包，以此为原型来制作糕点，场景不一而足。

我并不认为国人缺乏想象力，有时候只是缺少巧妙的引导。 “YUAN”可以指源头、愿景、远方、渊源甚至缘分， 寓意一切想象的开始 。

相比于海外讨论得如火如荼，AIGC在国内将引发的关注和潜在商业价值远没正式开始。

我们准备好了吗？

有人认为AIGC尚处早期，就像第一代智能机iPhone面世时——有些噱头但单薄。

随后的发展大家都知道了，我们根本没想到移动互联网的脚步会这么快奔跑而至。而如今算力的提升、数据的累积和成本的下降也在加速，当你们阅读这篇文章的时候，AI又学习了万篇名著和名画，还有来自全球用户的创作。

Stability.AI的创始人预言“迟早我们会到达每天生成10亿张图片的阶段，尤其当动画生成的功能被解锁后...”，而全世界最大的商业图库Shutterstock目前的存量“仅为”4亿张。

我的意思是，在此刻人类理解的“早期”与AIGC的“早期”可能早就不一致了。

换句话说，我们的确还在探索如何优化提示词，调节参数，改善效果，以便让AIGC真正融入每个人的生活和工作中。

但这台机器可能已经准备好了。

特别鸣谢：Copy.ai、YUAN初（ZMO.ai）、Midjourney、站酷等与我一起完成了这篇创作。

参考资料：

https://www.theverge.com/2022/8/2/23287173/ai-image-generation-art-midjourney-multiverse-interview-david-holz
https://www.theregister.com/2022/08/01/david_holz_midjourney/
https://midjourney.gitbook.io/docs/
https://waxy.org/2022/08/exploring-12-million-of-the-images-used-to-train-stable-diffusions-image-generator/
https://techcrunch.com/2022/08/02/ai-art-generated/
https://techcrunch.com/2022/08/12/a-startup-wants-to-democratize-the-tech-behind-dall-e-2-consequences-be-damned/

本文来自微信公众号“我思锅我在”（ID:thinkxcloud），作者：我思锅我在GN，36氪经授权发布。

我思锅我在

“早期”的AIGC，已在“中途”

吉客云客户案例 | 央企大健康医药数字化转型标杆案例

物流仓储汽修一体化，综合服务企业ERP怎么落地？

吉客云WMS和普通WMS有什么区别？全链路ERP仓储模块解析

一个商品多条码怎么管？一品多码 WMS 管理方案详解

项目管理SaaS为什么很难一家独大？答案藏在中小企业的痛点里