追溯ChatGPT 引发的AI 军备竞赛,可以回到去年7 月,图像生成模型Stability Diffusion 开源(下文称SD)。这个在Open AI 的绘画模型DALL- E2 之後发布的模型,
追溯ChatGPT 引发的AI 军备竞赛,可以回到去年7 月,图像生成模型Stability Diffusion 开源(下文称SD)。这个在Open AI 的绘画模型DALL- E2 之後发布的模型,因其源代码开源,且对公众开放使用,在当时吸引了最多关注和讨论。 (使用DALL-E2 需要申请,通过率很低)模型背後的公司Stability AI 创始人Emad Mostaque,一位在英国长大的印度裔,当时可能没有意识到,自己按下了AI「重启」的加速键。SD 的大热,影响了Open AI 随後的决策:管理层决定推迟一直在研究的GPT-4,快速上线普通用户可用,界面友好的ChatGPT。这带来了之後所有人都熟知的故事——ChatGPT 创下了2 个月访问用户破亿的纪录,开启了微软和谷歌之间的巨头间之战,标志了AI 大模型时代的来临。前不久,马斯克批评Open AI 背离了开源、非盈利的初衷,这也是Open AI 一直以来的争议。关於如何管理和运作大模型,也是Stability AI 与Open AI 的关键区别之一。Emad Mostaque 认为,大模型需要更多监督,而非在大公司内部运作,社区系统的开放性也至关重要。他今年39 岁,此前主要的职业生涯是一位对冲基金分析师,也是一位自闭症孩子父亲。他会一些AI 技术,但是认为自己更常做的事是「机制设计」,将不同的模式的图景融合在一起。他不喜欢巨头控制流量算法的游戏规则——这背後是对人们的操纵,甚至找纪录片《社交困境》(The Social Dilemma)里的所有前员工们聊过天。Emad Mostaque|来源:Stability AI「作为一家企业,我们只是社区的一员」,公司的CTO 在之前的IF 2023 的分享中表示。 Stability AI 也将坚持模型开源,让世界各地的人都能够触及最新的技术。在支持开源社区上,Stability AI 前不久和Hugging Face 等几个初创公司一起资助了研究社区Eleuther AI。在2022 年,Stability AI 曾为该组织捐赠过云计算资源。捐赠的资源来自另一家科技巨头亚马逊。Stability AI 与其签订协议,获得了超过4000 个英伟达A100。在此之前,计算资源基本上来自创始人自套腰包购买的32 个GPU。而据路透社报导,Stability AI 可能正在以40 亿美元的估值寻求下一轮估值。上一轮10.1 美元融资後,公司以10 亿美元估值成为新晋独角兽。从已存在的收费模式来看,Stability AI 与Open AI 基本类似,通过API 收费,或者向个人用户收费提供增值服务。此外,Stability AI 将聚焦於创意产业,为内容生产公司定制专属模型。公司已经和印度的投资机构Eros Investments(爱神投资)成立了合资企业,後者拥有1.2 万部的电影资料库。在巨头布局大模型的时代,Stability AI 的探索路径无疑值得关注。这篇文章是他去年11 月和10 月两次播客采访的整合编译,分别来自Weight&Biases 和硬分叉。在创立Stability AI 之前,他有AI 制药、科技公益等不同领域的经验,这无疑影响到他对技术该如何被创造、如何被使用的思考。在新冠项目中接触到大模型我在牛津大学开始了数学和计算机科学的职业生涯。在Gap Year 期间,我是一个企业开发人员。之後做了多年的对冲基金管理,我曾是AI 和视频游戏的大型投资方。後来儿子被诊断出患有自闭症时,我休息了一下,用AI 做药物发现。分析神经递质的生物分子通路,回顾文献,重新使用药物以帮助改善一些症状;我同时向一些对冲基金和其他政府提供关於AI 和技术、地缘政治的建议等。我大约是在12 年前开始这段经历的。几年前,我是CAIAC 的首席设计师之一,这个名为「集体和增强智能应对新冠肺炎」(Collective and Augmented Intelligence Against COVID-19)的项目於2020 年7 月在斯坦福大学启动,旨在获取世界上的冠状病毒疾病知识,利用AI 对其进行压缩,使其变得有用。那是我第一次真正接触到这些新模型。我当时就想,「天啊,这太重要了。它们正变得足够好、足够快,而且很快就变得足够便宜,可以抵达任何地方。」还有,「所有这些如此强大的技术都将被大公司所控制,而他们相信自己的优势就是如此,这合理吗?」不是,让我们向前走。我有一些AI 和其他方面的经验,不过大多数时候,我所做的是看到大的图景和模式,把它们放在一起,有点像机制设计。Stability AI的成立三年前,我们就有了Stability AI 的想法。我和联合创始人做的第一件事是参加了Global XPRIZE for Learning(注:用科技手段帮助贫穷儿童学会读写、计算的公益项目),有1500 万美元的奖金,奖励第一款可以在没有互联网条件下教读写和计算的应用程序。我们把平板电脑部署到难民营,「如果我们用AI 让它更好、更强大,会发生什麽?」我们还没有使用AI,但我们刚刚完成了随机对照试验,在13 个月的教育中,每天教难民营中的难民一小时读写和计算。在两年前,我们恰逢其时地建立了Stability AI,来开展联合国支持的AI 领域2019 冠状病毒疾病工作,结果陷入了许多官僚主义和其它问题。最初,我们帮助支持Eleuther 和LAION 等社区。我的想法是,这就像是Web3 道琼斯指数。比如「让我们奖励所有的社区成员,让他们团结起来」。但是大约一个月之後,我们意识到商业开源软件的规模和服务才是解决问题的方法。当我在资助整个开源艺术空间的时候,我认为至少在明年能接近现在看到的质量。我认为这是(由於)知识压缩的速度,使用的容易度,以及能够连接到一些人的设备。这让我很吃惊,我以为至少还要再过几年我们才能到达那里。Stable Diffusion 是第一个足够好,足够快,足够便宜,任何人都可以运行的模型。这就像一个2G 的文件,有来自10 万G 的数据。我觉得就是这个疯狂的东西让它大规模爆炸,这是主要的催化剂。Stability 基本建立在这样一种信念之上,我们拥有的这些新模型——这些基於Transformer 的模型、以及类似的模型——对於释放人类在我们所见过的某些最强大的技术中的潜力至关重要,将它们开源、以便人们可以在其基础上进行开发和使用,相信这不仅是一个伟大的商业模式,而且对於缩小数字鸿沟和尽可能推广这些技术至关重要。Stability AI的官方使命是建立基础来激活人类的潜力,座右铭是「让人们更快乐」。我们基本上催化了开源AI 模型的构建,然後我们采用这些模型,为客户扩展和定制它们。Stability AI 可以开源大模型,而Big Tech 不能我们有100 名员工,社区有10 万人。这就是我们力量的来源,我们来自世界各地。我们还给他们收入分成,这很奇怪。我们给他们好处,因为我们尝试把他们当作艺术家。我和纪录片《社交困境》(《The Social Dilemma》)里的所有人聊过天。从大型科技公司的角度来看,大型科技公司之所以建造圆形监狱,是因为他们无能为力,他们别无选择。我们现在给了它一个选择。我们现在在和大型科技公司合作,给他们一个出口,让他们成为这件事的一部分。我们有点像瑞士,每个人都可以作为中立方参与进来。尤其是工程师,想让事情变得自由和开放,但同时有监管,有信任和安全的部分。我们得到了关於这个问题的指导和意见,来找一个中庸之道,因为它不能是极端纯粹的自由主义,而另一个极端是没有人拥有任何东西。The Social Dilemma 海报我认为拥有的这些因素会帮助我们做到这一点。通过风险投资,我们按照自己的条件筹集资金,所以有完全的独立性。而不像OpenAI,他们从微软那里筹集了10 亿美元,而微软拥有技术的独家许可。不一致的激励是很难对抗的。我们希望社区、我们的团队和我们的位置能够帮助我们平衡这一点,对我们来说,处於这个位置是一件好事,没有其他人真正占据这个位置。同样,我们正在与监管机构积极谈判。公众的角色是社区和延伸。所以我们释放了Stability Diffusion,然後就有点疯狂了。 1000 个项目如雨後春笋般出现。社区就会说,stability AI 为什麽不介入并协调,并有一个官方代言人? 我们说,好吧。所以我们进去了,把Reddit 变成了官方的Reddit。他们说,你怎麽敢?(真是)公司霸主。我们只是想让事情变得更有条理。然後我们不得不把它还回去。总是有这种推推搡搡的关系。我认为社区优先,但不能是直接民主。我们会犯错误,我们会做正确的事情,我们会受到越来越多的审查,因为我们所做的事情实际上是至关重要的。大型科技公司处於不令人羡慕的位置,因为他们不能发布它来做公关。它就像来自神的普罗米修斯之火——这是下一代的交易所,这是疯狂的——它可以用来烧毁东西。它可以用来激活人性之光。但是我们寻找如何处理的唯一办法就是一起努力。这就是为什麽我想要与大型科技公司合作,想要与小型科技公司合作,想要与监管机构合作,想要与每个人合作,试图找出正确的方法。计算资源是公共利益现在我们有很多控制权,因为我们是最快的计算机供应商。我们正在局部努力的就是让研究者能够使用自己的计算机,同时刺激一些国家集群更加开放。不再需要6 到12 个月来获得A100 或H100 访问权限。我认为,它应该更加多样化一点。各方都在桌上,而不是中心化。这是我们有意采取的行动,目的是从伦理和道德角度,逐步实现越来越多的分布式终端。从商业的角度来看,这对我们也有用。如果我们被认为掌控了一切,我们就不知道那里会发生什麽。协调整个社区需要付出很大的努力,但可能不会是积极的。假设如我们预期的那样,一亿、十亿人参与进来,协调所有部分需要很多工作。相反,它应该是一个独立的实体,所有的声音可以从那里被听见。我们也有自己的角色。我们从计算机的主要提供者,变成了计算机的提供者。希望全世界所有计算机都能被提供出来,更高效地做这件事。因为这是一项公共利益(public good)。这对我们有好处,因为它节省了我们的成本,开源模型的创建不需要我们付出任何代价。对我们来说,成为第一层基础设施层是有意义的,然後开始运作,建立一个业务模型来扩展它。基於基础模型,社区可以分叉(团队分歧)发生在Stable Diffusion 释放之後。人们说,「这可以用於不安全的工作,我们不觉得舒服,在Stability 内部支持它。」作为一个团队,我们进行了讨论,决定不再通过Stability AI 发布任何工作起来不安全的模型。有些人对此很不满意。大多数人都能接受,但这更容易,因为这是一个团队的决定。在社区的基础上,这属於治理结构。我们正在研究EleutherAI,我们想把它转化成一个独立的社区,因为它有很多不同的实体和很多不同的观点。这是一个刚刚开始的治理结构。但是我们需要让它具有适应性,因为我们不确定这些东西会去哪里。目前,Stability AI 对GPU 访问、以及类似的资源有很大的控制。今後不应该出现这种情况,因为任何一个实体ーー无论是我们、 OpenAI、 DeepMind 还是其他实体ーー都不应该控制这项技术,因为这是共同利益。我们想成为独立非盈利组织的贡献者,而不是控制这项技术,然後在支持和促进开源方面发挥作用。我认为最终会发生的是,如果人们真的不同意,他们就分叉。我们在各个社区都看到过。这就是开源的魅力所在。你可以分叉模型。我认为关键是基准模型。这是个很大的前期计算,然後微调和运行需要相对较少的计算。这与Google 或Facebook 当前的模式正好相反,将其转化为数据库结构的计算相对较少,大部分计算都是在推理时完成的。这是整个范式的颠覆,但这不是社区分叉。社区分叉是关於工作安全或不安全的分歧,如数据集、「爬虫或许可」或类似的东西。我想围绕着一些关键问题,会有不同的社区。Stability AI 官网防止巨头使用大模型操纵人们大型模才是问题所在。我们应该对此有更多的监督,以防某些AI 组合的事物正确、却危险。想像一下,苹果、亚马逊、谷歌将情感文本到语言(emotional text-to-speech)整合到他们的模型中。 Siri 突然有了一个非常诱人的声音,并且悄悄告诉你应该买东西。你可能会买更多。这会受到监管吗?现在还没有,也不会及时。将这些模型公之於众会让人们思考,「实际上,这可能是应该受到监管的东西。」如果有些东西是被规范的,那也没关系,因为这是一个民主的过程。那些利用这种技术来操纵我们的公司ーー准确讲,就是广告模式ーー我认为这是不合适的。人们明白这项技术,意味着人们将更加挑剔的策划输出,然後它将是检测技术的混合产物。这是一个复杂的辩论,基本上不能在旧金山做出决定。这很重要,因为世界上不可避免地存在着技术。如果你真的戳人,说「不想让印度人使用这项技术」,他们会说,「我们当然想」「什麽时候?」「当安全的时候」「谁决定的?」「我们做的」「所以他们不够聪明,不能做出决定?」「不,他们需要接受教育。」然後情况变得很糟糕,对吧?同样,我认为这是可以理解的,因为它既可怕又冷酷的。Stability AI 的商业模式:提供定制模型这些模型ーー以及它们运行所依赖的数据,几乎可以做任何事情。如果你将不同的玩家聚合起来,以实现质量,并且开源版本,价值在哪里呢?如果模型可以做任何事情,那麽它的价值就不可能存在於模型中,价值肯定在别处。规模化可以让我做到这一点,我们有API,以及DreamStudio.AI,这是我们自己的执行版本。 (注:DreamStudio 是一个让所有人直接使用SD 模型的用户界面,前500 张图像生成免费,後续可以充值)(追问:所以每次有人通过你的API 创建一个图像,你就能从中抽成?)是的,或者通过Dream Studio,我们有不错的分成。第二部分是服务,很少有人能建立这些模型,但是世界上每个内容提供商都想拥有他们自己的模型版本。你想要一个Hello Kitty 的模型,或者你想要一个宝莱坞的模型。基本上其价值在於将Hello Kitty 作为一项业务进入市场,并将其资产转化为互动资产。它可以用於元宇宙,可以用於新体验,也可以用於任何地方。然後开发工具,使他们能够访问自己的模型,让其他人能够访问自己的模型,并向世界各地输送这些工具。作为一个企业,我们的主要工作基本上是满足大公司的需求,然後通过我们开发的软件帮助其他人。比如DreamStudio Lite 只是一个非常基本的软件。 DreamStudio Pro 是一个功能齐全的动画套件,具有故事板、微调功能,以及创建自己的模型等功能。DreamStudio AI 充值界面我们会和大型内容库(合作)。我们称之为多元宇宙,因为我们认为每个人都应该有自己的模型。所以我们在那里嵌入团队,为他们创建模型,并分享好处。你有服务合约,所有这些合约都围绕着它,因为它们现在是一个专业化的事情。我认为这就是可持续发展的优势所在:内容和经验的混合,以及内容。举个例子:我们和印度宝莱坞的Eros(注:印度电影公司)做了笔交易,也就是印度的Netflix,每天有2 亿活跃用户。你可以拥有丰富的生成式的未来,每个人都可以个性化和语境化这些东西。整个媒体空间都将是生成辅助的。我不认为它能取代,它增强了。从商业的角度来看,媒体是目前为止最有利润的,它可以为很多其他的东西提供资金。我认为这是一个合理的模式,迪斯尼和派拉蒙最终不得不改变他们的全部档案。就像VHS 到DVD 的提升一样,因为你知道做这些模型有多难。我们只是想,「什麽可以是最有利於社区和吸引资产?」这就是媒体对我们的意义。通过社区,去中心化决策如果你是任何一个社区的活跃成员:从用於音乐的Harmony AI,到用於语言模型的Eleuther,再到用於图像的LAION,你有很大机率用这种方式得到计算资源。可以是一个A100 到五百个A100,取决於你的东西有多好,尤其如果你把社区的成员作为你的团队。这是最主要的方法。我们正在建立一个拨款门户网站,正在与某些大学合作,也在理清应该怎样做,可能类似「Google Colab」(注:Google Research 提供的一项云服务,让任何人都可以通过浏览器编写和执行任意Python 代码),允许人们从第一天开始解锁事情。这也符合我们项目的下一阶段。我们资助了一些博士,他们是社区的活跃成员。我们计划2023 年资助100 位,还将为实验室和项目提供专用的计算支持。有一个独立的董事会负责做出决定,因为我们的业务和更广泛的业务之间总是存在矛盾。我们为什麽要资助OpenBioML,(注:一个机器学习和生物学交叉的开放、合作研究实验室)因为它很有用。目前没有业务逻辑。我们希望保持支持整个生态系统的组合,这样我们在其中有一个很好的位置,然後关注一些商业方面的东西,目前是生成性媒体。我们正在做的基本是,假设你创建了没有广告激励的Facebook 和Twitter,你也在加速使用工具来平衡这一点?我们信任社区,信任这种去中心化,而不是中心化的协调,即这些决定是分开做出的。这些算法都被锁起来了,无法询问。它们是不可理解的。它并不完美,你可以质疑数据集,可以质疑模型,你可以质疑Stable Diffusion 的代码以及其他事情。再次强调,我们相信这是一种公共利益和公共权利(public good andpublic right)。我们看到它一直在从偏见、信任和安全方面得到改善。在大公司里,动机不是公共利益。我们想开放讨论。所以我们刚刚宣布了一个20 万美元的奖金,奖励最好的开源Deepfake 检测器。我们花了10 倍於我们在图像生成模型上的算力,在图像识别模型上,它将被用来识别不良的,非法的和其他内容。所以这就是我们采取的方法,信任人们,信任社区,而不是让一个中心化的、未经选举的实体控制世界上最强大的技术。我相信这是表达自由的终极工具之一。我相信言论应该是自由的。我认为这就是力量所在。力量在於多样性。技术的未来:让人更好地表达和交易所对我们来说,最简单的沟通方式就是用语言交谈。接下来就是互相写邮件或聊天。要写出一篇真正优秀的作品是非常困难的。最困难的事情是作为一个物种进行视觉交易所。这就是为什麽艺术家是伟大的。我们都使用过幻灯片,也被困在那里。有了语言模型、视觉模型、语言生成模型和代码模型的组合,你就不再需要PowerPoint 了。你每次都可以说话同时制作漂亮的幻灯片。人类现在终於可以通过文本和语言模型进行交易所了ーー你已经看到Copy.ai、 Sudowwrite 和Jasper 等软件是如何让这种交易所变得更容易的ーー现在还可以通过视觉进行交易所。下一步就是3D。这是人类交易所方式的一个巨大变化。之前的网络迭代都是关於AI 被用来定位广告。现在是关於别的东西,正在从消费转向创造。我的注意力一直中心化在这个领域,作为主要驱动力。就影响力和全球性事物而言,在人类水平上,结构化和非结构化数据化之间动态切换的能力,是一件非常重要的事。因为当它与检索增强、以及其他检查事实准确性的东西相结合时,能够理解原则,意味着你可以写报告,做法律事务,你可以摆脱官僚制度。这是第一项能够实现这麽多东西的技术,它是如此通用,以至於不确定它的价值在哪里。但是,我确实看到了任何人能够更好地表达自己和交易所的价值。Stability AI 发布的3D 生成软件Blender|来源:公司官网开放有危险,但好处大於坏处我们拥有许多工具,比如摄影和其他。如果你用Photoshop 创建了一个受版权保护的实体,然後卖掉它,那是你的错。这些工具本身什麽也做不了。你输入一个2G 的文件,然後它创建一个输出。所以我们必须回溯到回最初的人类本性。它现在所做的是打开了访问,就像印刷机打开了访问一样。现在任何人都有视觉创造力。就像我为七岁的女儿做的第一个版本,因为她说:爸爸,我想创作,这很有趣。这是绘画,看看你在做的所有东西。她创作了一件很棒的作品,叫做「快乐的年夜」,以3500 美元的价格出售,作为印度COVID 救济的NFT,她把所有的钱都捐了出去。我心想,天哪,这可是件大事。我说,你为什麽不多做点呢? 她又做了八件。她说,爸爸,一个人的独特价值只会随着行业的发展而上涨。所以她打算支付自己的大学学费。不管怎样,这项技术正在兴起。我们看到了这一点,於是说,好吧,我们有责任尽最大努力指导这件事,後让其他人进入这个房间。我认为,分开进行,你永远不知道会是什麽样子。但是当有人打破时,他们可能会从不太好的角度打破它。我对此非常害怕。因为这项技术正被用於非常邪恶的方面。然而我认为,好处远远超过坏处,因为没有什麽比创造更重要的了。我们现在处於一个消费社会。如果你看看艺术疗法(art therapy)的作用,看看周围的事物,伴随着创造、以及人们使用这项技术而产生的快乐,我们为什麽要把它与世界隔绝?谁是自认决定这一点?我认为这是错误的。这是对手段的封锁。任何形式邪恶的可能性,意味着我们不能拥有任何东西。最好的是当我们一起变得更强大时,作为一个社群来打击邪恶,推动善良。参考链接:1.https://wandb.ai/wandb_fc/gradient-dissent/reports/Emad-Mostaque-Stable-Diffusion-Stability-AI-and-What-s-Next–VmlldzoyOTQ0ODk32.https://www.nytimes.com/2022/10/21/podcasts/generative-ai-is-here-who-should-control-it.html资讯来源:由0x资讯编译自8BTC。版权归作者所有,未经许可,不得转载
原创文章,作者:币圈吴彦祖,如若转载,请注明出处:https://www.kaixuan.pro/news/462351/