市场地图:虚拟世界的生成式人工智能
By: Jon Radoff
Feb. 3, 2023
Source: https://medium.com/building-the-metaverse/market-map-generative-ai-for-virtual-worlds-efde3984e538
本文为构建生成人工智能技术的公司提供了指导,这些技术将引领我们走向虚拟世界(游戏、模拟、元宇宙应用)。
现有的描述生成式人工智能前景的市场地图缺乏令人信服的组织,而是看起来像是基于功能的随机框。由于我的大多数读者都对游戏、模拟和元宇宙应用等技术和公司感兴趣——您会发现这张地图有助于绘制谁在推动这些特定体验的发展。
以下是市场地图 1.2 版(2023 年 2 月 3 日更新):
如果大型公司在任一类别中拥有大量投资、研究或运营,它们就会在图表中出现多次。对于规模较小的公司,我尽量将它们放在一个重点类别中。
继续阅读以了解有关如何解释用于组织此图表的价值链各个层,以及用于虚拟世界的生成 AI 为何如此复杂的更多信息。
生成式人工智能支持的创作者
游戏开发让我们看到了虚拟世界将如何得到生成式人工智能的支持。创造者有很多种:工作室构建的世界(游戏开发的正常模式,构建虚拟世界的人从一个人到 1000 多人不等);扩展它们的模组制作者;在玩游戏时填充和创造的人。甚至世界本身也可能充满生成性特征。
来自:游戏生成式人工智能的五个级别(点击放大)
虚拟世界是复杂的
虚拟世界之所以复杂,是因为它们具有突发性:其内部结构越大、越多样化,就越容易引发意想不到的行为。它们不仅仅是三维世界,而是多维世界:包含时间、社交网络、经济和生活叙事。
但它们也很复杂:生产过程中有无数不断演变且难以拼凑的拼图块。此图让您了解其中的一些:
仅仅为了制作一个 3D 模型,你就需要从概念到建模、到优化、到纹理、到 UV 展开、到装配、到动画、到构图、到照明……在此过程中,你可能会回到早期阶段进行各种改进。然后,你需要将这些内容传递给不断变化的世界中的参与者。所有这些每一步都需要大量的专业知识和广泛的支持技术。
您可以在上图中添加其他创意管道 - 例如音乐、音效和画外音 - 但如果添加所有内容,您甚至将无法再看清该图。
生成式人工智能可以帮助完成这项工作的构成方面,使这些不同的任务更容易与工作流程所需的正确动词联系在一起。但也有很多缺失的部分:今天,生成可在虚拟世界中随时使用的 3D 模型的技术还处于早期阶段。
价值链层级
让我们回到市场地图。以下是各个类别的含义以及它们之间的关系:
- 体验是受生成式 AI 影响最大的游乐场、应用程序和虚拟世界。要纳入其中,公司需要将生成元素直接“纳入”体验的“循环中”,而不仅仅是利用生成技术的生产力增强方面创造的产品。例如,像 AI Dungeon 这样的游戏就是一种体验,ChatGPT 也是如此,它本质上是一款使用 GPT-3 进行游戏的应用程序。
- Discovery是那些让查找和连接虚拟世界内容和体验变得更容易的公司。这类公司具有社交、社区或搜索功能,可以直接利用生成式人工智能或支持创作者构建虚拟世界。
- 创作者经济是指那些开发工具和组合框架的公司,这些工具和框架使创建虚拟世界内容变得更加容易。它还包括 SaaS 或 API 驱动的方法,用于实现 AI 应用程序,例如 OpenAI 使用的方法。
- Spatial Computing是连接生成式 AI 技术和 3D 环境(如生成模型、动画模型、神经辐射场等)领域的公司。
- 去中心化是指那些让人工智能走向世界的公司。虽然很多人工智能软件都相当中心化(比如几乎所有来自 OpenAI 的软件),但生成技术进步的指数级加速是由可访问研究和模型的广泛传播推动的。这包括开源人工智能社区(例如 Hugging Face)、开源模型(例如 Stability AI 的工作)和生成人工智能的核心开源库。
- 人机界面是让我们能够利用人工智能的技术。在我的元宇宙市场地图中,这主要是 AR/VR 设备等套装硬件产品。但对于生成式人工智能而言,这主要集中在自然语言和语音上,作为各种创意任务最简单的人机界面。
- 基础设施是实现人工智能的基础技术。这是物理机器的领域:ASML 的芯片制造设备、NVIDIA 等芯片制造商以及部署设备网络的公司。
人工智能领域最大的几家公司在支持虚拟世界方面进行了广泛的投资:
- NVIDIA是所有 AI 技术的关键推动者,因为它制造了 AI 领域使用最广泛的芯片。鉴于他们在 3D 图形方面的强大背景,他们在大多数与虚拟世界相关的类别中都有研究也就不足为奇了。他们的 Omnivese 是一个平台,可作为 3D 创作的协作工作区,包括生成输入;他们对多种模型的研究使他们能够像其他少数公司一样共同开发半导体和软件。
- Meta几乎在每个领域都有研究和产品:从用于训练 AI 模型的超级计算集群(基础设施),到直接受益于生成技术的 Quest 等平台的体验。
- 同样,谷歌的产品几乎涵盖了所有类别,从芯片到最终用户体验。
- 微软目前的生成式人工智能主要面向创作者经济技术,使其他人能够构建应用程序。这似乎可能会大幅扩展,尤其是考虑到他们对 OpenAI 的投资。
- 苹果是最神秘的,很少发表任何研究,但他们的芯片现在在其设备中提供了世界一流的 AI 性能(手机中的 A16 Bionic 在其神经引擎上实现了 17 TOPS——比大多数独立计算机在 2023 年初的实现速度还要快!)
- OpenAI在特定 AI 模型(尤其是 LLM 和图像)方面非常强大,但主要专注于面向创作者经济的 API 导向系统。ChatGPT 实际上是在其底层模型之上构建的终端用户应用程序(它考虑一种体验,甚至是虚拟世界)。
还有其他大公司在人工智能方面投入了大量资金,比如特斯拉——但我没有把它们包括进来,因为我找不到任何适用于虚拟世界的东西(抱歉,在中央控制台上提供 Steam不算)。如果他们开始让第三方生成使用他们的超级计算基础设施,或者 Optimus 的生成元素浮出水面,这种情况可能会改变:我会密切关注。
去中心化 AI 也是一个值得观察的有趣战场:像 Stability 这样的公司将开源访问模型作为自己的使命。相比之下,像 OpenAI 这样的公司则严密保护模型,使用 API 进行封存。到目前为止,大型科技公司一直不愿提供任何访问其训练有素的 AI 模型的权限。然而,其中一些公司为直接支持去中心化 AI 开发的开源软件做出了重大贡献:例如,TensorFlow 是在 Google 发明的,Meta 为 PyTorch 做出了重大贡献;这是构建 AI 系统的两个最受欢迎的软件库。
价值链:为什么这些在 ASML 的机器上工作的人(基础设施)最终让你能够说出整个宇宙的存在(经验)
给极客们快速插播一下题外话:梯度是一种理解如何调整网络深处的变量以产生惊人的、突现的属性的方法。梯度下降是目前用于训练大多数人工智能模型的算法。同样,价值链只是一种观察基础技术的推动如何影响其他相互关联和依赖的技术网络的方式;它解释了为什么 ASML 对先进芯片制造机器的改进最终意味着你将能够通过家用电脑将整个世界变为现实。了解市场将在哪里的梯度——不是下个月,而是提前几年——将成为制定成功的研发和投资战略的关键。同样,了解我们可以在哪里优化损失函数将为我们展示创造价值的最大机会。
虚拟世界的生成式人工智能初创公司
有不少初创公司正在解决虚拟世界生成难题的重要部分,但我特别想指出其中三家:
- Stability.ai(去中心化):大多数人都熟悉 Stable Diffusion,这是一种用于 2D 艺术的生成式 AI 模型。Stability 因创建其传播模型的开源版本而闻名,并且处于更加去中心化和开放的 AI 技术的前沿。他们正在投资各种专注于创意产业的模型,例如音乐和音频。所有这些都将适用于游戏和虚拟世界。
- Scenario.gg(创作者经济):它们让你可以创建游戏资产——并微调你自己的模型,以帮助你保持艺术一致性。他们很快就会发布一个 API,允许游戏即时生成资产(当玩家正在体验游戏时,而不是提前准备)。在不久的将来,这种事情将使一些游戏在生成 AI 层次结构中上升到第 3 级。
- Midjourney(创作者经济):生成 2D 图像,尤其适合制作概念图和其他可立即使用的资产。如今,我在所有文章和演示文稿中使用 Midjourney 的频率远高于库存照片。
基础研究的作用
生成式人工智能的科学研究是新功能的巨大推动力。生成式人工智能的大部分研究资金来自行业本身(NVIDIA、Meta、Google、Google 和 OpenAI 处于领先地位)。很多研究资金也继续依赖于传统的机构关系。
市场地图重点关注商业技术的作用:从实验室走向初创企业和产品的事物。由于这门新兴科学的重要性,我将在下一篇文章中总结与上述主题最相关的领域的最新进展。
生成式人工智能在虚拟世界中的应用尚处于起步阶段——但其增长速度将超出许多人的预期。