AIGC，可能是下个10年最重要的投资机遇之一( 三 ) _谷歌

然而，有趣的是，这些公司也可能从AIGC的大热中受益，因为投资者经常把它们纳入AIGC的范畴。但除非它们创新其基础技术，否则不太可能在大模型的时代收获技术革命创造的价值。
技术趋势：局限性、对技术的误解...生成式 AI 到底会有多好使？
在生成式 AI 的新兴领域，底层技术决定了应用层可以做出哪些产品。
两年前 GPT-3 的发布促成了一系列文本生成的初创公司，例如Jasper.ai 和 copy.ai 。现在，图像和代码生成模型的发布为新的营销、设计和编程应用程序奠定了基础。继AI头像app Lensa.ai爆火之后，新一波初创公司正在构建AI图像生成的应用程序。
但不同应用的底层技术到底有多好？接下来的这一部分，我们会给大家提供模型层的概述。

文章插图

来源：红杉资本，生成式AI：充满创造力的新世界（2022）

文章插图

来源：红杉资本，生成式AI：充满创造力的新世界（2022）
文本模型是AIGC模型中最成熟的一类，也是最早开发的模型。与任何其他类型的AIGC模型相比，文本模型的数量更多，并且有更多可用的API和开源模型。除了OpenAI和DeepMind等知名实验室外，不少创业公司也在为AI语言模型基础设施层做贡献，包括以色列的AI实验室AI21和加拿大的初创公司Cohere 。
我们在这里把2018年以来发布的所有大型大型语言模型 (LLM) 做了一个可视化分析（模型很多?。?。显而易见，这些模型的参数量在以指数级的速度增长，算力和数据需求也越来越高。大模型的“缩放定律”（“scaling law”）预测模型能力将随着模型参数规模的增加而提高。

文章插图

文本模型可视化分析
在图像生成领域，DALLE-2、Stable Diffusion和Midjourney这种大火的模型使图像生成AI首次出圈。我们已经习惯了AI生成的惊艳的技术作品，比如DALLE-2经典的宇航员骑马图，还有Midjourney细致入微的绘画。

文章插图

“一名骑马的宇航员，写实风格” 。由 DALLE-2 生成

文章插图

Jenn Mishra作品。由Midjourney生成
然而，我们在网上看到的精美图像并不能代表所有AI生成的图像。图像生成AI模型仍然存在可控性问题，很多时候不会响应使用者的指令，或者会漏掉指令中的关键信息。这为更广泛的商业应用造成了技术障碍。
我们可以用三个顶尖的AI图像生成模型做一个有趣的小实验。
每个指令生成的第一张图像被选为示例。我们可以看到DALLE-2和Stable Diffusion 2.0生成的效果类似，对指令的响应能力也差不多。它们可以生成写实的小猫还有西班牙画家萨尔瓦多·达利风格的柯基犬。作为在专业的艺术数据集上训练的小模型，Midjourney在创建艺术图像方很厉害，但往往完全忽略语言指令。它生成的猫并不真实，生成的小柯基也不像是达利的画风。并且三个模型没有一个对“使用披萨大小的硬币去买硬币大小的披萨”做出很好的反应。这个指令正是要测试模型的语言理解能力。有两个模型生成的人手手指看起来很奇怪。