然而,有趣的是,这些公司也可能从AIGC的大热中受益,因为 投资者经常把它们纳入AIGC的范畴 。但除非它们创新其基础技术,否则不太可能在大模型的时代收获技术革命创造的价值 。
技术趋势: 局限性、对技术的误解...生成式 AI 到底会有多好使?
在生成式 AI 的新兴领域, 底层技术决定了应用层可以做出哪些产品 。
两年前 GPT-3 的发布促成了一系列文本生成的初创公司,例如Jasper.ai 和 copy.ai 。现在,图像和代码生成模型的发布为新的营销、设计和编程应用程序奠定了基础 。继AI头像app Lensa.ai爆火之后,新一波初创公司正在构建AI图像生成的应用程序 。
但不同应用的底层技术到底有多好?接下来的这一部分,我们会给大家提供模型层的概述 。

文章插图
来源:红杉资本,生成式AI:充满创造力的新世界(2022)

文章插图
来源:红杉资本 , 生成式AI:充满创造力的新世界(2022)
文本模型是AIGC模型中最成熟的一类 , 也是最早开发的模型 。与任何其他类型的AIGC模型相比 , 文本模型的数量更多,并且有更多可用的API和开源模型 。除了OpenAI和DeepMind等知名实验室外,不少创业公司也在为AI语言模型基础设施层做贡献,包括以色列的AI实验室AI21和加拿大的初创公司Cohere 。
我们在这里把2018年以来发布的所有大型大型语言模型 (LLM) 做了一个可视化分析(模型很多?。?。显而易见,这些模型的参数量在以指数级的速度增长 , 算力和数据需求也越来越高 。大模型的“缩放定律”(“scaling law”)预测模型 能力将随着模型参数规模的增加而提高 。

文章插图
文本模型可视化分析
在图像生成领域,DALLE-2、Stable Diffusion和Midjourney这种大火的模型使图像生成AI首次出圈 。我们已经习惯了AI生成的惊艳的技术作品,比如DALLE-2经典的宇航员骑马图,还有Midjourney细致入微的绘画 。

文章插图
“一名骑马的宇航员,写实风格” 。由 DALLE-2 生成

文章插图
Jenn Mishra作品 。由Midjourney生成
然而,我们在网上看到的精美图像并不能代表所有AI生成的图像 。图像生成AI模型仍然存在可控性问题,很多时候不会响应使用者的指令,或者会漏掉指令中的关键信息 。这为更广泛的商业应用造成了技术障碍 。
我们可以用三个顶尖的AI图像生成模型做一个有趣的小实验 。
每个指令生成的第一张图像被选为示例 。我们可以看到DALLE-2和Stable Diffusion 2.0生成的效果类似,对指令的响应能力也差不多 。它们可以生成写实的小猫还有西班牙画家萨尔瓦多·达利风格的柯基犬 。作为在专业的艺术数据集上训练的小模型,Midjourney在创建艺术图像方很厉害,但往往完全忽略语言指令 。它生成的猫并不真实,生成的小柯基也不像是达利的画风 。并且三个模型没有一个对“使用披萨大小的硬币去买硬币大小的披萨”做出很好的反应 。这个指令正是要测试模型的语言理解能力 。有两个模型生成的人手手指看起来很奇怪 。

文章插图
DALLE-2、Stable Diffusion 2.0、Midjourney三个AI图像生成模型产出的图像对比
相关经验推荐
- 血清总胆固醇正常值偏高的饮食原则是什么
- 一线急诊医生:我们在从阎王手上抢人,忙到抬头的时间都没有!放开是否太快?梁万年回应
- 2022年哪个月是水虎月-2022年几月是水虎宝宝
- 俄罗斯黑果是黑果花楸吗-吃黑果花楸的注意事项
- 自由职业是否交社保-自由职业社保和职工社保待遇一样吗
- 2022年惊蛰结婚可以吗-惊蛰当天是不是结婚吉日
- 2022年冬奥会是在立春开始吗-北京冬奥会在立春前还是立春后
- 40岁得了痛风的人一般活多久-痛风活不过二十年是真的吗
- 菊苣是什么样子图片-菊苣栀子茶有副作用吗
- 有高尿酸一辈子不发病的人吗-尿酸高过一次就是终身疾病吗
