|21世纪的我们能够制造出哆啦A梦吗?( 二 )


  • 社会智能(减少幼儿干扰的技能 , 如设定程序防止小孩子在厨房里乱跑) 。
  • 作者提出 , 如果厨房机器人只是因为“保持厨房清洁”这一最终目标而获得奖励 , 那么上述细分的个人技能反而可能让人更深刻地理解为什么这种技能是必要的 , 因为它们被理解为实现奖励最大化这一唯一目标的解决方案 。
    另一方面 , 作者还说 , 如果让人工智能对每个细分的能力进行学习 , 那么从“保持厨房清洁”这一整体来看 , 就会出现“为什么”每个能力如此重要的问题 。
    通过为单一目标而不是为每个细分目标实施个别能力 , 结果是“如何整合能力的问题也得到了解答” 。
    因此 , 假设AGI可以在不设置详细条件的情况下被创造出来 , 而只需设置最终目标并给予奖励 , 所以DeepMind认为Reward is Enough“奖励是足够的” 。
    在论文的开头 , DeepMind的作者这样说到 。
    “通过试错经验来学习最大化奖励的代理可以学习表现出大部分(如果不是全部)这些能力的行为 , 从而表明一个强大的强化学习代理可以构成AGI的一个解决方案 。 ”
    由此可见 , 只有将最终目标的报酬最大化 , 才能提高实现AGI的可能性 。

    反对报酬最大化的人认为需要对其进行技术整合Meta(原Facebook)公司人工智能研究所的领导人物卢坎不同意这个说法 , 他认为要想实现AGI , 仅仅通过报酬最大化是不够的 。
    卢坎是2018年图灵奖 , 即诺贝尔计算机科学奖的获得者 , 他在自己的推特账户上写道:“奖励显然是不够的 。 世界上有许多不同的挑战 , 解决每个挑战需要不同的intelligence(智慧)” 。
    从论文发表到现在已经过去一年了 , 我们应该如何看待人工智能的这一新型潮流呢?关键词在于“整合” 。
    到目前为止 , 在人工智能发展领域 , 每个领域的专家 , 如图像识别、自然语言处理和语音识别 , 都在从事该领域的专业研究 , 并相应地开发了各种应用 。然而 , 最近 , 各学科之间的技术整合(Consolidation)越来越多 。
    这种整合了几种不同技术的解决方案被称为“多模式”解决方案 。 模式指的是输入信息的类型 , 而多模式指的是“使用多种类型的输入信息” 。
    传统的人工智能通常被限制在它能处理的一种信息类型上 , 比如“只有图像”或“只有文本”(统称为单模式) 。
    另一方面 , 多模态人工智能要求它们同时处理多种类型的信息 , 如图像、文本、音频和视频 , 就像人类使用眼睛、耳朵和其他五种感官来收集各种类型的信息 。
    对多模式(多模态)人工智能的一种思考方式是 , “如果多个信息被整合和处理 , 就有可能做出与人类更相似的决定” 。

    结语事实上 , 多模态正在被应用和研究 , 例如 , 在下一代汽车导航系统中 , 多模态人工智能结合了文本、语音、图像和其他信息 。 日本三菱电机在2021年发表的论文中 , 将摄像机、LiDAR、麦克风等多模态传感信息捆绑在一起 , 提出了一个汽车导航解决方案 。
    另外 , 特斯拉人工智能和无人驾驶总监安德烈·卡帕西(Andrej Karpathy)在自己的推特上提到了人工智能研究中的技术整合 。 安德烈这一发言似乎暗示了人工智能领域正处于转换期 。
    安德烈在推特上这样说到:“人工智能领域正在进行的整合是显著的:在大约十年前 , 我们几乎不可能读到来自其他学科的图像、语音、语言和强化学习的论文 , 因为方法完全不同 。 ”
    看起来 , 在不远的将来 , 我们能够实现“AGI型”的机器猫哆啦A梦的量产与投放 。

    相关经验推荐