第二期：共情人工智能

2022-11-07 13:09

元墟 MetaHill

2022-11-07 13:09

元墟 MetaHill

2022-11-07 13:09

来源链接

订阅此专栏

收藏此文章

AI 是构建元宇宙的关键底层技术。维基百科对人工智能的定义：人工智能（Artificial Intelligence，缩写为 AI）亦称智械、机器智能，指由人制造的机器所表现出来的智能。通常人工智能是指通过普通计算机程序来呈现人类智能的技术。AI 的初衷并不是要取代人类，而是大幅增强人的能力和贡献。

1►

AI 的定义

AI 的核心问题包括建构能够跟人类似甚至超卓的推理、知识、规划、学习、交流、感知、移物、使用工具和操控机械的能力等。目前弱人工智能已经有初步成果，甚至在一些影像识别、语言分析、等等单方面的能力达到了超越人类的水平，而且人工智能的通用性代表着能解决上述的问题的是一样的 AI 程序，无须重新开发算法就可以直接使用现有的 AI 完成任务，与人类的处理能力相同，但达到具备思考能力的统合强人工智能还需要时间研究，比较流行的方法包括统计方法，计算智能和传统意义的 AI。目前有大量的工具应用了人工智能，其中包括搜索和数学优化、逻辑推演。而基于仿生学、认知心理学，以及基于概率论和经济学的算法等等也在逐步探索当中。

2►

强&弱人工智能

强人工智能：强人工智能观点认为“有可能”制造出“真正”能推理和解决问题的智能机器，并且这样的机器将被认为是具有知觉、有自我意识的。强人工智能可以有两类：人类的人工智能，即机器的思考和推理就像人的思维一样；非人类的人工智能，即机器产生了和人完全不一样的知觉和意识，使用和人完全不一样的推理方式。

弱人工智能：弱人工智能观点认为“不可能”制造出能“真正”地推理和解决问题的智能机器，这些机器只不过“看起来”像是智能的，但是并不真正拥有智能，也不会有自主意识。弱人工智能是对比强人工智能才出现的，因为人工智能的研究一度处于停滞不前的状态下，直到人工神经网络有了强大的运算能力加以模拟后，才开始改变并大幅超前。但人工智能研究者不一定同意弱人工智能，也不一定在乎或者了解强人工智能和弱人工智能的内容与差别，对定义争论不休。

就当下的人工智能研究领域来看，研究者已大量造出“看起来”像是智能的机器，获取相当丰硕的理论上和实质上的成果，如 2009 年康乃尔大学教授 Hod Lipson 和其博士研究生 Michael Schmidt 研发出的 Eureqa 计算机程序，只要给予一些资料，这计算机程序自己只用几十个小时计算就推论出牛顿花费多年研究才发现的牛顿力学公式，等于只用几十个小时就自己重新发现牛顿力学公式，这计算机程序也能用来研究很多其他领域的科学问题上。这些所谓的弱人工智能在神经网络发展下已经有巨大进步，但对于要如何集成成强人工智能，现在还没有明确定论。

3►

AI 的四个主要组成部分

🔹专家系统：作为专家处理正在审查的情况，并产生预期或者预期绩效。

🔹启发式问题解决：包括评估小范围的解决方案，并可能涉·及一些猜测，以找到接近最佳的解决方案。

🔹自然语言处理：在自然语言中实现人机之间的交流。

🔹计算机视觉：自动生成识别形状和功能的能力。

4►

传统软件&AI

传统软件：（if-then）的基本逻辑，人类通过自己的经验总结出一些有效的规则，然后让计算机自动的运行这些规则。传统软件永远不可能超越人类的知识边界，因为所有规则都是人类制定的。简单的说：传统软件是基于规则的，需要人为的设定条件，并且告诉计算机符合这个条件后该做什么。

AI：机器从特定的大量数据中总结规律，归纳出某些特定的知识，然后将这种知识应用到现实场景中去解决实际问题。这就是人工智能发展到现阶段的本质逻辑。而人工智能总结出来的知识并不是像传统软件一样可以直观精确的表达出来。它更像人类学习到的知识一样，抽象、难以表达。但是无论如何变化，传统软件和人工智能都是工具，是为了解决实际问题而存在的。

5►

AI 的基本应用

感知能力（Perception）指的是人类通过感官所收到环境的刺激，察觉消息的能力，简单的说就是人类五官的看、听、说、读、写等能力，学习人类的感知能力是 AI 目前主要的焦点之一，包括：

看：电脑视觉（Computer Vision）、图像识别（Image Recognition）、人脸识别（Face Recognition）、对象侦测（Object Detection）。

听：语音识别（Sound Recognition）。

说：语音生成（Sound Generation）、文本转换语音（Text-to-Speech）。

读：自然语言处理（Natural Language Processing，NLP）、语音转换文本（Speech-to-Text）。

写：机器翻译（Machine Translation）。

认知能力（Cognition）指的是人类通过学习、判断、分析等等心理活动来了解消息、获取知识的过程与能力，对人类认知的模仿与学习也是目前 AI 第二个焦点领域，包括：

🔹分析识别能力：如医学图像分析、产品推荐、垃圾邮件识别、法律案件分析、犯罪侦测、信用风险分析、消费行为分析等。

🔹预测能力：例如 AI 执行的预防性维修（Predictive Maintenance）、智能天然灾害预测与防治。

🔹判断能力：例如 AI 下围棋、自动驾驶车、健保诈欺判断、癌症判断等。

🔹学习能力：例如机器学习、深度学习、增强式学习等等各种学习方法。

创造力（Creativity）指的是人类产生新思想，新发现，新方法，新理论，新设计，创造新事物的能力，它是结合知识、智力、能力、个性及潜意识等各种因素优化而成，这个领域目前人类仍遥遥领先 AI，但 AI 也试着急起直追，主要领域包括：AI 作曲、AI 作诗、AI 小说、AI 绘画、AI 设计等。

智能（Wisdom）指的是人类深刻了解人、事、物的真相，能探求真实真理、明辨是非，指导人类可以过着有意义生活的一种能力，这个领域牵涉人类自我意识、自我认知与价值观，是目前 AI 尚未触及的一部分，也是人类最难以模仿的一个领域。

实际应用：机器视觉、指纹识别、人脸识别、视网膜识别、虹膜识别、掌纹识别、专家系统、自动规划、无人载具等。

6►

AI 对人类的“威胁”

悲观学派：此学派的代表是天文物理学家史蒂芬·霍金 (Stephen Hawking)，以及特斯拉首席执行官伊隆·马斯克 (Elon Musk)。霍金认为 AI 对人类将来有很大的威胁，主要有以下理由：

🔹AI 会遵循科技发展的加速度理论；

🔹AI 可能会有自我改造创新的能力；

🔹AI 进步的速度远远超过人类；

🔹人类会有被灭绝的危机存在。

乐观学派：主要是 Google、Meta 等 AI 的主要技术发展者，他们对 AI 持乐观看法的理由有：

🔹人类只要关掉电源就能除掉 AI 机器人；

🔹任何的科技都会有瓶颈，“摩尔定律”到目前也遇到相当的瓶颈，AI 科技也不会无限成长，依然存在许多难以克服的瓶颈；

🔹依目前的研究方向，电脑无法突变、苏醒、产生自我意志，AI 也不可能具有创意与智能、同情心与审美等这方面的能力。

7►

AI 自动生成图片

看文绘图的 DALLE·E：DALL·E 的名字取自艺术家 Salvador Dali 和皮克斯动画片机器人总动员（WALL-E）。是一个具有 120 亿参数的 Transformer 语言模型。

Dali 代表作《记忆的永恒》和机器人总动员海报

DALL·E 是如何实现先理解文字，再创造图片的呢？

要从理解 token 开始，语言学中对 token 的定义是词符，或者标记。对于英语来说，每个字母就是一个 token，每一个单词就是一个 tokens。但在 NLP 中，tokens 并不一定代表完整的单词，如 re、ug 等没有实际意义的字母组合也算一个 tokens。在最早提出 Transformer 架构的论文《Attention is all you need》里，就提到了 BPE（Byte-Pair Encoding）编码方法，简单来说，BPE 就是通过分析训练集中每个单词的组成，创建一个基础词汇表，词汇表里涵盖了一定数量最常用的 tokens。

模型中 tokens 的数量是超参数，也就是训练模型中人为规定的。DALL·E 同时包含着 BPE 编码的文本和图像词汇表，分别涵盖了 16384、8192 个 tokens。当需要生成图片时，它以单一数据流的形式，接收 1280 个文本和图像的 tokens（文本 256 个 tokens，图像 1024 个 tokens），建立回归模型。与大多数 Transformer 模型一样，DALL·E 也采用自注意力机制（Self-Attention），分析文本内部的联系。在 DALL·E 的 64 层自注意层中，每层都有一个注意力 mask，就是为了使图像的每个 tokens 都能匹配文本 tokens。

左右滑动查看更多 AI 自动生图

( 图片来自 midjourney）

从改变物体关系到创造“不存在”

🔹改变单个物体的某个属性；

🔹同时改变多个物体以及其位置关系。当一句话含有多个主体时，例如“红色的物块放在绿色的物块上面”，DALL·E 需要分辨出这两个物块是两个不同的物体，且他们之间的位置关系是上下叠放。随着输入文本中描述主体的增多和关系的复杂，DALL·E 生成的图像会更不准确；

🔹可视化透视与背景。除了二维图像理解，DALL·E 也能将某些类型的光学畸变（Optical Distortions）应用到具体场景中，展现出“鱼眼透视”或“球形全景态”图等效果；

🔹内外部结构；

🔹上下文推理。将文本目标“翻译”成图像这个问题，是没有唯一答案的，且语言中常含有字面所没有的引申义。如“日出时，坐在田野上的水豚”的绘画像这一文本目标，其中并没有提到水豚的阴影，但根据经验我们也能知道，日出时，水豚必然会有由于阳光照射产生阴影。因此，DALL·E 就需要通过 Transformer 中的上下文推理，通过自己的“经验”得到这一结论；

🔹“不存在”物品。DALL·E 还具有将完全不同的物品合成起来的能力，创造一些现实世界不可能出现的物体。

来源链接

【免责声明】市场有风险，投资需谨慎。本文不构成投资建议，用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

数据请求中

数据请求中

在 App 打开

推荐专栏