一种实现类人通用人工智能机器的方法

著录项
  • CN202010962864.7
  • 20200914
  • CN112016664A
  • 20201201
  • 陈永聪
  • 陈永聪;曾婷;其他发明人请求不公开姓名
  • G06N3/00
  • G06N3/00 G06N3/04 G06N3/08

  • 北京市海淀区双清路双清苑8号2单元1004
  • 北京(11)
摘要
本发明申请提出的实现类似于人类的通用人工智能实现方法。本发明申请包含两个部分,一是如何实现通用人工智能,二是如何让通用人工智能能够和人类更好的互动。本发明申请提出采用多分辨率特征提取,采用临近存储,采用联想激活,采用分段模仿,采用最优路径搜索的方法,并不断迭代使用上述方法,来建立机器对世界的认知常识,在这些常识的基础上,机器通过自己的需求动机来规划和执行自己的行为。同时,本发明申请也提出了如何让机器更好地理解人类的知识,更好地体会人类的感知(包括情感),从而更好的和人类互动。通过本发明申请提出的方法,机器可以逐步获得从简单到复杂的对输入信息的响应,并拥有和人类相似的动机和情绪表达,这些都展现了本发明申请提出的机器学习方法和目前业界已有的机器学习方法存在巨大差异,目前在业界还没有与之类似的方法。
权利要求

1.一种机器对输入特征信息的识别方法,其特征包括:

机器对输入特征信息赋予初始激活值;机器通过联想激活的方式,传播输入特征信息获得的初始激活值;机器根据激活值传播情况,选择高激活值记忆作为输入特征信息的预期模型;机器使用预期模型和输入特征信息作对比,对输入特征信息进行识别和分割;机器采用注意力机制,通过迭代识别过程,对输入信息做多次识别。

2.根据权利要求1所述的方法,其特征包括:

机器在识别输入特征信息的过程中,注意力机制是指机器根据识别结果,决定下一次识别的数据区间和采用的识别分辨率;机器在单次识别过程中,可以选取一到多个区间,可以采用一到多个识别分辨率对这些区间进行识别。

3.根据权利要求1所述的方法,其特征包括:

机器对外部输入特征信息的迭代识别过程中,在每次迭代中,机器赋予外部输入特征信息的初始激活值可以是不同的;在单次初始值赋值过程中,针对不同的特征也可以赋予不同的初始激活值。

4.根据权利要求1所述的方法,其特征包括:

机器对外部输入特征信息的迭代识别过程中,通过不断增加的识别区间和识别分辨率来获得更多的输入特征信息,并通过激活值变化来不断缩小输入特征信息的预期模型的范围,直到输入特征信息的预期模型达到预设的置信度为止。

18.根据权利要求1所述的方法,其特征包括:

机器可以预置一些模型,这些模型的整体特征拥有高的记忆值,从而更加容易被优先激活,从而在机器的迭代识别过程中优先被识别出来。

19.根据权利要求1所述的方法,其特征包括:

一种经验泛化的方法是采用“属于同一个最小概念下的记忆中高激活值和输入信息中高激活值元素可以基于动态过程或者表示关系的连接概念来相互替换”的泛化原则。

5.一种信息存储方式,其特征包括:

机器认为在输入时间上相邻的信息彼此存在连接关系,所以采用相邻的存储空间来存储这些信息;相邻的存储空间是指存在一种方式来表达两个存储单元是相邻的;这种表达方式可以是物理上相邻的存储空间,也可以是对存储空间进行地址编码来表示相邻关系。

6.根据权利要求5所述的方法,其特征包括:

机器在存储空间里,不仅仅存储输入的特征信息数据,还需要对每一个存储的数据存储一种表达其记忆和遗忘机制的数据;机器存储的数据不仅仅包含外部输入的特征信息,也包含内部传感器的信息,也包含被激活的需求动机和情绪相关数据;机器存储的需求动机和情绪数据,其初始记忆值和需求动机和情绪符号获得的激活值成正相关。

7.一种机器的决策过程方式,其特征包括:

机器通过联想激活,识别和输入信息相关的记忆信息;机器结合输入信息和被激活的记忆信息,按照趋利避害的原则来做出响应决策;机器根据被激活的记忆信息中包含的收益和损失的信息,以及记忆中它们在不同条件下发生的概率,按照统计的方法来预测目前条件下,它们发生的概率以及可能带来的收益和损失;机器根据目前条件下,可能出现的事件发生的概率以及带来的收益和损失,在激活的信息范围内,采用分段模仿的方法来组合各种可能的响应,并按照趋利避害的原则,搜索最优响应路径,并建立最优响应路径上的各个子目标。

8.根据权利要求7所述的方法,其特征包括:

机器把最优响应路径上的子目标,作为新的输入目标,重新采用联想激活的方法,寻与这些子目标相关的记忆,并按照统计的方法来预测目前条件下,它们发生的概率和潜在的收益和损失;机器按照趋利避害的原则,采用分段模仿的方法,按照增加那些带来收益的事件发生的概率,降低那些带来损失的事件发生的概率作为新的目标和建立新目标所包含的各个子目标;机器通过迭代执行决策过程,通过不断细分子目标,通过不断使用分段模仿的方法,通过不断搜索最优响应路径,并建立最优响应路径上的各个子目标,最终把实现路径上的子目标细分到机器可以直接执行的底层驱动命令为止。

9.根据权利要求7所述的方法,其特征包括:

机器寻最优响应路径并层层迭代分解最优响应路径的过程,是一个动态变化的过程;在这个过程中,机器可以是一边分解,一边执行,并根据最新获得的信息来重新执行寻最优响应路径,并进一步层层迭代分解最优响应路径的任务。

10.根据权利要求7所述的方法,其特征包括:

机器在理解输入信息,建立局部响应路径时,使用分段模仿的方法把现实信息和记忆信息组合成“环境信息”和“动态流形”等信息组合形式,创建一个动态过程;使用这个动态过程代表输入信息,或者代表规划的响应路径。

11.根据权利要求7所述的方法,其特征包括:

记忆中被激活的信息的激活值会随时间而衰退,衰退的参数和机器的需求以及需求状态、情绪以及情绪状态相关。

12.根据权利要求7所述的方法,其特征包括:

机器在执行对输入信息响应的过程中,碰到新输入的信息时,机器可以采用把原来的目标转为继承目标,并结合新信息来重新识别信息、理解信息和对信息做出响应。

20.根据权利要求7所述的方法,其特征包括:

机器把模仿动机作为一种底层需求预置于机器程序中;在机器学习的不同阶段,我们可以给机器赋予不同强度的模仿动机;比如在机器学习语言和动作输出时,我们可以给机器直接赋予较强的模仿动机,而在其他阶段,则可以赋予正常的模仿动机。

21.根据权利要求7所述的方法,其特征包括:

机器在识别相似基础特征时,也包括识别经过旋转和缩放后的相似特征;这些基础特征包含机器参数化后的基础特征模型,也包括由基础特征组合再次提取后构成的基础特征组合,它们也是机器创建的基础特征模型。

13.一种实现类似于人类的智能机器人的方法,其特征在于,包括:

建立类似于人类感知器官的传感器组,通过关系网络利用这些传感器数据,建立和人类类似的需求动机和情绪。

14.根据权利要求13所述的方法,其特征包括:

机器的传感器组包括:采用双目视角,双目位置、间距和视角模仿人类双目;模仿人类的双耳听觉传感器,包括位置、间距、听觉能力的模仿;采用全脚底压力传感器阵列,通过脚底传感器的输入信息,来学习和调整重心;采用全身的温度传感器,来感知外界温度;采用重力传感器,来感知重力方向;采用全身触觉传感器,来感知全身压力和触觉;采用类似于人类的嗅觉传感器,来识别气味;采用类似与人类的味觉传感器,来识别味觉;建立类似于人类的疲劳指数,来反应机器的疲劳程度;机器的全体骨骼关节采用张力传感器,让机器更好的确定关节张力;机器的四肢安装加速度传感器,感知四肢运动的加速度;机器需要建立自身的监控系统,用于检测自身的姿态模式;机器还可以根据特定应用,增加相应的传感器组。

15.一种机器人运动控制的方法,其特征包括:

机器的运动控制本质是一种在低分辨率经验的基础上,不断加入高分辨率经验,来进行多分辨率经验的模仿过程;机器人运动控制过程是一个经验利用、决策创建、模仿执行和反馈调整的过程;它不仅仅是运动控制算法问题,还涉及到过去的经验,这些经验并不仅仅限于运动经验,也会涉及到其他方面的经验。

16.根据权利要求15所述的方法,其特征包括:

机器的运动经验是一种多分辨率塔型模型;机器根据对外界的输入信息的不同数据区间和不同分辨率的选取,通过迭代识别的方式,不断激活不同分辨率上的运动记忆信息;机器通过运动肢体和全身关节传回来的多分辨率数据和经验中的运动相关多分辨率数据相比较,把差值作为一种误差,通过负反馈来调整自己的动作;这些对比数据包括全身关节的张力、运动肢体的加速度,运动肢体感受到的温度变化,运动肢体和空气之间的压力微小变化等数据;这些数据的差异会激活机器之前的经验,通过这些经验,机器使用负反馈来调整自己的运动底层指令;这些数据包含那些成功的经验,也可能激活那些带来失败的运动记忆;成功的经验连接有收益值,而这些失败的运动记忆连接有损失值记忆;所以机器按照决策系统,会调整自己的全身的运动状态,使得机器获得全身的传感器数据尽可能靠近成功经验,远离失败经验,从而提高成功概率。

17.根据权利要求15所述的方法,其特征包括:

机器的运动过程是一个决策过程,不仅仅涉及到运动本身,还涉及到机器建立的常识,机器的动机和情绪,还涉及到外部具体环境;它是融合在本发明申请中提出机器决策过程中,而不是存在于单独的运动控制模块中;本发明申请中,机器的运动控制和机器的其他决策过程是一样的处理方法,而不需要单独的运动决策系统。

说明书
技术领域

本发明申请涉及人工智能领域,尤其涉及如何建立类似于人类的智能、技能和情感的通用人工智能。

当前人工智能通常是为特定任务设计的,还没有能够完成多种不确定性任务的通用人工智能。实现通用人工智能最大的障碍在于如何在纷繁复杂的事物之间建立类似于人类常识的认知网络。只有机器拥有了类似于人类的常识,机器才可能产生类似于人类的思维活动。目前的深度学习产生的结果是一种精巧的特征映射方法,它和人类的学习过程差异较大,所以深度学习的成果难以泛化和通用。目前的知识工程、专家系统或者知识图谱,都是采用编码的方式,把人类的知识采用计算机能够识别的方法组织起来。但这些系统难以让机器自主学习和归纳,所以在面对差异化的场景时,机器无法自主产生新的策略和方法。所以到目前为止,这些系统只能应用于某一个特定的领域和特定范围,无法产生类似于人类的智能。

而建立类似与人类智能、技能和情感的通用人工智能,使得机器可以和人类更好的互动,比如机器人和人类合作进行生产和研发,共同组织比如养老、护理、教育等社会活动,这将给人类社会带来巨大经济和社会效益。

本发明申请重点在于揭示了如何建立通用人工智能的基础方法,尤其是说明了如何建立在各方面和人类相似的通用人工智能,包括思维、动作和情感等,这样的人工智能才能更好的融入人类的社会生活。

本发明申请主要包含两方面内容。一是如何建立通用人工智能,二是如何让通用人工智能变得和人类相似,从而能够和人类更好的互动。

本发明申请的第一个方面:如何建立通用人工智能,主要方法包括:

对传感器数据做特征提取,内容包括:

机器需要对传感器数据做多分辨率提取。当传感器数据输入到机器处理单元后,机器按照上一次思维活动产生的预期目标来选择重点识别区域和识别分辨率,来提取其中的特征信息。

目前业界已经有多种提取特征信息的具体算法,比如深度卷积网络。而没有解决的问题是“哪些数据才能作为特征信息”和“如何组织和利用这些特征信息”。本发明申请提出的“局域共有相似性”方法,作为机器选取特征信息的一种基础方法。本发明申请提出相邻存储、联想激活,分段模仿,最优路径搜索和迭代决策等方法作为组织和利用这些特征信息的方法。

在本发明申请中,我们提出的“局域共有相似性”作为一种选择基础特征信息的方法。这种方法包含如下几个方面:

首先,我们认为生物体的进化过程,是沿高效率利用计算能力的方向发展的。因为只有这样,才能在探索的环境越来越复杂的情况下,提高算法复杂性来处理复杂问题,并最大限度节省能源消耗,从而增加生物体生存的几率。如果能对那些广泛存在的局部特征,形成相应的、可以复用的提取算法,则明显可以在保持特征提取能力的情况下,最大限度节省能源消耗。这是一种进化方向的具体体现。因为这样能最大限度地复用这些算法,能提高计算的能效比。

所以本发明申请提出机器需要提取的基础特征,就是那些广泛存在于我们的世界中的共有数据特征,比如图像中,基础的点、线、纹理和颜等,它们的进一步组合包括平行、相交、顶点、角度、基本形状、边缘、曲率、调、大小等。机器在学习的初期阶段,使用任意算法来提取这些基础特征信息。同理,我们把这样的方式推广到其他数据,比如语音、气味、触觉,都是通过寻它们之中的局部共有特征来作为基础特征信息,并建立对应的基础特征信息提取算法,并广泛地复用这些算法。

有了提取这些基础特征信息的对应算法后,机器可以复用这些算法,在我们的世界不断利用这些算法提取相应的基础特征信息。为了充分的利用这些基础特征信息,机器可以对这些基础特征信息进行参数化,把它们作为一种外部信息识别的基础模型。机器通过参数化模型对比的方式,来提取输入数据中包含的基础特征信息。这些基础特征信息,通过记忆和遗忘机制,进一步和更加复杂的概念建立连接关系。

其次,针对具体的概念,机器需要采用多分辨率来提高机器的泛化能力。我们认为,事物之间的相似性,必须建立的一定的分辨率上。离开分辨率来谈相似性没有意义。在本发明申请中,我们提出对同一概念下建立多分辨特征。这种多分辨率特征是一种塔形结构。位于塔顶的,是那些在同一类概念中,最普遍存在的基础特征。它们通常是事物的整体特征,比如轮廓、纹理、颜等,是一种低分辨率特征。而位于塔底的通常是各个具体事物的各种具体特征,它们通常在同类事物中重复率较低。

在本发明申请中,我们采用记忆和遗忘机制,来建立这样一个基础特征信息的塔形结构。在这个塔形结构中,那些能重复出现的基础特征组合被记忆下来,它们可以是静态或者动态的基础特征的组合,可以包括所有传感器信息,比如图像、语言、味觉、触觉、温度等信息。这些信息通过本发明提出的“关系网络”和“联想激活”方法,构成了彼此存在关系的局部网络。这些局部紧密连接网络就是概念。概念被激活的程度反应了它们被识别的程度。如果概念网络被激活的程度达到预设标准,并在关系网络中“凸显”出来,则认为概念被识别成功,这时发起激活的信息就属于这个概念。

在概念中,所有的基础特征都有自己的记忆值。那些在同一概念下普遍存在的特征,其记忆值因为能够反复重现而不断增加,从而拥有更大的权重。而那些重复性低的特征,其记忆值也低,就会逐渐从相关概念中被遗忘。所以,通过记忆和遗忘机制,机器会逐步建立起某一概念的下的特征信息塔形模型。这些塔形模型是由不同记忆值的基础特征组合而成的。通常,低分辨率的特征,在同类事物中重复次数很高,它们的记忆值也高,它们通常位于塔顶。而那些重复性较低的高分辨率特征,通常位于塔中。而那些偶然的数据,通常位于塔低。在信息识别过程中,在联想激活驱动下,由于高记忆值更加容易被激活,所以通常拥有高记忆值的低分辨率的特征通常更加容易被激活,这和人类识别事物首先是从整体特征来进行识别的方式类似。这些优先被激活的高记忆值特征通常是同类事物中的共有特征。它们所代表的激活记忆信息就构成了机器开始识别输入信息的模型。机器使用这些模型,来分割输入信息特征,产生进一步识别的预期数据区间和预期使用的分辨率来进一步做识别。随着识别的深入,新的信息不断激活新的记忆信息或者调整记忆信息的激活值,那些激活值高记忆信息逐渐向更加匹配输入信息的记忆转移,最终出现特定的概念在记忆中“凸显”出来,达到机器识别的置信度,机器成功的识别出输入信息。

机器识别输入信息的整个过程表现为机器通过把这些已经激活的概念作为模型,通过对比模型和输入,利用决策系统,来确定需要进一步识别的区间和需要采用的分辨率,通过反复迭代的方式来识别更多的输入信息,逐步缩小激活信息的“凸显”范围,这就是机器识别输入信息的注意力机制。上述识别方法可能会存在路径依赖问题,导致机器识别可能出现“先入为主”的现象,这和人类的识别过程是类似的。

识别的另外一个方面是,低分辨率整体特征由于频繁使用,通常和很多其他特征之间存在连接。当低分辨率整体特征被激活后,大量的其他特征可能通过本发明申请提出的“链式激活”而被激活,由于激活通路众多而分散了激活值的传递权重,再加上被激活特征数量众多,这使得被激活的信息中,没有特定节点的激活值显著高于其他概念的节点(没有凸显的节点),从而使得机器需要进一步使用更高分辨率的特征来做二次识别。与之相反,那些较少使用的高分辨率特征,一旦被激活,由于它和其他概念之间连接较少,所以不会出现激活通路众多而分散了激活值的传递权重,所以它的激活值将会直接传递到与之相连的概念上,使得机器能够快速的识别出与之相关的概念(容易凸显出来)。这和人类通过特定的特征来快速识别特定的概念也是类似的。

整体概念包含的特征信息就是一个多分辨率塔形结构,这个塔形结构是按照记忆值高低来建立的。那些记忆值高的特征位于塔顶,而记忆值低的信息位于塔低。在概念中,那些能够反复出现的信息,在记忆和遗忘机制的推动下,通常记忆值高。比如一个概念的语言信息,由于广泛存在于生活中和这个概念相关的场合,它们会因为反复重现而成为一个概念中记忆值最高的信息特征,从而成为这个概念的常用入口。

在本发明申请中,我们提出机器对输入数据的特征提取,是采用逐层概念模型对比的方法来进行的。具体方式为:机器按照上一次思维活动产生的结果,对特定的数据区域,按照预期的分辨率进行基础特征提取。如果上一次思维活动中,没有产生感兴趣的数据区域和预期的事物,那么就按照预设程序或者随机进行选取区域和分辨率进行识别,甚至也有可能完全忽略输入信息。

上述方法是一种模型化数据识别方法,这是因为在机器在学习的初期阶段,对基础特征做了参数化模型建立。在后续的使用中,通过记忆和遗忘机制,对这些参数化模型组合进一步建立起和概念相关的基础特征信息组合。这些广泛存在的基础特征组合由于频繁使用,它们之间的连接关系越来越紧密。当它们之中部分基础特征信息被激活后,其他基础特征都可能因为彼此之间传递激活值而被激活。这些基础特征的组合逐渐表现的和一个整体基础特征类似,所以这些基础特征的组合也逐渐变成新的基础特征。而且在这些组合中,每个基础特征的权重是和其对应的记忆值成正相关的。所以当这些组合被激活后,它们可能存在多种不同程度的激活状态。比如两个通常并不相似的概念之间,可能通过特定的某个低分辨率特征而传递激活值,从而把两个概念都纳入思维范围内,这就是一些幽默、诙谐、隐喻或者歇后语的起源。

同理,本发明申请中,机器不仅仅针对图像数据,也可以针对语音信息和其他传感器信息(比如触觉、温度、重力、味觉和嗅觉等)输入的信息做基础特征提取,并通过记忆和遗忘机制,来把这些信息放入相关的概念中。这些信息也需要建立类似的多分辨率塔形特征信息组合,也同样使用联想激活来进行识别。这些信息也可以通过记忆和遗忘机制来组合成更加复杂的特征组合,这些特征组合同样是一种多分辨率基础特征信息组合的,包含不同记忆值基础特征的塔形结构。

需要特别指出的是,在本发明申请中,提取输入数据的特征,不仅仅包含静态特征,也包含动态特征。这里的动态基础特征是指基本的运动模式,比如摆动、圆周、直线、曲线、波动等广泛存在于我们这个世界中的那些相似的基础动态特征。通过这些特征的组合,和记忆和遗忘机制的优化,机器可以进一步建立更加复杂的动态概念,比如舞蹈、跑步、游行、狂欢概念。这些概念也是由拥有不同记忆值的基础动态特征组合而成的塔形结构。通常那些更加普遍存在的基础动态特征记忆值更高,它们通常是低分辨率特征。这些特征由于广泛存在,所以被激活的概率高,但它们针对具体概念的分辨率就因为广泛存在各种概念中而降低。机器的识别过程通常是从低分辨率的整体特征出发,通过多次逐层提高识别精度来识别,直到满足机器用于“收益”和“损失”估计需求的精度为止。

还需要指出,动态特征的分辨率,不是指对实施运动物体本身的分辨率,而是指区分运动状态的时间和空间分辨率。比如对于语音,基础语音、语速部分可以作为一个静态特征,而音频、音调、语速的变化就是一种动态特征。机器按照不同长度时间窗口对语音滑动取样,就相当于不同的时间分辨率。再比如,运动模式是指机器忽略运动物体本身的构成细节,而重点对比它们的运动模式。例如一个人向我们走过来,或者滑动着过来,或者跑过来,我们在粗略的层面上,甚至不会注意到这些运动模式的差异,所以这个时候,我们认为他们的运动模式是一样的。但当我们增加了空间分辨率,我们发现滑动过来的人是平稳的运动过来的,而走过来的人和跑过来的人,有各种的运动特征,这些特征包括人体的各个部分的相对运动和人体作为一个整体的整体运动,也包括变化的快慢,所以我们会发现他们的运动模式是不一样的。

要解决这个问题,本发明申请提出了动态局部相似性对比方法。具体就是,采用不同大小的窗口跟踪事物的不同部分。比如一个人跑过来、走过来还是滑动过来,我们可以采用不同窗口代表不同的分辨率。比如,当我们采用一个大窗口,把整个人作为一个整体时,我们跟踪这个窗口的运动模式,我们就发现这三种情况下,运动模式是一样的。但当我们采用更小的窗口,把人的双手、双腿、头、腰、屁股等部分分别做运动模式提取时,我们就区别出了这三种运动模式的差异。进一步,如果我们对手部采用更多的窗口去关注手部的运动模式,我们就能得到更加精细分辨率的运动模式。

如果我们把记忆看作是一个包含了无数基础特征节点的立体空间,那么关系网络,就是这个空间中的脉络。关系网络就是指记忆库中所有信息和它们的记忆值,通过联想激活所构成的一张记忆信息之间的“关系网络”。关系网络是机器通过记忆和遗忘机制,从大量的日常学习中获得的“经验”。这些经验可以是机器自身通过记忆和遗忘机制总结的个人经验,也可以是通过学习获得的他人经验(知识)。关系网络代表机器对世界的认知,是机器建立的对外界的“常识”。所以关系网络在机器智能系统中,处于中心位置。

凸显是指联想激活完成后,如果有一个或者多个基础特征组合(包括图形、语音、文字、味觉、触觉等各种信息的基础特征组合)获得一次或者多次激活,其激活值在关系网络中远高过激活值噪声底,也高过其他信息的激活值,被“凸显”出来。机器就把包含这个“凸显”的概念作为识别结果。并用它来组合和分割输入特征信息。机器把这个概念包含的高记忆值信息作为一个模型,使用模型对比的方法来比较输入特征组合,作为判断是否需要进一步识别,或者是否需要进一步识别特定区间,或者是否需要采用特定分辨率来进一步识别的依据。

计算关系网络中的“凸显”时,激活值噪声底可以有不同的计算方法。比如机器可以依据场景中大量的背景特征图节点的激活值作为激活值噪声底。机器也可以采用目前被激活的节点的激活值平均值作为噪声底。机器也可以采用自己预设一个数字作为激活值噪声底。具体的计算方法需要在实践中优选。这些计算方法只是涉及到基本的数学统计方法,对本领域的从业人员而言是公知的知识。这些具体实现方法不影响本发明申请对方法和步骤的框架权利要求。

当激活信息中缺乏凸显的节点时,机器依据相对较高的激活值节点去做决策,这就是依靠“直觉”做决策的方式。所以“直觉”本身并不神秘,它也是建立在大量的信息连接关系之上的,只不过在激活的信息范围中,缺乏突出连接关系。

上述方法就是本发明申请提出的对传感器输入数据做特征提取的方法。

在本发明申请中,对获得的特征信息做存储的方法,内容包括:

机器首先把提取的基础特征,通过缩放和旋转,按照和原始数据相似度最高的位置、角度和大小,来调整基础特征的位置、角度和大小,把它们和原始数据重叠放置,这样就能保留这些基础特征在时间和空间上的相对位置。机器可以存储这些基础特征,也可以重叠存储这些基础特征和原始数据。在本发明申请中,我们主要使用提取的特征,其对应的原始数据可以作为一种备份数据,这种备份数值在需要时,可以再次调用,按照相同的方法再次根据需要来提取特征。所以这两种存储方式,对机器的通用人工智能实现上并没有本质差异。

我们提出一种信息存储的方式:对那些“输入时间上相邻的关系”采用“存储位置在空间上相邻”来表达。信息在存储空间上相邻可以是物理位置上的相邻:就是把时间相邻的信息存储在相邻的存储单元上。信息在存储空间上相邻还可以逻辑相邻:就是采用逻辑位置相邻的方式来存储,而具体的物理存储单元位置由逻辑位置和物理位置之间的映射表来表示。另外的方法还可以是每个存储信息自带自己的存储时间坐标,机器通过搜索相邻的时间坐标来确定相邻的信息。当然还可以有其他的存储方式,但它们都必须能表达出时间上相邻的信息。

机器对信息的存储采用记忆筛选机制:事件驱动机制和临时记忆库机制。机器对基础特征提取后,保留了输入信息的时间和空间信息,并构成了需要存储的记忆。这些记忆可以通过调用,重现部分存储发生时的外部信息,所以这些信息被称之为镜像记忆。因为它们是机器在记忆中对外部空间发生的部分信息所做的镜像记录。

在镜像记忆中,每发生一次事件,机器就把这个镜像记忆做一个快照,保存下来。发生事件是指本次输入信息和上次输入信息之间,通过相似性对比,存在超过预设阈值的变化。这就被称为发生了一个事件。需要指出,发生事件不仅仅是指外部信息,也指机器的内部信息,比如机器自身的监控信息,自己的需求信息发生了超过预设值的改变,也是发生了一个事件,这是机器也需要再次更新记忆。更新的内容包括镜像记忆中的基础特征(包括外部信息、机器状态、需求和情绪等相关信息)和它们的记忆值。

被存储的信息的初始记忆值和存储发生时的它们对应的激活值成正相关,但不一定是线性关系。一次镜像记忆的快照存储数据,我们称之为一个记忆帧。它们像电影帧一样,通过多个帧连续回放,我们就能重现记忆发生时的动态场景。所不同的是,记忆帧中的信息可能会随时间而被遗忘。

记忆库就是指存放这些记忆帧的数据库。而临时记忆库是记忆库的一种,其目的是对记忆帧存储的信息做筛选。在临时记忆库中,如果某一个记忆帧里面包含有记忆值达到预设标准的特征,那么这个记忆帧就可以被移到长期记忆库中保存。长期记忆库既可以是一个单独的数据库,也可以是存储的数据条目上做一个标记,这个标记反映了这个记忆条目采用的记忆和遗忘曲线。那些缓慢变化的记忆和遗忘曲线就代表长期记忆库数据。

本发明申请中,我们采用有限容量的堆栈来限制临时记忆库容量的大小,并在临时记忆库中采用快速记忆和快速遗忘的方式,来对准备放入长期记忆库中的材料进行筛选。机器在面对大量的输入信息时,那些已经习以为常的事物、场景和过程,或者远离关注点的事物、场景和过程,机器对它们缺乏深入分析的动机,所以机器可能不去识别这些数据,或者赋予给它们的激活值很低。机器在按照事件驱动的方式把信息存入临时记忆库时,机器对每个信息特征赋予的记忆值和其存储发生时的激活值正相关。那些记忆值低的记忆有可能很快就从临时记忆库中被忘记,而不会进入长期记忆库。这样我们只需要把那些我们关注的信息放入长期记忆库,而不用把每天琐碎的、不需要再提取连接关系的事物都记忆下来。另外,因为临时记忆库容量有限制,所以临时记忆库也会因为堆栈容量接近饱和而被动加快遗忘速度。

上述方法就是本发明申请提出的对输入数据做存储的方法。

机器利用存储的记忆数据的方法,内容包括:

机器在记忆中寻相关经验时,采用的方法是联想激活方法,它包括“临近激活”原则、“相似激活”原则和“强记忆激活”原则。其中“临近激活”是指记忆中特定的信息激活后,它只能激活它附近的信息。“相似激活”是指记忆中的特定特征,接收其他特征发出的激活信号时,接收能力和彼此之间相似度成正相关。“强记忆激活”是指记忆值越高的记忆,接收其他特征发出的激活信号的能力越强。在这3个原则的基础上,机器就能实现类似于人脑的联想能力。

链式激活是指机器在“临近激活”原则、“相似激活”原则和“强记忆激活”原则的基础上,从一个输入基础特征出发,激活了多个记忆信息的过程。当基础特征输入时,机器通过“相似激活”原则,到相似的基础特征,并根据动机来赋予其激活值。同时,也按照“临近激活”,激活其临近的记忆。而对临近记忆的激活能力,就是按照“强记忆激活”原则来进行。一种可能的实现方式就是激活值传递系数是传递线两端的记忆值的正相关函数。

上述所有节点收到传过来的激活值,并累计上自己的初始激活值后,总激活值大于自己节点的预设激活阈值,那么自己也被激活。也同样采用“临近激活”原则、“相似激活”原则和“强记忆激活”原则来进行链式激活。这个激活过程链式传递下去,直到没有新的激活发生,整个激活值传递过程停止,这个过程称为一次链式激活过程。为了避免两个基础特征之间反复彼此激活,机器需要限制两个基础特征之间发生一次激活值传递后,并不能立即发生反向激活值传递。

另外,为了合理地处理信息输入的先后次序,确保后面输入的信息带来的激活值,不会被前面的信息的激活值所屏蔽,在本发明申请中,链式激活中的激活值,会随时间而递减。因为如果关系网络中的激活值不随时间消退,后面信息带来的激活值变化就不够明显,这会带来信息间干扰。如果激活值不消退,后面的信息输入后,会受到前面信息的强烈干扰。但如果我们完全清空前面信息的记忆值,那么我们又丢失了前后两段信息可能存在的连接关系。所以,在本发明中,我们提出采用渐进消退的方法来实现前后段信息的隔离和连接之间的平衡。这样做的优点是既能维护信息的前后相关性,又能平衡前后信息的权重。而且由于重点信息通常会获得多个渠道赋予的激活值,成为高激活值节点。所以这些重点信息的激活值存在的时间长,它们会更加长久的存在于被激活的信息中,更长时间的参与信息识别和机器决策过程。

激活值消退参数需要在实践中优选。但这带来了维护一个信息的激活状态的问题。当机器面对大量被激活的信息,这些被激活信息中,激活值高的信息就是机器的关注点。如果机器迟迟无法完成信息理解,无法出满足机器评估系统的响应方案,随时间流逝,这些激活值就会消退,导致机器可能失去对这些被激活信息的关注,甚至忘了自己要干什么。这时机器需要把这些关注点的激活值再次刷新。一种刷新方法是:把这些关注点转变成虚拟输出,再把这个虚拟输出作为信息输入,走一遍信息输入流程,来强调这些关注点。这就是人类在思考时,为什么有时候,不理解时或者不到思路时,喜欢喃喃自语,或者自己在心中默念。这种虚拟的输入,和真实的输入流程一样,同样使用联想激活过程,搜寻记忆和更新记忆值。所以,这种方法可以使得机器有意去增加某些特定信息的激活值,也可以使用这种方法让某些特定信息反复出现,增加其记忆值。这就是使用朗读或者默念的方法来增加记忆。另外,在这种情况下,如果出现新的输入信息,机器不得不打断思考过程,去处理新的信息,从而导致关注点丢失。所以,从节省能量的角度看,机器是倾向于完成思维,避免浪费的。这时机器可能会主动发出“嗯…啊…”等缓冲辅助词,或者采用其他方式来发出信息,表示自己正在思维,请勿打扰。还有一种可能是给予机器的思考时间有限,或者信息过多,机器需要尽快完成信息响应,这时机器也可以采用输出再转输入的方式。通过一次这样的方式,机器就强调了有用信息,抑制干扰信息(干扰信息没有被再次输入,其激活值随时间而消退)。这些方式在人类普遍使用,在本发明申请中,我们也把它也引入机器的思维。机器可以根据内置的程序,或者自己的经验,或者两者混合,来确定是不是目前的思考时间超过了正常时间,需要刷新关注信息,或者告诉别人自己正在思考,或者强调重点,排除干扰信息。

由于人类交流最频繁的是语音和文字,所以一个概念的局部网络中,各种特征从关系网络的各个支路获得激活值,它们都可能向语音或者文字传送激活值,所以通常的激活值最高的节点(关注点)就是概念的语音或者文字。所以,机器的自我信息过滤或者强调的方法,虚拟输出通常是语音,因为这是最常见的输出方式。机器输出它们耗能最少。当然,这和一个人的成长过程密切相关。比如,从书本中学习生活的人,有可能是把信息转变成文字,再重新输入。

使用链式激活的搜索方法,利用了语言、文字、图像、环境、记忆和其他传感器的输入信息之中的隐含的连接关系,来相互传递激活值,从而让相关的特征图、概念和记忆彼此支持而凸显出来。它和传统的“上下文”来识别信息的差异在于,传统的识别方法需要预先人工去建立“上下文”关系库。而本发明申请中,我们提出了“相似性、同环境中信息彼此存在隐含的连接”这个基础假设。在这个基础假设上,简化了形形的关系,从而让机器自己去建立关系网络。它不仅仅包含语义,更包含常识。这里需要指出,链式激活是一种搜索方法,它本身不是本发明申请中的必要步骤,可以被其他能达到类似目的的搜索方法所代替。在使用链式激活时,机器可以把每个记忆中,激活值超过预设值的特征图,认为是使用了一次,按照记忆所属记忆库中的记忆和遗忘机制来维护它们的记忆值。

而关系网络中关系脉络的出现,正是因为记忆和遗忘机制,那些不能被反复激活的关系都被遗忘了,而那些能得到反复激活的关系得到了加强。那些通过粗大的关系脉络连接起来的基础特征就组成了概念。它连接同类信息的图像、语音、文字或者其他任何表达形式。由于这些表达形式频繁出现在一起,并频繁相互转换,所以它们之间的连接更加紧密。最紧密的局域的连接关系就构成了基础概念(包括静态特征图及其语言,动态特征图及其语言);比基础概念松散一点的是静态扩展概念和动态概念扩展概念(包括代表关系的概念和过程特征图),比概念松散就是记忆。在关系网络中,那些静态特征图(或者概念)通常就是广泛使用的小零件,而那些动态特征图(包括表示关系的概念)就是广泛使用的连接件,而那些过程特征就是大框架,它是多个小零件(静态对象)和、连接件(动态特征),按照一定的时间和空间次序组织起来的。过程特征是我们可以借鉴的大框架。而动态特征图(包括表示事物之间关系的概念)就是可以具体实施经验泛化的工具,而静态特征图(或者概念)就是在泛化中被替代的对象。

需要指出,联想激活是同步发生在多种分辨率基础上的链式激活过程。机器可以一次提取外部输入信息的多种分辨率基础特征,也可以采用多次提取的方式(每一次提取后进行信息处理,然后再决定下一次提取的区间和使用的预设分辨率)。类似于人脑,从节省能量的角度出发,机器默认是优先提取事物的整体特征,它们通常是低分辨率特征(除非在之前的思维过程中,产生了提取高分辨率局部特征的需求)。比如对于输入的物体图像,低分辨率特征主要是物体的整体轮廓、纹理等基础特征。这些低分辨率特征,在联想激活驱动下,有可能激活很多概念,比如其中最基础的概念可能是 “物体”的概念。还可能通过进一步增加的分辨率,激活这个物体可能的大小、材质、重力、硬度和是否可以移动等相关信息。还可能通过提取到的基础动态特征,识别出这个物体可能的运动方式,进一步通过运动方式激活与之相关的概念,从而进一步识别这个物体。所以上述激活过程通常是一个输入的塔形信息(从低分辨率到高分辨率),在一个关系网络中激活相关概念(而每一个概念本身的信息组成也是一个塔形,不同的概念可能共享各自包含的内容)。不同的概念通过链式激活,从多种路径获得激活值。那些激活值高的概念,优先达到机器预设的置信标准,这时机器就认为识别出了输入的信息。

联想激活存在先入为主的现象。比如拥有同样的关系网络的两个机器,面对同样一个特征图和同样的初始激活值,其中一个机器突然处理了一条关于这个特征图的输入信息,那么这个机器在处理了额外的这条信息后,它会更新关系网络中的相关部分。其中某一个关系线可能会按照记忆曲线增加。这个增加的记忆值在短时间内不会消退。所以在面临同样的特征图和同样的初始激活值时,处理了额外信息的机器,将会把更多的激活值沿刚刚增强了的关系线传播,从而出现先入为主的现象。

这种现象也出现在对输入信息的处理上。比如当我们在输入信息中,识别出一个特征后,相似的特征就可能因为相似性而更容易被激活,并获得更高的激活值。这会使得我们更容易识别出输入信息中的相似的特征。这个现象使得我们容易识别出输入信息中由相似特征构成的整体特征。比如由相同颜或者形状的“点”构成的图案,比如由一连串“点”构成的线。或者由一些离散的小图案构成的大图案。这些相似特征之间的联系使得机器更加易于识别由这些相似图案构成的整体特征。

另外,由于机器是采用模式识别的方式,通过迭代来识别输入信息的。如果机器在识别过程中,通过其他方式激活了某一个概念模型,那么机器在识别输入信息时,就可以优先采用这个被激活了的概念模型作为基础,通过对比这个模型中的信息和外界信息来建立识别过程。这个模型的信息就可能被机器用于对输入信息的分割和归类,从而比较两者之间的相似性。这也是一种先入为主的主观识别偏差。

另外,由于机器是采用模式识别的方式,所以机器通过预置一些模型,这些模型的整体特征拥有高的记忆值,从而更加容易被优先激活,从而在机器的迭代识别过程中优先被识别出来,比如人脸,或者一些机器生活中需要的情绪识别,还可以是危险物体或者危险情况。

机器这些对外界信息识别的方式,和人类的认知方式是类似的,这种识别模式的相似性的根源也许是来自与机器和人类两者的迭代识别过程是类似的原因。

机器建立外部信息和自身需求和情绪之间的关系,内容包括:

人类每达成一个目标,带来收益(比如获得奖励),避免损失(比如生存需求),这是进化带给我们的礼物,这也是人类能够不断发展的动力。我们也可以给机器赋予类似的本能动机,让机器建立自我发展的动力。

为了实现这个目标,本发明提出的方法是:在记忆帧中,机器不仅仅存储了外部输入信息,还存储了其他类型信息。比如机器的内部状态数据、机器的需求和动机、机器的情绪等其他类型数据。机器对这些信息的处理方法和外部输入信息采用一样的处理方法(包括基础特征提取),采用一样的存储方法(比如采用和同时输入的信息按照临近存储原则来存储,同样采用记忆和遗忘机制,采用同样的激活值赋值和初始记忆值产生的方法),采用一样的信息利用方法(比如联想激活方法)。

所以机器对输入信息赋予的初始激活值,也会通过关系网络传播到机器的需求和情绪数据上,产生了被激活的机器需求和情绪数据。机器就可以利用这些数据,进一步激活相关经验和常识,采用趋利避害的方法,来选择自己对输入信息的响应。所以机器的需求和情绪数据,是一类非常重要的“拟人化”数据。

在本发明申请中,我们可以对机器赋予各种动机,这些动机是驱动机器对输入信息做出响应的动力来源。它们是机器行为背后的控制机制。我们可以给机器赋予需求和情绪为例,来说明机器如何根据这些动机来决定自己的行为。机器可以被赋予的动机不仅仅包括需求和情绪,还可以包括其他类型的动机。这些动机类型的差异和多少,不影响本发明申请的权利要求。因为在本发明申请中,所有类型的动机数据都是同样的处理方法。

在本申请所提方法中,机器采用符号来代表各种人类赋予给机器的各种底层需求。比如机器自身的安全需求,追求快乐,希望获得人类的认可,希望得到人类的尊重,拥有同情心,认同社会道德标准,再比如机器自我目标实现(目标达成)带来的自我奖励(成就感),机器对探索未知的好奇心等。这些需求都可以采用一个符号来表示,并且这个符号可以被赋值来表示所处的状态。需求类型的差异和多少,不影响本发明申请的权利要求。因为在本发明申请中,所有的需求都是同样的处理方法。

在本申请所提方法中,机器采用符号来代表各种人类赋予机器的底层情绪。机器的情绪可以多种多样,每类情绪可以使用一个符号来代表,这些符号可以被机器赋值来表示所处状态。这些情绪类型的差异和多少,不影响本发明申请的权利要求。因为在本发明申请中,所有的情绪都是同样的处理方法。

在本申请所提方法中,机器的情绪和机器的需求状态之间的关系,可以通过预置的程序来联系起来。这些预置程序的参数可以通过机器在自身的学习过程中,根据“趋利避害”的原则进行自我调整。

在本申请所提方法中,机器的情绪状态和机器情绪的外显表达方式,也可以通过预置的程序来联系起来。这些预置程序的参数可以通过机器在自身的学习过程中,根据“趋利避害”的原则进行自我调整。

需要特别指出,机器需求满足的情况可以映射到机器的情绪,再进一步映射到机器情绪的外显。但机器的情绪本身,也可以作为一种机器的需求。所以两者可以相互影响。但决定机器动机的底层依据还是预置的底层需求的满足情况。这些底层需求,可能在生活过程中,和各种各样的具体需求建立了连接关系,也产生了和各种事件之间的收益和损失连接值。机器使用这些连接值来做出决策。但这些决策的根源依然是机器的底层需求动机。所以机器的底层需求动机是人类赋予机器发展方向的根本,是需要绝对谨慎设计的部分,尤其是在机器可能拥有的知识和运用这些知识的能力有可能远远超越人类的情况下。

我们所处的世界,事物之间的关系纷繁复杂,人为建立事物之间的各种关系是非常困难的,也难以量化和灵活运用。在本发明申请中,机器是通过记忆/遗忘和主动学习来提取事物之间的关系。

当外部数据或者内部数据输入时,机器会产生响应,这些响应又会得到外部反馈和改变内部状态(比如电量变少)。机器需要通过三个方面来建立行为和奖罚之间的关系,并通过需求和动机来进行自主活动。

第一个方面,通过预置程序来建立机器的需求、动机、情绪和情绪的外化显示。通过预置程序主要是建立机器的底层需求、动机和情绪,比如“遵守机器人公约”、“遵守人类法律”、“保护自己”、“获得主人的认可”等需求。

第二个方面,通过训练来建立底层需求和其他信息的连接关系。在本发明申请中,比如针对“安全”需求,可以在训练的过程中,通过预置的符号(比如语言、动作或者眼神),告诉机器那些环境是安全的,那些环境是危险的,或者可以进一步告诉机器不同的等级。和训练一个孩子一样,告诉它“非常危险”、“比较危险”和“有一点危险”等就可以了。这样,机器就能通过训练,通过记忆和遗忘,逐渐把那些带来危险的环境或者过程中的共有特征,和危险这个内置需求符号的连接强度逐渐增加(因为出现的重复次数增多)。那么当下一次机器处理输入信息时,给予输入信息同样的初始激活值后,有些特征的激活值由于和危险这个符号连接关系紧密,它传递了一个大的激活值给危险这个符号。机器立即意识到危险,会立即根据自己的经验(可以是预置经验或者自己总结的经验)来处理这个危险信息。当然,由于人类已经有大量的经验可以传承,所以在训练中,我们也可以直接告诉机器那些具体的事物或者过程有多大的危险,这是一种给机器预置经验的方法。预置经验可以通过语言来让机器建立记忆帧把危险因素和危险连接起来,安全和危险两个值是告诉机器如何识别安全和危险因素,从而学习如果保护自己。收益值和损失值则是告诉机器哪些行为是我们鼓励的,而哪些行为会被惩罚的,这是一个奖励和惩罚系统。和训练孩子一样,我们只需要在它做出特定行为后,给予奖励或者惩罚就可以了。或者在事件发生之后一段时间,使用奖励和惩罚,并告诉它原因就可以了。再比如人类成长过程中,和利益相联系的一开始可能是“水”,“奶”、“食物”等,后来通过经验总结和学习,人类建立了“考试分数”、“钞票”等事物和收益之间的联系。再后来我们还可能建立收益和“爱情”、“时间”和“生命”等没有实体的东西之间的联系。这些就是底层动机、需求和具体信息之间建立联系的训练过程。

第三个方面,当然我们也可以预置经验(比如直接修改它的大脑神经连接,或者赋予机器虚拟的记忆等方法),来达到赋予机器经验和常识的目的。

同理,机器也可以把自身身体状态评估值和需求与情绪、外部输入信息联系起来,目的是让机器理解自己身体状态评估值和它们之间的联系。比如在下雨天,机器如果发现自己的电量,或者其他性能在快速下降,它把这些记忆存储下来。如果多次重复一样的情况后,机器就会把性能下降和下雨之间建立更加紧密的联系。这些联系在后续机器选择自己的响应过程时,激活下雨这个特征,就会通过联想激活过程传递给损失这个符号较大的损失值。而损失值是机器用于评估选择什么样的响应的指标之一,所以机器就可能倾向于选择排除下雨带来损失值的方案。

机器的情绪是机器和人类交流的重要途径。所以在本发明申请中,我们把机器的情绪也纳入考虑。人类的情绪反应,是对自己需求是否被满足的一种与生俱来的反应,但通过后天的学习,我们逐步学会了调整这种反应,控制这种反应,甚至隐藏这种反应。同理,我们通过预置程序,把机器的情绪和机器的需求是否被满足联系起来。比如,识别到危险时,机器的情绪是“担心”、“畏惧”和“恐惧”,这要看危险程度有多大。比如机器的各个内部运转参数都在正确的区间,带给机器的是“舒适”、“放松”等情绪。如果有些参数脱离了正确的区间(相当于机器生病了),机器的表情可能是“难受”和“担心”。所以,采用这样的方法,我们可以把人类拥有的所有情绪,赋予给机器。而情绪本身,是通过机器的面部表情和肢体语言来表达的。同理,机器的这些本能情绪,会受到奖励和惩罚机制的调整。机器在生活中,在不同的环境或者过程中,训练者可以不断告诉机器,它的情绪表现,哪些受到奖励,哪些受到惩罚。也可以直接告诉它,在特定或者过程中,合适的情绪是什么。当然也可以直接修改它的神经网络连接来调整它的情绪反应。所以,通过这样的方式,机器可以把情绪调整到和人类相似程度。

而进一步,由于情绪和其他记忆是存放在一起的,在同一个记忆中。当机器需要某种结果时,它会模仿带来这个结果的记忆。比如某一类行为带来某种结果能够重复出现,那么机器就会模仿包含这类行为的记忆,当然也会模仿这些记忆中的情绪,所以它会为了某种目的而调整自己的情绪。这是一种情绪的利用的方式。所以机器的情绪不仅仅是被动显示,它还是一种机器可以利用的手段。而机器正是通过评估各种收益和损失相关的情绪连接信息,在趋利避害的方式下,调整自己预置的情绪表达参数,来实现利益最大化。

所以,在本发明中,我们只需要把奖励和惩罚与所有的外部和内部信息一起放入记忆中,机器就能把这些奖励和惩罚信息纳入自己的思维中,而不需要去建立各种“规则”来告诉机器该怎么识别环境、该做些什么和如何表达情绪,这实际上也是不可能完成的任务。

需要指出,通过本发明申请所提出的方法而建立的机器智能,其思维和情绪对人类而言,是可见的可控的,是完全可以通过再现决策过程来理解的,它们是通过联想激活来连接起来的。所以这样的机器智能,因为思维过程是可见的,所以我们可以避免黑箱思维给人类带来危险的情况。这也是本发明申请所提出的通用人工智能实现方法的一个特征。

机器建立对外部或者内部信息的理解和响应决策,内容包括:

激活信息的重建。

语言在机器智能中扮演了重要的角。语言是人类为了更好的交流经验而建立的一套符号。每个符号都代表一些具体的事物、过程和场景。当语言输入时,语言所代表的相关记忆被激活。这些记忆既可能有语言本身的信息,也会有关于语言使用方式的记忆被激活(比如强调重点的语音强调方式或者文字强调方式,比如表示不信任的语气或者嘲弄的语调等)。这些被激活的信息构成了一个激活信息流。为了平衡语言的前后关联和目前语义识别,被激活的信息的激活值会随时间而衰退。衰退的参数和机器的动机以及状态(比如需求和需求状态,情绪和情绪状态)相关。

语言的链式激活实现了所有输入信息的上下文关联识别。这里的输入信息既包含环境信息,也包含被激活的记忆信息。这些信息的相互激活赋值,就体现了上下文关联。这种关联比统计生成的语义库内容更加广泛。它不仅仅涉及到语言,更涉及到所有的感官输入和相关记忆。所以机器可以实现语言到静态和动态图像、感觉、需求和情绪之间的连接,也实现语言到相关语言和记忆的连接。当这种连接被纳入机器对语言输入的理解中,并根据对语言的理解,根据相关经验做出响应,就体现了机器真正的理解了输入语言的真是含义。

语言输入构成了一个输入信息流,而对应的激活记忆也构成了一个激活信息流。机器在理解语言时,需要重建这个激活信息流,构成一个想象中的过程。这是因为一个输入信息可能激活多段相关记忆。机器需要整合这些多段相关记忆来做出决策。

机器对这些信息的整合是采用一种分段模仿,并建模的方法来进行的。具体方法是:这些被激活的信息中,激活值高的那些信息通常是整体性的框架信息,它们通常是一些低分辨率整体特征。机器使用这些低分辨率整体特征作为信息流的模型框架。然以把更多输入信息或者被激活的记忆信息逐层加入到这个模型框架中,构成机器对输入语言信息的理解。

这个框架可能产生多种输出。比如典型的一种输出是“环境信息”。机器把自己记忆中相关信息,按照记忆值高低,组合成一个塔形结构,然后把输入的信息,模仿记忆中类似的信息组织经验,加入到这个塔形结构中,构成了一个整体“环境信息”,从而在“头脑”中,勾勒出一个和语言相关的环境。然后机器利用这个“环境信息”来理解信息和做出决策。

需要指出,这个创建的“环境信息”中的事物和机器记忆中实际具体事物的观察角度可能是不一样的。这是因为机器需要根据自己对形状进行旋转、缩放等不同角度变换后的理解,对记忆中实际事物做了角度和大小处理,从而使得这些事物能够符合整体大框架的需求而做出的折中。

而整体大框架的需求,又是来自于机器对类似场景进行记忆和遗忘机制优化后,保留下来的高记忆值特征组合。这些高记忆值特征,通常是这一类场景中共有的特征,它们是通过记忆和遗忘的优化,和这类场景相关概念的其他信息建立紧密连接关系。所以机器对信息的整体识别,本质上是使用输入的基础特征来激活相关的模型,然后通过不断和被激活的模型作对比来识别信息。而这些被识别出来的模型,整体上就构成了整体模型框架。机器不断把更多的输入信息加入到这个模型框架中,构成想象中的过程。

环境信息是一种静态的重建,环境信息不仅仅包含地图环境,它包含环境中所有的事物。

另外一种典型输出是“动态流形”。动态流形是值机器对输入信息建立动态过程。这个过程通常是建立在“环境信息”之上的(也可以没有环境信息)。这个过程是机器通过按照记忆值高低,把相关的动态特征组合成一个塔形结构,然后把输入的动态信息,按照记忆中激活值最高的方式加入到这个塔形结构中,构成了一个整体“动态流形”,从而在“头脑”中,勾勒出一个和语言相关的动态过程。然后机器利用这个“动态流形”来理解信息和做出决策。在动态流形中,具体做出动态的物体本身可以是抽象的,可以使用点、线、面、体或者模糊的低分辨率轮廓来代替。而机器建立动态流形的目的是分析动态过程,所以不需要清晰的发起或者操作对象的特征。

需要指出,这个创建的“动态流形”中的事物和机器记忆中实际具体事物的观察角度也可能是不一样的。这是机器根据自己对运动轨迹的旋转、缩放等不同角度变换后的理解,对记忆中实际动态轨迹做了角度和大小处理,从而使得这些动态特征能够符合整体大框架的需求而做出的折中。

而整体大框架的需求,又是来自于机器对类似动态构成进行记忆和遗忘机制优化后,保留下来的高记忆值动态特征组合。这些高记忆值动态特征,通常是这一类动态场景中共有的特征,它们是通过记忆和遗忘的优化,和这类动态场景相关概念的其他信息建立了紧密连接关系。所以机器对动态信息的整体识别,本质上是使用输入的基础动态特征来激活相关的动态模型,然后通过不断和被激活的动态模型作对比来识别信息。

需要指出,静态的模型“环境信息”和动态的模型“动态流形”两种是结合在一起的,是同步进行的,两种的调整过程是相互支持的。这里是为了描述方便而分离了两个过程。比如:我们听到“一只狗在花园里”,我们就能建立一只我们常见的狗的低分辨率形象。这个形象是我们记忆中“狗”概念所连接的高记忆值图形,这些图形通常是我们见到的狗的共有特征,因为被反复激活而获得高记忆值。这些共有特征对分辨具体的狗而言,是一种低分辨率特征。我们也可以建立花园的低分辨率形象。这个形象建立过程也类似于狗形象的建立过程,它是我们见到的所有花园相关的场景的共有特征,因为被反复激活而获得高记忆值。这些共有特征对分辨具体的花园而言,是一种低分辨率特征。如果我们听到“跑来跑去”就可能建立“狗”在“花园里”跑来跑去的想象,由于缺乏细节,我们可能建立的只是激活值比较高的低分辨率狗的形象,花园的信息和跑来跑去的动态形象。这时“跑来跑去”这个动态特征就可能反过来传递激活值到“狗”的概念上,从而进一步增加了机器对前面信息“一只狗在花园里”的置信度。由于关于花园和狗的相关记忆很多。在这段语言输入中,由于缺乏进一步的细节信息,所以只有那些广泛存在于“花园”和“狗”信息中的共有信息特征被激活。这是因为这些共有特征被多次激活而获得高的记忆中,按照联想激活方法,它们更容易被激活。这些激活后的信息,通过重组来建立了一个环境信息(狗和花园)和动态流形(跑来跑去)。

尽管这个观察角度可能和所有记忆中的花园和狗的记忆都不完全吻合,但机器是模仿自己的常识来创建这个场景的。所以机器的智能的基础是通过学习、记忆和遗忘来逐步建立常识,而常识就是体现在关系网络中的连接关系中。

而这些被识别出来的模型,整体上就构成了整体模型框架。机器不断把更高分辨率的输入信息加入到这个模型框架中,所创建的想象中的过程就会越来越具体,甚至最终定位到一个特定的花园和一只特定的狗的场景,甚至定位到某一次在这个花园里,这只狗跑来跑去的信息。所以信息的重建过程,是一个激活范围不断扩大,环境信息和动态流形不断细节化的过程。机器只需要确定一个大致的激活值标准。在这个激活值标准之上的信息就被纳入分段模仿来重建环境信息和动态流形,在这个激活值标准之下的信息则不参与这个过程,机器就可以建立一到多个事物、场景和过程,它们都可能包含环境信息和动态流形。

在这个创建过程中,如果存在无法加入的信息,机器则不得不重新根据这些特定的信息,来确认信息是否准确,或者来调整自己的模型,或者重建自己的模型,这些都是机器对输入信息响应的一部分,在后续说明。

所以在本发明申请中,模型就是被激活的记忆中,激活值最高的基础特征组合构成的概念组合。而概念本身是一个开放的局部网络,在不同的激活值阈值下,概念本身包含的内容是不同的。整合方式就是把多段记忆中,可以重合的部分整合起来,构成一个框架。而整合的基本方法就是分段模仿。比如对一个环境的重建,就是把多段记忆中被激活的场景整合起来,这些场景可能是被激活的同一个场景,也可能是被激活的相似场景。。

同理,采用相同的方法,机器也可以把输入的非语言信息所激活的相关记忆、需求状态、情绪状态等信息和机器自身目前所处状态信息整合起来。所以机器建立“环境信息”和“动态流形”所使用的材料不仅仅是语言,也包括其他形式的输入信息。所以语言和非语言信息都是采用同样的整合方法,来把被激活的信息整合在一起,构成对信息的理解。

机器预测能力的产生。

机器预测的本质是一种统计行为。机器的预测,就是根据过去的经验,或者过去类似的经验,来推测事物发展的各种可能性以及对应概率,或者他人的行为的各种可能性以及对应概率。

当信息输入后,机器不需要去穷尽预测所有可能的结果,这也是无法完成的任务。机器只需要评估那些被激活的、和输入信息相关的经验,曾经发生过的事件,或者曾经发生过的类似事件,它们可能给自己带来的收益和损失。而机器激活的记忆,包含了和输入信息存在联系的信息(联想激活),包含了和输入信息类似的记忆(相似原则),也包含了这些信息前后的记忆(临近激活),还包含了那些记忆深刻的记忆,比如带来了大的收益和损失的记忆(强记忆原则)。这相当于机器利用了自己的常识来限制了搜索最优响应路径的搜索范围,从而把一个开放性的问题转变成在一定范围内搜索最优路径的问题。而在一定范围内搜索最优路径的问题是目前人工智能已经可以解决的问题。

在这个有限的范围内,事物的发展可以通过经验来推测。具体方法就是对输入信息赋予初始激活值,然后通过联想激活过程,把过去的记忆和相关输入信息联系起来。而每一种发展结果可能给自己带来不同的收益/损失和情绪状态,这些信息都存在于关系网络中,通过联想激活过程被一并激活。这些收益/损失和情绪状态获得的激活值,就是可能带来的收益/损失和情绪状态值。

有了每一种可能性给自己带来的收益/损失和情绪状态等和动机相关的信息后,机器可以采用目前任何人工智能预测方法,比如贝叶斯估计、蒙特卡洛搜索、决策树、基于规则等机器推理的方法,来从各种可能的发展路径中寻对自己最有利的路径。

因为机器的目的就是“趋利避害”,所以机器对输入信息的响应基本出发点就是根据过去的经验,做出自己的响应,尽可能让那些产生“收益”的事情发生概率变大,尤其是那些能获得很高收益值的情景。而让那些产生“损失”的事情发生的概率减小,尤其是那些能带来巨大损失值的情景。所以机器在权衡利弊的动机推动下,根据经验来组合自己的响应,来达到“趋利避害”的目标。

机器的决策,是基于机器的预测能力之上的路径规划方法。而路径的目的就是利益最大话,损失最小化。有了预测能力,机器就把决策和响应这样一个完全开放性的问题,转变成了一串如何让一定范围内的事情发生的概率增加或者减小的相对封闭的问题。而由于在前面的步骤中建立了常识,所以每一件事情发生时(这是因果关系中的果),与之相关的条件(这是因果关系中的因)通过关系网络就可以得到。那些存在强关联的因果关系由于一次次重复发生,所以它们在关系网络中的连接关系很强。所以关系网络就可以逐层表达因果关系。

每一步决策的目标都是让事情的发展方向“趋利避害”。这是一个和外界互动的过程。而互动本身就是一种依据过去的经验,来推动事情的发展方向“趋利避害”。通过互动获得的信息和行为,来不断提高收益值高的事件发生的概率,来不断降低损失值高的事件发生概率。这是一个迭代过程。但每一步都是处理的方式都是一样的。机器在因果链的基础上,逐层提高那些通向收益值高的事件发生的概率。这类似于链式激活过程,一步步激活那些通向高收益路径上的事件,而小心的避免那些可能通向高损失值的事件。

由于路径之间的因果联系的概率由关系网络来表达,所以整个机器的响应规划问题就变成了在因果链网络中寻最优路径问题,而这正是目前的机器智能已经解决了的问题。举例说明,机器通过搜索记忆就能确定一个事件(比如带来高收益值或者高损失值的事件)的先验概率。然后通过关系网络就能确定某一个条件和该事件之间的因果强度(后验概率)。而不同条件之间在关系网络中的连接强度,就能反映不同条件之间是否独立。而机器只需要挑选一些相对彼此独立的条件,通过朴素贝叶斯算法,就能预测出该事件发生的概率。机器可以根据计算出来的概率来决定自己的响应。这些响应可以有各种形式,比如:提高这件事请发生的概率,或者降低这件事情发生的概率,或者不去影响这件事情发生的概率。这取决于这件事是给机器带来的收益值和损失值。而提高或者降低这件事情发生的概率,又可以进一步规划为提高或者降低和这件事发生概率相关的条件发生的该概率。这个过程本质上是一个迭代的概率路径搜索问题。

举例说明:如果机器的响应是进一步确定可能的收益和损失。首先,机器根据记忆中,在和目前情况类似的情况下,各种可能结果的概率作为先验概率。然后根据每一个结果相关的条件和结果之间的后验概率来计算各种收益值和损失值发生概率。然后,机器就产生了下一个目标,进一步确定每个条件发生的概率。比如这时机器的响应可以是(a)搜索和统计每一个条件和对应收益值和损失值发生事件之间的后验概率。然后用于更新整体收益和损失评估。这可以通过搜索关系网络之间的连接强度来完成。(b)进一步更新目前某一个条件发生的概率。比如根据模仿过去的经验,直接询问信息源关于某一个条件是否已经发生或者可能发生的概率。或者通过其他途径获取某一个条件是否已经发生或者可能发生的概率。这取决于机器学习过程中获得的行为模仿记忆。(c)根据趋利避害的原则,把某些和收益、损失联系密切的条件推动其发生或者避免其发生作为新的目标。在新的目标驱动下,采用同样的评估过程,进行响应。通过这样的迭代响应,最终目标依然是获得收益和避免损失。

所以,当信息输入时,我们通过关系网络确定的因果联系,通过趋利避害原则,通过机器在关系网络中建立的事件和“收益”、“损失”之间的关系,就可以把看似完全开放的机器对信息输入的响应,变为多级目标。这些目标都是为提高某些事件发生的概率,或者降低某些事件发生的概率服务的。所以,通过关系网络的因果关系,机器就可以把趋利避害的目标转变成具体情况下的一连串彼此关联的目标。这些目标就构成了机器最大化收益,最小化损失的实现路径。

在这个过程中,机器做出响应后,可能通过不断寻新的信息,或者不断被动获得新的信息,并利用新信息和结果之间的后验概率来更新目标路径。机器在对自身响应后可能的外界反馈预测,同样包含激活两类动机状态记忆。一种是自身处于重现记忆中的需求和情绪状态,它来自于被激活的记忆中关于自身的各种感觉和情绪。一种是自身处于观察者角度观察类似情景时的需求和情绪状态,它来自于被激活的记忆中观察他人在类似情景下,机器产生的各种感觉和情绪。所以机器在预测“收益”和“损失”时,是同时从自身的观看角度和从他人观看的角度,来同时评估一个事件对自身带来的“收益”和“损失”。

机器的预测能力,不仅仅包括预测一件事情可能带来的“收益”和“损失”。还可以预测在“收益”和“损失”驱动下,自己或者他人可能采取的响应,以及他人做出响应后对自己的“收益”和“损失”带来的影响。这些都是通过统计关系网络中,相关的需求和情绪状态等动机状态值而获得的。所以,机器的评估结果是随更多的输入信息而动态变化的。机器的决策和响应过程,是一个动态的路径规划过程。它是基于经验响应和基于收益和损失的概率计算来联合驱动的。

通过上述方法,机器通过层层迭代分解的方式,就可以把一个抽象的趋利避害目标,在特定输入条件下,层层分解成大量的提高或者降低某些具体事件发生的概率的任务。这些任务可以层层细分到非常具体的目标任务,比如一直分解到机器的底层驱动能力。这个过程就是机器的决策和响应系统。

由于世界的复杂性,机器很难刚好得到和目前情况一样的经验。所以机器对经验的使用,是采用在很多段经验中,选出可以用于现实情况下的经验片段,使用这些经验片段作为基础,通过泛化来利用输入信息和记忆信息。这个过程被成为分段模仿,它的本质是一个使用记忆和输入信息重组的过程,是一个创造的过程。分段模仿中,机器挑选用于现实情况下的经验片段的方法,就是根据记忆中的激活值高低来选择。那些和输入情况相似度高,存在和输入信息有共同元素的记忆,其激活值更高。所以机器在很多具体的经验中,挑选那些高记忆值片段,就是选出了可以用于现实情况下的经验片段。而使用这些经验来泛化,是按照 “属于同一个最小概念下的记忆中高激活值和输入信息中高激活值元素可以基于动态过程或者表示关系的连接概念来相互替换”的泛化原则。泛化的基础通常是动态特征或者表示物体之间的关系特征。因为这些特征和具体的事物无关,它们广泛存在于我们的生活中,在不同具体事物之间都存在,所以它们的记忆值也高,它们会常常被选择成为框架信息。所以通过这样的框架桥梁,通过同一个最小概念下被激活的事物,通过激活值较高的事物代替激活值也较高的事物来泛化,通常就是正确的途径。机器借用这些过程框架,通过泛化增加上细节,就构成了形形的新过程。

机器通过提高参与信息重建的激活值阈值,先到那些具有概括性的低分辨率高记忆值作为框架过程。这些高记忆值存在广泛的连接关系和广泛的代表性(所以它们才能获得高记忆值)。然后逐步降低参与信息重建的激活值阈值,在框架中填入更多的被激活的信息和输入信息。这个过程就是从另外一个角度来定义分段模仿。分段模仿是一个迭代过程,每一个上层环节,通过分段模仿展开成符合现实条件的多个下层环节。然后在分段模仿过程中,继续采用一样的方法,把每一个下层环节,再次展开成符合现实条件的多个更下层环节。这个过程不断迭代,直到机器能够组合一个响应,并利用这些经验片段所连接的收益和损失值来判断总体可能的收益和损失值为止。

机器在规划了响应路径后,为了进一步分析可能带来的结果,机器可以采用虚拟输出和虚拟输入的方法,来进一步评估自己的决策过程。这个过程就是把规划的输出,作为一个假设发生了的输入信息。在组织这个假设的输入信息时,依然是采用建立“环境信息”和“动态流形”的方式来组织相关信息。这个假设的输入信息,和真实的输入信息作一样的处理流程。它会进一步激活相关的经验,并再次走分析过程,这样就排除了那些在初次输入中可能的干扰信息。机器通过这样的方式,对规划的进行更加深入分析,这个附加的分析过程次数可以是零次到多次,这取决于机器对潜在的收益和损失评估的大小和概率。上述再次评估的次数,可以采用预置程序实现,这些预置程序的参数可以通过机器在学习中,按照“趋利避害”的动机,根据不断更新的经验中利益和损失值以及它们在各种条件下可能发生的概率变化去调整。

机器执行对外部或者内部信息的响应过程,内容包括:

建立模仿能力。模仿能力是人类存在于基因里的能力。比如对一个呀呀学语的孩子,如果每次他(她)回家后,我们和他(她)打招呼,说“你回来了”。经过几次后,当他(她)再次回家时,他(她)会主动说“你回来了”。这表明他(她)在并不理解信息含义的情况下,就已经开始模仿他人进行学习。同理,我们让机器学习也采用同样的方法。所以,机器需要把模仿作为一种底层动机置入机器。使得机器愿意模仿他人(他机器)的行为,并根据自己的评估或者外界的反馈信息来不断改进,从而不断锻炼自己的各种感官、肢体、语言和动作的协调一致的能力,从而提高学习效率。在机器学习的不同阶段,我们可以给机器赋予不同强度的模仿动机。比如在机器学习语言和动作输出时,我们可以给机器直接赋予较强的模仿动机,而在其他阶段,则可以赋予正常的模仿动机。

当机器获得外界的语音或者动作输入后,这些语言或者动作会激活机器自己的相关记忆。这些记忆可能是一个相似的发音,或者一个基础的动作片段。这些记忆会进一步激活和这些记忆相关的感觉信息、需求和情绪信息、语言或者动作记忆。机器在模仿动机的驱动下,会以这些被激活的记忆为基础,通过决策系统来通过调整经验中的底层驱动参数来做出类似的语音输出或者动作输出。而底层驱动是指语音输出底层经验,或者动作输出底层经验。它们是特定语音或者动作对应的肌肉驱动命令,其中参数是通过后天学习并不断通过反馈来更新的。

机器建立预置的能力。人类可以给机器预置一些最基本的语音或者动作(包括表情和肢体语言)能力。它们的参数优化可以通过后续学习和训练,让这些参数和行为的结果通过记忆联想起来,并通过情绪和需求系统(受到自我或者外界反馈的影响)来不断调整,最终在底层动机的驱动下,机器通过记忆和遗忘机制,获得在不同外部信息激励下的不同参数之间的关系,形成记忆。这些记忆都是机器在面对外部信息输入时的知识和技能。它们包括语言、动作、表情、肢体动作等行为习惯。

人类还可以给机器赋予预置的条件反射系统。这些系统的作用就是在特定的输入情况下,人类希望机器做出的响应。比如机器在危急情况下的躲避动作,或者机器在特定信息输入下的特定输出动作(比如这些条件反射系统可以达到用于机器的自检,或者紧急停机,或者调整机器的工作状态等目的)。

机器建立执行过程。在有了以上各种基础能力后,机器才能够根据自己的决策,来具体执行响应。比如语言输出、动作输出(包括表情和肢体语言输出)或者其他形式的输出(比如输出数据流、图像等)。执行响应步骤是一个把规划翻译成实际输出的过程。

如果在选择各种可能的响应步骤中,机器选用的是语音输出,这就比较简单,只需要把准备输出的图像特征,通过概念内翻译转变为语音,然后利用关系网络中的语言之间的关系(存在于关系网络中的语法知识),组织成语言输出序列,并调用发音经验来实施就可以了。需要指出,机器可能根据经验(自己或者他人经验),选用一些表达整个句子的动态特征(比如使用语气、音频音调或者重音变化的不同运动模式,来表达疑问、嘲弄、不信任、强调重点等人类常用方式。这些方式通常是一句话或者整段语音的低分辨率特征)。因为机器是从人类生活中学习到这些表达方式的,所以人类任何表达方式,理论上机器都可以学习到。

如果机器选用的是动作输出,或者是语音和动作混合输出,那么问题就会变得复杂很多。这相当于组织起一场活动。机器的响应规划中,可能只有主要子目标和最终目标,其余都需要在实践中随机应变。

机器需要把准备输出的序列目标响应,按照这些目标涉及到不同的时间和空间,对它们在时间和空间上做划分,便于协调自己的执行效率。采用的方法是通过选择时间上紧密联系的目标和空间上紧密联系的目标作为分组。因为动态特征图和静态特征图结合后构成的信息组合,其相关记忆的环境空间是带有时间和空间信息的,所以这一步可以采用归类方法。这一步相当于从总剧本改写到分剧本。

机器需要把每个环节中的中间目标,再次结合现实环境,采用分段模仿的方法,来逐层展开。机器在顶层提出的响应规划,通常只是使用概括性很高的过程特征,和概括性很高的静态概念组成的(因为这些概括性很高的过程才能到多个相似的记忆,所以借鉴它们建立的响应也是高度概括的)。比如“出差”这个总输出响应下面,“去机场”是一个中间环节目标。但这个目标依然很抽象,机器是无法执行模仿的。

所以机器需要按照时间和空间划分,把在目前时间和空间中,需要执行的环节作为目前的目标。而把其他时间和空间的目标作为继承目标,暂时放到一边。机器把中间环节作为目标后,机器还是需要进一步细分时间和空间(再次写下级分剧本)。这是一个时间和空间分辨率不断增加的过程。机器把一个目标转换成多个中间环节目标的过程,依然是使用决策能力,分析各种可能的结果和可能发生的概率,并按照“趋利避害”的原则来选择自己的响应的过程。上述过程是不断迭代,每一个目标划分成多个中间目标的程是完全相似的处理流程。一直要分解到机器的底层经验为止。底层经验对语言来说就是调动肌肉发出音节。对动作而言,就是分解到对相关“肌肉”发出驱动命令。这是一个塔形分解结构。机器从顶层目标开始,把一个目标分解成多个中间环节目标。这个过程就是创建虚拟的中间过程目标,如果这些中间过程目标“符合要求”就保留。如果“不符合要求”就重新创建。这个过程逐层展开,最终建立机器丰富多彩的响应。

在这个过程中,机器随时可能碰到新信息,导致机器需要处理各种信息,而这些原来的目标就变成继承动机。这就相当于组织活动的过程中,不断碰到新情况,需要立即解决,否者活动就无法组织下去了。于是导演叫停其他活动,先来解决眼前碰到的问题。解决后,活动继续进行。另外一种情况就是在这个过程中,导演突然接到一个新任务,于是导演权衡利弊后,决定活动先暂停,优先处理新任务。

机器是一边执行可以进行的模仿任务,一边分解其他目标到更细致目标的。所以机器是边做边想的。这是因为现实情况千差万别,机器不可能事先都知道外界情况而做出计划。所以这是一个环境和机器互动来完成的一个目标的过程。

至此,机器利用上述各项能力就可以完成一次对输入信息的理解和响应。这个过程作为机器和外界互动的一个最小周期。机器不断重复是使用这个过程,来完成更大的目标,表现为机器和外界的持续互动过程,表现出机器智能。

机器自我经验总结,内容包括:

机器的经验,不仅仅是通过记忆和遗忘机制来形成关系网络中的连接,机器还可以主动强化这种连接。这种主动强化连接可以表现为多种形式:比如通过语言学习他人的经验。机器把语言激活构成的信息流,和语言一起构成了学习到的他人的经验,并把这个信息流作为一种虚拟的经验存储在记忆中。而这种经验是作为新输入信息存入记忆中的,它们也是记忆的一部分。再比如,机器对那些和收益和损失关系连接紧密的信息,通过模仿他人的经验,通过重复记忆来主动把这些记忆变成长期经验。

机器也可以采用预置算法,把那些能够重复出现,并且能够较大的影响收益和损失的记忆,通过把对应事件的信息做虚拟的输入,重新走一遍虚拟的处理过程,强化了关系网络中相关的连接,从而增强了经验。在这个增强的过程中,类似经验中的那些共有部分之间的连接可能逐步增强,所以经验会变得越来越简洁和通用,最终形成某种机器自我总结的规则,这就是机器自我创建的新知识。

本发明申请的第二个方面:如何让通用人工智能如何变得和人类类似,从而能够和人类更好的互动。主要方法包括:

1,建立类似于人类感知器官的传感器组。

在机器人中,比如执行安保、生产等任务的机器人,它们可以针对自己的工作环境,优化传感器组成,比如采用360度视角,采用轮式移动等。而那些承担和人类互动,比如服务、护理、政务等工作的机器人,则需要拥有和人类相似的传感器,这样才能更好的理解人类的语言和动作,比如“当面一套,背后一套”,对于一个360度视角的机器人可能很难产生正确的感受,而对于一个和人类相似视角的机器人,则可以通过学习获得对这个语言的正确理解和感受。再比如“迈开大步往前走”这样的寓意,对一个轮式机器人可能就比较难以理解。

所以本发明申请提出采用与人类相似的传感器,来训练机器理解众多和人类自身感知方式相关的信息。具体方法为:

采用双目视角,双目位置、间距和视角范围来模仿人类双目。

模仿人类的双耳听觉传感器,包括位置、间距、听觉能力的模仿。

采用全局脚底压力传感器阵列,通过脚底传感器的输入信息,来学习和调整重心。

采用全身的温度传感器,来感知外界温度。

采用重力传感器,来感知重力方向。

采用全身触觉传感器,来感知全身压力和触觉。

采用类似于人类的嗅觉传感器,来识别气味。

采用类似与人类的味觉传感器,来识别味觉。

建立类似于人类的疲劳指数,来反应机器的疲劳程度。

机器的全体骨骼关节采用张力传感器,让机器更好的确定关节张力。

机器的四肢安装加速度传感器,感知四肢运动的加速度。

机器需要建立自身的监控系统,用于检测自身的姿态模式。

机器还可以根据特定应用,增加相应的传感器组。

上述传感器,尤其是全身温度、压力和触觉传感器,可以按照人类的传感器密度分布来进行相应的分布,比如手掌和手指尖和足趾指尖、面部可以密布传感器,而其他位置则可以相应的减少传感器的密度。

2,通过关系网络利用这些传感器数据。

上述传感器的数据,按照本发明第一方面所述方法进行处理后,和其他同时输入的信息一起存储在记忆中,并赋予其记忆值,并通过记忆和遗忘机制来建立彼此的连接关系。这些信息的记忆值是传感器获得值的强度和机器自身需求和情绪状态的函数。这个函数可以采用预置的方法,具体的函数形式需要通过实践来优化。通常其记忆值和传感器获得值的强度成正相关(不一定是线性相关),同时机器也可以通过自己需求和情绪状态来调整预置的传感器获得值到记忆值函数的映射参数。

上述所有传感器数据和记忆连接后,机器就可以根据经验来不断修正自己行为,从而达到更好的收益和损失评估。比如,在四肢运动时,机器不再需要细致地采用算法来计算运动轨迹和加速度,而是通过实践,在预置的初略底层运动程序控制下,不断的运动,感受到全身关节的张力,感受到运动肢体的加速度变化,感受到运动肢体的温度的细微变化,感受到运动肢体和空气之间的压力微小变化,从而总结出不同环境下的运动方式的经验。

这些经验同样是一种多分辨率塔形模型。比如,机器去拿一只装满水的水杯。那么在低分辨下,机器首先执行的是去拿一个物体的经验。而拿一个物体的经验是广泛存在于机器的运动经验中,所有那些不断重复的动作经验得到很高的记忆值,机器首先调用这些经验,发起对手部的底层运动指令。然后,机器通过手部、全身关节传回来的数据,和被激活的经验中,那些获得成功的记忆中,相关的手部、全身关节的记忆数据相比较,把差值作为一种误差,通过负反馈来调整自己的手部动作。这些对比数据就包括全身关节的张力、运动肢体的加速度,运动肢体感受到的温度变化,运动肢体和空气之间的压力微小变化等数据。这些数据的差异会激活机器之前的经验,通过这些经验,机器使用负反馈来调整自己的运动底层指令。同理,这些数据也可能激活那些带来失败的运动记忆。这些失败的运动记忆连接有损失值记忆。所以机器按照决策系统,会调整自己的全身的运动状态,使得机器获得全身的传感器数据尽可能靠近成功经验,远离失败经验。这个过程是一个迭代过程,机器通过模仿成功经验和避免失败的经验的一系列过程数据,来提高成功率。机器具体执行时,由于是去拿一个水杯,所以水杯相关的记忆和经验也会被激活。那么“易碎”、“需要平稳”、“可能烫手”等概念也可能被激活。于是机器在运动中进一步加入这些高分辨率信息,从而寻到包含更多相似细节的肢体运动经验。机器通过模仿这些经验中成功经验,避开那些失败经验,从而获得成功。

在这个过程中,机器可能进一步增加更多的高分辨率信息,比如“这是一只昂贵的水晶杯”等信息,那么机器就可能进一步细分和寻相关经验。假如机器并没有关于拿一只昂贵的水晶杯的经验,但机器有“拿东西”的经验,有“拿贵重东西”的经验,有“玻璃杯易碎”的经验(而这个经验会通过水晶杯和玻璃杯的相似性而被激活),有“碎了就是损坏了”的经验,还有“损失东西需要赔偿”的经验,还有“赔偿一大笔钱会带来一个大的损失”的经验。这些经验都可能被激活,机器就需要计算各种可能给自己带来的收益和损失,以及这些收益和损失发生的概率,从而建立一连串子目标,去提高获得收益的路径的概率,而降低出现损失的路径的概率,这就是机器的具体决策过程。在“拿水晶杯”这个例子中,如果机器获得的收益仅仅是满足自己的好奇心,而机器判断自己有一定概率失手,可能导致带来巨大损失的情况下,机器通过收益和损失决策算法(这些算法可以通过学习调整),最终做出的决定有可能是不去触碰这个水晶杯。也可能决定去拿这只水晶杯,但对自己的运动参数作为更加细致的调整:比如增加全身传感器输入数据的初始激活值,使得自己对这些传感器数据更加敏感,激活的记忆范围更大,激活的相关记忆更多,从而仔细调整自己的运动参数。同时,根据经验,需要避免周边情况干扰自己的动作。这时机器也通过增加全身传感器输入数据的初始激活值,优先处理这些传感器数据,来监控自己周边的环境。机器也可能把注意力机制集中在去拿水晶杯的过程中相关的输入信息和记忆信息,而同时抑制和目标无关的其他输入信息或者记忆信息的激活状态。这是通过对不同的输入信息做初步处理,并给出进一步识别的不同的初始激活值来实现的。那些被给予很低的初始激活值几乎很快就会在临时记忆库中被忘记,或者几乎很少引发相关的联想激活,这和人类的注意力机制是类似的。

所以本发明申请提出的机器人运动控制,整体过程是一个经验利用、决策创建、模仿执行和反馈调整的过程。它不仅仅涉及到运动,还涉及到过去的相关经验,这些经验并不仅仅限于运动经验,而是涉及到所有的经验和决策过程。这个过程的基础是机器的对世界的常识和对自身的认知,所以机器的运动是一个复杂的智能问题,而不仅仅是运动控制算法。

3,建立和人类类似的需求动机和情绪。

在本发明申请中,我们提出为了使得机器和人类能够更好的沟通,机器需要建立类似于人类的需求动机和情绪反应。

在本申请所提方法中,机器采用符号来代表各种人类赋予给机器的各种底层需求。比如机器自身的安全需求,追求快乐,希望获得人类的认可,希望得到人类的尊重,再比如机器自我目标实现(目标达成)带来的自我奖励(成就感),比如机器对探索未知的好奇心等。比如赋予机器适度的提高自身能量使用效率的动机(比如赋予机器一些懒惰的特性)。人类几乎可以赋予机器除了繁衍和暴力之外的所有需求和动机。这些需求都可以采用一个符号来表示,并且这个符号可以被赋值来表示所处的状态。需求类型的差异和多少,不影响本发明申请的权利要求。因为在本发明申请中,所有的需求都是同样的处理方法。

在本申请所提方法中,机器采用符号来代表各种人类赋予机器的底层情绪。机器的情绪可以多种多样,每类情绪可以使用一个符号来代表,这些符号可以被机器赋值来表示所处状态,比如兴奋、生气、伤心、紧张、焦虑、尴尬、厌倦、冷静、困惑、厌恶、痛苦、嫉妒、恐惧、快乐、浪漫、悲伤、同情和满足等各种情绪。机器被赋予情绪类型的差异和多少,不影响本发明申请的权利要求。因为在本发明申请中,所有的情绪都是同样的处理方法。

在本申请所提方法中,机器的情绪和机器的需求状态之间的关系,可以通过预置的程序来联系起来。这些预置程序的参数可以通过机器在自身的学习过程中,根据“趋利避害”的原则进行自我调整。在本申请所提方法中,机器的情绪状态和机器情绪的外显表达方式,也可以通过预置的程序来联系起来。这些预置程序的参数可以通过机器在自身的学习过程中,根据“趋利避害”的原则进行自我调整。

图1本发明申请提出的实现通用人工智能的基本功能框图。

图2是一种基础特征的建立方法示意图。

图3是机器决策过程示意图。

下面结合附图对本发明申请作进一步的阐述。应该理解,本申请文本主要是提出了实现通用人工智能的主要步骤和步骤之间的相互关系。这些主要步骤中,每一个具体步骤都可以采用目前公知结构和技术来实现。所以本申请文本的重点在于揭示这些步骤和步骤之间的相互关系,而不是局限于采用已知技术来实现每个步骤的细节上。所以这些实施例描述只是示例性的,而并非要限制本申请文本的范围。在以下说明中,为了避免不必要地混淆本申请文本的重点,我们省略了对公知结构和技术的描述。本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请文本保护的范围。

图1是本发明申请提出的实现通用人工智能的基本功能框图。

图1中S101是传感器组,主要功能是模仿人类的感知功能。传感器组包括对外界信息的感知传感器,也包括对自身信息的感知(比如关节张力、触觉、重力方向、肢体状态、电量监控等自我感知传感器)。

图1中S102是基础特征提取模块。我们提出了如图2所示的基础特征的建立方法。S201是通过滤波器把输入数据分成多个通道。对于图像,这些通道包括针对图形的轮廓、纹理、调、动态模式等方面做特定的滤波。对于语音,这些通道包括对音频组成、音调变化(一种动态模式)等语音识别方面做滤波。这些预处理方式可以和目前行业内已有的图像、语音预处理方法一样,这里不再赘述。

S202是对每个通道内数据,使用特定的分辨率窗口,来寻局部相似性。这一步是对每一个通道的数据,在数据窗口中寻共有的局部特征,而忽略整体信息。在S202步骤中,机器首先是使用一个局部窗口W1,通过移动W1来寻窗口内的数据中普遍存在的局部特征。对图像而言,局部特征就是指那些普遍存在于图形中的局部相似图形,包括但不限于点、线、面、梯度和曲率等最基础特征,然后是这些最基础特征组合而成的局部边缘、局部曲率、纹理、调、脊、顶点、角度、平行、相交、大小、动态模式等普遍存在于图形中的局部特征。对语音就是相似的音频、音、音调和它们的动态模式。其他传感器数据也一样,判断的标准就是相似性。

这里需要指出,不同分辨率的窗口可以是时间窗口或者空间窗口,或者两者混合使用。在对比窗口内的数据相似性时,是使用相似性对比算法。而相似性对比算法中,可能涉及到再次对数据预处理,可能涉及到对数据再次使用分割对比,不同的窗口对应不同的分辨率,每个分辨率下的相似性对比算法,需要通过实践来优选。这一步相当于我们试图实现人类先天就有的特征提取能力。而人类的特征提取能力是在进化过程中,通过不断试错而建立起来的。同理,在本发明申请中,机器也需要通过人类辅助,通过不断试错来建立不同分辨率下的相似度对比算法。尽管这些算法需要通过实践来优选,但这些算法本身是非常成熟的算法,本行业专业人员基于公知知识就可以实现,所以这里不再赘述。

机器把到的局部相似特征放入临时记忆库中。每新放入一个局部特征,就赋予其初始记忆值。每发现一个已有的局部特征,就对临时记忆库中的局部特征(基础特征)的记忆值按照记忆曲线增加。临时记忆库中的信息都遵守临时记忆库的记忆和遗忘机制。那些在临时记忆库中存活下来的基础特征,达到进入长期记忆库阈值后,就可以放入特征图库中,作为长期记忆的特征。长期记忆库可以有多个,它们也遵从自己的记忆和遗忘机制。S203是逐次使用局部窗口W2,W3,…,Wn,其中W1

在S204中,是机器建立的一种基础特征提取算法模型A。这种算法模型就是寻局部相似性中的算法:对比相似性算法。在S205中,是另外一种提取基础特征的算法模型B。它是基于多层神经网络的算法模型。这种模型训练好后,比相似度算法的计算效率要高。

在S205中,机器采用选出的信息特征,作为可能的输出来训练多层神经网络。由于最底层的信息特征并不是很多,比如图像中,主要就是点、线、面、梯度、曲率等最本质特征,然后才是这些特征组合而成的图像特征。所以我们可以采用逐层训练方法。在S205中,机器首先使用局部窗口W1来选取数据区间,使用区间内的数据来训练神经网络。神经网络的输出选用和W1窗口分辨率相近分辨率下选出的信息特征。

在S206中,机器再逐次使用局部窗口W2,W3,…,Wn,其中W1

需要指出,上述方法可以对图像、语音处理,也可以对任何其他传感器的信息采用类似的方法处理。还需要指出,选用不同的分辨率就是选用不同的窗口,选用不同的特征提取算法。所以提取的特征大小也是不一样的。有些基础特征可能和整个图像一样大。这样的基础特征通常是一些图像的背景特征图或者特定的场景特征图。

动态特征的提取,是把空间分辨率窗口中的事物作为一个整体,可以认为是一个质点,来提取其运动轨迹的相似性。当确定了运动轨迹后,可以把这些轨迹作为静态数据来看。所以对运动特征的选取和对运动特征的提取算法,和静态数据是类似的。而变化速率是一个通过时间分辨率(时间窗口)来提取的运动特征,它是按照时间来对整个过程取样,通过对比不同取样之间的运动轨迹的相似性差异来确定变化率的。所以运动特征有两个分辨率,一个是空间,我们使用空间取样窗口,把窗口内数据作为一个质点来实现。一个是时间,我们通过时间窗口取样,通过这些取样中的运动轨迹的变化情况来确定运动的变化速率。

图1中S103A是初始激活值赋值系统,S103B是实现联想激活的系统。机器在得到输入的基础特征后,需要进行联想激活来寻相关的信息。在S103A中,机器通过给提取到的输入信息特征图,按照自己的动机给输入信息特征图赋予一个初始激活值。这些初始激活值可以是相同的,这样可以简化初始值赋值系统。由于机器对输入信息的处理,可能是交互式的多次进行。机器通常优先识别出整体特征,这些整体特征通常是大的类别特征,分辨率通常较低。这些整体特征的是由特定概念所包含的高记忆值基础特征组成的。因为这些基础特征广泛存在于特定概念所代表的各种事物、场景和过程中的共有基础特征,所以它们在机器处理这类信息时,不断的被重复,从而获得更高的记忆值。这些共有的基础特征就会形成这个概念的特征模型。当一个概念所包含的激活值达到预设的置信度时,机器就使用这个概念来代表相关的输入特征组合。也可能出现没有那个概念能达到预设的置信度,这时机器就优先使用置信度最高的概念,来作为模型,进一步去判断输入的信息。这就是机器就按照模型,产生进一步识别信息的预期信息的方法。所以机器的响应就可能是按照模型的其他部分去寻求进一步的验证。这样机器就产生了进一步识别输入数据的预期区间,也按照预期可能的信息特征设置了一到多个相应的分辨率来提取预期区间中的基础特征。上述过程可能迭代进行,直到机器成功识别出输入信息。或者在识别过程中,因为更多的信息输入,而切换了预期的模型,进行继续识别。或者机器因为难以识别输入信息,放弃识别。或者机器因为难以识别输入信息时,模仿经验,主动寻求更多的信息,比如主动询问或者查相关信息。这些决策都是由机器的决策系统来进行的。

另外,机器在识别信息的过程中,通过联想激活,利用过去的经验(被激活的记忆),在被激活的记忆范围中寻和收益、损失相关的记忆,能够预期每一种输入信息可能给自己带来的潜在收益和损失,所以机器识别过程中,赋予每一次的基础信息的初始激活值可以是不一样的。在单次赋予初始激活值时,也可能对那些和潜在高收益和高损失连接更加紧密的信息赋予更高的激活值。不同的初始激活值赋值方式,来自于机器的决策系统。而决策系统又是基于常识和趋利避害的原则进行的。所以识别系统和决策系统是互动进行,帮助机器按照效率和能量之比最高的途径进行选择。

具体实现上,初始值赋值系统可以是预置系统,它的程序参数会受到机器的情绪状态的影响。当机器预测可能出现重大的收益和损失情况时,机器根据经验,需要深入的分析各种潜在的收益和损失时,机器可以通过预置程序调整初始值赋值程序,改变输入信息的初始值赋值大小,或者提高那些和潜在高收益和高损失连接更加紧密的信息赋予更高的激活值,从而使得整个联想激活过程可以激活更多的记忆,从而在现有经验下,做出置信度更高、更加符合机器期望的选择。上述机器对外部信息的迭代识别过程就是机器的注意力机制。

在有了记忆空间后,通过“临近激活”、“相似性激活”和“强记忆激活”,机器就可以实现联想能力了。任何能够实现“临近激活”、“相似性激活”和“强记忆激活”的算法,都可以应用于本发明申请中。这里,我们提出几种实现上述激活原则的方法(但不限于这些方法):

方法1:采用记忆值(实数)来代表神经元或者突触的数量;使用激活值来代表特征发出的激活电信号强度;使用特定的编码来代表不同的特征发出的不同模式激活信号;使用总线来代替整个记忆空间来传播激活值;使用三维立体坐标点位置来代表不同特征信息在记忆空间中的位置,并使用空间距离(激活源和接收特征之间的空间距离)来计算衰减量。当输入特征通过通用激励模块把自己对应编码的激活电信号发布到总线上,而且使用编码中的数字来代表自己被赋予的初始强度,记忆中的特征可以通过周期性的对总线信息读取,来接收总线上的信息,并计算应该的衰减量。如果存在和自己相似的激活信息,比如可能属于一个大类,或者属于一个子类等,那么就有不同的接收能力。如果收到的激活信号通过自己的接收通道后,得到的激活值超过自己预设的激活阈值,那么这个特征就把收到的激活值作为初始值,并激活自己。通常可能存在多个输入特征同时激活一个小记忆区间的情况,比如一张“餐桌”有多个不同分辨率的特征,它们依次通过记忆区间的总线,可能激活多个小的区间。每个区间都可能有多个关于“餐桌”的特征被激活。这些小区间中集中的特征图,彼此再次激活时,通过临近激活又给彼此赋予激活值。所以它们的激活值就可能值记忆空间中“凸显”出来。而在它们共同的临近激活作用下,某一个小区间可能激活当时餐桌上一个“美味”的蛋糕的记忆。这是因为蛋糕通过味觉传感器相关的预置程序,给食物相关的“正面需求”符号赋予了很高的激活值。当记忆存储发生时,食物相关的“正面需求”符号的激活值按照正相关转化为记忆值(不一定是线性关系)。所以,在这里,食物相关的“正面需求”符号(比如对美味的需求)是一个强记忆。它存在“餐桌”记忆附近,由于它的记忆值高,所以按照“强记忆激活”原则,它也获得了很高的激活值。当它被激活后,和它很临近的记忆“蛋糕”(因为两者可能是同时存储到记忆中的)也可能被激活。另外,并且“蛋糕”和“对美味的需求被满足”常常一起被激活,在记忆中,它们的记忆越来越强,所以任何时候,但一个被激活后,另外一个也常常被激活,我们就在“蛋糕”和“对美味的需求被满足”之间建立了正确的连接。另外,在本发明申请中,我们通过预置一套机器的需求被满足的情况和机器的情绪之间的预置程序,来实现机器情绪。这套预置程序在和“对美味的需求被满足”输入激励下,会向“愉悦”、“满足”等情绪符号发出较高的定向激活值。于是机器的“愉悦”和“满足”等情绪符号获得了较高的激活值。当存储发生时,这些激活值也是按照正相关方式转化为记忆值(不一定是线性的),所以在这些记忆中,情绪也被记忆下来。当机器激活了“蛋糕”和“对美味的需求被满足”的记忆后,这些情绪符号也一并可能被激活,从而使得机器体会到了“愉悦”、“满足”等情绪。

当机器需要寻求“愉悦”、“满足”等情绪时(比如给机器赋予这样的本能需求),机器就会寻关于“愉悦”、“满足”相关的记忆,它可能就会激活“蛋糕”、“餐桌”等记忆。这些记忆就可能成为一个响应目标,机器就有可能通过这些目标联想得到“蛋糕”和“餐桌”的经验,进而通过泛化能力泛化这些经验,在现有条件下通过模仿过去的经验,把泛化之后的各种过程特征组织起来,通过分段模仿,把这个组织起来的过程逐层细分成大量的中间环节目标,再一步一步去实现这些中间环节目标。比如去完成订购“蛋糕”、寻“餐桌”并满足自己的需求的过程。

以上过程是一种分布式计算的过程。这个方法还可以变成2层结构。比如每一小段记忆放置一个和总线连接的计算模块作为和总线信息交换的门户,这个计算模块承担把辖区外的激活信号识别后,决定是否传入辖区内。也负责把辖区内的激活,再次传到总线上去。这样做的目的是减少计算模块的数量。当然,这个结构还可以迭代自己,采用类似的多层结构来进一步减小计算模块。

方法2:方法2是一种集中计算方法。就是采用专门的计算模块来搜索记忆(记忆搜索模块)。每当发现一个多分辨率下的输入信息特征后,机器直接激活目前时间上最近的记忆,并按照它们的记忆值赋予其相应的激活值。这就完成了临近激活和强记忆激活。也在记忆中直接去寻相关相似特征,到后,按照相似度直接给这些特征赋予激活值。相似度既可以采用现场对比的方法,也可以采用预编码逐层分类的方法。

那些被激活特征图再次发出激活电信号时,记忆搜索模块可以采用一样的方法。通过对发起激活的特征图,搜索附近的记忆发起临近激活,搜索更远的那些拥有高记忆值的记忆发起强记忆激活,通过搜索其他记忆中相似的特征发起相似性激活。而且每个被激活的模块,发出的激活电信号有自己的编码和强度信息。这个过程可以反复迭代下去。

方法3:方法3是一种混合模式。机器通过记忆搜索模块完成相似性激活搜索后,进一步的激活可以通过在每段记忆的局部网络中进行。通过记忆中特征之间建立的连接网络来实现临近激活和强记忆激活。这种局部网络的一种实现方法是:记忆空间中每个特征都和临近特征之间建立连接神经,当自己被激活后,通过这些连接线可以把激活值传递出去,这就是临近激活。而两个特征之间的传递系数和两个特征的记忆值正相关,这就是强记忆激活。

以上3种方法都可以实现在记忆网络中的联想能力。而能够实现“临近激活”、“相似性激活”和“强记忆激活”的方法很多,各种具体方式都可以建立在本行内的公知知识上。所以,本发明申请所列举的3种实现方式不是限制范围,而是演示其中的基本原理。任何其他方式,只要是建立在“临近激活”、“相似性激活”和“强记忆激活”3个原则基础上的联想激活实现算法,都涉及到本发明申请的权利要求。由于在机器中,我们可以采用数值来代表一个信息在记忆中的强度,采用编码来代表被激活电信号的类别,采用总线来代表激活电信号传播空间,采用立体坐标距离来模拟传播损耗,所以机器的联想查速度可以远高于大脑的神经激活工作方式。

在比较输入特征图和关系网络中的特征图的相似性过程中,机器可能需要处理大小缩放和角度匹配的问题。一种处理方法包括:(1)机器把各种角度的特征图都记忆下来。记忆中的特征图,是通过对每一次输入信息提取基础特征后建立的简图。它们是在关系提取机制下保留下来相似事物的共有特征。虽然它们彼此相似,但它们可能存在不同的观察角度。机器把生活中同一个事物,但不同角度的特征图都记忆下来,构成不同的特征图,但它们可以通过学习来归属于同一个概念。(2)机器用所有角度的视图,重叠这些特征图的共有部分,模仿它们的原始数据,把它们组合起来,构成一个立体特征图。(3)在机器内部嵌入对立体图像做大小缩放和空间旋转后的视图变化程序。这一步是业内已经非常成熟的技术,这里不再赘述。(4)机器在记忆中寻相似的基础特征时,包括了在记忆中寻经过空间旋转后能匹配的特征图。同时机器把目前角度的特征图存入记忆,保留原始视角。后续再次有类似视角的基础特征输入时,就能快速的搜索到。所以这种方法下,机器是采用了不同视角记忆和进行空间角度旋转相结合的方法来寻相似特征图,这会带来我们对熟悉视角识别更快的现象。当然,机器也可以只使用空间角度旋转后进行相似度对比的方法。机器对物体的旋转和缩放之所以能够识别的根源在于机器对基础特征进行了参数化建模。而大小和角度就是参数化的属性之一。当参数化激活不同的角度和大小的基础特征后,那些相似角度和大小的基础特征组合在类似的激活下获得了大量的激活值。这种组合的基础特征(包括单个特征,也包括它们组合方式而形成的低分辨率特征)都会向特定的概念传递激活值,从而激活特定的概念,于是机器就能识别出相应的概念。并从相应的概念进一步激活概念本身所涉及的其他属性,这就是从概念再次展开联想的过程。

图1中S104是环境信息和动态流形创建模块。在理解输入信息时,环境信息和动态流形创建模块主要的功能是采用低分辨率的抽象概念框架(框架主要是由部分高记忆值共有特征组成),然后根据输入信息和记忆中相关经验,把相关高分辨率信息逐层加入到这个框架中,从而构成一个用于理解输入信息的环境信息(环境信息)和动态流形(动态过程)。

在机器做出决策时,可以采用虚拟的输入把决策路径按照一种虚拟的过程输入,并采用同样的方法,创建相应的环境信息和动态流形来多次对决策路径的收益和损失分析。

创建相应的环境信息和动态流形的基础方法是分段模仿。分段模仿的本质是一个使用记忆和输入信息重组的过程,是一个创造的过程。它利用记忆中那些高记忆值信息(通常是普遍存在的低分辨率特征信息)作为模型框架,通过迭代识别过程,通过输入信息和记忆信息在高激活值之间采用最小同概念内替换(说明一对输入信息和记忆信息之间存在更加紧密的连接关系),不断把一些输入信息加入到这个模型框架中。这个过程是一个泛化过程。泛化过程中,那些低分辨率基础特征,包括静态特征,动态特征,和表示事物之间静态或者动态关系的关系表征概念,是关键桥梁。这些特征之所以能够成为桥梁,是因为它们是同类事物中普遍存在的特征,所以被广泛使用,它们和很多其他信息之间存在连接关系,所以才能一次次被激活并获得更高的记忆值。它们是通过记忆和遗忘机制优胜劣汰而形成的。比如在语言中,它们就是常用语和常用句型等常用表达组织的方式。

机器借用这些过程框架,加入输入信息,就构成了形形的新过程。这个过程就叫分段模仿。分段模仿是一个迭代过程,每一个上层环节,通过分段模仿展开成符合现实条件的多个下层环节。然后在模仿过程中,继续采用一样的方法,把每一个下层环节,再次展开成符合现实条件的多个更下层环节。这个过程不断迭代,直到满足机器使用新建立的过程执行响应,或者做出收益和损失评估为止。

图1中S105A和S105B是机器使用输入基础信息,在记忆中做联想激活的模块,并通过分段模仿的方式,组织自己可能的响应。S105A包含机器的底层需求库(包括需求动机和情绪),这是人类赋予机器的预置程序。在S105A中,还包括机器在学习过程中,通过记忆和遗忘,建立的包含了各种事物、场景和过程的信息,以及和它们对应的需求动机和情绪信息。在S105B中,机器使用联想激活的方式,寻与输入信息相关的经验。这些经验既包含用于理解输入信息的经验,也包含由于对输入信息做出响应的经验。机器通过分段模仿来建立不同的响应路径,并通过统计算法来分析每一种路径下的收益和损失值,以及它们发生的概率大小。有了每一种可能性给自己带来的收益/损失和情绪状态等和动机相关的信息后,机器可以采用目前任何人工智能预测方法,比如贝叶斯估计、蒙特卡洛搜索、决策树、基于规则等机器推理的方法,在被激活的信息范围内,寻对自己最有利的路径。

机器的决策,是基于机器的预测能力之上的路径规划方法。而路径的目的就是利益最大化,损失最小化。有了预测能力,机器就把决策和响应这样一个完全开放性的问题,转变成了一串如何让一定范围内的事情发生的概率增加或者减小的相对封闭的问题。

每一步决策的目标都是让事情的发展方向“趋利避害”。这是一个和外界互动的过程。而互动本身就是一种依据过去的经验,来推动事情的发展方向“趋利避害”的手段。通过互动获得的信息和行为,来不断提高收益值高的事件发生的概率,来不断降低损失值高的事件发生概率。这是一个迭代过程。但每一步都是处理的方式都是一样的。机器在因果链的基础上,逐层提高那些通向收益值高的事件发生的概率。由于路径之间的因果联系的概率由关系网络来表达,所以整个机器的响应规划问题就变成了在因果链网络中寻最优路径问题。

举例说明,机器通过搜索记忆就能确定一个事件(比如带来高收益值或者高损失值的事件)的先验概率。然后通过关系网络就能确定某一个条件和该事件之间的因果强度(后验概率)。而不同条件之间在关系网络中的连接强度,就能反映不同条件之间是否独立。而机器只需要挑选一些相对彼此独立的条件,通过朴素贝叶斯算法,就能预测出该事件发生的概率。机器可以根据计算出来的概率来决定自己的响应。这个过程本质上是一个迭代的最优路径搜索问题。

S106A模块是划分细分子目标的模块,S106B是通过分段模仿来利用过去的经验,来实现各个子目标的功能。这是机器的执行过程。

S107是机器对前面输入信息处理后,产生的响应可能是进一步识别输入信息。这时机器可能对输入信息的某些特定区间感兴趣,并有预期的事物大小。这些预期的事物大小就决定了机器进一步识别信息时采用的分辨率。

图3是机器的决策过程。

S310是输入信息,S302联想激活过程。联想激活过程,既可能由输入信息启动,也可能由机器在决策过程中,根据决策过程产生的子目标,或者碰到的新情况而启动。

S303是机器基于被激活的记忆,通过分段模仿的方法,预测可能发生的事件。然后根据被激活记忆中关于收益和损失的记忆,来判断预测事件可能带来的收益和损失,以及它们发生的概率大小。这是机器根据经验的一种预测行为。

S304、S305和S306是机器在被激活的信息范围内,通过分段模仿来组合各种可能的响应。然后机器计算各种可能响应带来的收益和损失,并按照趋利避害的原则,搜索最优响应路径,并建立最优响应路径上的各个子目标。

由于机器的策略建立行为是一个迭代的过程。在机器决策的初期,机器只是建立了一个初略的、可以带来收益和避免损失的子目标序列,这是一个框架类的策略。机器在执行这个策略时,需要根据实际情况,把策略的每一步,细化到可以具体执行的程度,也就是需要细化到机器可以直接执行的底层驱动命令。

机器把最优目标路径上的各个子目标转化为具体可以执行的机器底层驱动命令,采用的方式依然是:把子目标作为新的目标,结合现有信息和记忆信息,通过分段模仿来利用过去的经验,并结合现实条件,来寻达成子目标的最优路径。搜索达成子目标的最优路径的原则,依然是趋利避害原则,依然是通过对各种路径可能带来的收益和损失以及概率做估计,然后寻利益最大化,损失最小化的路径作为新的最优响应路径上的各个子目标。

上述迭代过程持续层层展开,直到最优响应路径上的各个子目标变成机器可以直接执行的底层驱动命令为止。于是机器开始执行底层驱动命令。

机器在执行底层驱动命令后,会有新的信息输入。这些新信息可能来自外部,也可能来自机器内部状态,或者新的被激活的记忆,这些新的信息会成为新的输入信息,它们可能通过联想激活过程,激活新的记忆。于是机器需要加入新信息或者新记忆,再次按照上面的决策过程重新评估最优响应路径。这就是S308,S309和S310的情况。

上述过程可能反复迭代,直到机器完成了规划的最优响应路径上的所有子目标(包括在不断的调整过程中的最优响应路径上的子目标),达成了机器需要的最终目标(这个目标和最初机器建立的目标有可能不一样,有可能是达成类似的目标,或者放弃最初目标,或者甚至达成和最初目标完全背离的目标等),整个响应过程结束。

需要强调,图3的决策过程有可能存在多个决策过程交织进行的情况。也就是说,存在多个图3一样的决策过程在同一时段进行。它们之间可能存在相互响应,也可能彼此不存在关系。但总体策略是:当机器在执行一个决策评估时,之前的目标,以及之前的子目标,就转化为继承目标。这些继承目标是机器要去实现的目标之一,所以机器在决策过程时,需要把所有的目标同时考虑到。但具体实现这些目标时,可以根据现实条件(比如时间和空间、现有条件)的限制,先实现一部分目标,其余目标作为继承目标,在后续时间继续参加机器的策略决策过程。

S108是更新记忆库的步骤,它是贯穿于所有步骤中的,而不是一个单独的步骤。在S108步骤中,机器首先把记忆信息存入到临时记忆库。记忆中某一个关系每当被使用一次,就对这个关系涉及到的特征图按照记忆曲线增加记忆值,同时所有特征图按照自己所在的记忆库的遗忘曲线对记忆值进行遗忘。当信息在临时记忆库中其记忆值达到预设标准后,机器可以把对于的信息转为长期记忆。一种方法是把临时记忆库中的数据移动到长期记忆库中,另外一种方式是直接把相关信息做长期记忆的标注,并采用长期记忆库对于的记忆和遗忘曲线来维护这些信息。

本发明中,我们可以采用多种记忆组织形式,比如:直接采用信息输入的时间和空间关系,按照顺序存储,并建立立体坐标来表示信息之间的距离。这个坐标的时间轴可以按照事件驱动机制:每发生一个事件驱动,存储一次记忆,时间轴就增加一个单位。再比如,把特征建立编号,每个编号和特征自身采用表格的形式对应起来。在记忆空间中,使用编码来代替特征(或者使用特征本身,但附带上编码)。这些编码可以按照相似性来逐层分类,机器只需要根据编码的分类信息就可以快速到相似的特征。机器还可以把相似的特征放在一起,但每个特征都带有自己的记忆空间中的立体坐标。这样,机器就能迅速到所有的相似特征,并根据这些特征的空间坐标信息,去实现临近激活和强记忆激活。机器还可以模仿大脑神经组织,在相邻的记忆之间建立连接关系。通过这种连接关系模仿激活电信号的传播和衰减。同时,每个特征接收激活电信号也模仿大脑神经,采用记忆值高的特征接收能力强,并且特征的接收能力与激活电信号和自己的匹配程度正相关。机器还可以采用上述形式的组合形式。但无论采用哪种形式的信息存储组织方式,只要组织的目的是为了实现联想激活过程,那么它就是本发明申请中所提出方法的一种具体实施方式。

本文发布于:2024-09-22 22:22:12,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/72597.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议