故障诊断方法[发明专利]

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201711402304.0
(22)申请日 2017.12.21
(71)申请人 北京比特大陆科技有限公司
地址 100029 北京市海淀区奥北科技园25
号楼2层
(72)发明人 孙国臣 杨存永 詹克团 
(74)专利代理机构 中科专利商标代理有限责任
公司 11021
代理人 王洵
(51)Int.Cl.
G06F  11/22(2006.01)
G06F  13/40(2006.01)
(54)发明名称
故障诊断方法
(57)摘要
本发明公开了一种故障诊断方法。所述方法
包括:
数据处理装置的节点芯片发送工作状态查询命令;数据处理装置的各节点芯片依次转发
工作状态查询命令;判断各节点芯片的芯片地址
是否与工作状态查询命令中指定的芯片地址相
匹配;若节点芯片的芯片地址与工作状态查询命
令中指定的芯片地址相匹配,返回寄存器数据;
根据节点芯片返回的寄存器数据,判断节点芯片
的工作状态。本发明实施例能够有效实现串联节
点芯片组的快速故障诊断。权利要求书2页  说明书9页  附图8页CN 109947605 A 2019.06.28
C N  109947605
A
1.一种应用于具有多个依次串联连接的节点芯片的数据处理装置的故障诊断方法,其特征在于,所述方法包括如下步骤:
向所述数据处理装置的节点芯片发送工作状态查询命令;
所述数据处理装置的各节点芯片依次转发所述工作状态查询命令;
判断各节点芯片的芯片地址是否与所述工作状态查询命令中指定的芯片地址相匹配;
若节点芯片的芯片地址与所述工作状态查询命令中指定的芯片地址相匹配,返回寄存器数据;
根据节点芯片返回的寄存器数据,判断节点芯片的工作状态。
2.根据权利要求1所述的故障诊断方法,其特征在于,所述根据节点芯片返回的寄存器数据,判断节点芯片的工作状态,包括:
若检测发现未接收到与所述工作状态查询命令中指定的芯片地址相匹配的节点芯片返回的寄存器数据,则判断该节点芯片发生故障。
3.一种应用于具有多个依次串联连接的节点芯片的数据处理装置的故障诊断方法,其特征在于,所述方法包括如下步骤:
向所述数据处理装置的节点芯片发送工作状态查询命令;
所述数据处理装置的各节点芯片依次转发所述工作状态查询命令;
判断所述工作状态查询命令是否指定了查询全部节点芯片的工作状态;
若所述工作状态查询命令指定了查询全部节点芯片的工作状态,各节点芯片依次返回寄存器数据;
根据节点芯片返回的寄存器数据,判断节点芯片的工作状态。
4.根据权利要求3所述的故障诊断方法,其特征在于,所述根据节点芯片返回的寄存器数据,判断节点芯片的工作状态,包括:
当所述工作状态查询命令指定了查询全部节点芯片的工作状态时,根据接收到的节点芯片返回的寄存器数据的数目,判断发生故障的节点芯片。
5.根据权利要求1或3所述的故障诊断方法,其特征在于,所述数据处理装置包括多个依次串联连接的节点芯片,首级节点芯片的数据输出单元与外部控制装置的数据输入单元连接,用于将数据处理装置的运算结果返回给外部控制装置;上级节点芯片的数据输入单元与下级节点芯片的数据输出单元连接,用于接收下级节点芯片运算后得到的数据;所述首级节点芯片的一个或多个数据输入单元与外部控制装置的
一个或多个数据输出单元连接,以接收外部控制装置的数据输入或者命令输入,上级节点芯片的一个或多个数据输出单元与下级节点芯片的一个或多个数据输入单元连接,用于向下级节点芯片发送数据输入或者命令输入。
6.根据权利要求1或3所述的故障诊断方法,其特征在于,所述节点芯片包括控制单元和多个运算算子,所述运算算子分为两组或者多组,每组运算算子包括两个或多个串联连接的运算算子,每组运算算子中的首级运算算子与所述控制单元连接。
7.根据权利要求1或3所述的故障诊断方法,其特征在于,所述运算算子包括:运算部件和存储部件;其中:
所述运算部件与上级运算算子的存储部件连接,用于读取上级运算算子存储部件中存储的数据并进行运算;
所述运算部件与存储部件连接,用于将运算得到的数据存储在存储部件中,供下级运算算子调用。
8.根据权利要求1或3所述的故障诊断方法,其特征在于,所述数据处理装置还包括信号转换单元,将两个节点芯片连接,用于进行信号电压适配。
9.根据权利要求1或3所述的故障诊断方法,其特征在于,所述数据处理装置还包括一个或多个时钟晶体,
所述时钟晶体的时钟信号输出接口与所述数据处理装置中的一个节点芯片的时钟信号输入接口连接。
10.根据权利要求5所述的故障诊断方法,其特征在于,
所述节点芯片设置有忙信号输入命令和忙信号输出命令,所述忙信号输入命令和忙信号输出命令用于控制相应节点芯片在上行通信方向上的数据发送。
11.根据权利要求10所述的故障诊断方法,其特征在于,所述忙信号输出管脚为低/高电平时,指示可以转发下一级节点芯片返回的数据;所述忙信号输出管脚为高/低电平时,指示本级节点芯片或者上一级节点芯片将要或正在发送数据。
12.根据权利要求10或11所述的故障诊断方法,其特征在于,当节点芯片的忙信号输入管脚为高/低电平时,该节点芯片的忙信号输出管脚也为高/低电平。
13.根据权利要求11所述的故障诊断方法,其特征在于,本级节点芯片有数据等待发送时,当检测到忙信号输入管脚为高/低电平时,等待所述忙信号输入管脚转为低/高电平时,再发送数据;当检测到所述忙信号输入管脚为低/高电平时,立即发送数据。
14.根据权利要求11所述的故障诊断方法,其特征在于,本级节点芯片有数据等待发送时,将忙信号输出管脚输出为高/低电平,当数据发送完成后将所述忙信号输出管脚输出为低/高电平。
15.根据权利要求11所述的故障诊断方法,其特征在于,本级节点芯片正在发送数据时,若检测到忙信号输入管脚为高/低电平,继续发送数据,直至缓存队列中的全部数据发送完成。
16.根据权利要求14所述的故障诊断方法,其特征在于,本级节点芯片的忙信号输出管脚输出为高/低电平后,等待预定的保护间隔时间,再进行数据的传输。
17.根据权利要求16所述的故障诊断方法,其特征在于,所述保护间隔时间根据节点芯片之间采取同步或异步通信模式而分别设定。
故障诊断方法
技术领域
[0001]本发明涉及数据处理技术领域,特别是涉及一种故障诊断方法。
背景技术
[0002]目前,随着机器学习尤其是深度学习技术在各领域的应用和发展,对计算装置的数据处理能力提出了更高的要求。GPU处理芯片因为其优于传统CPU的强大的图形处理和并行运算能力,已广泛应用于各领域的数据运算任务,成为通用的深度学习计算平台。[0003]然而,单一GPU架构的计算能力仍然受
限,无法满足深度学习、哈希运算等对高强度的数据计算能力的需求。为此,申请号为CN201610312586.4的中国发明专利申请提出了一种扩展数据处理装置的运算能力的方案,如图1所示。该方案提出了一种由多个节点芯片串联连接的数据处理装置,该数据处理装置经由位于下行通信方向的首节点芯片的外部接口接收数据处理任务,通过串行连接的各级节点芯片对数据处理任务进行运算处理,并通过首节点芯片的外部接口返回数据处理结果。该方案中节点芯片的数量可以根据数据处理任务的运算能力需求进行扩展,并且只需要一个节点芯片与外部设备进行通信连接,不占用外部设备的通信接口,因此,可以提供较强的易于扩展的数据处理能力。
[0004]虽然上述现有技术将节点芯片串联连接,每个节点芯片都负责一部分计算处理,加快了数据处理速度,但是各节点芯片之间进行数据发送很容易产生冲突。并且,该数据处理装置接收外部设备传输的数据处理任务,需要在各节点芯片之间分配数据处理任务,如何在多个节点芯片之间分配任务以减少信令的交互也是需要考虑的问题。此外,在串联的各节点芯片处理同一数据处理任务时,可能存在某个节点芯片发生宕机的故障情况,从而造成整个节点芯片组无法正常工作,如何快速进行节点芯片的故障诊断也是需要解决的问题。
发明内容
[0005]为了解决上述问题,本发明提出一种故障诊断方法。
[0006]根据本发明的一方面,提出一种故障诊断方法,所述故障诊断方法应用于具有多个依次串联连接的节点芯片的数据处理装置,所述方法包括如下步骤:
[0007]向所述数据处理装置的节点芯片发送工作状态查询命令;
[0008]所述数据处理装置的各节点芯片依次转发所述工作状态查询命令;
[0009]判断各节点芯片的芯片地址是否与所述工作状态查询命令中指定的芯片地址相匹配;
[0010]若节点芯片的芯片地址与所述工作状态查询命令中指定的芯片地址相匹配,返回寄存器数据;
[0011]根据节点芯片返回的寄存器数据,判断节点芯片的工作状态。
[0012]可选地,所述根据节点芯片返回的寄存器数据,判断节点芯片的工作状态,包括:[0013]若检测发现未接收到与所述工作状态查询命令中指定的芯片地址相匹配的节点
芯片返回的寄存器数据,则判断该节点芯片发生故障。
[0014]根据本发明的另一方面,提出一种故障诊断方法,所述故障诊断方法应用于具有多个依次串联连接的节点芯片的数据处理装置,所述方法包括如下步骤:
[0015]向所述数据处理装置的节点芯片发送工作状态查询命令;
[0016]所述数据处理装置的各节点芯片依次转发所述工作状态查询命令;
[0017]判断所述工作状态查询命令是否指定了查询全部节点芯片的工作状态;[0018]若所述工作状态查询命令指定了查询全部节点芯片的工作状态,各节点芯片依次返回寄存器数据;
[0019]根据节点芯片返回的寄存器数据,判断节点芯片的工作状态。
[0020]可选地,所述根据节点芯片返回的寄存器数据,判断节点芯片的工作状态,包括:[0021]当所述工作状态查询命令指定了查询全部节点芯片的工作状态时,根据接收到的节点芯片返回的寄存器数据的数目,判断发生故障的节点芯片。
[0022]可选地,所述数据处理装置包括多个依次串联连接的节点芯片,首级节点芯片的数据输出单元与外部控制装置的数据输入单元连接,用于将数据处理装置的运算结果返回给外部控制装置;上级节点芯片的数据输入单元与下级节点芯片的数据输出单元连接,用于接收下级节点芯片运算后得到的数据;所述首级节点芯片的一个或多个数据输入单元与外部控制装置的一个或多个数据输出单元连接,以接收外部控制装置的数据输入或者命令输入,上级节点芯片的一个或多个数据输出单元与下级节点芯片的一个或多个数据输入单元连接,用于向下级节点芯片发送数据输入或者命令输入。
[0023]可选地,所述节点芯片包括控制单元和多个运算算子,所述运算算子分为两组或者多组,每组运算算子包括两个或多个串联连接的运算算子,每组运算算子中的首级运算算子与所述控制单元连接。
[0024]可选地,所述运算算子包括:运算部件和存储部件;其中:
[0025]所述运算部件与上级运算算子的存储部件连接,用于读取上级运算算子存储部件中存储的数据并进行运算;
[0026]所述运算部件与存储部件连接,用于将运算得到的数据存储在存储部件中,供下级运算算子调用。
[0027]可选地,所述数据处理装置还包括信号转换单元,将两个节点芯片连接,用于进行信号电压适配。
[0028]可选地,所述数据处理装置还包括一个或多个时钟晶体,所述时钟晶体的时钟信号输出接口与所述数据处理装置中的一个节点芯片的时钟信号输入接口连接。
[0029]可选地,其特征在于,所述节点芯片设置有忙信号输入命令和忙信号输出命令,所述忙信号输入命令和忙信号输出命令用于控制相应节点芯片在上行通信方向上的数据发送。
[0030]可选地,所述忙信号输出管脚为低/高电平时,指示可以转发下一级节点芯片返回的数据;所述忙信号输出管脚为高/低电平时,指示本级节点芯片或者上一级节点芯片将要或正在发送数据。
[0031]可选地,当节点芯片的忙信号输入管脚为高/低电平时,该节点芯片的忙信号输出管脚也为高/低电平。

本文发布于:2024-09-21 22:28:28,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/421947.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:芯片   节点   数据
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议