一种告警方法、装置、电子设备及存储介质

著录项
  • CN202210451630.5
  • 20220426
  • CN114840380A
  • 20220802
  • 北京快乐茄信息技术有限公司
  • 齐举红
  • G06F11/30
  • G06F11/30 G06F11/32

  • 北京市海淀区东北旺西路8号院23号楼4层402-1室
  • 北京(11)
  • 北京善任知识产权代理有限公司
  • 李梅香;孟桂超
摘要
本公开提供一种告警方法、装置、电子设备及存储介质。该方法包括:获得第一任务,所述第一任务为正在执行的任务;根据所述第一任务的执行信息以及资源申请信息,估计所述第一任务的执行时长,所述执行信息用于表示所述第一任务的执行进度,所述资源申请信息用于表示第一任务的申请资源的情况;当所述第一任务的执行时长满足告警条件时,输出所述第一任务的告警信息,所述告警信息用于提示所述第一任务为异常任务。在本公开中,能够实现根据预估的任务执行时长进行告警,改善大数据平台告警的及时性,提高效率。
权利要求

1.一种告警方法,其特征在于,所述方法包括:

获得第一任务,所述第一任务为正在执行的任务;

根据所述第一任务的执行信息以及资源申请信息,估计所述第一任务的执行时长,所述执行信息用于表示所述第一任务的执行进度,所述资源申请信息用于表示所述第一任务的申请资源的情况;

当所述第一任务的执行时长满足告警条件时,输出所述第一任务的告警信息,所述告警信息用于提示所述第一任务为异常任务。

2.根据权利要求1所述的方法,其特征在于,在所述根据所述第一任务的执行信息以及资源申请信息,估计所述第一任务的执行时长之前,所述方法还包括:

监控所述第一任务的执行过程;

在所述执行过程中,周期性获得所述第一任务的所述执行信息和所述资源申请信息。

3.根据权利要求2所述的方法,其特征在于,所述告警条件包括:以下至少之一:

在一个周期中的所述第一任务的执行时长大于预设时长阈值;

在连续的N个周期中的所述第一任务的执行时长大于所述预设时长阈值,N为正整数。

4.根据权利要求1或2所述的方法,其特征在于,所述执行信息包括:所述第一任务在执行过程中已执行的数据量;所述资源申请信息包括:所述第一任务在执行过程中已申请的资源量和/或申请资源的等待时长。

5.根据权利要求1所述的方法,其特征在于,所述根据所述第一任务的执行信息以及资源申请信息,估计所述第一任务的时长,包括:

将所述执行信息和所述资源申请信息输入预设的估计模型进行执行时长估计,得到所述第一任务的执行时长;其中,所述估计模型是基于被监控任务的历史执行信息和历史资源申请信息得到的。

6.根据权利要求1所述的方法,其特征在于,所述估计模型由以下公式获得:

zi=f(xi,yi)+ti

其中,zi表示被监控任务的执行时长,xi表示所述被监控任务在历史执行过程中已执行的数据量,yi表示所述被监控任务在历史执行过程中申请的资源量,f(xi,yi)表示所述被监控任务在历史执行过程中的处理时长,ti表示所述被监控任务在历史执行过程中申请资源的等待时长,i为被监控任务的索引。

7.一种告警装置,其特征在于,所述装置包括:

获得模块,用于获得第一任务,所述第一任务为正在执行的任务;

估计模块,用于根据所述第一任务的执行信息以及资源申请信息,估计所述第一任务的执行时长,所述执行信息用于表示所述第一任务的执行进度,所述资源申请信息用于表示所述第一任务的申请资源的情况;

输出模块,用于当所述第一任务的执行时长满足告警条件时,输出所述第一任务的告警信息,所述告警信息用于提示所述第一任务为异常任务。

8.根据权利要求7所述的装置,其特征在于,所述估计模块,用于在根据所述第一任务的执行信息以及资源申请信息,估计所述第一任务的执行时长之前,监控所述第一任务的执行过程;在所述执行过程中,周期性获得所述第一任务的所述执行信息和所述资源申请信息。

9.根据权利要求7所述的装置,其特征在于,所述告警条件包括以下至少之一:在一个周期中的所述第一任务的执行时长大于预设时长阈值;在连续的N个周期中的所述第一任务的执行时长大于所述预设时长阈值,N为正整数。

10.根据权利要求7或8所述的装置,其特征在于,所述执行信息包括:所述第一任务在执行过程中已执行的数据量;所述资源申请信息包括:所述第一任务在执行过程中已申请的资源量和/或申请资源的等待时长。

11.根据权利要求7所述的装置,其特征在于,所述估计模块,用于将所述执行信息和所述资源申请信息输入预设的估计模型进行执行时长估计,得到所述第一任务的执行时长;其中,所述估计模型是基于被监控任务的历史执行信息和历史资源申请信息得到的。

12.一种电子设备,其特征在于,包括:

存储器,存储有计算机可执行指令;

处理器,与所述存储器相连,用于通过执行所述计算机可执行指令,以实现如权利要求1至6任一项所述的方法。

13.一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,其特征在于,所述计算机可执行指令被处理器执行后能够实现如权利要求1至6任一项所述的方法。

说明书
技术领域

本公开涉及互联网技术领域,尤其涉及一种告警方法、装置、电子设备及存储介质。

随着大数据时代的迅速发展,大数据的应用也愈发广泛和复杂,不仅应用于服务器、存储设备、网络设备等,还包括应用软件、数据库、虚拟化资源等。因此,必要的监控和告警机制是极为重要的。随着数据规模的增大,越应及时掌握这些设备资源的生态状况,对于出现异常的设备及资源进行告警,确保用户能够及时地处理异常任务。

目前,大数据平台的告警机制都是基于任务的执行结果或者异常数据进行的。那么,相较于异常的发生时刻,告警存在一定延迟,使得用户不能够及时的对异常任务进行告警。因此,在大数据平台中,如何实现及时告警是一个亟待解决的问题。

本公开提供了一种告警方法、装置、电子设备及存储介质,以实现大数据平台对异常任务的及时告警。

第一方面,本公开提供一种告警方法,包括:获得第一任务,第一任务为正在执行的任务;根据第一任务的执行信息以及资源申请信息,估计第一任务的执行时长,执行信息用于表示第一任务的执行进度,资源申请信息用于表示第一任务的申请资源的情况;当第一任务的执行时长满足告警条件时,输出第一任务的告警信息,告警信息用于提示第一任务为异常任务。

在一些可能的实施方式中,在根据第一任务的执行信息以及资源申请信息,估计第一任务的执行时长之前,方法还包括:监控第一任务的执行过程;在执行过程中,周期性获得第一任务的执行信息和资源申请信息。

在一些可能的实施方式中,告警条件包括:以下至少之一:在一个周期中的第一任务的执行时长大于预设时长阈值;在连续的N个周期中的第一任务的执行时长大于预设时长阈值,N为正整数。

在一些可能的实施方式中,执行信息包括:第一任务在执行过程中已执行的数据量;资源申请信息包括:第一任务在执行过程中已申请的资源量和/或申请资源的等待时长。

在一些可能的实施方式中,根据第一任务的执行信息以及资源申请信息,估计第一任务的时长,包括:将执行信息和资源申请信息输入预设的估计模型进行执行时长估计,得到第一任务的执行时长;其中,估计模型是基于被监控任务的历史执行信息和历史资源申请信息得到的。

在一些可能的实施方式中,估计模型由以下公式获得:zi=f(xi,yi)+ti,其中,zi表示被监控任务的执行时长,xi表示被监控任务在历史执行过程中已执行的数据量,yi表示被监控任务在历史执行过程中申请的资源量,f(xi,yi)表示被监控任务在历史执行过程中的处理时长,ti表示被监控任务在历史执行过程中申请资源的等待时长,i为被监控任务的索引。

第二方面,本公开提供一种告警装置,该装置可以为大数据平台中的芯片或者片上系统,还可以为大数据平台中用于实现第一方面及其任一种可能的实施方式所述方法的功能模块。该告警装置可以实现第一方面及其任一种可能的实施方式所述大数据平台所执行的功能,所述功能可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个上述功能相应的模块。该告警装置包括:获得模块,用于获得第一任务,第一任务为正在执行的任务;估计模块,用于根据第一任务的执行信息以及资源申请信息,估计第一任务的执行时长,执行信息用于表示第一任务的执行进度,资源申请信息用于表示第一任务的申请资源的情况;输出模块,用于当第一任务的执行时长满足告警条件时,输出第一任务的告警信息,告警信息用于提示第一任务为异常任务。

在一些可能的实施方式中,估计模块,用于在根据第一任务的执行信息以及资源申请信息,估计第一任务的执行时长之前,监控第一任务的执行过程;在执行过程中,周期性获得第一任务的执行信息和资源申请信息。

在一些可能的实施方式中,告警条件包括以下至少之一:在一个周期中的第一任务的执行时长大于预设时长阈值;在连续的N个周期中的第一任务的执行时长大于预设时长阈值,N为正整数。

在一些可能的实施方式中,执行信息包括:第一任务在执行过程中已执行的数据量;资源申请信息包括:第一任务在执行过程中已申请的资源量和/或申请资源的等待时长。

在一些可能的实施方式中,估计模块,用于将执行信息和资源申请信息输入预设的估计模型进行执行时长估计,得到第一任务的执行时长;其中,估计模型是基于被监控任务的历史执行信息和历史资源申请信息得到的。

在一些可能的实施方式中,估计模型由以下公式获得:zi=f(xi,yi)+ti,其中,zi表示被监控任务的执行时长,xi表示被监控任务在历史执行过程中已执行的数据量,yi表示被监控任务在历史执行过程中申请的资源量,f(xi,yi)表示被监控任务在历史执行过程中的处理时长,ti表示被监控任务在历史执行过程中申请资源的等待时长,i为被监控任务的索引。

第三方面,本公开提供一种电子设备,包括:用于存储处理器可执行指令的存储器;处理器;其中,处理器被配置为:用于执行可执行指令时,以实现如第一方面及其任一可能的实施方式所述的方法。

第四方面,本公开提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,计算机可执行指令被处理器执行后能够实现如第一方面及其任一可能的实施方式所述的方法。

本公开提供的技术方案与现有技术相比存在的有益效果是:

在本公开中,通过根据第一任务的执行信息以及资源申请信息,估计第一任务的执行时长;当第一任务的执行时长满足告警条件时,输出第一任务的告警信息,以向用户提示当前任务为异常任务。如此,能够实现根据预估的任务执行时长进行告警,尽可能的缩短异常发生时刻与告警时刻之间的时间差,确保能够及时通知用户,改善大数据平台告警的及时性,提高效率。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开的保护范围。

图1为本公开实施例中的告警方法的一种实施流程示意图;

图2为本公开实施例中的告警方法的另一种实施流程示意图;

图3为本公开实施例中的告警方法的一个示例流程图;

图4为本公开实施例中的告警装置的一种结构示意图;

图5为本公开实施例中的一种电子设备的结构示意图。

以下描述中,参考形成本公开一部分并以说明的方式示出本公开实施例的具体方面或可使用本公开实施例的具体方面的附图。应理解,本公开实施例可在其它方面中使用,并可包括附图中未描绘的结构或逻辑变化。因此,以下详细描述不应以限制性的意义来理解,且本公开的范围由所附权利要求书界定。例如,应理解,结合所描述方法的揭示内容可以同样适用于用于执行所述方法的对应设备或装置,且反之亦然。例如,如果描述一个或多个具体方法步骤,则对应的设备可以包含如功能单元等一个或多个单元,来执行所描述的一个或多个方法步骤(例如,一个单元执行一个或多个步骤,或多个单元,其中每个都执行多个步骤中的一个或多个),即使附图中未明确描述或说明这种一个或多个单元。另一方面,例如,如果基于如功能单元等一个或多个单元描述具体装置,则对应的方法可以包含一个步骤来执行一个或多个单元的功能性(例如,一个步骤执行一个或多个单元的功能性,或多个步骤,其中每个执行多个单元中一个或多个单元的功能性),即使附图中未明确描述或说明这种一个或多个步骤。进一步,应理解的是,除非另外明确提出,本文中所描述的各示例性实施例和/或方面的特征可以相互组合。

大数据平台,是指以处理海量数据存储、计算以及不间断流数据实时计算等场景为主的平台。对于大数据平台来说,资源的实时监控和合理分配,比如中央处理器(centralprocessing unit,CPU)、图形处理单元(graphics processing unit,GPU)、数字信号处理器(digital signal process,DSP)、硬盘内存等;任务执行时长的占比,比如申请资源时长等,均显得尤为重要。CPU、GPU、硬盘内存等的使用率、占比率是否存在卡顿现象等,这些指标如果出现异常,则将影响任务的进度、质量,甚至是任务能否执行成功。但是对于告警系统而言,获取的监控信息都是实时数据,也就是说触发告警的条件是系统捕获到了已经发生的异常事件。

在目前的大数据平台中,大部分告警机制都是根据任务的执行结果,如数据波动异常、数据计算结果错误等进行告警,却不能在任务执行前对任务执行结果进行预测告警。而一些任务的延迟报警会造成重要任务的停滞和中断。可见,大数据平台如何对任务进行及时告警是一个亟待解决的问题。

为了解决上述问题,本公开实施例提供了一种告警方法,该方法可以应用于大数据平台中,以执行任务异常告警。

图1为本公开实施例中的告警方法的一种实施流程示意图,参见图1所示,该告警方法可以包括:

S101,获得第一任务。

其中,第一任务为正在执行的任务。

需要说明的是,第一任务可以是处理器(如中央处理器(CPU))正在处理的线程,也可以是处理器(如CPU)正在处理的进程,本公开实施例对此不作具体限定。

应理解的,大数据平台可以预先设置将正在执行的全部任务作为监控对象,或者将正在执行的任务中的部分任务作为监控对象。那么,当大数据平台执行任务监控时,可以按照预设的监控周期,周期性的从处理器正在执行的任务中获得监控对象,即第一任务。此时,第一任务也可以理解为待监控的任务。

在一实施例中,上述第一任务可以为数据分析任务、架构开发任务、数据优化任务等任务中的一个或者多个。示例性的,假设第一任务为大数据平台上执行的架构开发任务。

S102,根据第一任务的执行信息以及资源申请信息,估计第一任务的执行时长。

应理解的,大数据平台在通过S101获得第一任务之后,可以根据用于表示第一任务的执行进度的第一任务的执行信息和用于表示第一任务的申请资源情况的资源申请信息,估计第一任务的执行时长。

在一些可能的实施方式中,执行信息包括第一任务在执行过程中已执行的数据量;资源申请信息包括:第一任务在执行过程中已申请的资源量和/或申请资源的等待时长。

应理解的,在执行第一任务时,需要对大数据平台进行资源申请,在资源申请的过程中,由于存在一个或者多个正在处理的任务,那么,此时获取第一任务的执行资源是需要进行等待的,也就是本公开中的申请资源的等待时长。当然,每个任务的资源申请的等待时长也可以通过其他方式确定,本公开对此不作具体限定。

示例性的,第一任务的执行信息可以为第一任务在执行过程中已执行的数据量,第一任务的资源申请信息可以为第一任务在执行过程中已申请的资源量、申请资源的等待时长等。其中,已执行的数据量可以理解为第一任务已经执行的数据量;已申请的资源量可以理解为在执行第一任务之前,向大数据平台申请所需资源的已经申请到的资源量;申请资源的等待时长可以理解为在执行第一任务之前,向大数据平台申请所需执行资源的等待时长。

相应的,S102可以包括:大数据平台根据第一任务的已执行的数据量、已申请的资源量以及申请资源的等待时长,估计第一任务的执行时长。

在一些可能的实施方式中,S102还可以包括:将第一任务的执行信息和资源申请信息输入预设的估计模型进行执行时长估计,得到第一任务的执行时长。

这里,估计模型是基于被监控任务的历史执行信息和历史资源申请信息得到的。具体来说,大数据平台根据各个被监控任务的历史执行信息和历史资源申请信息,可以构建用于估计任务执行时长的估计模型。例如,大数据平台可以根据各个被监控任务的历史执行信息和历史资源申请信息训练神经网络,得到上述估计模型;或者,还可以通过对各个被监控任务的历史执行信息和历史资源申请信息进行统计拟合,得到上述估计模型。当然,估计模型还可以通过其他方式构建,本公开实施例对此不作具体限定。

可选的,对于不同类型的任务,可以分别构建相应的估计模型;或者,也可以构建适用于各类任务的估计模型,本公开实施例对此不作具体限定。

在一实施例中,大数据平台可以先确定各个被监控任务的历史执行信息和历史资源申请信息,即获得各个被监控任务在预设时间段(如一周、一个月、三个月、一年等)内的执行的数据量、各个被监控任务申请的资源量以及申请资源时的等待时长。然后,大数据平台通过分析任务每次执行的数据量和申请的资源(如对采集到的历史执行信息和历史资源申请信息进行统计拟合),得到上述估计模型。进一步地,大数据平台再根据各个被监控任务在每次执行完后的最终执行时长,对估计模型进行修正,以增强估计模型的性能,提高执行时长估计的准确率。需要说明的是,任务执行时长一般跟资源、数据量是正相关的。

在实际应用中,任务申请的资源是以容器(container)的形式表示的。例如,一个container可以包含1核CPU(即1v CPU)或2GB内存.

示例性的,上述估计模型可以采用公式(1)实现。

zi=f(xi,yi)+ti (1)

其中,zi表示被监控任务的执行时长,xi表示被监控任务在历史执行过程中已执行的数据量,yi表示被监控任务在历史执行过程中申请的资源量,f(xi,yi)表示被监控任务在历史执行过程中的处理时长,ti表示被监控任务在历史执行过程中申请资源的等待时长,i为被监控任务的索引。

当然,上述f(xi,yi)可以通过数据拟合或者训练模型确定,也可以通过其他方式确定,本公开实施例对此不作具体限定。

相应的,大数据平台在执行S102时,可以将第一任务(索引为M)在执行过程中已执行的数据量xM、已申请的资源量yM以及申请资源的等待时长tM,输入上述公式(1),得到第一任务的最终执行时长zM。

进一步地,第一任务的最终执行时长zM可以参见公式(2)。

zM=f(xM,yM)+tM (2)

S103,当第一任务的执行时长满足告警条件时,输出第一任务的告警信息。

这里,告警信息用于提示第一任务为异常任务。

应理解的,在S102获得第一任务的估计执行时长后,大数据平台判断第一任务的执行时长是否满足告警条件;若是,则大数据平台输出告警信息,以告知用户当前执行任务为异常任务。反之,则返回S101。

在一些可能的实施方式中,当大数据平台估计第一任务的执行时长超过预设时长阈值,即满足告警条件时,输出告警信息。其中,告警信息中可以包含有告警名称、告警原因、告警等级等信息。通过这些信息,用户可以很快对故障进行定位。

另外,输出告警信息的方式可以存在告警等级(或者及时性)不同的多种输出方式,如短信息、邮件、消息、企业、电话等。同时,也可以根据告警等级的不同,可以选择将该告警信息发布到问题界面或观察界面,在观察界面的告警信息表明故障还不是十分严重,可以让用户提前介入,尽量不让故障恶化,而在问题界面的告警信息则表明故障已经非常严重,可使用户提前做好应对措施。当然,大数据平台还可以采取其他方式输出告警信息,本公开实施例对此不作具体限定。

在一些可能的实施方式中,上述告警条件可以至少包含以下之一:

条件一:在一个周期中的第一任务的执行时长大于预设时长阈值。

需要说明的是,本公开实施例中所述的周期是指大数据平台端对任务的监控周期。

应理解的,当一个监控周期中的第一任务的执行时长大于预设时长阈值时,确定第一任务的执行时长满足告警条件。

示例性的,假设,预设时长阈值为10min。

当根据估计模型估计第一任务的执行时长为11min时,大数据平台确定第一任务的执行时长满足条件一。此时,大数据平台输出告警信息,以进行告警;当根据估计模型估计第一任务的执行时长为9min时,大数据平台确定第一任务的执行时长不满足条件一,则返回执行S101,继续执行任务监控。

条件二:在N个周期中的第一任务的执行时长大于预设时长阈值,N为正整数。

需要说明的是,本公开实施例中所述的周期是指大数据平台端对任务的监控周期。

应理解的,当在一个连续(未间断)的N个周期中的第一任务的执行时长均大于预设时长阈值时,其中,N为正整数,确定第一任务的执行时长满足告警条件。

示例性的,假设,预设时长阈值为10min,N为3。

当第一次根据估计模型估计第一任务的执行时长为11min,第二次根据估计模型估计第一任务的执行时长为12min,第三次根据估计模型估计第一任务的执行时长为11min,即,连续三次根据估计模型估计第一任务的执行时长均大于预设时长阈值,大数据平台确定第一任务的执行时长满足条件二。此时,大数据平台输出告警信息,以进行告警;当第一次根据估计模型估计第一任务的执行时长为11min,当第二次根据估计模型估计第一任务的执行时长为12min,当第三次根据估计模型估计第一任务的执行时长为9min,即,累积三次根据估计模型估计第一任务的执行时长均大于预设时长阈值,大数据平台确定第一任务的执行时长不满足条件二,则返回执行S101,继续执行任务监控。

应理解的,告警条件也可以为当在一个离散(可间断)的N个周期中的第一任务的执行时长均大于预设时长阈值时,N为正整数,确定第一任务的执行时长满足告警条件。

示例性的,例如,预设执行时长阈值为10min,N为3。

当第一次根据估计模型估计第一任务的执行时长为11min,第二次根据估计模型估计第一任务的执行时长为9min,第三次根据估计模型估计第一任务的执行时长为12min,第四次根据估计模型估计第一任务的执行时长为10min(等于预设时长阈值),第五次根据估计模型估计第一任务的执行时长为13min,即,累计三次(即第一次、第三次、第五次)根据估计模型估计第一任务的执行时长均大于预设时长阈值,大数据平台确定第一任务的执行时长满足告警条件二。此时,大数据平台输出告警信息,以进行告警。

当然,上述预设时长阈值可以根据实际需要进行设定,本公开实施例对此不作具体限定。

在一些可能的实施例中,大数据平台在执行S103之前,还需监控第一任务的执行过程。那么,图2为本公开实施例中的告警方法的另一种实施流程示意图,参见图2所示,在S101之前,执行S201至S202。

S201,大数据平台监控第一任务的执行过程。

S202,在第一任务的执行过程中,大数据平台周期性获得第一任务的执行信息和资源申请信息。

应理解的,大数据平台在第一任务开始执行之后,可以持续监控各个任务的执行过程,,并周期性的获取第一任务的执行信息和资源申请信息。

示例性的,在S202中,大数据平台可以每间隔一定时长(如监控周期)获取一次第一任务的执行信息和资源申请信息。该时长可以以秒、分钟、小时、天、周、月、年等时间粒度。如该时长可以为30s、1min、12h、1天等。当然,上述时长也可以根据被监控任务的执行周期进行设定,本公开对此不作具体限定。

下面以具体例来对本公开实施例中的告警方法进行说明。

图3为本公开实施例中的告警方法的一个示例流程图,参见图3所示,上述告警方法可以包括:

S301,大数据平台获得开始执行的第一任务。

S302,大数据平台持续监控第一任务的执行过程。

S303,大数据平台在第一任务的执行过程中,周期性获得第一任务的执行信息和资源申请信息。

S304,大数据平台将第一任务的执行信息以及资源申请信息输入相应的估计模型进行执行时长估计,得到第一任务的执行时长。

S305,大数据平台判断第一任务的执行时长是否满足告警条件;若是,则跳转至S306;否则,跳转至S301。

S306,大数据平台输出第一任务的告警信息。

至此,便实现了大数据平台进行告警过程。

由此可见,通过根据第一任务的执行信息以及资源申请信息,估计第一任务的执行时长;当第一任务的执行时长满足告警条件时,输出第一任务的告警信息,以向用户提示当前任务为异常任务。如此,能够实现根据预估的任务执行时长进行告警,尽可能的缩短异常发生时刻与告警时刻之间的时间差,确保能够及时通知用户,改善大数据平台告警的及时性,提高效率。

基于相同的发明构思,本公开实施例提供了一种告警装置,该装置可以为大数据平台中的芯片或者片上系统,还可以为大数据平台中用于实现上述各个实施例所述的方法的功能模块。该告警装置可以实现上述各实施例中大数据平台所执行的功能,这些功能可以通过硬件执行相应的软件实现。这些硬件或软件包括一个或多个上述功能相应的模块。图4为本公开实施例中的告警装置的一种结构示意图,参见图4所示,告警装置400,可以包括:获得模块401,用于获得第一任务,第一任务为正在执行的任务;估计模块402,用于根据第一任务的执行信息以及资源申请信息,估计第一任务的执行时长,执行信息用于表示第一任务的执行进度,资源申请信息用于表示第一任务的申请资源的情况;输出模块403,用于当第一任务的执行时长满足告警条件时,输出第一任务的告警信息,告警信息用于提示第一任务为异常任务。

在一种可能的实施方式中,估计模块402,用于在根据第一任务的执行信息以及资源申请信息,估计第一任务的执行时长之前,实时监控第一任务的执行过程;在执行过程中,周期性获得第一任务的执行信息和资源申请信息。

在一种可能的实施方式中,告警条件包括以下至少之一:在一个周期中的第一任务的执行时长大于预设时长阈值;在连续的N个周期中的第一任务的执行时长大于预设时长阈值,N为正整数。

在一种可能的实施方式中,执行信息包括:第一任务在执行过程中已执行的数据量;资源申请信息包括:第一任务已申请的资源量和/或申请资源的等待时长。

在一种可能的实施方式中,估计模块402,用于将执行信息和资源申请信息输入预设的估计模型进行执行时长估计,得到第一任务的执行时长;其中,估计模型是基于被监控任务的历史执行信息和历史资源申请信息得到的。

在一种可能的实施方式中,估计模型根据公式(1)获得。

需要说明的是,获得模块401、估计模块402和输出模块403的具体实现过程可参考图1至图3实施例的详细描述,为了说明书的简洁,这里不再赘述。

本公开实施例中提到的获得模块401、估计模块402和输出模块403可以为一个或者多个处理器。

基于相同的发明构思,本公开实施例提供一种电子设备,该电子设备可以与上述一个或者多个实施例中所述的大数据平台一致。图5为本公开实施例中的一种电子设备的结构示意图,参见图5所示,电子设备500,可以采用通用的计算机硬件,包括处理器501、存储器502。

可选的,处理器501和存储器502可以通过总线503通信。

在一些可能的实施方式中,至少一个处理器501可以构成具有对一个或多个输入执行逻辑运算的电路的任何物理设备。例如,至少一个处理器可以包括一个或多个集成电路(integrated circuit,IC),包括专用集成电路(application specific integratedcircuit,ASIC)、微芯片、微控制器、微处理器、中央处理单元(central processing unit,CPU)的全部或部分、图形处理单元(graphics processing unit,GPU)、数字信号处理器(digital signal process,DSP)、现场可编程门阵列(field programmable gate array,FPGA)或者适于执行指令或执行逻辑运算的其它电路。由至少一个处理器执行的指令可以例如被预加载到与控制器集成的或嵌入在控制器中的存储器中,或者可以存储在分离的存储器中。存储器可以包括随机存取存储器(random access memory,RAM)、只读存储器(read-only memory,ROM)、硬盘、光盘、磁介质、闪存,其它永久、固定或易失性存储器,或者能够存储指令的任何其它机制。在一些实施例中,至少一个处理器可以包括多于一个处理器。每个处理器可以具有相似的结构,或者处理器可以具有彼此电连接或断开的不同构造。例如,处理器可以是分离的电路或集成在单个电路中。当使用多于一个处理器时,处理器可以被配置为独立地或协作地操作。处理器可以以电、磁、光学、声学、机械或通过允许它们交互的其它手段来耦合。根据本公开的一个实施例,本公开还提供了一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行上述标定方法的步骤。存储器502可以包括以易失性和/或非易失性存储器形式的计算机存储媒体,如只读存储器和/或随机存取存储器。存储器502可以存储操作系统、应用程序、其他程序模块、可执行代码、程序数据、用户数据等。

此外,上述存储器502中存储有用于实现图4中的获得模块401、估计模块402和输出模块403的功能的计算机执行指令。图4中的获得模块401、估计模块402和输出模块403的功能/实现过程均可以通过图5中的处理器501调用存储器502中存储的计算机执行指令来实现,具体实现过程和功能参考上述相关实施例。

基于相同的发明构思,本公开实施例提供一种电子设备,包括:存储器,存储有计算机可执行指令;处理器,与存储器相连,用于通过执行计算机可执行指令,并能够实现如上述一个或者多个实施例所述的告警方法。

基于相同的发明构思,本公开实施例提供一种计算机存储介质,计算机存储介质存储有计算机可执行指令,计算机可执行指令被处理器执行后,能够实现如上述一个或者多个实施例所述的告警方法。

本领域技术人员可以理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本公开实施例的实施过程构成任何限定。本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本公开旨在涵盖本发明的任何变形、用途或者适应性变化,这些变形、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的工质常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。

以上所述,仅为本公开示例性的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应该以权利要求的保护范围为准。

本文发布于:2024-09-24 18:15:42,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/86201.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议