数据处理方法与装置与流程



1.本技术涉及数据分析技术领域,尤其涉及一种数据处理方法与装置。


背景技术:



2.绿企业是指其经营活动有利于支持环境改善、适应或减缓气候变化和资源节约高效利用、且有资金需求的企业。
3.通常地,企业是否为绿企业是进行信用贷款、项目投资、项目运营、风险管理的重要指标之一。因此,需要评估企业是否为绿企业,并确定的绿企业纳入数据库。然而,目前纳入数据库的绿企业的精确度低;另外,在后续基于纳入数据库的绿企业的进行项目评估时,精确度低且效率低。


技术实现要素:



4.本技术提供一种数据处理方法与装置,用于纳入数据库的绿企业的精确度低;在后续基于纳入数据库的绿企业的进行项目评估时,精确度低且效率低的问题。
5.第一方面,本技术提供了一种数据处理方法,应用于服务器,包括:服务器获取待入库的企业的主营业务信息。对于预配置的绿产业词库中每个绿产业类型,服务器确定绿产业类型下的第一关键词,在主营业务信息中出现的第一词频得分,并确定除绿产业类型之外的其他绿产业类型下的第一关键词,在主营业务信息中出现的第二词频得分。服务器根据第一词频得分和第二词频得分,确定主营业务信息与每个绿产业类型的匹配度。服务器根据确定的大于设定的阈值的匹配度对应的绿产业类型,对待入库的企业标记与对应的绿产业类型对应的类别标签。服务器将标记有类别标签的待入库的企业,添加到预设的数据库。服务器对待评估的项目进行评估处理时,根据所述类别标签从所述数据库中获取与所述待评估项目的类别对应的评估规则,以评估所述待评估的项目。
6.在一种可能的实施方式中,确定除绿产业类型之外的其他绿产业类型下的第一关键词,在主营业务信息中出现的第二词频得分,包括:服务器对除绿产业类型之外的其他绿产业类型下的关键词集合中的各第一关键词去重;服务器统计去重后的除绿产业类型之外的其他绿产业类型下中的关键词集合中的各第一关键词,在主营业务信息出现的第二词频得分。
7.在一种可能的实施方式中,确定除绿产业类型之外的其他绿产业类型下的第一关键词,在主营业务信息中出现的第二词频得分,包括:服务器对除绿产业类型之外的其他绿产业类型的关键词的集合中,在当前统计的绿产业类型中出现的第一关键词剔除;服务器统计剔除后的除绿产业类型之外的其他绿产业类型中的各第一关键词,在主营业务信息出现的第二词频得分。
8.在一种可能的实施方式中,服务器根据第一词频得分和第二词频得分,确定主营业务信息与每个绿产业类型的匹配度,包括:服务器根据第一词频得分fc和第二词频得分f
c-,采用算式:
[0009][0010]
确定主营业务信息与每个绿产业类型的匹配度p;其中,γ为设定的超参数;或者,采用算式:
[0011][0012]
确定主营业务信息与每个绿产业类型的匹配度p。
[0013]
在一种可能的实施方式中,在服务器获取待入库的企业的主营业务信息之后,还包括:服务器统计绿产业词库的每个绿产业类型中的任一第一关键词,所属的绿企业的企业信息的第一数量;服务器统计第一数量的绿企业的企业信息中,与该第一关键词所属同一绿产业类型的绿企业的企业信息的第三数量;服务器根据第一数量df(s)、第三数量dfc(s),采用算式:确定绿产业词库的每个绿产业类型中的任一第一关键词在所属的绿产业类型中的重要性p(s,c);服务器确定绿产业类型下的第一关键词,在主营业务信息中出现的第一词频得分,包括:服务器根据每个绿产业类型中的第一关键词i属于主营业务信息的第三词频tfi、每个绿产业类型中的第一关键词i的重要性wi,统计预设的绿产业词库的每个绿产业类型中的各第一关键词,在主营业务信息出现的第一词频得分fc;
[0014]
服务器确定除绿产业类型之外的其他绿产业类型下的第一关键词,在主营业务信息中出现的第二词频得分,包括:服务器根据除绿产业类型之外的其他绿产业类型下中的第一关键词i属于主营业务信息的第三词频tfi,除绿产业类型之外的其他绿产业类型下中的第一关键词i的重要性wi,采用算式:f
c-=∑
i∈j
tfi*wi,确定除绿产业类型之外的其他绿产业类型下的第一关键词,在主营业务信息中出现的第二词频得分f
c-,j为除所述绿产业类型之外的其他绿产业类型下中的第一关键词的集合。
[0015]
在一种可能的实施方式中,在服务器获取待入库的企业的主营业务信息之前,还包括:服务器从多个预设的绿企业的企业信息中,提取不属于绿产业词库,但与绿产业词库中的绿产业类型关联的第二关键词;服务器将提取的第二关键词,添加到绿产业词库的对应的绿产业类型中。
[0016]
在一种可能的实施方式中,服务器从多个预设的绿企业的企业信息中,提取不属于绿产业词库,但与绿产业词库中的绿产业类型关联的第二关键词,包括:服务器统计绿产业词库的每个绿产业类型中的任一第一关键词,所属绿企业的企业信息的第一数量;服务器统计多个绿企业的企业信息中,既包含第一关键词又包含第二关键词的企业信息的第二数量;服务器根据第一数量df(s)、所述第二数量df(w,s)采用算式:确定第二关键词与第一关键词的关联的概率p(w|s);服务器根据任一绿产业类型中的第一关键词的总数量|sc|,任一第二关键词与该绿产业类型的各第一关键词的关联的概率p(w|s),采用算式确定第二关键词与
该绿产业类型的关联度rel(w,c);服务器提取关联度大于设定阈值第二关键词。
[0017]
在一种可能的实施方式中,在所述服务器提取所述关联度大于设定阈值第二关键词之前,本技术提供的方法还包括:服务器根据算式词之前,本技术提供的方法还包括:服务器根据算式初步归一化第二关键词与该绿产业类型的关联度,其中,v(w,c)为初步归一化后的第二关键词与该绿产业类型的关联度,|c|为绿产业类型的数量。服务器根据算式再次归一化第二关键词与该绿产业类型的关联度,其中,vc(w,c)为再次归一化后的第二关键词与该绿产业类型的关联度。服务器根据算式又一次归一化第二关键词与该绿产业类型的关联度,其中,τ
w,c
为又一次归一化后的第二关键词与该绿产业类型的关联度。如此,可以使得最终得到的关联度的可靠性更高。
[0018]
在一种可能的实施方式中,待评估的项目为评估企业的绿级别,服务器对待评估的项目进行评估处理时,根据类别标签从数据库中获取与待评估项目的类别对应的评估规则,以评估待评估的项目,包括:服务器对待评估的项目进行评估处理时,根据待评估的企业的类别标签,关联的绿级别评估规则;服务器根据绿级别评估规则,评估待评估的企业的主营业务信息,以确定待评估的企业的绿级别,其中,绿级别为浅绿、中绿或者深绿。
[0019]
第二方面,本技术提供了一种数据处理装置,应用于服务器,装置包括:信息获取单元,用于获取待入库的企业的主营业务信息;词频确定单元,用于对于预配置的绿产业词库中每个绿产业类型,确定绿产业类型下的第一关键词,在主营业务信息中出现的第一词频得分,并确定除绿产业类型之外的其他绿产业类型下的第一关键词,在主营业务信息中出现的第二词频得分;匹配度确定单元,用于根据第一词频得分和第二词频得分,确定主营业务信息与每个绿产业类型的匹配度;类别标记单元,根据确定的大于设定的阈值的匹配度对应的绿产业类型,对待入库的企业标记与对应的绿产业类型对应的类别标签;数据入库单元,用于将标记有类别标签的待入库的企业,添加到预设的数据库;项目评估单元,还用于对待评估的项目进行评估处理时,根据所述类别标签从所述数据库中获取与所述待评估项目对应的评估规则以评估所述待评估的项目。
[0020]
第三方面,本技术还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时,使得计算机执行如第一方面提供的方法。
[0021]
第四方面,本技术还提供了一种服务器,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时,使得服务器执行如第一方面提供的方法。
[0022]
第五方面,本技术还提供一种计算机程序产品,包括计算机程序,当计算机程序被运行时,使得计算机执行如第一方面提供的方法。
[0023]
本技术提供的一种数据处理方法,由于不仅考虑了绿产业类型下的第一关键词,在主营业务信息中出现的第一词频得分,还考虑了除绿产业类型之外的其他绿产业类型下的第一关键词,在主营业务信息中出现的第二词频得分。进而,根据第一词频得分
和第二词频得分,确定的主营业务信息与每个绿产业类型的匹配度的精确度高。这样一来,根据匹配度对待入库的企业标记与对应的绿产业类型对应的类别标签的可靠性也高。如此,当需要对待评估的项目进行评估处理时,可以根据类别标签从数据库中获取与待评估项目的类别对应的评估规则,以评估待评估的项目,由于评估规则与待评估的项目匹配,精确度高,效率高。
附图说明
[0024]
为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0025]
图1为本技术实施例提供的数据处理方法的流程图之一;
[0026]
图2为本技术实施例提供的数据处理方法的流程图之二;
[0027]
图3为图2中的s201的具体流程图;
[0028]
图4为本技术实施例提供的数据处理装置的流程图。
具体实施方式
[0029]
为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在根据本实施例的启示下作出的所有其他实施例,都属于本技术保护的范围。
[0030]
本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0031]
通常地,企业是否为绿企业是进行信用贷款、项目投资、项目运营、风险管理的重要指标之一。因此,需要评估企业是否为绿企业,并确定的绿企业纳入数据库。然而,目前纳入数据库的绿企业的精确度低;另外,在后续基于纳入数据库的绿企业的进行项目评估时,精确度低且效率低。
[0032]
基于上述技术问题,本技术的发明构思在于:可以准确地将待入库的企业的主营业务信息与绿企业数据库中的绿产业类型匹配,进而,根据匹配度对待入库的企业标记与对应的绿产业类型对应的类别标签的可靠性也高。如此,当需要对待评估的项目进行评估处理时,可以根据类别标签从数据库中获取与待评估项目的类别对应的评估规则,以评估待评估的项目,由于评估规则与待评估的项目匹配,精确度高,效率高。
[0033]
下面,以具体地实施例对本技术的技术方案以及本技术的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念
或过程可能在某些实施例中不再赘述。下面将结合附图,对本技术的实施例进行描述。
[0034]
请参阅图1,本技术实施例提供了一种数据处理方法,应用于服务器。本技术实施例提供的方法包括:
[0035]
s101:服务器获取待入库的企业的主营业务信息。
[0036]
示例性地,企业的主营业务信息可以如图下表1所示:
[0037][0038]
表1
[0039]
s102:对于预配置的绿产业词库中每个绿产业类型,服务器确定绿产业类型下的第一关键词,在主营业务信息中出现的第一词频得分,并确定除绿产业类型之外的其他绿产业类型下的关键词集合中的第一关键词,在主营业务信息中出现的第二词频得分。
[0040]
示例性地,预配置的绿产业词库可以是根据绿产业指导目录生成的,每个绿产业类型可以是绿产业指导目录下的各个三级子目录。
[0041]
假设绿产业指导目录中包括子目录a、子目录b以及子目录c,服务期确定子目录a中的各个第一关键词在主营业务信息中出现的第一词频得分,以及确定子目录b、子目录c构成的关键词集合中的各个第一关键词在主营业务信息中出现的第二词频得分。
[0042]
再例如,服务器确定子目录b中的各个第一关键词在主营业务信息中出现的第一词频得分,以及确定子目录a、子目录c构成的关键词集合中的各个第一关键词在主营业务信息中出现的第二词频得分。
[0043]
再例如,服务器确定子目录c中的各个第一关键词在主营业务信息中出现的第一词频得分,以及确定子目录a、子目录b构成的关键词集合中的各个第一关键词在主营业务信息中出现的第二词频得分。
[0044]
在一种可能的实施方式中,服务器可以先对除绿产业类型之外的其他绿产业类型下的关键词集合中的各第一关键词去重;然后再统计去重后的除绿产业类型之外的
其他绿产业类型下中的关键词集合中的各第一关键词,在主营业务信息出现的第二词频得分。这样一来,使得最后得到的第二词频得分的可靠性更高。
[0045]
在另一种可能的实施方式中,服务器先对除绿产业类型之外的其他绿产业类型中的关键词集合中,在当前统计的绿产业类型中出现的第一关键词剔除;然后再统计剔除后的除绿产业类型之外的其他绿产业类型中的关键词集合中的各第一关键词,在主营业务信息出现的第二词频得分。这样一来,使得最后得到的第二词频得分的可靠性更高。
[0046]
另外,为了进一步增强确定的第一词频得分和第二词频得分的可靠性。服务器还可以为各个第一关键词赋予不同的权重(即重要性)。
[0047]
具体地,服务器统计绿产业词库的每个绿产业类型中的任一第一关键词,所属的绿企业的企业信息的第一数量。示例性地,服务器统计包括绿产业类型中的第一关键词s的绿企业的企业信息的第一数量。
[0048]
进而,服务器统计第一数量的绿企业的企业信息中,与该第一关键词所属同一绿产业类型的绿企业的企业信息的第三数量。示例性地,统计第一数量的绿企业的企业信息中与第一关键词s同属于子目录c的绿企业的企业信息的第三数量。然后,服务器根据第一数量df(s)、第三数量dfc(s),采用算式:确定绿产业词库的每个绿产业类型中的任一第一关键词在所属的绿产业类型中的重要性p(s,c)。示例性地,确定子目录c中的第一关键词i在子目录c中的重要性。最后,服务器根据每个绿产业类型中的第一关键词i属于主营业务信息的第三词频tfi、每个绿产业类型中的第一关键词i的重要性wi,统计预设的绿产业词库的每个绿产业类型中的各第一关键词,在主营业务信息出现的第一词频得分fc。可以理解地,由于确定第一词频得分fc时考虑了各个第一关键词在所属的绿产业类型中的重要性,可靠性更高。
[0049]
另外,服务器根据除绿产业类型之外的其他绿产业类型下中的第一关键词i属于主营业务信息的第三词频tfi,除绿产业类型之外的其他绿产业类型下中的第一关键词i的重要性wi,采用算式:f
c-=∑
i∈j
tfi*wi,确定除绿产业类型之外的其他绿产业类型下的第一关键词,在主营业务信息中出现的第二词频得分f
c-,j为除所述绿产业类型之外的其他绿产业类型下中的第一关键词的集合。
[0050]
假设绿产业指导目录中包括子目录a、子目录b以及子目录c,当前正在统计的是子目录c,则服务器根据确定子目录a、子目录b中的第一关键词i属于主营业务信息的第三词频tfi,及子目录a、子目录b中的第一关键词i的重要性wi,采用算式:f
c-=∑
i∈j
tfi*wi,确定子目录a、子目录b中的第一关键词,在主营业务信息中出现的第二词频得分f
c-,j为除所述绿产业类型之外的其他绿产业类型下中的第一关键词的集合。可以理解地,由于确定第二词频得分f
c-时考虑了各个第一关键词在所属的绿产业类型中的重要性,可靠性更高。
[0051]
s103:服务器根据第一词频得分和第二词频得分,确定主营业务信息与每个绿产业类型的匹配度。
[0052]
示例性地,s103的具体实现方式如下:
[0053]
服务器根据第一词频得分fc和第二词频得分f
c-,采用算式:
确定主营业务信息与每个绿产业类型的匹配度p;其中,γ为设定的超参数,例如,γ可以等于0.01。
[0054]
或者,采用算式:确定主营业务信息与每个绿产业类型的匹配度p。
[0055]
在确定上述的匹配度时,由于不仅考虑了绿产业类型下的第一关键词,在主营业务信息中出现的第一词频得分,还考虑了除绿产业类型之外的其他绿产业类型下的第一关键词,在主营业务信息中出现的第二词频得分。进而,根据第一词频得分和第二词频得分,确定的主营业务信息与每个绿产业类型的匹配度的精确度高。
[0056]
s104:服务器根据确定的大于设定的阈值的匹配度对应的绿产业类型,对待入库的企业标记与对应的绿产业类型对应的类别标签。
[0057]
可以理解地,当待入库的企业的主营业务信息与某一各绿产业类型的匹配度越高时,说明待入库的企业的类别属于该绿产业类型。如此,可以对待入库的企业标记与对应的绿产业类型对应的类别标签,标记的精确度高。
[0058]
s105:服务器将标记有类别标签的待入库的企业,添加到预设的数据库。
[0059]
s106:服务器对待评估的项目进行评估处理时,根据类别标签从数据库中获取与待评估项目的类别对应的评估规则,以评估待评估的项目。
[0060]
示例性地,待评估的项目为评估金融项目是否为绿金融项目,服务器对待评估的项目进行评估处理时,根据待评估的企业的类别标签,关联的绿金融评估规则;服务器根据绿金融评估规则,评估待评估的企业的主营业务信息,以评估金融项目是否为绿金融项目。
[0061]
示例性地,待评估的项目为评估企业的绿级别,服务器对待评估的项目进行评估处理时,根据待评估的企业的类别标签,关联的绿级别评估规则;服务器根据绿级别评估规则,评估待评估的企业的主营业务信息,以确定待评估的企业的绿级别,其中,绿级别为浅绿、中绿或者深绿。
[0062]
综上所述,本技术实施例提供的一种数据处理方法,由于不仅考虑了绿产业类型下的第一关键词,在主营业务信息中出现的第一词频得分,还考虑了除绿产业类型之外的其他绿产业类型下的第一关键词,在主营业务信息中出现的第二词频得分,进而,根据第一词频得分和第二词频得分,确定的主营业务信息与每个绿产业类型的匹配度的精确度高。进而,根据匹配度对待入库的企业标记与对应的绿产业类型对应的类别标签的可靠性也高。如此,当需要对待评估的项目进行评估处理时,可以根据类别标签从数据库中获取与待评估项目的类别对应的评估规则,以评估待评估的项目,由于评估规则与待评估的项目匹配,精确度高,效率高。
[0063]
另外,本技术实施例还可以对绿产业词库进行优化,使得绿产业词库的内容更丰富,可靠程度越高。
[0064]
具体地,在s101之前,如图2所示,本技术实施例提供的方法还可以包括:
[0065]
s201:服务器从多个预设的绿企业的企业信息中,提取不属于绿产业词库,但与绿产业词库中的绿产业类型关联的第二关键词。
[0066]
s202:服务器将提取的第二关键词,添加到绿产业词库对应的绿产业类型中。
[0067]
由于第二关键词与绿产业词库中的绿产业类型关联,说明第二关键词能够表达绿产业词库中的绿产业类型的含义,这样一来,服务器将提取的第二关键词,添加到绿产业词库的对应的绿产业类型中,可以使得绿产业词库的内容更丰富,可靠程度越高。
[0068]
需要说明的是,优化绿产业词库与上述的待入库的企业标记与对应的绿产业类型对应的类别标签的过程,二者是相互促进,相辅相成,可以提高相互之间的准确度。
[0069]
示例性地,如图3所示,s201可以具体实现为:
[0070]
s301:服务器统计绿产业词库的每个绿产业类型中的任一第一关键词,所属绿企业的企业信息的第一数量。
[0071]
示例性地,服务器统计包括绿产业类型中的第一关键词s的绿企业的企业信息的第一数量。
[0072]
s302:服务器统计多个绿企业的企业信息中,既包含第一关键词又包含第二关键词的企业信息的第二数量。
[0073]
示例性地,服务器统计既包含第一关键词s又包括第二关键词b的绿企业的企业信息的第二数量。
[0074]
s303:服务器根据第一数量df(s),第二数量df(w,s)采用算式:
[0075]
确定第二关键词与第一关键词的关联的概率p(w|s)。
[0076]
可以理解地,通过上述的算式确定的第二关键词与第一关键词的关联的概率的可靠性高。
[0077]
s304:服务器根据任一绿产业类型中的第一关键词的总数量|sc|,任一第二关键词与该绿产业类型的各第一关键词的关联的概率p(w|s),采用算式确定第二关键词与该绿产业类型的关联度rel(w,c)。
[0078]
可以理解地,通过上述的算式确定第二关键词与该绿产业类型的关联度的可靠性高。
[0079]
另外,还可以对关联度进行归一化,归一化的具体方式可以为:服务器根据算式初步归一化第二关键词与该绿产业类型的关联度,其中,v(w,c)为初步归一化后的第二关键词与该绿产业类型的关联度,|c|为绿产业类型的数量。服务器根据算式业类型的数量。服务器根据算式再次归一化第二关键词与该绿产业类型的关联度,其中,vc(w,c)为再次归一化后的第二关键词与该绿产业类型的关联度。服务器根据算式又一次归一化第二关键词与该绿产业类型的关联度,其中,τ
w,c
为又一次归一化后的第二关键词与该绿产业类型的关联度。如此,可以使得最终得到的关联度的可靠性更高。
[0080]
s304:服务器提取关联度大于设定阈值第二关键词。
[0081]
这样一来,提取的第二关键词的可靠性高。
[0082]
请参阅图4,本技术实施例提供了一种数据处理装置400,应用于服务器,包括:信息获取单元401,用于获取待入库的企业的主营业务信息;词频确定单元402,用于对于预配置的绿产业词库中每个绿产业类型,确定绿产业类型下的第一关键词,在主营业务信息中出现的第一词频得分,并确定除绿产业类型之外的其他绿产业类型下的第一关键词,在主营业务信息中出现的第二词频得分;匹配度确定单元403,用于根据第一词频得分和第二词频得分,确定主营业务信息与每个绿产业类型的匹配度;类别标记单元404,根据确定的大于设定的阈值的匹配度对应的绿产业类型,对待入库的企业标记与对应的绿产业类型对应的类别标签;数据入库单元405,用于将标记有类别标签的待入库的企业,添加到预设的数据库;项目评估单元406,还用于对待评估的项目进行评估处理时,根据类别标签从数据库中获取与待评估项目对应的评估规则以评估待评估的项目。
[0083]
在一种可能的实施方式中,词频确定单元402,具体用于对除绿产业类型之外的其他绿产业类型下的关键词集合中的各第一关键词去重;统计去重后的除绿产业类型之外的其他绿产业类型下中的关键词集合中的各第一关键词,在主营业务信息出现的第二词频得分。
[0084]
在另一种可能的实施方式中,词频确定单元402,具体用于对除绿产业类型之外的其他绿产业类型下的关键词集合中,在当前统计的绿产业类型中出现的第一关键词剔除;统计剔除后的除绿产业类型之外的其他绿产业类型中的各第一关键词,在主营业务信息出现的第二词频得分。
[0085]
在一种可能的实施方式中,匹配度确定单元403,具体用于根据第一词频得分fc和第二词频得分f
c-,采用算式:
[0086][0087]
确定主营业务信息与每个绿产业类型的匹配度p;其中,γ为设定的超参数;或者,采用算式:
[0088][0089]
确定主营业务信息与每个绿产业类型的匹配度p。
[0090]
在一种可能的实施方式中,本技术实施例提供的装置400还包括:重要性确定单元,用于统计绿产业词库的每个绿产业类型中的任一第一关键词,所属的绿企业的企业信息的第一数量;统计第一数量的绿企业的企业信息中,与该第一关键词所属同一绿产业类型的绿企业的企业信息的第三数量,根据第一数量df(s)、第三数量dfc(s),采用算式:确定绿产业词库的每个绿产业类型中的任一第一关键词在所属的绿产业类型中的重要性p(s,c)。
[0091]
词频确定单元402,具体用于根据每个绿产业类型中的第一关键词i属于主营业务信息的第三词频tfi、每个绿产业类型中的第一关键词i的重要性wi,统计预设的绿产业词库的每个绿产业类型中的各第一关键词,在主营业务信息出现的第一词频得分fc;根据除绿产业类型之外的其他绿产业类型下中的第一关键词i属于主营业务信息的第三词频tfi,除绿产业类型之外的其他绿产业类型下中的第一关键词i的重要性wi,采用
算式:f
c-=∑
i∈j
tfi*wi,确定除绿产业类型之外的其他绿产业类型下的第一关键词,在主营业务信息中出现的第二词频得分f
c-,j为除绿产业类型之外的其他绿产业类型下中的第一关键词的集合。
[0092]
在一种可能的实施方式中,本技术实施例提供的装置400还包括:词库优化单元,用于从多个预设的绿企业的企业信息中,提取不属于绿产业词库,但与绿产业词库中的绿产业类型关联的第二关键词;将提取的第二关键词,添加到绿产业词库的对应的绿产业类型中。
[0093]
在一种可能的实施方式中,词库优化单元,具体用于统计绿产业词库的每个绿产业类型中的任一第一关键词,所属绿企业的企业信息的第一数量;统计多个绿企业的企业信息中,既包含第一关键词又包含第二关键词的企业信息的第二数量;根据第一数量df(s)、所述第二数量df(w,s)采用算式:确定第二关键词与第一关键词的关联的概率p(w|s);根据任一绿产业类型中的第一关键词的总数量|sc|,任一第二关键词与该绿产业类型的各第一关键词的关联的概率p(w|s),采用算式二关键词与该绿产业类型的各第一关键词的关联的概率p(w|s),采用算式确定第二关键词与该绿产业类型的关联度rel(w,c);服务器提取关联度大于设定阈值第二关键词。
[0094]
数据入库单元405,具体用于在预设的关键词库中,不包括待入库的企业的主营业务信息中的第二关键词时,将标记有类别标签的待入库的企业,添加到预设的数据库,关键词库包括描述禁止或淘汰原料、技术、设备、以及产品的关键词。
[0095]
项目评估单元406,具体用于对待评估的项目进行评估处理时,根据待评估的企业的类别标签,关联的绿级别评估规则;根据绿级别评估规则,评估待评估的企业的主营业务信息,以确定待评估的企业的绿级别,其中,绿级别为浅绿、中绿或者深绿。
[0096]
本技术实施例还提供了一种服务器,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时,使得服务器执行如上述的图1-图3提供的方法。
[0097]
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器,上述指令可由处理器执行以完成上述方法。例如,非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。该非临时性计算机可读存储介质,当该存储介质中的指令由服务器的处理器执行时,使得服务器能够执行上述的图1-图3的方法。
[0098]
本技术实施例还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时上述的图1-图3的方法。
[0099]
最后应说明的是:以上各实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述各实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或对其中部分或全部技术特征进行等同替换;而这些修改或替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的范围。

技术特征:


1.一种数据处理方法,其特征在于,应用于服务器,所述方法包括:所述服务器获取待入库的企业的主营业务信息;对于预配置的绿产业词库中每个绿产业类型,所述服务器确定所述绿产业类型下的第一关键词,在所述主营业务信息中出现的第一词频得分,并确定除所述绿产业类型之外的其他绿产业类型下的第一关键词,在所述主营业务信息中出现的第二词频得分;所述服务器根据所述第一词频得分和所述第二词频得分,确定所述主营业务信息与所述每个绿产业类型的匹配度;所述服务器根据确定的大于设定的阈值的匹配度对应的绿产业类型,对所述待入库的企业标记与所述对应的绿产业类型对应的类别标签;所述服务器将标记有所述类别标签的待入库的企业,添加到预设的数据库;所述服务器对待评估的项目进行评估处理时,根据所述类别标签从所述数据库中获取与所述待评估项目的类别对应的评估规则,以评估所述待评估的项目。2.根据权利要求1所述的方法,其特征在于,所述确定除所述绿产业类型之外的其他绿产业类型下的第一关键词,在所述主营业务信息中出现的第二词频得分,包括:所述服务器对除所述绿产业类型之外的其他绿产业类型下的关键词集合中的各第一关键词去重;所述服务器统计去重后的除所述绿产业类型之外的其他绿产业类型下中的关键词集合中的各第一关键词,在所述主营业务信息出现的第二词频得分。3.根据权利要求1所述的方法,其特征在于,所述确定除所述绿产业类型之外的其他绿产业类型下的第一关键词,在所述主营业务信息中出现的第二词频得分,包括:所述服务器对除绿产业类型之外的其他绿产业类型中,在当前统计的绿产业类型中出现的第一关键词剔除;所述服务器统计剔除后的除绿产业类型之外的其他绿产业类型中的集合中的各第一关键词,在所述主营业务信息出现的第二词频得分。4.根据权利要求1所述的方法,其特征在于,所述服务器根据所述第一词频得分和所述第二词频得分,确定所述主营业务信息与所述每个绿产业类型的匹配度,包括:所述服务器根据所述第一词频得分f
c
和所述第二词频得分采用算式:确定所述主营业务信息与所述每个绿产业类型的匹配度p;其中,γ为设定的超参数;或者,采用算式:确定所述主营业务信息与所述每个绿产业类型的匹配度p。5.根据权利要求1所述的方法,其特征在于,在所述服务器获取待入库的企业的主营业务信息之后,所述方法还包括:
所述服务器统计所述绿产业词库的每个绿产业类型中的任一第一关键词,所属的绿企业的企业信息的第一数量;所述服务器统计所述第一数量的绿企业的企业信息中,与该第一关键词所属同一绿产业类型的绿企业的企业信息的第三数量;所述服务器根据所述第一数量df(s)、所述第三数量df
c
(s),采用算式:确定所述绿产业词库的每个绿产业类型中的任一第一关键词在所属的绿产业类型中的重要性p(s,c);所述服务器确定所述绿产业类型下的第一关键词,在所述主营业务信息中出现的第一词频得分,包括:所述服务器根据每个绿产业类型中的第一关键词i属于所述主营业务信息的第三词频tf
i
、所述每个绿产业类型中的第一关键词i的重要性w
i
,统计预设的绿产业词库的每个绿产业类型中的各第一关键词,在所述主营业务信息出现的第一词频得分f
c
;所述服务器确定除所述绿产业类型之外的其他绿产业类型下的第一关键词,在所述主营业务信息中出现的第二词频得分,包括:所述服务器根据除所述绿产业类型之外的其他绿产业类型下中的第一关键词i属于所述主营业务信息的第三词频tf
i
,除所述绿产业类型之外的其他绿产业类型下中的第一关键词i的重要性w
i
,采用算式:确定除所述绿产业类型之外的其他绿产业类型下的第一关键词,在所述主营业务信息中出现的第二词频得分j为除所述绿产业类型之外的其他绿产业类型下中的第一关键词的集合。6.根据权利要求1所述的方法,其特征在于,在所述服务器获取待入库的企业的主营业务信息之前,所述方法还包括:所述服务器从多个预设的绿企业的企业信息中,提取不属于所述绿产业词库,但与所述绿产业词库中的绿产业类型关联的第二关键词;所述服务器将提取的第二关键词,添加到所述绿产业词库的对应的绿产业类型中。7.根据权利要求6所述的方法,其特征在于,所述服务器从多个预设的绿企业的企业信息中,提取不属于所述绿产业词库,但与所述绿产业词库中的绿产业类型关联的第二关键词,包括:所述服务器统计所述绿产业词库的每个绿产业类型中的任一第一关键词,所属绿企业的企业信息的第一数量;所述服务器统计多个所述绿企业的企业信息中,既包含所述第一关键词又包含第二关键词的企业信息的第二数量;所述服务器根据所述第一数量df(s)、所述第二数量df(w,s)采用算式:确定所述第二关键词与所述第一关键词的关联的概率p(w|s);
所述服务器根据所述任一绿产业类型中的第一关键词的总数量|s
c
|,任一所述第二关键词与该绿产业类型的各所述第一关键词的关联的概率p(w|s),采用算式确定所述第二关键词与该绿产业类型的关联度rel(w,c);所述服务器提取所述关联度大于设定阈值第二关键词。8.根据权利要求7所述的方法,其特征在于,在所述服务器提取所述关联度大于设定阈值第二关键词之前,所述方法还包括:所述服务器根据算式初步归一化所述第二关键词与该绿产业类型的关联度,其中,v(w,c)为初步归一化后的第二关键词与该绿产业类型的关联度,|c|为绿产业类型的数量;所述服务器根据算式再次归一化所述第二关键词与该绿产业类型的关联度,其中,v
c
(w,c)为再次归一化后的第二关键词与该绿产业类型的关联度;所述服务器根据算式又一次归一化所述第二关键词与该绿产业类型的关联度,其中,τ
w,c
为又一次归一化后的第二关键词与该绿产业类型的关联度。9.根据权利要求1-8任一所述的方法,其特征在于,所述待评估的项目为评估企业的绿级别,所述对待评估的项目进行评估处理时,根据所述类别标签从所述数据库中获取与所述待评估项目的类别对应的评估规则,以评估所述待评估的项目,包括:所述服务器对待评估的项目进行评估处理时,根据所述待评估的企业的类别标签,关联的绿级别评估规则;所述服务器根据所述绿级别评估规则,评估所述待评估的企业的主营业务信息,以确定所述待评估的企业的绿级别,其中,所述绿级别为浅绿、中绿或者深绿。10.一种数据处理装置,其特征在于,应用于服务器,所述装置包括:信息获取单元,用于获取待入库的企业的主营业务信息;词频确定单元,用于对于预配置的绿产业词库中每个绿产业类型,确定所述绿产业类型下的第一关键词,在所述主营业务信息中出现的第一词频得分,并确定除所述绿产业类型之外的其他绿产业类型下的第一关键词,在所述主营业务信息中出现的第二词频得分;匹配度确定单元,用于根据所述第一词频得分和所述第二词频得分,确定所述主营业务信息与所述每个绿产业类型的匹配度;类别标记单元,根据确定的大于设定的阈值的匹配度对应的绿产业类型,对所述待入库的企业标记与所述对应的绿产业类型对应的类别标签;数据入库单元,用于将标记有所述类别标签的待入库的企业,添加到预设的数据库;
项目评估单元,还用于对待评估的项目进行评估处理时,根据所述类别标签从所述数据库中获取与所述待评估项目的类别对应的评估规则,以评估所述待评估的项目。11.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,使得计算机执行如权利要求1至9任一项所述的方法。12.一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,使得所述服务器执行如权利要求1至9任一项所述的方法。13.一种计算机程序产品,其特征在于,包括计算机程序,当所述计算机程序被运行时,使得计算机执行如权利要求1至9任一项所述的方法。

技术总结


本申请提供的一种数据处理方法与装置,涉及数据分析技术领域。该数据处理方法可以准确地将待入库的企业的主营业务信息与绿企业数据库中的绿产业类型匹配,进而,根据匹配度对待入库的企业标记与对应的绿产业类型对应的类别标签的可靠性也高。如此,当需要对待评估的项目进行评估处理时,可以根据类别标签从数据库中获取与待评估项目的类别对应的评估规则,以评估待评估的项目,由于评估规则与待评估的项目匹配,精确度高,效率高。效率高。效率高。


技术研发人员:

鄢秋霞 张圳 李昱 杨雷

受保护的技术使用者:

建信金融科技有限责任公司

技术研发日:

2022.09.06

技术公布日:

2022/12/1

本文发布于:2024-09-20 12:07:23,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/29868.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:产业   类型   所述   词频
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议