一种提取短信文本标签方法[发明专利]

(10)申请公布号
(43)申请公布日              (21)申请号 201510697001.0
(22)申请日 2015.10.26
G06F 17/30(2006.01)
(71)申请人天津大学
地址300072 天津市南开区卫津路92号
(72)发明人章宦记  王建  庞彦伟
(74)专利代理机构天津市北洋有限责任专利代
理事务所 12201
代理人程毓英
(54)发明名称
一种提取短信文本标签方法
(57)摘要
本发明涉及一种提取短信文本标签方法,包
括:对已有的短信文本,通过编写正则表达式挖
掘出通知类短信;将挖掘的XX 作为短信文本的身
份标签信息;对挖掘出的此种通知类短信文本身
份,通过取阈值的方式,取频率最高的身份标签信
息来作为该服务号的最终身份标签信息;时间更
新。本发明可以实现快速的更新和迭代。(51)Int.Cl.
(19)中华人民共和国国家知识产权局(12)发明专利申请权利要求书1页  说明书3页CN 105354262 A 2016.02.24
C N 105354262
A
1.一种提取短信文本标签方法,包括下列几个方面:
正则表达式模块:对已有的短信文本,第一,根据服务号,明确哪些短信是属于通知类短信,通过编写正则表达式挖掘出所有通知类短信;第二,根据通知类短信的身份出现的位置及文本模式,对身份进行挖掘,设挖掘到的身份信息为XX,将挖掘的XX作为短信文本的身份标签信息,如果挖掘不到,则该短信没有对应的身份标签信息;
阈值模块:对挖掘出的此种通知类短信文本身份,通过取阈值的方式,取频率最高的身份标签信息来作为该服务号的最终身份标签信息,如果一个服务号对应的短信没有挖掘出身份标签信息,则该服务号没有对应的标签;如果一个服务号发送的短信数量挖掘出的对应身份标签信息的个数与发送的短信数量的比值小于某一个阈值,则也认为该服务号没有对应的身份标签信息;
时间更新模块:每隔一段时间,根据最近一段时间该服务号提取的身份标签信息与上一个时间段保存的服务号标签信息进行对比,如果最近一段时间提取的标签信息比较集中为某个标签,同时该标签与上一个时间段提取的标签不同,则自动更新挖掘的服务号身份标签信息,将当前的标签作为该服务号的身份标签,否则保留上一个时间段的服务号身份标签不变。
一种提取短信文本标签方法
所属技术领域
[0001] 本发明是关于自然语言处理短信文本方面的应用,通过设计提取短信文本的标签方法,实现对短信文本的分类。
背景技术
[0002] 近年来,在自然语言处理方面对本发明的分析方法层出不穷,但是对文本进行分析都是需要一定的语料基础,通过已有标签的语料去分析需要解决的内容。在处理大量的文本信息之前,通常通过人工去标记一定量的文本信息,比如标记该文本的主题,文字个数等。这是一个非常耗费时间的过程,经常性的会出现一两个月才只是标记了非常少的一部分数据。特别是在对短信文本进行分类的过程中,需要大量的已有标签的短信文本进行模型训练,然后对训练好的模型采用测试数据进行分析验证。然而对这一部分模型训练的已标签短信文本,往往也是通过人工标记的方式来获得的,费时费力。
发明内容
[0003] 本发明基于通知类短信文本的特点提供一个可以不用人工标记,而通过自动化脚本来实现通知类短信文本标记的方式。所采用的技术方案是:
[0004] 一种提取短信文本标签方法,包括下列几个方面:
[0005] 正则表达式模块:对已有的短信文本,第一,根据服务号,明确哪些短信是属于通知类短信,通
过编写正则表达式挖掘出所有通知类短信;第二,根据通知类短信的身份出现的位置及文本模式,对身份进行挖掘,设挖掘到的身份信息为XX,将挖掘的XX作为短信文本的身份标签信息,如果挖掘不到,则该短信没有对应的身份标签信息;
[0006] 阈值模块:对挖掘出的此种通知类短信文本身份,通过取阈值的方式,取频率最高的身份标签信息来作为该服务号的最终身份标签信息,如果一个服务号对应的短信没有挖掘出身份标签信息,则该服务号没有对应的标签;如果一个服务号发送的短信数量挖掘出的对应身份标签信息的个数与发送的短信数量的比值小于某一个阈值,则也认为该服务号没有对应的身份标签信息;
[0007] 时间更新模块:每隔一段时间,根据最近一段时间该服务号提取的身份标签信息与上一个时间段保存的服务号标签信息进行对比,如果最近一段时间提取的标签信息比较集中为某个标签,同时该标签与上一个时间段提取的标签不同,则自动更新挖掘的服务号身份标签信息,将当前的标签作为该服务号的身份标签,否则保留上一个时间段的服务号身份标签不变。
[0008] 本发明的有益效果是:本发明根据通知类文本本身的特性,采用正则表达式根据关键词括号模式和短信内容模式对文本本身进行挖掘,基于文本自身又结合文本的历史统计分布来提取相关信息,避免人工挖掘的偏差,将一个服务号对应的多个文本内容进行身份挖掘,挖掘出多个候选信息,避免人工检索,排查的麻烦,最终选择频率最高的身份作为服务号身份信息。同时为后续采用标记的语料处理其他应用提供足量的素材。而且采用自
动化脚本,能在产品的生产线上,实现快速的更新和迭代。
具体实施方式
[0009] 通知类短信文本一般是以106数字开头的服务号,同时短信文本中往往开头出现中括号或者小括号中的内容表明短信的身份,或者短信内容中出现”XX提醒您,欢迎致电XX”等模式。通过对这些情况的分析,挖掘括号中的内容以及短信文本中的XX作为通知类短信文本的标签,可以大大的减少人工标记的费时费力,也能降低人为的一些感性认识导致的误差从而提高通知类短信识别的精确度。本发明的技术方案如下:
[0010] 正则表达式模块:对已有的短信文本,第一,明确哪些短信是属于通知类短信,一般是106数字开头的服务号短信认为是通知类短信,通过编写正则表达式挖掘出所有106开头的通知类短信。第二,通知类短信的身份一般出现在短信文本的开始和结尾处的括号中,同时开头和结尾处如果没有括号,则判断挖掘短信文本内容中是否有”XX提醒您,以及XX通知您“等文本模式信息,将挖掘的XX作为短信文本的身份标签信息。如果短信文本中没有以上两种情况,则该短信没有对应的身份信息。
[0011] 阈值模块:对挖掘出的通知类短信文本身份,一个106服务号可能对应多个身份标签信息,通过取阈值的方式,取频率最高的身份标签信息来作为该服务号的最终身份标签信息。如果一个服务号对应的短信没有挖掘出身份标签信息,则该服务号没有对应的标签。如果一个106开头的数字服务号发送的
短信数量挖掘出的对应身份信息的个数与发送的短信数量的比值小于某一个阈值,则也认为该106开头的数字服务号没有对应的标签。[0012] 时间更新模块:由于106开头的数字服务号短信每隔一段时间可能会被不同的公司购买,因此每隔一段时间,时间更新模块会根据最近一段时间该服务号提取的标签信息与上一个时间段保存的服务号标签信息进行对比,如果最近一段时间提取的标签信息比较集中为某个标签,同时该标签与上一个时间段提取的标签不同,则时间更新模块会自动的更新挖掘的服务号身份信息,将当前的标签作为该服务号的身份标签,否则保留上一个时间段的服务号身份标签不变。
[0013] 下面结合实施例对本发明进行说明。
[0014] 现在收集到大量的短信数据有如下若干形式:
[0015] 106123456,【人才管理】邀请您参加校园招聘,2010.05.11。106123456,【人才管理】邀请您参加校园招聘,2010.05.11。…106123456,【人才管理】邀请您参加校园招聘,2010.05.11。共计100条数据,每条短信的括号都有”人才管理”这个标签
[0016] 10678456,【顶级物业】欢迎您回家,2010.05.11。10678456,顶级商品送给您,路上注意安,2010.05.11…10678456,谢谢您来到我公司,2010.05.11。其中有括号短信的50条,无括号短信的50条
[0017] 1065678,欢迎您拨打金麟酒店,详细请询问柜台,2010.05.11。1065678,欢迎您拨打金麟酒店,详细请咨询前台,2010.05.11。…1065678,欢迎您拨打金麟酒店,详细请拨3344556677,2010.05.11。共计100条短信数据,每条短信都有”欢迎您拨打金麟酒店”的模式
[0018] 1065678,欢迎您拨打山西面馆,详细请询问柜台,2010.06.11。1065678,欢迎您拨打山西面馆,详细请咨询前台,2010.06.11。…1065678,欢迎您拨打山西面馆,详细请拨
3344556677,2010.06.11。共计100条短信数据,每条短信都有”欢迎您拨打山西面馆”的模式
[0019] 106778899,【人才管理】邀请您参加校园招聘,2010.06.11。106778899,【人才管理】期待您参加汽车之友专场招聘会,2010.06.11。106778899,【宏伟物业】请您及时交费,2010.06.11。…106778899,【疾病中心】请您注意天气情况,2010.06.11。有多个括号中的标签身份,”人才管理“有80个标记,”宏伟物业“有10个标记,”疾病中心“有10个标记,总计100个。
[0020] 对于上面106数字开头的服务号短信,通正则表达式和阈值两大模块以及时间更新模块后,服务号会得到对应的标签,同时时间更新模块中会保留一份服务号最近时间对应的标签。106123456服务号得到对应的标签会是“人才管理”。10678456服务号发送的一些短信可能会得到“顶级物业”这个标签,但是整体而言,如果阈值取0.6即能提出标签的短信至少要有60条,才可以作为该服务号是否有对应标记的依据,那么该服务号显然由于有括号的短信数目才50条,总共短信数目100条,没有达到该阈值的要
求会没有对应的标签。1065678通过短信内容模式,可以匹配到”金麟酒店“。而过了一段时间,1065678这个服务号的短信在2010年5月发送的短信内容由”金麟酒店“变成了2010年6月发送的”山西面馆“,那么这个时候通过时间更新模块原先在时间更新模块中保留的”金麟酒店”标签和现在的”山西面馆”标签进行对比,由于带有”山西面馆”内容的短信时间是6月份比5月份的”金麟酒店”内容的短信时间更接近当前时间,可以得到1065678的标记为”山西面馆“。而106778899,虽然对应的标签类别有三类,但是其中”人才管理“占的比例最大达到80%,所以106778899最终对应的标签也是”人才管理“。

本文发布于:2024-09-22 18:16:49,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/429598.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:短信   标签   身份   文本   信息
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议