一种文本查重方法[发明专利]

(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 202010864029.X
(22)申请日 2020.08.25
(71)申请人 上海新炬网络信息技术股份有限公
地址 201707 上海市青浦区外青松公路
7548弄588号1幢1层R区113室
(72)发明人 程永新 林小勇 高健光 
(74)专利代理机构 上海科律专利代理事务所
(特殊普通合伙) 31290
代理人 袁亚军
(51)Int.Cl.
G06F  40/194(2020.01)
G06F  16/31(2019.01)
G06F  16/335(2019.01)
G06F  16/35(2019.01)
(54)发明名称
一种文本查重方法
(57)摘要
本发明公开了一种文本查重方法,包括如下
步骤:S1)首先指定一个最小匹配长度,并定义存
放源文本和目标文本相关联的重复文本信息的
数据结构;S2)接着设置一个长度为目标文本长
度的公共子串长度表,使用两层遍历查询公共子
串,外层顺序遍历源文本的每个字符,里层倒序
遍历目标文本的每个字符;判断源字符和目标字
符是否相同,如果相同,公共子串长度表索引位
置为前一位置的值加一,否则设为零;S3)收集大
于最小匹配长度的最长公共子串信息;S4)采用
软件图形界面显示文本查重结果。本发明提供的
文本查重方法,能够灵活设置查重的最小长度,
提升整体文档查重准确度,让查重变得简单、灵
活。权利要求书2页  说明书4页  附图2页CN 112001161 A 2020.11.27
C N  112001161
A
1.一种文本查重方法,其特征在于,包括如下步骤:
S1)首先指定一个最小匹配长度,并定义存放源文本和目标文本相关联的重复文本信息的数据结构;
S2)接着设置一个长度为目标文本长度的公共子串长度表,使用两层遍历查询公共子串,外层顺序遍历源文本的每个字符,里层倒序遍历目标文本的每个字符;判断源字符和目标字符是否相同,如果相同,公共子串长度表索引位置为前一位置的值加一,否则设为零;
S3)收集大于最小匹配长度的最长公共子串信息;
S4)采用软件图形界面显示文本查重结果。
2.如权利要求1所述的文本查重方法,其特征在于,所述步骤S1中的结构体中包含源重复文本的开始索
引表、目标重复文本的开始索引表、重复文本长度和重复文本内容;所述步骤S2通过源重复文本的开始索引和重复文本长度,获取到重复文本内容,并建立重复文本内容到源重复文本的开始索引表和目标重复文本的开始索引表的映射关系。
3.如权利要求1所述的文本查重方法,其特征在于,所述步骤S3中最长公共子串信息包括源文本的开始索引、重复文本长度和目标文本的开始索引表。
4.如权利要求3所述的文本查重方法,其特征在于,所述步骤S3包括:
设置一个键为源重复文本的开始索引,值为重复文本结构体的映射对象,收集大于最小匹配长度的重复文本信息,重复文本结构体的属性包括重复文本长度和目标重复文本的开始索引表;如果在下一轮迭代中获取到源重复文本的开始索引相同但重复文本长度更长,则清除重复文本结构体中的目标重复文本的开始索引表,重新记录新的重复文本长度和目标重复文本的开始索引表。
5.如权利要求1所述的文本查重方法,其特征在于,所述步骤S3包括:
设置一个键为重复文本内容,值为重复文本结构体的映射对象,遍历之前的映射对象,重复文本内容通过源重复文本开始索引和重复文本长度在源文本中获取,源重复文本的开始索引表通过遍历叠加到第一个重复文本结构对象中。
6.如权利要求5所述的文本查重方法,其特征在于,所述步骤S3还包括将所有映射对象转换为列表对象,并按重复文本长度倒序排序。
7.如权利要求1所述的文本查重方法,其特征在于,所述步骤S4中的图形界面的工作区域分为三列,左边一列包括过滤重复文本列表项的面板、显示重复文本列表信息的列表框和展示重复文本内容的文本域,支持通过窗扇拖动调整宽度大小;中间一列包括显示源文档路径的文本框、点击弹出选择源文档对话框的按钮、展示源文档内容与高亮显示重复文本的样式文本域、展示重复文本数量与索引和向前/后定位下一重复文本的按钮;右边一列与中间一列包括的控件一致,用于展示目标文档的内容。
8.如权利要求7所述的文本查重方法,其特征在于,所述步骤S4中的图形界面包括工具栏,所述工具栏包括填写最小匹配长度的文本框、是否忽略大小写的复选框、对比按钮和反馈查重进度的进度条;所述过滤重复文本列表项的面板包括填写过滤条件的文本框、正/反向过滤按钮和导出重复文本列表信息的按钮;文本查重过程是通过新建一个线程执行,并将处理进度实时地反馈到进度条上,分析处理结束后将收集到的重复文本列表信息展现到工作区域左边第一列的列表框中;点击列表框中的项时,将重复文本内容展现到下方的文本域中,并高亮显示源文本域和目标文本域中重复文本内容且定位到该位置;点击源/目标
的向前/后按钮定位到源/目标的前/后一个重复文本位置并高亮显示。
9.如权利要求8所述的文本查重方法,其特征在于,所述步骤S4中的图形界面包括底部状态栏,所述底部状态栏包括文本查重结果的匹配信息和执行时长。
一种文本查重方法
技术领域
[0001]本发明涉及一种文本处理方法,尤其涉及一种文本查重方法。
背景技术
[0002]文本查重是根据一定相似度模型从大量文本中发现重复文本的过程,通过判断目标文本与源文本相似度是否大于阀值,从而得出目标文本是否为重复文本的结论。它在搜索引擎构建、抄袭检测、新闻分类等领域有广泛的应用。
[0003]在两份文本材料查重过程中,重复文本是连续的长度最大的片段。文本材料中一般包含很多相同语素,如果不限制匹配长度,可能搜索出长度为一或二的大量重复文本,这些重复文本并没有实际用处。
[0004]作为解决方案编写人员,在编写和审阅技术方案时,需要在不同的文档材料中准确识别并定位重复文本,目前常用做法如下:
[0005]1)借助文档搜索功能,人工以一定长度关键词检索是否存在重复情况;[0006]2)使用word文档比较功能,比对查重文本;
[0007]3)使用现有文本查重比较工具,整段对比,查并显示重复文本。
[0008]尽管借助现有本文查重比较工具可以识别两份文档的相似度,但仍然存在以下不足:
[0009]1)通过人工搜索查重的方式,容易受到人员自身状态、周围环境等因素影响,存在出错、遗漏风险;
[0010]2)现有的文本查重比较工具只能整段对比,无法根据指定长度内容监测文档中所有匹配改内容的重复文本和位置;
[0011]3)现有工具不支持指定文本内容不进行查重。
[0012]由上可见,现有的文本查重工具均基于文本段落对比,对于段落内部的文本无法查重,也无法展示多处重复文本的位置。
发明内容
[0013]本发明所要解决的技术问题是提供一种文本查重方法,能够灵活设置查重的最小长度,提升整体文档查重准确度,让查重变得简单、灵活。
[0014]本发明为解决上述技术问题而采用的技术方案是提供一种文本查重方法,包括如下步骤:S1)首先指定一个最小匹配长度,并定义存放源文本和目标文本相关联的重复文本信息的数据结构;S2)接着设置一个长度为目标文本长度的公共子串长度表,使用两层遍历查询公共子串,外层顺序遍历源文本的每个字符,里层倒序遍历目标文本的每个字符;判断源字符和目标字符是否相同,如果相同,公共子串长度表索引位置为前一位置的值加一,否则设为零;S3)收集大于最小匹配长度的最长公共子串信息;S4)采用软件图形界面显示文本查重结果。
[0015]上述的文本查重方法,其中,所述步骤S1中的结构体中包含源重复文本的开始索
引表、目标重复文本的开始索引表、重复文本长度和重复文本内容;所述步骤S2通过源重复文本的开始索引和重复文本长度,获取到重复文本内容,并建立重复文本内容到源重复文本的开始索引表和目标重复文本的开始索引表的映射关系。
[0016]上述的文本查重方法,其中,所述步骤S3中最长公共子串信息包括源文本的开始索引、重复文本长度和目标文本的开始索引表。
[0017]上述的文本查重方法,其中,所述步骤S3包括:设置一个键为源重复文本的开始索引,值为重复文本结构体的映射对象,收集大于最小匹配长度的重复文本信息,重复文本结构体的属性包括重复文本长度和目标重复文本的开始索引表;如果在下一轮迭代中获取到源重复文本的开始索引相同但重复文本长度更长,则清除重复文本结构体中的目标重复文本的开始索引表,重新记录新的重复文本长度和目标重复文本的开始索引表。
[0018]上述的文本查重方法,其中,所述步骤S3包括:设置一个键为重复文本内容,值为重复文本结构体的映射对象,遍历之前的映射对象,重复文本内容通过源重复文本开始索引和重复文本长度在源文本中获取,源重复文本的开始索引表通过遍历叠加到第一个重复文本结构对象中。
[0019]上述的文本查重方法,其中,所述步骤S3还包括将所有映射对象转换为列表对象,并按重复文本长度倒序排序。
[0020]上述的文本查重方法,其中,所述步骤S4中的图形界面的工作区域分为三列,左边一列包括过滤重复文本列表项的面板、显示重复文本列表信息的列表框和展示重复文本内容的文本域,支持通过窗扇拖动调整宽度大小;中间一列包括显示源文档路径的文本框、点击弹出选择源文档对话框的按钮、展示源文档内容与高亮显示重复文本的样式文本域、展示重复文本数量与索引和向前/后定位下一重复文本的按钮;右边一列与中间一列包括的控件一致,用于展示目标文档的内容。
[0021]上述的文本查重方法,其中,所述步骤S4中的图形界面包括工具栏,所述工具栏包括填写最小匹配长度的文本框、是否忽略大小写的复选框、对比按钮和反馈查重进度的进度条;所述过滤重复文本列表项的面板包括填写过滤条件的文本框、正/反向过滤按钮和导出重复文本列表信息的按钮;文本查重过程是通过新建一个线程执行,并将处理进度实时地反馈到进度条上,分析处理结束后将收集到的重复文本列表信息展现到工作区域左边第一列的列表框中;点击列表框中的项时,将重复文本内容展现到下方的文本域中,并高亮显示源文本域和目标文本域中重复文本内容且定位到该位置;点击源/目标的向前/后按钮定位到源/目标的前/后一个重复文本位置并高亮显示。
[0022]上述的文本查重方法,其中,所述步骤S4中的图形界面包括底部状态栏,所述底部状态栏包括文本查重结果的匹配信息和执行时长。
[0023]本发明对比现有技术有如下的有益效果:本发明提供的文本查重方法,通过最长公共子串算法计算所有匹配长度的公共子串,根据公共子串遍历源和目标文本,将与源文本和目标文本相关联的位置信息记录到数据结构里,再通过图形界面展示源文本和目标文本相关联的重复文本信息,从而解决了现有查重工具只能段落查重而无法根据指定长度查重的问题。本发明可以精准查重复文本在源端和目标端的对应位置并通过图形界面按照查重出来的重复文本分类高亮显示,使得文本查重人员对于源和目标的重复内容及对应关系一目了然;并且可以通过调整查重的长度,排除指定长度的文本对查重的干扰,有助于提

本文发布于:2024-09-20 17:42:17,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/765607.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:文本   长度   目标   包括   内容   文档   信息   方法
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议