基于动态规划的文本查重算法实现

粘性阻尼系数基于动态规划的文本查重算法实现
作者:李成龙 冯凯 麻哲
来源:《数字技术与应用》2013年第08期
梁鹤善
        摘要:近年来学术界抄袭事件时有发生,给整个学术界的声誉造成了极坏的影响。针对
海量文本查重问题,运用基于编辑距离的动态规划算法,实现文本集合间的相似度计算。该算法通过计算句子相似度数值来判断文本相似度,检测并标明出相似句对应的原句。实验结果可知,该系统对较长的文本可以完成雷同判定。
        关键词:相似度 LD算法 查重系统
        中图分类号:TP393.092 文献标识码:A 文章编号:1007-9416(2013)08-0115-01
柔毛水杨梅        1 引言
yy盗号器        近年来学术界抄袭事件时有发生,学术界长期形成的科学、诚实、追求真理的象牙之塔的形象受到社会大众的质疑。针对上述问题,有必要及时发现并阻止此类事件,提供一个检测论文是否有抄袭文本查重方法和依据。
        2 相关工作
        目前,对于文档相似度的判定采取的主要算法有: 序列匹配的方法就是求两个字符串的公共子串的最大可能长度[1]。向量空间的余弦定理,它是利用余弦定理和广义Jaccard
系数来计算文本相似度[2]。结合文本相似度检测研究现状,以及开发本系统的初衷,本文采用模块化程序设计方法和采用现有软件环境及先进的对比算法开发的软件系统,采用的主要算法是距离编辑算法,实现了不同类型文档的相似度检测。通过本系统能够有效检测学生抄袭行为,具有一定的实用价值。
杂交鹅        3 关键算法与实现
        本文采用距离编辑算法比较两字符串的相似性,它的思路就是从两个字符串的左边开始比较,记录已经比较过的子串相似度,然后进一步得到下一个字符位置时的相似度。两个字符串的距离就是一个字符串转换成另外一个字符串过程中的添加、删除、修改数值。
淮南师范学院学报        3.1 系统实现
        本文运用VS 2010环境和C#语言,采用模块化程序设计方法和采用现有软件环境及先进的对比算法来实现系统的整体功能要求。系统能根据用户的需求提供3种不同的检测方式,比较合理地搭配并基本完成系统的总体功能要求,实现对.doc,.txt,.pdf三种格式的兼容比较,对抄袭情况的判断的提供了直观的依据。

本文发布于:2024-09-22 18:31:09,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/129599.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:相似   算法   文本   检测   抄袭
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议