作者:李成龙 冯凯 麻哲
来源:《数字技术与应用》2013年第08期
梁鹤善
摘要:近年来学术界抄袭事件时有发生,给整个学术界的声誉造成了极坏的影响。针对 海量文本查重问题,运用基于编辑距离的动态规划算法,实现文本集合间的相似度计算。该算法通过计算句子相似度数值来判断文本相似度,检测并标明出相似句对应的原句。实验结果可知,该系统对较长的文本可以完成雷同判定。 关键词:相似度 LD算法 查重系统
中图分类号:TP393.092 文献标识码:A 文章编号:1007-9416(2013)08-0115-01
柔毛水杨梅 1 引言
yy盗号器 近年来学术界抄袭事件时有发生,学术界长期形成的科学、诚实、追求真理的象牙之塔的形象受到社会大众的质疑。针对上述问题,有必要及时发现并阻止此类事件,提供一个检测论文是否有抄袭文本查重方法和依据。
2 相关工作
目前,对于文档相似度的判定采取的主要算法有: 序列匹配的方法就是求两个字符串的公共子串的最大可能长度[1]。向量空间的余弦定理,它是利用余弦定理和广义Jaccard
系数来计算文本相似度[2]。结合文本相似度检测研究现状,以及开发本系统的初衷,本文采用模块化程序设计方法和采用现有软件环境及先进的对比算法开发的软件系统,采用的主要算法是距离编辑算法,实现了不同类型文档的相似度检测。通过本系统能够有效检测学生抄袭行为,具有一定的实用价值。
杂交鹅 3 关键算法与实现
本文采用距离编辑算法比较两字符串的相似性,它的思路就是从两个字符串的左边开始比较,记录已经比较过的子串相似度,然后进一步得到下一个字符位置时的相似度。两个字符串的距离就是一个字符串转换成另外一个字符串过程中的添加、删除、修改数值。
淮南师范学院学报 3.1 系统实现
本文运用VS 2010环境和C#语言,采用模块化程序设计方法和采用现有软件环境及先进的对比算法来实现系统的整体功能要求。系统能根据用户的需求提供3种不同的检测方式,比较合理地搭配并基本完成系统的总体功能要求,实现对.doc,.txt,.pdf三种格式的兼容比较,对抄袭情况的判断的提供了直观的依据。