专利名称:一种基于神经网络语言模型的重复代码检测方法专利类型:发明专利 发明人:屈鸿,符明晟,涂强,刘洋军,张亦洲,王一文,高榕,陈珊申请号:CN201710464437.4
申请日:20170619
公开号:CN107273294A
公开日:
20171020
专利内容由知识产权出版社提供
摘要:本发明公开了一种基于神经网络语言模型的重复代码检测方法,属于重复代码检测方法技术领域,解决现有技术中的重复代码检测方法,不能检测出没有进行本质性改变的重复代码,造成检测的准确率,容易给代码原创者造成经济损失等问题。本发明包括步骤1:将所有的代码中的每个代码转换为相应的CFG图;步骤2:抽取每个CFG图中每一个结点的根子图;步骤3:将所有根子图采用向量表示;步骤4:将根子图的向量表示输入到深度图核函数中学习,得到所有CFG图两两间的相似度;步骤5:将CFG图两两间的相似度输入到AP关联聚类算法中进行CFG图的聚类得到多个聚类簇,在同一个聚类簇中的CFG图所对应的代码即为重复代码。本发明用于发现重复代码。 申请人:电子科技大学
地址:611731 四川省成都市高新区(西区)西源大道2006号
国籍:CN
代理机构:成都弘毅天承知识产权代理有限公司