(19)中华人民共和国国家知识产权局
| (12)发明专利说明书 | |
| (10)申请公布号 CN 105701077 A (43)申请公布日 2016.06.22 |
| | |
(21)申请号 CN201610020886.5
(22)申请日 2016.01.13
(71)申请人 夏峰
地址 410000 湖南省长沙市芙蓉区荷花园街道万家丽路一段176号旺德府大厦1401房
(72)发明人 夏峰
(74)专利代理机构 北京冠和权律师事务所
代理人 朱健
(51)Int.CI
G06F17/22
(54)发明名称
(57)摘要
本发明提供了一种多语种文献检测方法及系统。其中,对比库,收录素材;分词库,收录分词组及对应词性;分词组模块进行分词;分词组特征值生成模块生成分词组词性特征值;分词组自由向量维数确定模块确定分词组自由向量维数;分词组精简向量维数生成模块,生成分词组精简向量维数;分词组特征向量生成模块,生成分词组特征向量;待鉴定文档分词组模块用于对待鉴定文档进行分词,得到分词组结果;待鉴定文档分词组自由向量维数确定模块,确定分词组自由向量维数;待鉴定文档分词组精简向量维数生成模块,生成待鉴定文档分词组精简向量维数;待鉴定文档分词组特征向量生成模块,生成待鉴定文档分组特征向量;进行相似度比对。 | |
| |
法律状态
权 利 要 求 说 明 书
1.一种多语种文献检测系统,其特征在于,包括:
对比库,用于收录用作对比对象的素材;所述对比库进一步包括书籍库、论文库、专利库、公式库、谚 语俗语库、谚语库、名人名言库、诗词库子库;
分词库,用于收录分词及对应词性;分词库中收录中外文同义近义词库,其中将含义相同或相近的中外 文分词构成一组,以组为单位进行编号。多个意思相同或相近的中外文分词对应于一个中外文分词组编号, 使用WFG_ID表示某一中外文分词组在分词库中的唯一编号;
中外文分词组模块,用于对各素材进行分词,并将中外文分词组结果保存至对比库中;中外文分词组模 块将分词结果与分词库保存的词性进行比对,确定中外文分词组结果的词性;
中外文分词组特征值生成模块,用于统计每一个中外文分词组在对应素材中出现的数量,生成每一个中 外文分词组对应的中外文分词组词性特征值WFGCCV=[WFG_ID,WFG_N,WFG_CHAR],其中WFG_ID表示该中外 文分词组在分词库中的唯一编号,WFG_N表示该中外文分词组在该素材中出现的总次数,WFG_CHAR表示该中 外文分词组的词性;
中外文分词组自由向量维数确定模块根据素材的分词结果确定中外文分词组自由向量维数WFGFV;所述 中外文分词组自由向量维数WFGFV等于对特定素材进行分词后得到的不同中外文分词组的数量;
中外文分词组精简向量维数生成模块用于对每个素材的中外文分词组自由向量维数WFGFV进行精简,生 成中外文分词组精简向量维数RWFGV;
中外文分词组特征向量生成模块根据中外文分词组精简向量维数RWFGV提取每个素材中所述中外文分词 组精简向量维数RWGV对应的特征值生成中外文分词组特征向量WVE_RWFGV;
WVE_RWFGV=[WFG_ID1,WFG_N1,...,WFG_IDi,WFG_Ni,...,WFG_IDRWFGV,WFG_NRWFGV]
其中WFG_IDi表示中外文分词组在分词库中的唯一编号,WFG_Ni表示该中外文分词组在该素材中出现的 总次数,将该次数作为该中外文分词组的特征值;
用户访问方式检测模块,用于提示用户上传待鉴定文档;
用户检测模式确定模块,用于判断当前用户检测模式为扩展抄袭鉴定模式时,待鉴定文档中外文分词组 模块用于对待鉴定文档进行分词,得到中外文分词组结果;
待鉴定文档中外文分词组自由向量维数确定模块,用于根据待鉴定文档的分词结果确定中外文分词组自 由向量维数WFGFV_TBI;
待鉴定文档中外文分词组精简向量维数生成模块用于对待鉴定文档的中外文分词组自由向量维数 WGFV_TBI进行精简,生成待鉴定文档中外文分词组精简向量维数RWFGV_TBI;
待鉴定文档中外文分词组特征向量生成模块,根据中外文分词组精简向量维数RWFGV_TBI提取每个待鉴 定文档中与所述待鉴定文档中外文分词组精简向量维数RWFGV_TBI对应的特征值生成待鉴定文档中外文分词 组特征向量WVE_RWFGV_TBI,其中
WVE_RWFGV_TBI=[WFG_ID<sub>1</sub>,WFG_N<sub>1</sub>,...,WFG_ID<sub>i</sub>,WFG_N<sub>i</sub>,...,WFG_ID<sub>RWFGV_TBI</sub>,WFG_N<sub>RWFGV_TBI</sub>]
其中FWG_ID<sub>i</sub>表示中外文分词组在分词库中的唯一编号,WFG_N<sub>i</sub>表示该中外文分词组在该待鉴定文档中 出现的总次数,将该次数作为该中外文分词组的特征值;
待鉴定文档中外文分词组特征向量生成模块生成待鉴定文档的中外文分词组特征向量WVE_
RWFGV_TBI; WVE_RWFGV_TBI=[WFG_ID<sub>1</sub>,WFG_N<sub>1</sub>,...,WFG_ID<sub>i</sub>,WFG_N<sub>i</sub>,...,WFG_ID<sub>RWGV_TBI</sub>,WFG_N<sub>RWFGV_TBI</sub>],待鉴定文 档的中外文分词组特征向量的维数为RWFGV_TBI;中外文分词组特征向量生成模块生成对比库中素材的中外 文分词组特征向量WVE_RWFGV;WVE_RWFGV=[WFG_ID<sub>1</sub>,WFG_N<sub>1</sub>,...,WFG_ID<sub>i</sub>,WFG_N<sub>i</sub>,...,WFG_ID<sub>RWFGV</sub>, WFG_N<sub>RWFGV</sub>];其中,待鉴定文档的中外文分词组特征向量的维数RWFGV_TBI等于中外文分词组特征向量的维数 RWFGV;