发明人:王佰玲,黄纯,辛国栋,魏玉良,何清刚,王巍
申请号:CN201910481863.8
申请日:20190604
公开号:CN110362678A
公开日:
20191022
专利内容由知识产权出版社提供
摘要:本发明公开了一种自动提取中文文本关键词的方法与装置,该方法包括:首先对文本进行中文分词和去除停用词;然后将单词转化为词向量,然后统计词频,通过词频和词语相似度计算单词在文本中的权重;然后构建基于图模型的文本排序算法,多次迭代计算出顶点得分;并且每次迭代计算过程中对关键词合并,并在图模型中添加新顶点并计算得分,然后对顶点得分进行排序,得分最大的为文本中最重要的关键词,本发明可实现中文文本关键词的准确提取。 申请人:哈尔滨工业大学(威海),哈工大(威海)创新创业园有限责任公司
地址:264209 山东省威海市火炬高技术产业开发区文化西路2号
国籍:CN
代理机构:青岛华慧泽专利代理事务所(普通合伙)
代理人:张慧芳