一种文本处理用聚类方法系统
CN202210572462.5,一种文本处理用聚类方法系统,本发明公开了一种文本处理用聚类方法系统,包括以下步骤,专利数据集构建、基础Word2Vec模型训练、搜索训练语料中低频词、生成低频词的扩展词、扩展词筛选、利用筛选后的扩展词替换低频词生成扩增数据、对基础Word2Vec模型增量训练、生成词向量表示、结合粗分类标签生成专利说明书摘要的向量化表示、融合多次聚类结果与相似度阈值灵活生成专利聚类结果和聚类结果评价。本发明能够有效提取文本的语义特征,优化低频词的词表示,解决一词多义问题,从而提高聚类的准确
时间:2023-03-13 热度:27℃