一种基于NLP的专利自动识别分类的方法
CN201811001292.5,一种基于NLP的专利自动识别分类的方法,本发明提供了一种自动专利识别分类技术,目的是为了减少人工识别提高准确率。所述方法包括:首先在专利局上爬取特定领域下的所需数据,根据所需数据分析出匹配模式,根据匹配模式来对待匹配识别的专利进行一个语义标注,根据语义标注和规范形成xml文档描述专利。解析Xml文档,最后各个层面上的dom元素的相同率来对专利进行一个分类识别。其分为以下几个部分:网络爬虫数据清洗部分,自然语言处理部分,模式匹配生成xml文档部分。
时间:2023-03-13 热度:30℃