专利类型:发明专利
发明人:丁博生,刘林林,邴立东,阮海天,沙菲克·乔蒂,司罗,苗春燕
申请号:CN202011075457.0
申请日:20201009
公开号:CN114328902A
公开日:
20220412
专利内容由知识产权出版社提供
摘要:本申请公开了文本标注模型构建方法和装置。其中,所述方法包括:获取第一文本及其标注数据间的第一对应关系集;将第一文本及其标注数据作为语言模型的输入数据,通过语言模型,生成第二文本及其标注数据间的第二对应关系集;根据第一对应关系集和第二对应关系集,学习得到文本标注模型。采用这种处理方式,使得将文本和标注数据转换为语言模型的输入数据,通过语言模型学习训练数据中词的分布,通过训练后的语言模型,生成符合文本标注领域语言特点、且标注更为准确的新训练数据,实现基于语言模型的文本标注模型训练数据增强;因此,可以提升增强训练数据的准确率,从而提升模型准确度,特别是在低资源的情况下效果显著。 申请人:阿里巴巴集团控股有限公司,南洋理工大学
地址:英属开曼岛大开曼资本大厦一座四层847号邮箱
国籍:KY
代理机构:北京润泽恒知识产权代理有限公司
代理人:钱秀茹