语义相似度模型SBERT——一个挛生网络的优美范例

语义相似模型SBERT——⼀个挛⽣⽹络的优美范例
“论⽂中⽂翻译”已相当清楚,故本篇不再翻译,只简单介绍SBERT的原理,以及训练和使⽤中⽂相似度模型的⽅法和效果。
原理
hgt挛⽣⽹络Siamese network(后简称SBERT),其中Siamese意为“连体⼈”,即两⼈共⽤部分器官。SBERT模型的⼦⽹络都使⽤BERT 模型,且两个BERT模型共享参数。当对⽐A,B两个句⼦相似度时,它们分别输⼊BERT⽹络,输出是两组表征句⼦的向量,然后计算⼆者的相似度;利⽤该原理还可以使⽤向量聚类,实现⽆监督学习任务。
挛⽣⽹络有很多应⽤,⽐如使⽤图⽚搜索时,输⼊照⽚将其转换成⼀组向量,和库中的其它图⽚对⽐,
到相似度最⾼(距离最近)的图⽚;在问答场景中,到与⽤户输⼊⽂字最相近的标准问题,然后给出相应解答;对各种⽂本标准化等等。
衡量语义相似度是⾃然语⾔处理中的⼀个重要应⽤,BERT源码中并未给出相应例程(run_glue.py只是在其⽰例框架内的简单⽰例),真实场景使⽤时需要做⼤量修改;⽽SBERT提供了现成的⽅法解决了相似度问题,并在速度上更有优势,直接使⽤更⽅便。
SBERT对Pytorch进⾏了封装,简单使⽤该⼯具时,不仅不需要了解太多BERT API的细节, Pytorch相关⽅法也不多,下⾯来看看其具体⽤法。
配置环境
需要注意的是机器需要能正常配置BERT运⾏环境,如GPU+CUDA+Pytorch+Transformer匹配版本。
$ pip install sentence_transformers
下载源码
$ git clone github/UKPLab/sentence-transformers.git
模型预测
在未进⾏调优(fine-tune)前,使⽤预训练的通⽤中⽂BERT模型也可以达到⼀定效果,下例是从⼏个选项中到与⽬标最相近的字符串。
from sentence_transformers import SentenceTransformer
import scipy.spatial
embedder = SentenceTransformer('bert-base-chinese')
corpus = ['这是⼀⽀铅笔',
'关节置换术',
'我爱北京天安门',
]
corpus_embeddings = de(corpus)
教养的芬芳# 待查询的句⼦宜昌人事局
queries = ['⼼脏⼿术','中国⾸都在哪⾥']
query_embeddings = de(queries)
# 对于每个句⼦,使⽤余弦相似度查询最接近的n个句⼦
closest_n = 2
for query, query_embedding in zip(queries, query_embeddings):
distances = scipy.spatial.distance.cdist([query_embedding], corpus_embeddings, "cosine")[0]
# 按照距离逆序
results = zip(range(len(distances)), distances)
results = sorted(results, key=lambda x: x[1])
print("======================")
print("Query:", query)
print("Result:Top 5 most similar sentences in corpus:")
for idx, distance in results[0:closest_n]:
print(corpus[idx].strip(), "(Score: %.4f)" % (1-distance))
训练中⽂模型
模型训练⽅法
训练中⽂模型
把⽰例中的bert-base-cased换成bert-base-chinese,即可下载和使⽤中⽂模型。需要注意的是:中⽂和英⽂词库不同,不能将中⽂模型⽤于英⽂数据训练。
下载中⽂训练数据
下载信贷相关数据,csv数据7M多,约10W条训练数据,可在下例中使⽤
$ git clone github/lixuanhng/NLP_related_projects.git
$ ls NLP_related_projects/BERT/Bert_sim/data
代码
from torch.utils.data import DataLoader
import math
from sentence_transformers import SentenceTransformer, LoggingHandler, losses, models, util
from sentence_transformers.evaluation import EmbeddingSimilarityEvaluator
from aders import InputExample
import logging
from datetime import datetime
import sys
import os
ocn
import pandas as pd
model_name = 'bert-base-chinese'
train_batch_size = 16
num_epochs = 4
model_save_path = 'test_output'
logging.basicConfig(format='%(asctime)s - %(message)s',
datefmt='%Y-%m-%d %H:%M:%S',
level=logging.INFO,
handlers=[LoggingHandler()])
# Use Huggingface/transformers model (like BERT, RoBERTa, XLNet, XLM-R) for mapping tokens to embeddings word_embedding_model = models.Transformer(model_name)
# Apply mean pooling to get one fixed sized sentence vector
pooling_model = models.Pooling(word__word_embedding_dimension(),
pooling_mode_mean_tokens=True,
pooling_mode_cls_token=False,
pooling_mode_max_tokens=False)
model = SentenceTransformer(modules=[word_embedding_model, pooling_model])
train_samples = []
dev_samples = []
test_samples = []
def load(path):
df = pd.read_csv(path)
samples = []
for idx,item in df.iterrows():
samples.append(InputExample(texts=[item['sentence1'], item['sentence2']], label=float(item['label'])))
return samples
train_samples = load('/workspace/exports/git/NLP_related_projects/BERT/Bert_sim/data/train.csv')
test_samples = load('/workspace/exports/git/NLP_related_projects/BERT/Bert_sim/data/test.csv')
dev_samples = load('/workspace/exports/git/NLP_related_projects/BERT/Bert_sim/data/dev.csv')
train_dataloader = DataLoader(train_samples, shuffle=True, batch_size=train_batch_size)
train_loss = losses.CosineSimilarityLoss(model=model)
evaluator = EmbeddingSimilarityEvaluator.from_input_examples(dev_samples, name='sts-dev')
学生知识现状分析warmup_steps = il(len(train_dataloader) * num_epochs * 0.1) #10% of train data for warm-up
# Train the model
model.fit(train_objectives=[(train_dataloader, train_loss)],
evaluator=evaluator,
epochs=num_epochs,
evaluation_steps=1000,
warmup_steps=warmup_steps,
output_path=model_save_path)
model = SentenceTransformer(model_save_path)
test_evaluator = EmbeddingSimilarityEvaluator.from_input_examples(test_samples, name='sts-test')
test_evaluator(model, output_path=model_save_path)
测试结果
直接使⽤预训练的英⽂模型,测试集正确率21%
直接使⽤预训练的中⽂模型,测试集正确率30%
使⽤1000个⽤例的训练集,4次迭代,测试集正确率51%
使⽤10000个⽤例的训练集,4次迭代,测试集正确率68%
使⽤100000个⽤例的训练集,4次迭代,测试集正确率71%
⼀些技巧
除了设置超参数以外,也可通过构造训练数据来优化SBERT⽹络,⽐如:构造正例时,把知识“喂”给模型,如将英⽂缩写与对应中⽂作为正例对训练模型;构造反例时⽤容易混淆的句⼦对训练模型(⽂字相似但含义不同的句⼦;之前预测出错的实例,分析其原因,从⽽构造反例;使⽤知识构造容易出错的句⼦对),以替代之前的随机抽取反例。
参考
BERT中⽂实战(⽂本相似度)
Bert ⽂本相似度实战(使⽤详解)
Sentence-BERT: ⼀种能快速计算句⼦相似度的孪⽣⽹络
Sentence-Bert论⽂笔记

本文发布于:2024-09-20 22:47:39,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/453221.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:模型   相似   训练   需要   数据   构造
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议