语义相似度模型SBERT——一个挛生网络的优美范例

语义相似度模型SBERT——⼀个挛⽣⽹络的优美范例

“论⽂中⽂翻译”已相当清楚，故本篇不再翻译，只简单介绍SBERT的原理，以及训练和使⽤中⽂相似度模型的⽅法和效果。

原理

hgt挛⽣⽹络Siamese network（后简称SBERT），其中Siamese意为“连体⼈”，即两⼈共⽤部分器官。SBERT模型的⼦⽹络都使⽤BERT 模型，且两个BERT模型共享参数。当对⽐A,B两个句⼦相似度时，它们分别输⼊BERT⽹络，输出是两组表征句⼦的向量，然后计算⼆者的相似度；利⽤该原理还可以使⽤向量聚类，实现⽆监督学习任务。

挛⽣⽹络有很多应⽤，⽐如使⽤图⽚搜索时，输⼊照⽚将其转换成⼀组向量，和库中的其它图⽚对⽐，

到相似度最⾼（距离最近）的图⽚；在问答场景中，到与⽤户输⼊⽂字最相近的标准问题，然后给出相应解答；对各种⽂本标准化等等。

衡量语义相似度是⾃然语⾔处理中的⼀个重要应⽤，BERT源码中并未给出相应例程（run_glue.py只是在其⽰例框架内的简单⽰例），真实场景使⽤时需要做⼤量修改；⽽SBERT提供了现成的⽅法解决了相似度问题，并在速度上更有优势，直接使⽤更⽅便。

SBERT对Pytorch进⾏了封装，简单使⽤该⼯具时，不仅不需要了解太多BERT API的细节， Pytorch相关⽅法也不多，下⾯来看看其具体⽤法。

配置环境

需要注意的是机器需要能正常配置BERT运⾏环境，如GPU+CUDA+Pytorch+Transformer匹配版本。

$ pip install sentence_transformers

下载源码

$ git clone github/UKPLab/sentence-transformers.git

模型预测

在未进⾏调优（fine-tune）前，使⽤预训练的通⽤中⽂BERT模型也可以达到⼀定效果，下例是从⼏个选项中到与⽬标最相近的字符串。

from sentence_transformers import SentenceTransformer

import scipy.spatial

embedder = SentenceTransformer('bert-base-chinese')

corpus = ['这是⼀⽀铅笔',

'关节置换术',

'我爱北京天安门',

]

corpus_embeddings = de(corpus)

教养的芬芳# 待查询的句⼦宜昌人事局

queries = ['⼼脏⼿术','中国⾸都在哪⾥']

query_embeddings = de(queries)

# 对于每个句⼦，使⽤余弦相似度查询最接近的n个句⼦

closest_n = 2

for query, query_embedding in zip(queries, query_embeddings):

distances = scipy.spatial.distance.cdist([query_embedding], corpus_embeddings, "cosine")[0]

# 按照距离逆序

results = zip(range(len(distances)), distances)

results = sorted(results, key=lambda x: x[1])

print("======================")

print("Query:", query)

print("Result:Top 5 most similar sentences in corpus:")

for idx, distance in results[0:closest_n]:

print(corpus[idx].strip(), "(Score: %.4f)" % (1-distance))

训练中⽂模型

模型训练⽅法

训练中⽂模型

把⽰例中的bert-base-cased换成bert-base-chinese，即可下载和使⽤中⽂模型。需要注意的是：中⽂和英⽂词库不同，不能将中⽂模型⽤于英⽂数据训练。

下载中⽂训练数据

下载信贷相关数据，csv数据7M多，约10W条训练数据，可在下例中使⽤

$ git clone github/lixuanhng/NLP_related_projects.git

$ ls NLP_related_projects/BERT/Bert_sim/data

代码

from torch.utils.data import DataLoader

import math

from sentence_transformers import SentenceTransformer, LoggingHandler, losses, models, util

from sentence_transformers.evaluation import EmbeddingSimilarityEvaluator

from aders import InputExample

import logging

from datetime import datetime

import sys

import os

ocn

import pandas as pd

model_name = 'bert-base-chinese'

train_batch_size = 16

num_epochs = 4

model_save_path = 'test_output'

logging.basicConfig(format='%(asctime)s - %(message)s',

datefmt='%Y-%m-%d %H:%M:%S',

level=logging.INFO,

handlers=[LoggingHandler()])

# Use Huggingface/transformers model (like BERT, RoBERTa, XLNet, XLM-R) for mapping tokens to embeddings word_embedding_model = models.Transformer(model_name)

# Apply mean pooling to get one fixed sized sentence vector

pooling_model = models.Pooling(word__word_embedding_dimension(),

pooling_mode_mean_tokens=True,

pooling_mode_cls_token=False,

pooling_mode_max_tokens=False)

model = SentenceTransformer(modules=[word_embedding_model, pooling_model])

train_samples = []

dev_samples = []

菌

test_samples = []

def load(path):

df = pd.read_csv(path)

samples = []

for idx,item in df.iterrows():

samples.append(InputExample(texts=[item['sentence1'], item['sentence2']], label=float(item['label'])))

return samples

train_samples = load('/workspace/exports/git/NLP_related_projects/BERT/Bert_sim/data/train.csv')

test_samples = load('/workspace/exports/git/NLP_related_projects/BERT/Bert_sim/data/test.csv')

dev_samples = load('/workspace/exports/git/NLP_related_projects/BERT/Bert_sim/data/dev.csv')

train_dataloader = DataLoader(train_samples, shuffle=True, batch_size=train_batch_size)

train_loss = losses.CosineSimilarityLoss(model=model)

evaluator = EmbeddingSimilarityEvaluator.from_input_examples(dev_samples, name='sts-dev')

学生知识现状分析warmup_steps = il(len(train_dataloader) * num_epochs * 0.1) #10% of train data for warm-up

# Train the model

model.fit(train_objectives=[(train_dataloader, train_loss)],

evaluator=evaluator,

epochs=num_epochs,

evaluation_steps=1000,

warmup_steps=warmup_steps,

output_path=model_save_path)

model = SentenceTransformer(model_save_path)

test_evaluator = EmbeddingSimilarityEvaluator.from_input_examples(test_samples, name='sts-test')

test_evaluator(model, output_path=model_save_path)

测试结果

直接使⽤预训练的英⽂模型，测试集正确率21%

直接使⽤预训练的中⽂模型，测试集正确率30%

使⽤1000个⽤例的训练集，4次迭代，测试集正确率51%

使⽤10000个⽤例的训练集，4次迭代，测试集正确率68%

使⽤100000个⽤例的训练集，4次迭代，测试集正确率71%

⼀些技巧

除了设置超参数以外，也可通过构造训练数据来优化SBERT⽹络，⽐如：构造正例时，把知识“喂”给模型，如将英⽂缩写与对应中⽂作为正例对训练模型；构造反例时⽤容易混淆的句⼦对训练模型（⽂字相似但含义不同的句⼦；之前预测出错的实例，分析其原因，从⽽构造反例；使⽤知识构造容易出错的句⼦对），以替代之前的随机抽取反例。

参考

BERT中⽂实战（⽂本相似度）

Bert ⽂本相似度实战（使⽤详解）

Sentence-BERT: ⼀种能快速计算句⼦相似度的孪⽣⽹络

Sentence-Bert论⽂笔记

本文发布于:2024-09-20 22:47:39，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/453221.html

上一篇：2017 Gay圈名媛权威排行榜

下一篇：使用TensorFlow训练模型的基本流程