一种换行符识别方法与流程

1.本发明涉及一种识别方法，具体为一种换行符识别方法，属于自然语言处理技术领域。

背景技术：

2.自然语言处理是利用机器学习来剖析文本的结构和含义。
3.机器翻译属于计算机语言的范畴。简单的说，就是利用自然语言处理的手段，将一种语言的文本转换为另一种语言的文本。
4.在对文档进行机器翻译时，通常需要把文档由pdf或者ppt等其他格式转换成word格式，进而提取文本内容并进行机器翻译。但是在利用插件将pdf文件解析成word文件时，会产生很多错误的换行符。
5.导致这些错误换行符出现的具体原因是：插件在将pdf转成word时，为了保证word的排版格式与pdf一致，在每一句末尾都加入了换行符。这些错误的换行符会将原本完整的一句话分割成两句，从而扰乱了句子的语义，导致文本不连贯、句子不通顺。一方面，会影响阅读和排版；另一方面，对机器翻译质量产生了严重的影响(由于机器翻译是以句子为最小单位，翻译过程需要依赖文本的上下文信息，但如果只传入半句话到机器翻译系统，那么机器就不能理解句子的完整语义，从而不能给出高质量的翻译结果)。
6.现有技术对于目前存在的问题的常规手段是对于转换出错的换行符通过人工手动去删除。但是，对于很多pdf文档，一个文档包含几十页内容，每页可能都包含数十个换行符。如果由人工手动处理，则会浪费大量人力，且效果，效率都得不到保证。

技术实现要素：

7.本发明的目的就在于为了解决上述至少一个技术问题而提供一种换行符识别方法。
8.本发明通过以下技术方案来实现上述目的：一种换行符识别方法，所述换行符识别方法采用规则和语义模型相结合的方式进行换行符识别，其具体包括以下步骤：
9.步骤一、利用规则对换行符识别，对于利用规则能够判断的情况，则直接返回结果，其中，所述规则是指根据人们撰写word的习惯来制定相关规则，进而判断上下文是否连续，且所述规则的换行符识别所采用的规则设置有若干个；
10.步骤二、利用规则无法对换行符识别判断时，则利用语义模型判断输出结果，其中，所述语义模型是指利用自然语言处理技术，构建一个二分类模型，对于每个换行符而言，模型的输入是该换行符之前的一段话和该换行符之后的一段话，模型的输出则是要判断这两句话是否连续，如果连续则删掉换行符，如果不连续则保留换行符。
11.优选的，对换行符识别设定的所述规则包括：
12.①
上下文字体颜不一致判断为不连续；
13.②
上下文字体大小不一致判断为不连续；
14.③
上下文字体类型不一致判断为不连续；
15.④
上文末尾为顿号或冒号判断为连续；
16.⑤
上文末尾为句号、问号、感叹号或省略号判断为不连续；
17.⑥
下文开头为无序列表符号时判断为不连续；
18.⑦
下文开头为有序列表符号时判断为不连续；
19.⑧
上文或者下文句子为居中格式判断为不连续；
20.⑨
上文句子太短，判断为不连续。
21.优选的，构建所述语义模型的方法包括：
22.①
训练数据集的构建，首先搜集中文单语语料，然后进行数据预处理，最后训练集构建；
23.②
语义模型搭建，所述语义模型搭建采用bilstm模型；
24.③
语义模型训练，所述语义模型训练将训练数据集分片处理；
25.④
语义模型预测，手动整理多条训练数据集，并分别进行预测，以对模型线上的准确率进行预测。
26.优选的，所述训练数据集构建中的搜集中文单语语料具体包括：
27.清华新闻分类语料：数据量：74万篇新闻；文档类别包括：体育、经、房产、家居、教育、科技、时尚、时政、游戏以及娱乐；
28.新闻数据：包含250万篇新闻，新闻来源涵盖6.3万个媒体；
29.摘要数据：从网络抓取的的文章。
30.优选的，所述训练数据集构建的数据预处理具体包括：
31.1)对文本进行分句处理，并保留句子的语序信息；
32.2)对于句子长度过短，过长以及包含过多特殊字符的句子进行过滤。
33.优选的，所述训练数据集构建的训练集构建具体包括：
34.正样本：随机选择两个相邻的句子构成正样本；
35.负样本：随机选择一个句子，中间任意位置插入换行符，并且将其中一半的样本，前后分别加干扰句或者随机裁剪进行数据增强。
36.优选的，所述语义模型搭建所采用的bilstm模型输出结果时，以中间时刻的输出作为模型最后输出结果。
37.本发明的有益效果是：1)本发明通过程序自动读取word文档中带格式的文本内容。首先利用相关规则对所有换行符进行识别和判断。对于规则判断不了的换行符，利用语义模型进行二次识别，根据识别结果删除错误的换行符，通过对线上真实数据样本进行统计分析，该算法的准确率在96％以上；
38.2)本发明大大提高了pdf转word的准确率，并节省了在处理错误换行符时的人工工时，并且提高文档质量，保障了后期文档解析和文档翻译的质量。
附图说明
39.图1为本发明bilstm结构图；
40.图2为本发明结构系统流程图；
41.图3为本发明中bilstm模型输出示意图。
具体实施方式
42.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
43.实施例一
44.如图1至图2所示，一种换行符识别方法，该换行符识别方法采用规则和语义模型相结合的方式进行换行符识别，其具体包括以下步骤：
45.第一：利用规则对换行符识别，对于利用规则能够判断的情况，则直接返回结果；其中，所述规则是指根据人们撰写word的习惯来制定相关规则，进而判断上下文是否连续，且所述规则的换行符识别所采用的规则设置有若干个。
46.对换行符识别设定的所述规则包括：
47.①
上下文字体颜不一致判断为不连续；
48.②
上下文字体大小不一致判断为不连续；
49.③
上下文字体类型不一致判断为不连续；
50.④
上文末尾为顿号或冒号判断为连续；
51.⑤
上文末尾为句号、问号、感叹号或省略号判断为不连续；
52.⑥
下文开头为无序列表符号时判断为不连续；
53.⑦
下文开头为有序列表符号时判断为不连续；
54.⑧
上文或者下文句子为居中格式判断为不连续；
55.⑨
上文句子太短，判断为不连续。
56.第二：利用规则无法对换行符识别判断时，则利用语义模型判断输出结果；其中，所述语义模型是指利用自然语言处理技术，构建一个二分类模型，对于每个换行符而言，模型的输入是该换行符之前的一段话和该换行符之后的一段话，模型的输出则是要判断这两句话是否连续，如果连续则删掉换行符，如果不连续则保留换行符。
57.所述语义模型的构建方法包括：1)训练数据集的构建。
58.由于训练语义模型需要大量带标签的数据，然而搜集大量数据需要耗费大量人力，而且也不太现实，基于此，提出了一种自动生成训练样本的方法
59.所述训练数据集的构建包括：
60.①
搜集中文单语语料；所述搜集中文单语语料具体包括：
61.清华新闻分类语料：数据量：74万篇新闻；文档类别包括：体育、经、房产、家居、教育、科技、时尚、时政、游戏以及娱乐；
62.新闻数据：包含250万篇新闻，新闻来源涵盖6.3万个媒体；
63.摘要数据：从网络抓取的的文章。
64.②
数据预处理；所述数据预处理包括两个目的，一方面为了满足模型训练数据的格式要求，另一方面是，网上搜集的数据包含了大量的噪声和错误数据，这些错误的数据会对模型的准确率产生影响，需要对其进行预处理和过滤操作。
65.所述数据预处理包括：对文本进行分句处理，并保留句子的语序信息；对于句子长度过短，过长以及包含过多特殊字符的句子进行过滤。通过该方式处理，能够保留很多句子
顺序的文本数据集。
66.③
训练集构建；所述训练集构建包括：正样本，随机选择两个相邻的句子构成正样本；负样本，随机选择一个句子，中间任意位置插入换行符，并且将其中一半的样本，前后分别加干扰句或者随机裁剪进行数据增强。
67.2)语义模型搭建；所述语义模型搭建采用bilstm模型，所述bilstm模型是一个时序模型，用于处理文本信息。
68.由于bilstm模型固有的结构特性，其在进行反向传播时，会产生一定程度的梯度消失现象。句子越长，这种现象越明显。从而导致该模型的长时记忆能力较差。然而在换行符识别这种场景下，模型的输入是换行符上下两段话的拼接。其中含有大量的长句。如果直接使用bilstm模型，则效果不佳。
69.如图3所示，一般的二分类问题，通常会选用3中的h(t)作为最后的输出，即选用最后一个时间序列作为输出。
70.我们采用的样本：a1,a2,a3,a4,a5,《sep》,b1,b2,b3,b4,b5。其中，a1,a2
…
代表上一句话的第1，2个字；b1,b2
…
代表下一句话的第1，2个字；《sep》代表换行符。若采用原始的bilstm模型，则会使用b5时刻的输出作为模型最后结果输出。但是前面已经讨论过，b5时刻的输出可能已经丢失了句子前面的信息。而我们的任务是更加关注换行符处的信息。因此，我们使用《sep》时刻的输出作为模型最后的输出结果。即，所述语义模型搭建所采用的bilstm模型输出结果时，以中间时刻的输出作为模型最后输出结果。
71.3)语义模型训练，由于数据集太大，无法将其一次性导入内存进行训练。因此对数据集进行分片处理。即，每一个片段包含1000万样本，共10片，依次训练。选用adam优化器，学习率设置为0.001，后面根据实际效果逐渐降低学习率。
72.4)语义模型预测，手动整理多条训练数据集，并分别进行预测，以对模型线上的准确率进行预测。
73.工作过程：1)在进行文档翻译时，通过pdf转word插件，将待翻译的pdf文档转成word；2)此时word文档中会包含大量的错误的换行符。这些换行符会对翻译质量产生影响；3)提取中word文档中所有换行符；4)对于每一个换行符，利用该算法中的规则模型进行一一判断。将识别错误的换行符删掉；5)对于规则不能判断的换行符，构建语义分类模型；6)首先需要搜集中文文本数据集，并对数据集进行预处理，例如标点符号规则化，分句，去重等。其次需要构造正负样本集，以供训练模型使用；7)构建bilstm模型，并利用上述预处理的数据进行模型训练；8)训练得到的语义模型即可对上述换行符进行识别，通过设定相应的概率阈值，即可判断换行符错误与否；9)删除掉模型认为错误的换行符，保留模型认为正确的换行符；10)最终得到的word文档中不包含错误换行符，即可进行下一步的文档翻译。
74.对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
75.此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当
将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

技术特征：

1.一种换行符识别方法，其特征在于，所述换行符识别方法采用规则和语义模型相结合的方式进行换行符识别，其具体包括以下步骤：步骤一、利用规则对换行符识别，对于利用规则能够判断的情况，则直接返回结果，其中，所述规则是指根据人们撰写word的习惯来制定相关规则，进而判断上下文是否连续，且所述规则的换行符识别所采用的规则设置有若干个；步骤二、利用规则无法对换行符识别判断时，则利用语义模型判断输出结果，其中，所述语义模型是指利用自然语言处理技术，构建一个二分类模型，对于每个换行符而言，模型的输入是该换行符之前的一段话和该换行符之后的一段话，模型的输出则是要判断这两句话是否连续，如果连续则删掉换行符，如果不连续则保留换行符。2.根据权利要求1所述的一种换行符识别方法，其特征在于：对换行符识别设定的所述规则包括：
①
上下文字体颜不一致判断为不连续；
②
上下文字体大小不一致判断为不连续；
③
上下文字体类型不一致判断为不连续；
④
上文末尾为顿号或冒号判断为连续；
⑤
上文末尾为句号、问号、感叹号或省略号判断为不连续；
⑥
下文开头为无序列表符号时判断为不连续；
⑦
下文开头为有序列表符号时判断为不连续；
⑧
上文或者下文句子为居中格式判断为不连续；
⑨
上文句子太短，判断为不连续。3.根据权利要求1所述的一种换行符识别方法，其特征在于：构建所述语义模型的方法包括：
①
训练数据集的构建，首先搜集中文单语语料，然后进行数据预处理，最后训练集构建；
②
语义模型搭建，所述语义模型搭建采用bilstm模型；
③
语义模型训练，所述语义模型训练将训练数据集分片处理；
④
语义模型预测，手动整理多条训练数据集，并分别进行预测，以对模型线上的准确率进行预测。4.根据权利要求3所述的一种换行符识别方法，其特征在于：所述训练数据集构建中的搜集中文单语语料具体包括：清华新闻分类语料：数据量：74万篇新闻；文档类别包括：体育、经、房产、家居、教育、科技、时尚、时政、游戏以及娱乐；新闻数据：包含250万篇新闻，新闻来源涵盖6.3万个媒体；摘要数据：从网络抓取的的文章。5.根据权利要求3所述的一种换行符识别方法，其特征在于：所述训练数据集构建的数据预处理具体包括：1)对文本进行分句处理，并保留句子的语序信息；2)对于句子长度过短，过长以及包含过多特殊字符的句子进行过滤。6.根据权利要求3所述的一种换行符识别方法，其特征在于：所述训练数据集构建的训
练集构建具体包括：正样本：随机选择两个相邻的句子构成正样本；负样本：随机选择一个句子，中间任意位置插入换行符，并且将其中一半的样本，前后分别加干扰句或者随机裁剪进行数据增强。7.根据权利要求3所述的一种换行符识别方法，其特征在于：所述语义模型搭建所采用的bilstm模型输出结果时，以中间时刻的输出作为模型最后输出结果。

技术总结

本发明公开了一种换行符识别方法，包括采用规则和语义模型相结合的方式进行换行符识别，利用基于规则的方法对换行符进行识别，对于利用规则可以判断的情况则直接返回结果；利用规则无法进行判断时，利用语义模型判断输出结果。本发明的有益效果是：提高了pdf转word的准确率，并节省了在处理错误换行符时的人工工时，并且提高文档质量，保障了后期文档解析和文档翻译的质量。文档翻译的质量。文档翻译的质量。