一种水印文本的处理方法和装置与流程



1.本公开实施例涉及文本解析和水印处理技术领域,尤其涉及一种水印文本的处理方法和装置。


背景技术:



2.目前,在很多行业中,企业或机构希望自动化的从其业务文件中提取并生成结构化的业务信息,这些文件很多情况下是编辑难度较大的pdf格式的文件或图片。
3.但是,这些业务文件中常常存在着水印文字,这些水印文字会造成提取的业务信息结构错误、文本顺序混乱、以及语义信息错乱等问题,影响文件解析的效果。
4.因此,需要一种水印文本的处理方案。


技术实现要素:



5.本说明书的实施例描述了一种水印文本的处理方法和装置。
6.根据第一方面,提供了一种水印文本的处理方法,包括:获取第一文件,所述第一文件包括若干页;提取所述若干页内的目标页中的第一文本、以及第一文本中包含的文字字符的第一富文本信息;根据第一富文本信息,确定所述第一文本中包括的多个文本块、以及各个文本块的第二富文本信息;基于所述第二富文本信息,确定所述第一文本中包含水印文本的水印文本块。
7.根据第二方面,提供了一种水印文本的处理装置,所述装置包括:
8.文件获取单元,配置为,获取第一文件,所述第一文件包括若干页;富文本信息提取单元,配置为,提取所述若干页内的目标页中的第一文本、以及第一文本中包含的文字字符的第一富文本信息;水印文本确定单元,配置为,根据第一富文本信息,确定所述第一文本中包括的多个文本块、以及各个文本块的第二富文本信息;基于所述第二富文本信息,确定所述第一文本中包含水印文本的水印文本块。
9.根据第三方面,提供了一种计算机程序产品,包括计算机程序,上述计算机程序被处理器执行时实现如第一方面中任一项上述的方法。
10.根据第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当上述计算机程序在计算机中执行时,令上述计算机执行第一方面中任一项上述的方法。
11.根据第五方面,提供了一种电子设备,包括存储器和处理器,上述存储器中存储有可执行代码,上述处理器执行上述可执行代码时,实现第一方面中任一项上述的方法。
12.根据本公开实施例提供一种水印文本的处理方法和装置。首先,获取文件页内的文本,以及文本中的各个字符以及字符的富文本信息,根据字符的富文本信息将字符合并为若干文本块。然后,根据文本块的富文本信息,确定出各文本块具有的富文本特征。此后,根据各文本块的富文本特征、以及符合水印出现规律的水印文本判断规则,从中确定出水印文本块。利用该方法和装置,可以在提取业务文件的文本内容后,准确的识别和去除其中的水印文本,从而获取更为准确的去水印的原始文本内容。
附图说明
13.图1示出了带有水印的文件示意图;
14.图2示出了包括水印文本和去除水印文本的文件提取信息的对比示意图;
15.图3示出了根据一个实施例的一种水印文本的处理方法的流程示意图;
16.图4示出了根据一个实施例的文本块富文本信息表的示意图;
17.图5示出了根据一个实施例的富文本特征、及符合特征的文本块数量统计表的示意图;
18.图6示出了根据一个实施例的确认出水印文本块的流程示意图;
19.图7示出了根据一个实施例的富文本特征、及符合特征的文本块的内容种类统计表的示意图;
20.图8示出了根据另一个实施例的确认出水印文本块的流程示意图;
21.图9示出了根据又一个实施例的确认出水印文本块的流程示意图;
22.图10示出了根据一个实施例的一种水印文本的处理装置的示意性框图;
23.图11示出了适于用来实现本技术实施例的电子设备的结构示意图;
24.图12示出了适于用来实现本技术实施例的存储介质的结构示意图。
具体实施方式
25.下面结合附图和实施例,对本说明书提供的技术方案做进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。需要说明的是,在不冲突的情况下,本说明书的实施例及实施例中的特征可以相互组合。
26.如前所述,目前很多企业或机构希望从其业务文件中提取并生成结构化的业务信息。但是,这些业务文件中常常存在着水印文字,这些水印文字会造成提取的业务信息结构错误、文本顺序混乱、以及语义信息错乱等问题,影响文件解析的效果。下面以对于项目文件的解析为例,进一步说明上述的技术问题。现有的项目文件常常是pdf格式或者图片格式,在对于这些格式的项目文件的解析中,通常会对项目中的文字以及其坐标、字体等富文本信息进行提取,然后使用这些文字和信息确定项目文件的内容。然而,一些项目中存在着水印文字,这些水印文字会造成例如项目内容的结构错误、内容文本的顺序错误和内容语义的错乱等问题,影响项目内容解析的效果。具体的,现有的文件解析方法,会在文件内容解析时,将水印文本和项目文本均提取出来,并且水印文本与项目文本常常相互穿插,这将导致最终获取的项目文本的文本顺序或文本排版产生错误,而现有的去水印方式通常需要手动去除其中的水印文本,这需要人工处理且处理效率很低。
27.图1示出了带有水印的文件示意图。如图1所示的项目文件中,存在少量水印文字,且与项目正文相交错。图2示出了包括水印文本和去除水印文本的文件提取信息的对比示意图。如图2左栏所示,现有工具在提取文件文本后,水印文本通常会穿插在项目正文中。将其与图2右栏所示的去除水印文本的文件文本相对比,可见穿插了水印文本的项目提取文本的可阅读性较差,且容易造成后续进一步文本处理中错误,例如由于水印文本的穿插,导致后续对于项目内容的结构的提取或重构出现错误。尤其是在一些实际的项目文件中,水印的密度较大,严重影响提取内容的可阅读性,甚至造成无法提取到结构化的项目内容。
28.为了解决上述的技术问题,本公开实施例提出了一种水印文本的处理方法。在一个实施例中,首先获取文件页内的文本,以及文本中的各个字符以及字符的富文本信息(例如字符的字体、大小、位置等),根据字符的富文本信息将字符合并为若干文本块。然后,根据文本块的富文本信息,确定出各文本块具有的富文本特征。此后,根据各文本块的富文本特征、以及对应水印出现规律的水印文本判断规则,从中确定出水印文本块,并将水印文本块从文件页包含的文本中去除。利用该方法,可以在提取业务文件的文本内容后,准确的识别和去除其中的水印文本,从而获取更为准确的去水印的原始文本内容。
29.下面进一步描述该方法的详细过程。
30.图3示出了根据一个实施例的一种水印文本的处理方法的流程示意图。如图3所示,该方法至少包括如下步骤:
31.首先,在步骤s301,获取第一文件,第一文件可以包括目标页。
32.该步骤中,获取待去除其水印文本的目标文件(第一文件),即希望提取其中的文本信息,且去除文本信息中的水印文本的文件。在不同的实施例中,第一文件可以是不同具体应用类型的文件,本说明书对此不作限制。在一种实施例中,第一文件可以为项目文件。在不同的实施例中,第一文件可以不同数据格式的文件。在一个实施例中,第一文件可以是pdf格式的文件。在另一些实施例中,第一文件也可以是不同具体图片格式的图片文件。在不同的业务场景中,作为目标文件的业务文件可以是多页或单页的。因此,在不同的实施例中,第一文件包括的页数也可以不同,例如可以为大于等于1的整数。
33.然后,在步骤s303,提取目标页中的第一文本、以及第一文本中包含的文字字符的第一富文本信息。
34.该步骤中,提取第一文件中的目标页中的文本(例如,第一文本)、以及该文本中包括的文字字符的富文本信息(例如,第一富文本信息)。在不同的实施例中,可以根据第一文件的具体数据格式,通过不同的具体方式,提取其文件页中的文本、以及文本中包括的文字字符的富文本信息。例如,在第一文件为pdf文件的实施例中,可以通过例如pdfbox工具,提取其文件页中的文本、以及文本中包括的文本字符以及富文本信息。在第一文件为图片文件的实施例中,可以使用ocr(optical character recognition,光学字符识别)技术提取图片文件中的文本字符以及富文本信息。
35.在不同的实施例中,提取的文本字符的第一富文本信息可以不同。在一个实施例中,第一富文本信息可以包括文字字符的若干种字符属性,若干种字符属性可以包括:文字字符的位置坐标、字体类型、字体高度、字体颜、所在页编号中的一种或多种。
36.接着,在步骤s305,根据第一富文本信息,确定所述第一文本中包括的多个文本块、以及各个文本块的第二富文本信息;基于所述第二富文本信息,确定所述第一文本中包含水印文本的水印文本块。
37.该步骤中,可以根据步骤s303中获取的字符以及其富文本信息,将这些字符合并为多个文本块,同时确定出各个文本块的富文本信息(例如,第二富文本信息);然后,根据各个文本块的第二富文本信息,确定所述第一文本中包含水印文本的水印文本块。
38.在不同的实施例中,可以根据不同的第一富文本信息,并采用不同的具体方式,确定出多个文本块。在一个实施例中,可以根据文字字符的位置坐标、字体类型、字体高度、字体颜中的一种或多种,确定所述第一文本中包括的多个文本块。在一个具体的实施例中,
可以将位置纵坐标相同,且字体类型、字体高度、字体颜均相同的文字字符,各自合并为单一文本块。例如,可以将相同纵坐标(又称y坐标)下的字体类型、字体高度、字体颜相同的字符,根据横坐标(又称x坐标)从左至右的顺序进行拼接,得到拼接后的文本块(segment)。
39.并且,还可以根据文本块中包含的字符对应的富文本信息(第一富文本信息),确定文本块对应的富文本信息(第二富文本信息)。在不同的实施例中,确定出的第二富文本信息可以不同。在一个实施例中,第二富文本信息可以包括文本块的若干种文本块属性,例如可以包括:文本块位置坐标、文本块大小、文本块内容、文本块字体高度、文本块所在页编号中的一种或多种。在一个例子中,文本块位置坐标例如可以包括,文本块在横向上的起、止坐标(例如,可以被记为x_left,x_right)、以及文本块的纵坐标。
40.在一个实施例中,为了方便后续处理,还可以将多个文本块的富文本信息保存在例如文本块富文本信息表中。图4示出了根据一个实施例的文本块富文本信息表的示意图,如图4所示,该表中保存了各文件页的文件块的富文本信息,例如包括,文件块内容(text)、文本块在横向上的起、止坐标(x_left,x_right)、文本块的纵坐标(y)、文本块字体名称(fontname)、文本块字体高度(height)、文本块字体颜(fontcolor),以及文本是否粗体字、文本块所在页编号等。在该表中,例如图1所示项目中,第一行的“xx项目”四个字在结合成文本块(segment)后,保存在文本块富文本信息表中的该文本块的富文本信息如该表第一行所示。
41.在获取文本块、以及文本块的富文本信息之后,可以根据文本块的富文本信息,识别出其中包括水印文本的文本块。在一个实施例中,可以根据所述若干种文本块属性中至少一种属性的组合,确定所述多个文本块中至少部分文件块具有的富文本特征;至少基于具有所述富文本特征的文本块的数量,确定所述第一文本中包含水印文本的水印文本块。在一个实施例中,富文本特征可以是具有不同取值的若干不同文本块属性的组合。
42.为了方便操作,在例如记录文本块富文本信息表的实施例中,可以先根据文本块富文本信息表,统计文件页包含的文件块中出现的富文本特征(例如,不同的文本块属性及其组合)、以及各个富文本特征的出现频率(即符合各个特征的文本块数量)。图5示出了根据一个实施例的富文本特征、及符合特征的文本块数量统计表的示意图。假设图1中项目文件的所示页中,只有一个多字符文件块的字体为fonta,且字体高度为25。则如图5(a)所示,该表中例如可以记录富文本特征more_fonta25,以及符合该特征的文本块数量为1。其中,“fonta”表示字体,“25”表示字体高度,“more_”表示多字符(该例子中添加多字符标识“more_”,旨在进一步后续处理中方便统计符合特征的单、多字符的文件块数量,以确定水印文本块。对其过程的详细描述可以参见后文的具体描述)。假设符合该特征的文本块数量为其他值,则表中该数量为其他值。假设图1中项目文件的所示页中,只有一个单字符文件块的字体为fonta,且字体高度为14。则如图5(b)所示,该表中例如可以记录富文本特征fonta14,以及符合该特征的文本块数量为1。需要注意的是,图5所示仅为记录富文本特征及其发生频率的一种具体方式,在不同的实施例中,还可以采用其他的具体方式,本说明书对此不做限制。
43.在不同的实施例中,确定第一文本中包含水印文本的水印文本块的具体过程可以不同。根据一个实施例,富文本特征可以包括第一特征。在该实施例中,确定第一文本中包
含水印文本的水印文本块的过程,例如可以具体包括以下步骤:
44.步骤s3031,判断:是否具有第一特征的单字符文件块的数量大于第一预设参数,且,具有第一特征的多字符文件块的数量小于第二预设参数;
45.步骤s3034,若判断结果为是,确定具有第一特征的单字符文件块为水印文件块。
46.在步骤s3031中的判别规则,主要针对于倾斜的文字水印在文件页中的一种分布规律。倾斜的文字水印常常表现为离散的单字符文本块,且与之具有相同文本块属性特征(例如字体和字体高度)的多字符文本块数量较少。因此,可以根据s3031中的判别规则,从文件页包括的文本块中确定出倾斜的水印文本块。在一个实施例中,第一特征例如可以指示,具有该特征的文件块的文本字体为第一字体、且其字体高度为第一字体高度。在不同的具体实施例中,第一字体和第一字体高度可以为不同的具体字体和具体高度。在不同的具体实施例中,例如根据不同目标文件的具体类型,第一预设参数值、第二预设参数值可以具有不同的取值。在一个具体的实施例中,第一文件为项目文件,第一预设参数的取值可以在100~150之间,第二预设参数值的取值可以在30~70之间。
47.识别出水印文本块之后,在不同的实施例中,可以针对水印文本块进行不同的处理,本说明书对此不做限制。在一个实施例中,还可以在步骤s307,从第一文本中去除水印文本块。
48.该步骤中,从第一文本中去除步骤s305中识别出的水印文本块,获取去除水印文本的第一文件的原始文本内容。
49.在上述对于步骤s305的描述中,还论及在不同的实施例中,可以根据不同的水印文本判断规则,判定多个文本块中的水印文本块。下面通过另外两个实施例,对其进一步阐述。
50.在一个实施例中,可以根据具有所述富文本特征的文本块的数量、以及具有所述富文本特征的文本块的文本内容的种类数量,确定所述第一文本中包含水印文本的水印文本块。为了方便操作,可以先根据文本块富文本信息表,统计具有不同富文本特征的文本块的文本内容的种类数量。图7示出了根据一个实施例的富文本特征、及符合特征的文本块的内容种类统计表的示意图。假设图1中项目文件的所示页中,有多个多字符文件块的字体为fonta,且字体高度为14。则如图7所示,该表中例如可以记录富文本特征more_fonta14,以及符合该特征的文本块的文本内容的种类。例如,具有该特征的文件块的内容具体有以下4种:

a市xx有限公司
’‘
b省招投标有限公司’,

项目开始日期:xxxx年xx月xx日’,

项目完成日期:xxxx年xx月xx’。在一个实施例中,还可以记录各个文本内容种类的发生(出现)次数。例如,图6所示中,

a市xx有限公司’的出现次数例如为2次,

项目开始日期:xxxx年xx月xx日’的出现次数例如为1次。需要注意的是,图7所示仅为记录富文本特征以及符合特征的文本块的内容种类的一种具体方式,在不同的实施例中,还可以采用其他的具体方式,本说明书对此不做限制。
51.如图8所示,在该实施例中,确定第一文本中包含水印文本的水印文本块的过程,例如可以具体包括以下步骤:
52.步骤s3032,判断:是否具有第一特征的单字符文件块的数量大于第一预设参数,且,具有第一特征的多字符文件块的数量大于第一值,其中,所述第一值为具有第一特征的多字符文件块的文本内容的种类数量与第三预设参数的乘积;
53.步骤s3035,若判断结果为是,确定具有第一特征的单字符文件块为水印文件块。
54.在步骤s3032中的判别规则,是针对于倾斜的文字水印在文件页中的另一种分布规律。倾斜的文字水印常常表现为离散的单字符文本块,且与之具有相同文本块属性特征(例如字体和字体高度)的多字符文本块的数量与这些多字符文本块的文本内容的种类数量相差较大。因此,可以根据s3032中的判别规则,从文件页包括的文本块中确定出倾斜的水印文本块。在不同的具体实施例中,例如根据不同目标文件的具体类型,第一预设参数值、第二预设参数值和第三预设参数值可以具有不同的取值。一个具体的实施例中,第一文件为项目文件,第一预设参数的取值可以在100~150之间,第二预设参数值的取值可以在30~70之间,第三预设参数值的取值可以在3~10之间。
55.在不同的应用场景中的文件页内,除了可以存在倾斜的文本水印,也会存在水平的文本水印。在一个实施例中,也可以针对于水平的文字水印在文件页中的分布规律,判断出水平的水印文本块,并从第一文本中去除水印文本块。如图9所示,该实施例中,确定第一文本中包含水印文本的水印文本块的过程,例如可以具体包括以下步骤:
56.步骤s3033,判断:是否具有第一特征的单字符文件块的数量大于第一预设参数,且,具有第一特征的多字符文件块的数量大于第二预设参数,且,具有第一特征的多字符文件块的数量大于第一值,其中,所述第一值为具有第一特征的多字符文件块的文本内容的种类数量与第三预设参数的乘积;
57.步骤s3037,若判断结果为是,确定具有第一特征的多字符文件块为水印文件块。
58.如上所述,步骤s3033中的判别规则,是针对于水平的文字水印在文件页中的另分布规律。水平的文字水印常常表现为多字符文本块,离散的单字符文本块,且这些多字符文本块的数量与其的文本内容的种类数量相差较大;同时,与之具有相同文本块属性特征(例如字体和字体高度)的单字符文本块的数量常常也较多(即同时存在倾斜水印的概率较大)。因此,可以根据s3033中的判别规则,从文件页包括的文本块中确定出水平的水印文本块。与上一个实施例类似,在不同的具体实施例中,在不同的具体实施例中,例如根据不同目标文件的具体类型,第一预设参数值、第二预设参数值和第三预设参数值可以具有不同的取值。一个具体的实施例中,第一文件为项目文件,第一预设参数的取值可以在100~150之间,第二预设参数值的取值可以在30~70之间,第三预设参数值的取值可以在3~10之间。
59.在不同的实施例中,还可以结合依据图6、图7、图8所示步骤的确定结果,识别出水印文本块。本公开对项目文件的内容不做限制,例如可以是关于项目实施相关的文件,也可以是项目相关方筛选或安排相关的文件。
60.本说明书另一部份实施例还提供一种水印文本的处理装置。图10示出了根据一个实施例的一种水印文本的处理装置的示意性框图。如图10所示,该装置1000包括:
61.文件获取单元101,配置为,获取第一文件,所述第一文件包括目标页;
62.富文本信息提取单元102,配置为,提取所述目标页中的第一文本、以及第一文本中包含的文字字符的第一富文本信息;
63.水印文本确定单元103,配置为,根据第一富文本信息,确定所述第一文本中包括的多个文本块、以及各个文本块的第二富文本信息;基于所述第二富文本信息,确定所述第一文本中包含水印文本的水印文本块。
64.在一个实施例中,该装置1000还可以包括:
65.水印文本去除单元104,配置为,从所述第一文本中去除所述水印文本块。
66.下面还可以参考图11,其示出了适于用来实现本技术实施例的电子设备1100的结构示意图。图11示出的电子设备1100仅仅是一个示例,不应对本技术实施例的功能和使用范围带来任何限制。
67.如图11所示,电子设备1100可以包括处理装置(例如中央处理器、图形处理器等)1101,其可以根据存储在只读存储器(rom)1102中的程序或者从存储装置1108加载到随机访问存储器(ram)1103中的程序而执行各种适当的动作和处理。在ram1103中,还存储有电子设备1100操作所需的各种程序和数据。处理装置1101、rom1102以及ram1103通过总线1104彼此相连。输入/输出(i/o)接口1105也连接至总线1104。
68.通常,以下装置可以连接至i/o接口1105:包括例如触摸屏、触摸板、键盘、鼠标等的输入装置1106;包括例如液晶显示器(lcd,liquid crystal display)、扬声器、振动器等的输出装置1107;包括例如磁带、硬盘等的存储装置1108;以及通信装置1109。通信装置1109可以允许电子设备1100与其他设备进行无线或有线通信以交换数据。虽然图11示出了具有各种装置的电子设备1100,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图11中示出的每个方框可以代表一个装置,也可以根据需要代表多个装置。
69.特别地,根据本技术的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本技术的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置1109从网络上被下载和安装,或者从存储装置1108被安装,或者从rom1102被安装。在该计算机程序被处理装置1101执行时,执行本技术的实施例的方法中限定的上述功能。
70.本公开实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行本说明书所提供的所述方法。图12为实现本技术实施例的一种存储介质的示意图。例如,如图12所示,存储介质1200可以为非暂时性计算机可读存储介质,用于存储非暂时性计算机可执行指令1201。当非暂时性计算机可执行指令1201由处理器执行时可以实现本公开实施例所述的水印文本的处理方法,例如,当非暂时性计算机可执行指令1201由处理器执行时,可以执行根据上文所述的水印文本的处理方法中的一个或多个步骤。例如,该存储介质1200可以应用于上述电子设备中,例如,该存储介质1200可以包括电子设备中的存储器。例如,存储介质可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom)、便携式紧致盘只读存储器(cd-rom)、闪存、或者上述存储介质的任意组合,也可以为其他适用的存储介质。例如,关于存储介质1200的说明可以参考电子设备的实施例中对于存储器的描述,重复之处不再赘述。存储介质1200的具体功能和技术效果可以参考上文中关于水印文本的处理方法的描述,此处不再赘述。
71.需要说明的是,本公开的实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上
的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本说明书的实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本说明书的实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、rf(radio frequency,射频)等等,或者上述的任意合适的组合。
72.上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该服务器执行时,使得该电子设备实现本公开实施例提供的水印文本的处理方法。
73.可以以一种或多种程序设计语言或其组合来编写用于执行本公开实施例的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
74.本公开中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于存储介质和计算设备实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。
75.本领域技术人员应该可以意识到,在上述一个或多个示例中,本公开实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
76.以上所述的具体实施方式,对本发明实施例的目的、技术方案和有益效果进行了进一步的详细说明。所应理解的是,以上所述仅为本发明实施例的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

技术特征:


1.一种水印文本的处理方法,包括:获取第一文件,所述第一文件包括目标页;提取所述目标页中的第一文本、以及第一文本中包含的文字字符的第一富文本信息;根据第一富文本信息,确定所述第一文本中包括的多个文本块、以及各个文本块的第二富文本信息;基于所述第二富文本信息,确定所述第一文本中包含水印文本的水印文本块。2.根据权利要求1所述的方法,还包括,从所述第一文本中去除所述水印文本块。3.根据权利要求1所述的方法,其中,所述第一富文本信息包括文字字符的若干种字符属性,所述若干种字符属性包括:文字字符的位置坐标、字体类型、字体高度、字体颜、所在页编号中的一种或多种。4.根据权利要求1所述的方法,其中,所述第二富文本信息包括文本块的若干种文本块属性,所述若干种文本块属性包括:文本块位置坐标、文本块大小、文本块内容、文本块字体高度、文本块所在页编号中的一种或多种。5.根据权利要求3所述的方法,其中,根据第一富文本信息,确定所述第一文本中包括的多个文本块,包括:根据字符的位置坐标、字体类型、字体高度、字体颜中的一种或多种,确定所述第一文本中包括的多个文本块。6.根据权利要求5所述的方法,其中,所述字符的位置坐标包括位置纵坐标;根据字符的位置坐标、字体类型、字体高度、字体颜中的一种或多种,确定所述第一文本中包括的多个文本块,包括:将位置纵坐标相同,且字体类型、字体高度、字体颜均相同的文字字符,各自合并为单一文本块。7.根据权利要求4所述的方法,其中,基于所述第二富文本信息,确定所述第一文本中包含水印文本的水印文本块,包括:根据所述若干种文本块属性中至少一种属性的组合,确定所述多个文本块中至少部分文件块具有的富文本特征;至少基于具有所述富文本特征的文本块的数量,确定所述第一文本中包含水印文本的水印文本块。8.根据权利要求7所述的方法,其中,所述富文本特征包括第一特征,所述第一特征指示具有第一字体和第一字体高度;所述至少基于具有所述富文本特征的文本块的数量,确定所述第一文本中包含水印文本的水印文本块,包括:响应于具有第一特征的单字符文件块的数量大于第一预设参数,且,具有第一特征的多字符文件块的数量小于第二预设参数,确定具有第一特征的单字符文件块为水印文件块。9.根据权利要求7所述的方法,其中,所述至少基于具有所述富文本特征的文本块的数量,确定所述第一文本中包含水印文本的水印文本块,包括:根据具有所述富文本特征的文本块的数量、以及具有所述富文本特征的文本块的文本
内容的种类数量,确定所述第一文本中包含水印文本的水印文本块。10.根据权利要求9所述的方法,其中,所述富文本特征包括第一特征,所述第一特征指示具有第一字体和第一字体高度;根据具有所述富文本特征的文本块的数量、以及具有所述富文本特征的文本块的文本内容的种类数量,确定所述第一文本中包含水印文本的水印文本块,包括:响应于具有第一特征的单字符文件块的数量大于第一预设参数,且,具有第一特征的多字符文件块的数量大于第一值,其中,所述第一值为具有第一特征的多字符文件块的文本内容的种类数量与第三预设参数的乘积,确定具有第一特征的单字符文件块为水印文件块。11.根据权利要求10所述的方法,还包括:响应于具有第一特征的单字符文件块的数量大于第一预设参数,且,具有第一特征的多字符文件块的数量大于第二预设参数,且,具有第一特征的多字符文件块的数量大于第一值,确定具有第一特征的多字符文件块为水印文件块。12.根据权利要求10所述的方法,其中,第一文件包括项目文件,第一预设参数值为100~150之间,第二预设参数值为30~70之间,第三预设参数值为3~10之间。13.一种水印文本的处理装置,所述装置包括:文件获取单元,配置为,获取第一文件,所述第一文件包括目标页;富文本信息提取单元,配置为,提取所述目标页中的第一文本、以及第一文本中包含的文字字符的第一富文本信息;水印文本确定单元,配置为,根据第一富文本信息,确定所述第一文本中包括的多个文本块、以及各个文本块的第二富文本信息;基于所述第二富文本信息,确定所述第一文本中包含水印文本的水印文本块。14.一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如权利要求1-12中任一项所述的方法。15.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令所述计算机执行权利要求1-12中任一项所述的方法。16.一种电子设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-12中任一项所述的方法。

技术总结


本公开实施例提供了一种水印文本的处理方法和装置。该方法的一具体实施方式包括:获取第一文件,所述第一文件包括若干页;提取所述若干页内目标页中的第一文本、以及第一文本中包含的文字字符的第一富文本信息;根据第一富文本信息,确定所述第一文本中包括的多个文本块、以及各个文本块的第二富文本信息;基于所述第二富文本信息,确定所述第一文本中包含水印文本的水印文本块。利用该方法,可以有效的去除文件提取信息中的水印文本,提高文件解析内容的准确度。析内容的准确度。析内容的准确度。


技术研发人员:

罗玉杰

受保护的技术使用者:

北京字跳网络技术有限公司

技术研发日:

2022.10.09

技术公布日:

2022/12/23

本文发布于:2024-09-25 18:30:00,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/3/47688.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:文本   水印   所述   文件
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议