一种面向密文搜索的分词组织方法和聚类方法

著录项

申请号 CN201210222787.7
申请日 20120628
公开（公告）号 CN102708216A
公开日 20121003
申请（专利权）人北京邮电大学
发明人陆月明;马良;袁玉宇
主分类号 G06F17/30
分类号
G06F17/30
地址北京市海淀区西土城路10号北京邮电大学
国省代码中国,CN,北京(11)

摘要

本发明提出一种面向密文搜索的分词组织方法和聚类方法，该发明解决了用户私有文档在公用服务器上的索引和搜索问题，在客户端对自己的私有文档进行分词、特征抽取、概要，并对分词、文档、概要进行加密，保证了用户私有文档在服务器上的私密性；在服务器端对加密文档进行存储聚类和存储，建立索引和方便查，并响应用户的搜索请求，实现密文的二次聚类。本发明具有基于客户端的文档分词、基于密文的存储聚类、基于密文的搜索聚类三个特点。

权利要求

1.本发明提出一种面向密文搜索的分词组织方法和聚类方法，该发明在客户端对自己的私有文档进行分词、特征抽取、概要，并对分词、文档、概要进行加密；在服务器端对加密文档进行存储聚类和存储，并响应用户的搜索请求，实现密文的二次聚类。

本发明的主要特点有：

(1)基于客户端的文档分词，传统文档分词是在服务器端，而本发明的分词方法可保证用户文档的私密性，不被服务器公用设备获知。

(2)基于密文的存储聚类，传统存储聚类方法是在服务器端实现明文的聚类，本发明可实现基于密文的存储聚类。

(3)基于密文的搜索二次聚类，传统搜索聚类方法是在服务器端实现明文的二次聚类，本发明可实现基于密文的搜索二次聚类。

说明书

技术领域

本发明涉及应用于搜索引擎的一种面向密文搜索的分词组织方法和聚类方法，属于计算机科学技术领域。

目前互联网上的服务产生的数据量越来越大，典型的互联网服务 (如微博、搜索引擎、社区网站、视频应用等)产生了超大规模的数据量，这样，大数据处理技术应运而生，大数据处理技术其核心是一种数据密集型计算技术，典型的是云计算技术。

伴随着云计算技术的出现，包括云存储技术、云搜索技术、虚拟机计算技术的出现，应用互联网云计算的服务全部集中于公共数据的服务，无论搜索引擎还是微博，在一定程度上公开的全是被认为不是太私密的数据。随着微博等实名制的出现，用户私有数据的保护提到日程上来了，而云计算是第三方提供的计算，这种计算的安全性受到用户及高端客户的质疑。云数据的安全成为最大的一个挑战，云计算中数据隐私保护技术成为第一需要解决的问题。

计算资源、网络资源和存储资源的安全技术目前在各自的领域发展着。随着云计算的发展，人们对计算及存储的安全研究显得更加迫切。计算的安全性及可信计算方面研究方向很多，但针对云计算的加密计算是2010年以后发展起来的，目前主要有两个方向，一个量子计算机安全计算方向，另一个是同态加密算法。这两个方向的研究成果目前还没有到达实际应用，主要是全同态加密算法和量子计算机技术都不是很成熟，部分技术和关键问题还在攻克。

本发明提出一种面向密文搜索的分词组织方法和聚类方法，该发明通过内容理解和加密数据计算两种方法结合的策略，通过明文分词方法来理解文档内容，通过加密数据计算(聚类)来实现隐私保护及信息聚类。

本发明“一种面向密文搜索的分词组织方法和聚类方法”包括两部分：客户端文档分词组织方法、服务器端加密数据聚类方法。

(1)客户端文档分词组织方法

分词(如“中文分词”)是一种基于“语义”对文章、段落(这里称为“文档”)进行划分词组的技术，是搜索引擎中的一项重要的技术。目前中科院和复旦大学等都进行了研究，并取得了很好的效果。分词模块在搜索引擎中的组织是设置在服务器端的(如百度等云计算服务器，这里称为公有设备)，也就是文档(包括HTML格式文档、微软的Word格式文档、PDF格式文档)从网络中获取后，服务器端马上对文档进行分词，由文档变成“词组”。这一种在服务器端的分词组织方式是针对公共服务的一种分词组织方式。这一种组织方式的挑战是文档对服务器是透明的，不能保护文档的隐私。

而面向非公共服务的系统中，如在公有云中建有私有云网络的应用，特别是用户私有信息或单位私有信息，这些信息的隐私性需要保护，不能被提供公共服务的服务器知道，所以需要设计出一种“新型的分词组织方式”。

本专利提出的客户端文档分词组织方法是在客户端(包括人们的计算机、手机的私有接入设备)进行的一种分词组织方式，存在于客户端私有设备的分词模块中，以避免在分词的过程中泄露客户的隐私信息。为了保持原有的信息，必须对原文档进行特征抽取和分词。

与公用搜索引擎(如百度)不同，私有文档的搜索的文档主要来自用户本身产生的文档，用户对这些文档在服务器端公用设备的存储存在戒心，所以这些文档的明文不可能存在服务器端，但为了在服务器端实现存储、搜索，客户端私有设备必须承担一部分计算任务：客户端分词。

客户端分词方法是一种新型的计算方法，客户端分词模块存在于如图1所示的结构中，该模块主要包括对文档进行分词、分词加密、文档特征向量的抽取、文档加密、文档概要加密五项功能。

(1)文档分词。文档进行分词是指对原始文档按照语义进行分词，与通用的文档分词具有相同的功能。

(2)分词加密。分词加密是指为了把分词存储到服务器上和为下一步的基于分词的聚类和搜索而进行的分词加密，加密后，存储到服务器上的分词为分词密文。

(3)文档特征向量的抽取。文档特征向量的抽取是为了实现文档的聚类而实现的文档量化描述，这部分是基于明文抽取，在服务器上保存。

(4)文档加密。文档加密是为了在服务器上保存文档数据而采取的加密算法。

(5)文档概要。对用户的文档进行概要，有利于文档的搜索。

表1描述了客户端分词模块的主要操作以及内容在客户端私有终端设备和服务器端公有设备之间存储的内容。可以看出，为了保护内容隐私，所有的分词活动和加密活动必须在客户端私有终端设备上完成。

表1主要的操作和内容类型

内容客户端服务器端操作

文档明文密文客户端加密

文档特征向量抽取存储客户端抽取

分词词组明文密文客户端加密

文档概要明文密文客户端加密

(2)服务器端加密数据聚类方法

数据聚类是为了方便按类别查而采用的把多种文档依据内容形成不同的类别。典型的有K‑Means等聚类方法。聚类方法常用于搜索引擎系统、图书馆资料检索系统等。服务器端加密数据聚类方法是一种新型的计算方法。

为了保护隐私，服务器端公用设备上保留着加密的分词、文章的特征向量和加密的文档。服务器端加密数据聚类完全是一种数学计算(而基于明文的聚类可以涉及到句子的特征抽取，如基于情感的聚类等)。服务器端加密数据聚类方法存在于服务器端的公用设备的聚类应用程序模块中，分别包括存储聚类和搜索聚类。服务器端基于密文分词的存储聚类方法如图2所示。存储聚类是文档按一定规律存储到存储设备中，起到索引的目的。服务器端通过对文档的特征向量进行计算后(如采用 K‑Means算法)，形成多个类，每个类采用密文分词进行标注。每个文档密文、概要链接指向密文分词。

搜索聚类方法如图3所示，搜索聚类方法是客户端提交关键词，客户端计算关键词的近义词、关联词、同义词，并把关键词、近义词、关联词、同义词同时加密后传到服务器端。服务器端的搜索聚类模块依据关键词、近义词、关联词、同义词的密文，收集这些密文的相关类，并进行二次聚类。我们把二次聚类称为搜索聚类。

服务器端经过搜索聚类把密文的概要传到客户端，客户端通过解密获取文档的概要信息，为进一步的全文搜索提供基础。

图1客户端分词组织方法

图2服务器端基于密文分词的存储聚类方法

图3服务器端搜索聚类

图4面向密文搜索的分词组织方法和聚类方法的实例

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例也仅仅是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了说明“一种面向密文搜索的分词组织方法和聚类方法”，这里给出一个关于存储和搜索介绍西红柿的文档(西红柿.txt)的实例。文档主要介绍了西红柿是红的、圆的、是蔬菜等信息。图4是面向密文搜索的分词组织方法和聚类方法的实例。

结合实例和图4，一种面向密文搜索的分词组织方法和聚类方法的处理过程是：

(1)分词阶段。客户端分词模块在客户端私有设备上处理文档“西红柿.txt”，通过分词，把文档分成分词[西红柿，红，圆，蔬菜，…]，并形成文档的特征向量[1，1，1，1，0，0，0，…]和概要文档“西红柿是红圆蔬菜”。

(2)加密阶段。加密模块在客户端私有设备上对分词[西红柿，红，圆，蔬菜，…]、概要文档“西红柿是红圆蔬菜”、文档“西红柿.txt”采用加密算法(如采用RSA算法)进行加密，获得密文分词[aa，bb，cc， dd，…]、密文概要文档“ee”、密文文档“ff.txt”，并提交给服务器端聚类模块。

(3)存储聚类阶段。存储聚类模块在服务器端公用设备上把密文分词[aa，bb，cc，dd，…]、密文概要文档“ee”、密文文档“ff.txt”、特征向量[1，1，1，1，0，0，0，…]建立相关链接。然后就特征向量[1，1， 1，1，0，0，0，…]和服务器上的其它特征向量进行聚类，就中心词形成文档的类名，如蔬菜“xx”，西红柿“aa”类。

(4)搜索分词输入阶段。分词模块在客户端对用户输入的搜索词进行分析，这里假设搜索词为“西红柿”，查搜索词的近义词(如“红水果”)、关联词(如“西红柿植物”)、同义词(如“番茄”)，并进行加密，加密后的关键词“西红柿”，近义词“红水果”，同义词(如“番茄”)密文传送到服务器端。

(5)搜索聚类阶段。搜索聚类模块在服务器端对输入的关键词“西红柿”，近义词“红水果”，同义词(如“番茄”)密文进行分析，并查这些词的类，到这些类的主要文档后，搜素聚类模块对这些文档进行二次聚类，二次聚类的文档概要被传送到用户的客户端。

(6)用户解密分析阶段。解密分析模块在客户端对(5)传回的搜索概要进行解密，解密后的概要以一定的形式呈现在用户的界面上，方便用户作决策。

本发明的优势

本发明提出一种面向密文搜索的分词组织方法和聚类方法，该发明应用于用户自己资料和文档的聚类和搜索。它与公众服务的搜索分类和聚类具有很大的差别，保证了用户资料在服务器端存储的私密性，并利用服务器的强大存储和计算能力，实现加密文档的聚类和搜索。

本发明的优点主要有：

(1)通过客户端的分词方法，解决了服务器端不能对加密文档的分词、特征抽取、概要等问题。

(2)通过分词和文档的加密，使用户的文档在服务器端的存储具有一定的私密性。

(3)通过服务器端的存储聚类，使加密文档建立了很好的索引，便于查，满足大数据计算的条件。

(4)通过服务器端的搜索聚类，实现用户对服务器端数据的搜索。

本文发布于:2024-09-25 04:27:42，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/2/72729.html