一种提高检索效率和质量的数据检索方法

著录项
  • CN201210475837.2
  • 20121121
  • CN103838735A
  • 20140604
  • 大连灵动科技发展有限公司
  • 刘博;梅昱婷
  • G06F17/30
  • G06F17/30

  • 辽宁省大连市高新区火炬路1号506室
  • 中国,CN,辽宁(21)
  • 大连东方专利代理有限责任公司
  • 曲永祚
摘要
本发明公开了一种提高检索效率和质量的数据检索方法,包括以下步骤:构建基于数据库的双向索引,接收用户的单关键字查询或者多关键字和多语句的查询;相关度排序,包括按照按频次或权值排定次序和按页面被访问或被引用的次数排序;设计用户接口,提交搜索请求,表现搜索结果,分析搜索行为;调整VSM检索模型排序。本发明采用相关度排序技术和用户接口技术提高检索效率和质量,使得搜索引擎能理解用户的检索意图并在最短的时间内使用户检索到最相关信息,并对VSM检索模型排序方法进行了调整,使得其适合于实际情况中查询向量能比较近似地代表用户查询目标文档的情况。
权利要求

1.一种提高检索效率和质量的数据检索方法,其特征在于:包括以下步骤:

A、构建基于数据库的双向索引,接收用户的单关键字查询或者多关键字和 多语句的查询;

B、相关度排序

B1、按频次或权值排定次序;如果一个页面包含了越多的关键词,其搜索目 标的相关性应该越好;

B2、按页面被访问或被引用的次数排序;本发明中让搜索引擎会记录所搜 索到的页面的被引用次数,从而判断该页面被访问的频率;

对于一个查询q,搜索引擎首先利用相似度函数到k个页面,然后利用下 面的公式计算每个页面的重要性;

Rankingscore(q,d)=α*sim(q,d)+β*R(d)

其中,α,β∈[0,1],α+β=1,sim(q,d)是相似度函数,sim(q,d), R(d)∈[0,1];

C、提交搜索请求

采用多语言查询技术,当用户使用一种语言输入查询关键词时之间转换, 从而可以只使用一种中文编码提交查询请求,而同时查询出使用不同中文编码 的信息;

同时也可以采用模糊语义查询技术,当用户提交一个关键词后,本发明还 可以使用这个关键词的同义词、近义词等查询,从而使得查询更加准确;当用 户直接使用自然语言来描述搜索请求时,本发明会将用户的自然语言问句转换 成搜索引擎可以理解的内部搜索请求;

D、表现搜索结果

D1、进行相关度评价和排序,使用户对搜索结果能够有一个更好的取舍;

D2、提供“网页快照”或称“cache”功能,使用户在无法连接到相关主机 的情况下也可以浏览其信息;

D3、提供“类似网页”功能,便于用户快速获得与查询相关的信息

D4、提供“二次检索”功能;按照一定的条件对搜索结果进一步进行优化, 可以再选择类别、相关词等;

E、分析搜索行为

本发明充分考虑用户的个性搜索,跟踪分析用户的搜索行为,然后通过进 行“体行为分析”和“个性化搜索”并积累用户的搜索个性化数据,一方面 使用户的搜索更加精确,更符合每个用户的需求;另一方面可以变传统的信息 拉取技术即由用户主动从信源拉取信息,为个性化的信息推送即由信源将信息 主动推送给用户,或信息推拉技术即在信息获取过程中既有来自信源的推送也 有用户自身的主动拉取;

F、调整VSM检索模型排序

在实际中,用户输入的关键词很有限,一般3至8个,而文档向量一般30-60 维,这样查询向量就很难近似代表目标文档向量,同时文档集中查询关键词的 权重信息对查询结果非常重要;考虑到以上情况当前实际应用中对相似度计算 方法进行了调整,最简单的相似度计算方法是直接计算查询串与文档向量间的 点集,不再标准化;即

sim ( d , q ) = Σ i = 1 m w i q i

其中,d代表文档向量,q代表查询向量,q i为q中的第i个词条的权重, w i为q中第i个词条在文档中的权重;

考虑到文档和查询向量的权重与文档和查询串的长度紧密相关,因此上 面的公式显得不科学;目前比较常用的相似度计算方法是余弦表示法,在该方 法中考虑到了文本的长度和查询串的长度:

sim ( d , q ) = Σ i = 1 m w i q i | d | × | q |

其中,d代表文档向量,q代表查询向量,q i为q中的第i个词条的权重, w i为q中第i个词条在文档中的权重,|d|与|q|分别表示文档与查询串的长度。

说明书
技术领域

本发明涉及一种Web数据检索技术,特别是一种提高检索效率和质量的数 据检索方法。

信息检索的核心就是判断待检索文章与用户查询式是否相关,通常通过一 个相关性评价的数据检索模型来实现。在这个数据检索模型中给出了文档的表 示方式、检索的表示方式以及检索与文档的匹配过程。检索技术发展至今,有很 多不同的检索模型,最经典的模型有布尔逻辑模型、向量空间模型、概率论模型 及神经网络模型等。

布尔逻辑模型是最简单的检索模型,也是其他检索模型的基础。在设计信息 检索系统时,它是用得最普遍的模型,尤其是在商用信息检索系统中。在布尔 模型中,一个文档通过一个关键词条的集合来表示,这些词条都来自一个词典。 在查询与文档匹配的过程中,主要看该文档中的词条是否满足查询的条件。向 量空间模型是实验环境中应用最多的检索模型。在向量模型中,信息获取系统 如果涉及n个关键词,则建立n维的向量空间,每一维都代表不同的关键词, 信息库中的文本以及用户的查询都通过该空间中的向量来表示。信息检索的概 率论模型的基础是概率排序规则:如果文档按照与查询的概率相关性的大小排 序,那么排在前面的文档是最有可能被检索的文档。布尔模型主要缺点包括对 于一个信息获取系统的初学者来说,由于很难掌握布尔操作符的使用方法,因 此很难将一个查询公式化;不能够在查询串中说明关键词的相对重要性,即在 布尔模型中,查询串中的关键词是被对等看待的;在布尔模型中匹配函数由布 尔逻辑的基本法则确定。所检索出的文档或者与查询相关,或者与查询无关。很 难将文档按照与查询串相关性来排序。但是,布尔模型实现起来比较容易,而 且计算的代价相对较少;较其他模型中的查询语言更容易表达;该模型适合于 那些明确知道自己想要查什么信息的用户。概率论模型要明显优于布尔模型, 但是比向量模型略差,概率论模型的主要缺点在于与向量模型一样,关键词之 间是假设相互独立的;在没有获得样本文档之前,即没有相关的文档之前,无 法估计词条的相关性。

搜索引擎作为信息检索的工具,应该能理解用户的检索意图并在最短的时 间内使用户检索到最相关信息。提高搜索引擎检索效率和检索质量是其中的重 要技术。目前主要涉及相关度排序技术和用户接口技术两方面。

为解决现有技术存在的上述问题,本发明通过运用相关度排序技术和用户 接口技术,设计一种能理解用户的检索意图并在最短的时间内使用户检索到最 相关信息的提高了检索效率和质量的方法。

为了实现上述目的,本发明的技术方案如下:一种提高检索效率和质量的 数据检索方法,包括以下步骤:

A、构建基于数据库的双向索引,接收用户的单关键字查询或者多关键字和 多语句的查询。

B、相关度排序

B1、按频次或权值排定次序。如果一个页面包含了越多的关键词,其搜索目 标的相关性应该越好。

B2、按页面被访问或被引用的次数排序。本发明中让搜索引擎会记录所搜 索到的页面的被引用次数,从而判断该页面被访问的频率。

对于一个查询q,搜索引擎首先利用相似度函数到k个页面,然后利用下 面的公式计算每个页面的重要性。

Rankingscore(q,d)=α*sim(q,d)+β*R(d)

其中,α,β∈[0,1],α+β=1,sim(q,d)是相似度函数,sim(q,d), R(d)∈[0,1]。

C、提交搜索请求

采用多语言查询技术,当用户使用一种语言输入查询关键词时(例如使用中 文),本发明除了使用这个关键词查询外,还会同时使用相应的英文关键词查询, 这样就可以同时得到各种语言的查询结果。由于中文编码的多样性,多语言查 询技术又有了其特殊意义,引擎可以在各种中文编码GB、BIG5等等)之间转换, 从而可以只使用一种中文编码提交查询请求,而同时查询出使用不同中文编码 的信息。

同时也可以采用模糊语义查询技术,当用户提交一个关键词后,本发明还 可以使用这个关键词的同义词、近义词等查询,从而使得查询更加准确。当用 户直接使用自然语言来描述搜索请求时,本发明会将用户的自然语言问句转换 成搜索引擎可以理解的内部搜索请求。

D、表现搜索结果

D1、进行相关度评价和排序,使用户对搜索结果能够有一个更好的取舍;

D2、提供“网页快照”或称“cache”功能,使用户在无法连接到相关主机 的情况下也可以浏览其信息;

D3、提供“类似网页”功能,便于用户快速获得与查询相关的信息

D4、提供“二次检索”功能。按照一定的条件对搜索结果进一步进行优化, 可以再选择类别、相关词等。

E、分析搜索行为

本发明充分考虑用户的个性搜索,跟踪分析用户的搜索行为,然后通过进 行“体行为分析”和“个性化搜索”并积累用户的搜索个性化数据,一方面 使用户的搜索更加精确,更符合每个用户的需求。另一方面可以变传统的信息 拉取技术(即由用户主动从信源拉取信息)为个性化的信息推送(即由信源将信息 主动推送给用户)或信息推拉技术(即在信息获取过程中既有来自信源的推送也 有用户自身的主动拉取)。

F、调整VSM检索模型排序

在实际中,用户输入的关键词很有限,一般3至8个,而文档向量一般30-60 维,这样查询向量就很难近似代表目标文档向量,同时文档集中查询关键词的 权重信息对查询结果非常重要。考虑到以上情况当前实际应用中对相似度计算 方法进行了调整,最简单的相似度计算方法是直接计算查询串与文档向量间的 点集,不再标准化。即

sim ( d , q ) = Σ i = 1 m w i q i

其中,d代表文档向量,q代表查询向量,qi为q中的第i个词条的权重, wi为q中第i个词条在文档中的权重。

考虑到文档和查询向量的权重与文档和查询串的长度紧密相关,因此上 面的公式显得不科学。目前比较常用的相似度计算方法是余弦表示法,在该方 法中考虑到了文本的长度和查询串的长度:

sim ( d , q ) = Σ i = 1 m w i q i | d | × | q |

其中,d代表文档向量,q代表查询向量,qi为q中的第i个词条的权重, wi为q中第i个词条在文档中的权重,|d|与|q|分别表示文档与查询串的长度。

与现有技术相比,本发明具有以下有益效果:

1、由于本发明使用基于数据库的双向索引,提高了检索效率和检索质量。

2、本发明采用相关度排序技术和用户接口技术提高检索效率和质量,使得 搜索引擎能理解用户的检索意图并在最短的时间内使用户检索到最相关信息。

3、本发明调整VSM检索模型排序方法,使得其适合于实际情况中查询向 量能比较近似地代表用户查询目标文档的情况。

本发明共有附图1张,其中:

图1是本发明中数据检索工作流程示意图。

下面结合附图对本发明进行进一步地描述。如图1所示,其工作流程如下:

A、构建基于数据库的双向索引,接收用户的单关键字查询或者多关键字 和多语句的查询。

B、相关度排序

B1、按频次或权值排定次序。如果一个页面包含了越多的关键词,其搜索目 标的相关性应该越好。

B2、按页面被访问或被引用的次数排序。本发明中让搜索引擎会记录所搜 索到的页面的被引用次数,从而判断该页面被访问的频率。

对于一个查询q,搜索引擎首先利用相似度函数到k个页面,然后利用下 面的公式计算每个页面的重要性。

Rankingscore(q,d)=α*sim(q,d)+β*R(d)

其中,α,β∈[0,1],α+β=1,sim(q,d)是相似度函数,sim(q,d), R(d)∈[0,1]。

C、提交搜索请求

采用多语言查询技术,当用户使用一种语言输入查询关键词时(例如使用中 文),本发明除了使用这个关键词查询外,还会同时使用相应的英文关键词查询, 这样就可以同时得到各种语言的查询结果。由于中文编码的多样性,多语言查 询技术又有了其特殊意义,引擎可以在各种中文编码GB、BIG5等等)之间转换, 从而可以只使用一种中文编码提交查询请求,而同时查询出使用不同中文编码 的信息。

同时也可以采用模糊语义查询技术,当用户提交一个关键词后,本发明还 可以使用这个关键词的同义词、近义词等查询,从而使得查询更加准确。当用 户直接使用自然语言来描述搜索请求时,本发明会将用户的自然语言问句转换 成搜索引擎可以理解的内部搜索请求。

D、表现搜索结果

D1、进行相关度评价和排序,使用户对搜索结果能够有一个更好的取舍;

D2、提供“网页快照”或称“cache”功能,使用户在无法连接到相关主机 的情况下也可以浏览其信息;

D3、提供“类似网页”功能,便于用户快速获得与查询相关的信息

D4、提供“二次检索”功能。按照一定的条件对搜索结果进一步进行优化, 可以再选择类别、相关词等。

E、分析搜索行为

本发明充分考虑用户的个性搜索,跟踪分析用户的搜索行为,然后通过进 行“体行为分析”和“个性化搜索”并积累用户的搜索个性化数据,一方面 使用户的搜索更加精确,更符合每个用户的需求。另一方面可以变传统的信息 拉取技术(即由用户主动从信源拉取信息)为个性化的信息推送(即由信源将信息 主动推送给用户)或信息推拉技术(即在信息获取过程中既有来自信源的推送也 有用户自身的主动拉取)。

F、调整VSM检索模型排序

在实际中,用户输入的关键词很有限,一般3至8个,而文档向量一般30-60 维,这样查询向量就很难近似代表目标文档向量,同时文档集中查询关键词的 权重信息对查询结果非常重要。考虑到以上情况当前实际应用中对相似度计算 方法进行了调整,最简单的相似度计算方法是直接计算查询串与文档向量间的 点集,不再标准化。即

sim ( d , q ) = Σ i = 1 m w i q i

其中,d代表文档向量,q代表查询向量,qi为q中的第i个词条的权重, wi为q中第i个词条在文档中的权重。

考虑到文档和查询向量的权重与文档和查询串的长度紧密相关,因此上 面的公式显得不科学。目前比较常用的相似度计算方法是余弦表示法,在该方 法中考虑到了文本的长度和查询串的长度:

sim ( d , q ) = Σ i = 1 m w i q i | d | × | q |

其中,d代表文档向量,q代表查询向量,qi为q中的第i个词条的权重, wi为q中第i个词条在文档中的权重,|d|与|q|分别表示文档与查询串的长度。

本文发布于:2024-09-24 12:16:24,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/1/73646.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议