query纠错方法

query纠错⽅法
1. 第⼀种是norvig介绍的⽅法,详细阐述了argmax c P(c|w)的转换和求解办法。
这个概率不好直接算,但可以根据贝叶斯定理等价于argmax c P(w|c)*P(c) / P(w),因为是⽐较各个c之间的⼤⼩所以P(w)可以省略,最后就变成求argmax c P(w|c)*P(c)就⾏了。P(c)可以看作是c在⽂本集合中出现的可能性;P(w|c)意味着本来⼼⾥想成是c结果打成了w的概率。
那就很好办了,P(c)可以从靠谱的语料中统计;P(w|c)可以⽤编辑距离来模拟关系,即编辑距离⼩的概率⼤。在实现上,对⼀个输⼊word,产⽣出有编辑距离1的字符串,就包括⼏种情况(“增删改换”):删除⼀个字符、交换临近字符、把⼀个字符改成另⼀个、增加⼀个字符。这样产⽣的候选集会⽐较⼤,接近80%的纠错要求是满⾜了。如果在编辑距离1的基础上再产⽣编辑距离为2的更⼤的候选集,⼏乎就覆盖所有错别字了。
原⽂讲得⽐较精细,建模思路也很清晰,建议仔细阅读:
2.第⼆种是lucene的spellchecker⽅法。
指示牌制作就是把编辑距离的临时产⽣到词典中检查,这种⽅案就是预先进⾏词典索引,当然是ngram的,对⼀个word任意2位或者3位字符进⾏索引,对⽤户输⼊的⼀个字符串,也同理按2或3位产⽣字符⽚段,利⽤O
R的关系去检索,命中多的⾼分word最可能是正确答案。远程电源管理
骑行者当然因为是OR查询关系,所以会有很多也只“沾边”的词也被命中,所以最后除了考虑查询命中⾼分的,还要对命中的和输⼊的进⾏⼀步编辑距离阈值过滤。举个例⼦“word”,我们会有n2:wo/n2:or/n2:rd/n3:wor/n3:ord 这些碎⽚进⾏索引,当⽤户输⼊⼀个worg,会产⽣
纳米金粉n2:wo/n2:or/n2:rg/n3:wor/n3:org,这些检索条件,会查到很多work, worth等等。eva母
时规带
细节上可以有⼀些增强,⽐如单词两头的字符碎⽚权重更⼤等等。
参考:

本文发布于:2024-09-21 16:48:44,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/276252.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:编辑   距离   字符
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议