query纠错方法

query纠错⽅法

1. 第⼀种是norvig介绍的⽅法，详细阐述了argmax c P(c|w)的转换和求解办法。

这个概率不好直接算，但可以根据贝叶斯定理等价于argmax c P(w|c)*P(c) / P(w)，因为是⽐较各个c之间的⼤⼩所以P(w)可以省略，最后就变成求argmax c P(w|c)*P(c)就⾏了。P(c)可以看作是c在⽂本集合中出现的可能性；P(w|c)意味着本来⼼⾥想成是c结果打成了w的概率。

那就很好办了，P(c)可以从靠谱的语料中统计；P(w|c)可以⽤编辑距离来模拟关系，即编辑距离⼩的概率⼤。在实现上，对⼀个输⼊word，产⽣出有编辑距离1的字符串，就包括⼏种情况（“增删改换”）：删除⼀个字符、交换临近字符、把⼀个字符改成另⼀个、增加⼀个字符。这样产⽣的候选集会⽐较⼤，接近80%的纠错要求是满⾜了。如果在编辑距离1的基础上再产⽣编辑距离为2的更⼤的候选集，⼏乎就覆盖所有错别字了。

原⽂讲得⽐较精细，建模思路也很清晰，建议仔细阅读：

2.第⼆种是lucene的spellchecker⽅法。

指示牌制作就是把编辑距离的临时产⽣到词典中检查，这种⽅案就是预先进⾏词典索引，当然是ngram的，对⼀个word任意2位或者3位字符进⾏索引，对⽤户输⼊的⼀个字符串，也同理按2或3位产⽣字符⽚段，利⽤O

R的关系去检索，命中多的⾼分word最可能是正确答案。远程电源管理

骑行者当然因为是OR查询关系，所以会有很多也只“沾边”的词也被命中，所以最后除了考虑查询命中⾼分的，还要对命中的和输⼊的进⾏⼀步编辑距离阈值过滤。举个例⼦“word”，我们会有n2:wo/n2:or/n2:rd/n3:wor/n3:ord 这些碎⽚进⾏索引，当⽤户输⼊⼀个worg，会产⽣

纳米金粉n2:wo/n2:or/n2:rg/n3:wor/n3:org，这些检索条件，会查到很多work, worth等等。eva母

时规带

细节上可以有⼀些增强，⽐如单词两头的字符碎⽚权重更⼤等等。

参考：

本文发布于:2024-09-21 16:48:44，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/2/276252.html

上一篇：LINQ分组查询统计