java实现两个文本相似度simHash实现

java实现两个⽂本相似度simHash实现java实现⽐较两个⽂本相似度 simHash 实现
java实现两个⽂本相似度 simHash 实现
// An highlighted block
package com.util;
复合酵素import com.hankcs.hanlp.HanLP;
import org.jsoup.Jsoup;
import java.util.ArrayList;
import java.util.Collections;
import java.util.List;
import java.util.stream.Collectors;
导电铝箔泡棉public class SimilarityUtil {
/
**
* 获得两个句⼦的相似度
电子喇叭*
压铸机料筒的设计
* @param sentence1
* @param sentence2
* @return
*/
public static double getSimilarity(String sentence1, String sentence2){
List<String> sent1Words =getSplitWords(sentence1);
List<String> sent2Words =getSplitWords(sentence2);
System.out.println(sent1Words);
System.out.println(sent2Words);
List<String> allWords =mergeList(sent1Words, sent2Words);
int[] statistic1 =statistic(allWords, sent1Words);
int[] statistic2 =statistic(allWords, sent2Words);
double dividend =0;
double divisor1 =0;
double divisor2 =0;
for(int i =0; i < statistic1.length; i++){
dividend += statistic1[i]* statistic2[i];
divisor1 += Math.pow(statistic1[i],2);
divisor2 += Math.pow(statistic2[i],2);电表集中器
}
return dividend /(Math.sqrt(divisor1)* Math.sqrt(divisor2));
}
private static int[]statistic(List<String> allWords, List<String> sentWords){
int[] result =new int[allWords.size()];
for(int i =0; i < allWords.size(); i++){
result[i]= Collections.frequency(sentWords, (i));
}
return result;
}
private static List<String>mergeList(List<String> list1, List<String> list2){
List<String> result =new ArrayList<>();
result.addAll(list1);
result.addAll(list2);
return result.stream().distinct().List());
}
private static List<String>getSplitWords(String sentence){
// 去除掉html标签
sentence = Jsoup.place(" ","")).body().text();
音频功放电路// 标点符号会被单独分为⼀个Term,去除之
return HanLP.segment(sentence).stream().map(a -> a.word).filter(s ->!"`~!@#$^&*()=|{}':;',\\[\\].<>/?~!@#¥……&*()——|{}【】‘;:”“'。,、? ". contains(s)).List());
}
}

本文发布于:2024-09-21 04:26:59,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/108971.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:实现   铝箔   酵素   电子   设计   集中器   除掉
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议