(第一个java爬虫)java爬取网页文本并抽取中英文关键词

(第⼀个java爬⾍)java爬取⽹页⽂本并抽取中英⽂关键词
问题引⼊
对于给定的任意⼀个⽹址,爬取这个⽹页上的所有⽂本信息,并抽取出⽂本的中⽂和英⽂关键词
搭建环境
项⽬⽂件架构
源代码及说明
1、配置⽂件hanlp.properties出现中⽂乱码问题,可以调gbk为utf-8,注意这⾥⾯的路径问题如下:
2、笔者分别抽取了⼀个⽹页上⽂本信息中的中⽂和英⽂的关键词,⼀同输出。抽取英⽂的时候,笔者⽤了⼀个⼩⼩的巧妙的技巧——把空格统计到英⽂⾥去(具体见代码,这样直接就实现了英⽂的分割)
package testHanlp;
import java.io.IOException;
import java.util.List;
import org.jsoup.Jsoup;
import des.Document;
全自动电脑针织机
import des.Element;
import org.jsoup.select.Elements;
钢筋混凝土过梁import com.hankcs.hanlp.HanLP;
public class TestHanlp {
public static void Get_Url(String url) {
StringBuffer English=new StringBuffer();
StringBuffer Chinese=new StringBuffer();
try {
Document doc = t(url) .get();
Elements body = ElementsByTag("body");
for (Element Text : body) {
String text = ();
for(int i=0;i<text.length();i++) {
char c=text.charAt(i);
if(c >= 0x4E00 &&  c <= 0x9FA5) {
Chinese.append(c);
}
else if ((c>='a' && c<='z') || (c>='A' && c<='Z') || c==' ') {
English.append(c);
}
}
}
}
catch (IOException e) {
e.printStackTrace();
}
String EnglishText=new String(English);
String ChineseText=new String(Chinese);
List<String> EnglishKeywordList = actKeyword(EnglishText, 5);
List<String> ChinesekeywordList = actKeyword(ChineseText, 5);
自动垃圾桶System.out.println(EnglishKeywordList);
System.out.println(ChinesekeywordList);
铜工艺
}
吡咯烷酮羧酸锌public static void main(String[] args) {
String url ="github/";
Get_Url(url);
}
}油田水处理
效果展⽰
下⾯我对⼈民⽇报官⽹的⼀个⽹页进⾏爬取,并抽取关键词如下:
下⾯我对进⾏爬取如下:
笔者未解决问题
如何导出可以执⾏的jar包,这个问题没有解决,笔者参考很多教程,始终没有导出⼀个可以执⾏的jar包!导出的jar包在命令⾏下运⾏总是出错

本文发布于:2024-09-21 10:41:08,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/127981.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:笔者   抽取   问题
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议