首页 > 专利查询

（第一个java爬虫）java爬取网页文本并抽取中英文关键词

（第⼀个java爬⾍）java爬取⽹页⽂本并抽取中英⽂关键词

问题引⼊

对于给定的任意⼀个⽹址，爬取这个⽹页上的所有⽂本信息，并抽取出⽂本的中⽂和英⽂关键词

搭建环境

项⽬⽂件架构

源代码及说明

1、配置⽂件hanlp.properties出现中⽂乱码问题，可以调gbk为utf-8，注意这⾥⾯的路径问题如下：

2、笔者分别抽取了⼀个⽹页上⽂本信息中的中⽂和英⽂的关键词，⼀同输出。抽取英⽂的时候，笔者⽤了⼀个⼩⼩的巧妙的技巧——把空格统计到英⽂⾥去（具体见代码，这样直接就实现了英⽂的分割）

package testHanlp;

import java.io.IOException;

import java.util.List;

import org.jsoup.Jsoup;

import des.Document;

全自动电脑针织机

import des.Element;

import org.jsoup.select.Elements;

钢筋混凝土过梁import com.hankcs.hanlp.HanLP;

public class TestHanlp {

public static void Get_Url(String url) {

StringBuffer English=new StringBuffer();

StringBuffer Chinese=new StringBuffer();

try {

Document doc = t(url) .get();

Elements body = ElementsByTag("body");

for (Element Text : body) {

String text = ();

for(int i=0;i<text.length();i++) {

char c=text.charAt(i);

if(c >= 0x4E00 && c <= 0x9FA5) {

Chinese.append(c);

}

else if ((c>='a' && c<='z') || (c>='A' && c<='Z') || c==' ') {

English.append(c);

}

catch (IOException e) {

e.printStackTrace();

}

String EnglishText=new String(English);

String ChineseText=new String(Chinese);

List<String> EnglishKeywordList = actKeyword(EnglishText, 5);

List<String> ChinesekeywordList = actKeyword(ChineseText, 5);

自动垃圾桶System.out.println(EnglishKeywordList);

System.out.println(ChinesekeywordList);

铜工艺

}

吡咯烷酮羧酸锌public static void main(String[] args) {

String url ="github/";

Get_Url(url);

}

}油田水处理

效果展⽰

下⾯我对⼈民⽇报官⽹的⼀个⽹页进⾏爬取，并抽取关键词如下：

下⾯我对进⾏爬取如下：

笔者未解决问题

如何导出可以执⾏的jar包，这个问题没有解决，笔者参考很多教程，始终没有导出⼀个可以执⾏的jar包！导出的jar包在命令⾏下运⾏总是出错

本文发布于:2024-09-21 10:41:08，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/4/127981.html

上一篇：《汉语教程(第三版)第一册上》教案6 我学习汉语

下一篇：FIATA 国际货运代理业示范规则(中文翻绎版本) 第一部分一般规则1

标签：笔者抽取问题

留言与评论（共有 0 条评论）