首页 > 学术百科

爬虫获取pubmed中文献的标题和摘要

爬⾍获取pubmed中⽂献的标题和摘要

为了满⾜快速浏览pubmed中相关⽂献标题和摘要的需求，写了个简单的爬⾍（⽬前只实现了单个关键词以及多个关键词的and检索），⽤于批量获取感兴趣⽂献的标题和摘要。

使⽤编辑器是python，所编写的爬⾍主要使⽤requests模块+正则表达式。使⽤()来获取请求，使⽤re模块中repile(正则表达式).findall(请求)来获取标题和摘要。代码中对浏览器进⾏了伪装，但是就只⽤了2个浏览器。

import requests

import re

key=input("请输⼊你想查的信息：")

local_url=input("请输⼊你想存储的位置及名称：")

turl="bi.v/"

(turl,params={"term":key}).text

pat_allpage='<span class="total-pages">(.*?)</span>'

allpage=repile(pat_allpage,re.S).findall(tdata)

num=input("请输⼊⼤致想获取的⽂章数⽬（总数为"+str(int(allpage[0].replace('\n ','').replace(',',''))*10)+"):")

for j in range(0,int(num)//10+1):

url="bi.v/"+"?term="+key+"&page="+str(j+1)

(url,params={"term":key}).text

pat1_content_url='<div class="docsum-wrap">.*?<.*?href="(.*?)".*?</a>'

content_url=repile(pat1_content_url,re.S).findall(data)

投资区域hd={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:76.0) Gecko/20100101 Firefox/76.0','User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3741.400 QQBrowser/10.5.3863.400'}

red169

for i in range(0,len(content_url)):

curl="bi.v/"+content_url[i]

try:

(curl,headers=hd).text

pat2_title="<title>(.*?)</title>"

pat3_content='<div class="abstract-content selected".*?>(.*?)</div>'

pat4_date='<span class="cit">(.*?)</span>'

title=repile(pat2_title,re.S).findall(cdata)

print("正则爬取的题⽬是："+title[0])

content=repile(pat3_content,re.S).findall(cdata)

date=repile(pat4_date,re.S).findall(cdata)

fh=open(local_url+".html","a",encoding="utf-8")

fh.write(str(title[0])+' ----'+str(date[0])+"<br />"+str(content[0])+"<br /><br />")

fh.close

except Exception as err:

pass

if int(num)<10:

if i+1==int(num):

break

elif int(num)==10:

if i ==9:

break

elif(j*10)+i+1==int(num):尸体解剖

break

将上述代码保存为.py格式，进⼊终端运⾏代码：

python ⽂件名.py

输⼊关键词（target%3bmutation）、保存路径及名称（G:\爬⾍学习\drug_mutation）、想获取的⽂章数（7）：

#多个关键词需要使⽤分号分隔，在输⼊中需要将分号改为‘%3b’

官媒

得到.html格式的⽂件：标题----时间摘要

遇着的问题：

1.在运⾏程序时会出现错误，再次运⾏错误就会消失；（可能是⽹络问题，也有可能是访问太多次被拒，过段时间再运⾏即可）浙江省湖州市织里镇

恰似西来

2.速度有点慢；（可能是⽹慢，导致请求返回的⽐较慢）

未来进⾏改进的地⽅：

1.点击标题可以对该⽂章进⾏下载；

2.确定输⼊不为整数的⽂章数时，少⽤if语句；

3.可以对⽂章发布时间进⾏选择；

4.除了实现and的检索，还能实现or、not的检索

刚开始研究爬⾍，有什么建议，欢迎提出来！有不懂的，⼀起探讨！

本文发布于:2024-09-22 17:28:55，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/114724.html

上一篇：农业院校动医类专业基于PubMed文献检索方法

下一篇：pubmed数据库中参考文献题名引用和著录存在问题及分析

标签：标题获取摘要可能章数

留言与评论（共有 0 条评论）