requests爬取中文网页时中文字符变英文的解决方法

requests爬取中⽂⽹页时中⽂字符变英⽂的解决⽅法
在使⽤python requests库爬取⽹页时,源代码中的中⽂字符在爬取下来后变成了英⽂字符
例如:
import requests
r = ('apps.webofknowledge', headers = {'User-Agent': 'Mozilla/5.0'})
[:1000])
结果为:
'<!DOCTYPE html>
<html>
<head><link rel="icon" href="images.webofknowledge/WOKRS5272R3/images/wok_favicon.ico" type="image/x-icon"/><title>Web of Science [v.5.27.2]  -      All Databases Home  </title><link rel="stylesheet"
href="images.webofknowledge/WOKRS5272R3/css/WoKcommon.css" type="text/css" /><link rel="stylesheet" href="images.webofknowledge/WOKRS5272R3/css/WoKcomponents.css" type="text/css" /><link
rel="stylesheet" h'
⽽⽹页源代码确是这样的:
显然,源代码中的中⽂字符“所有数据库主页”在爬下来后变成了英⽂“All Databases Home”
解决⽅法:
请求头headers中添加‘ Accept-Language':'zh-CN',即请求代码变为
acceptlanguageimport requests
r = ('apps.webofknowledge', headers = {'User-Agent': 'Mozilla/5.0', 'Accept-Language':'zh-CN' })
[:1000])
结果就OK了:
'<!DOCTYPE html>
<html>
<head><link rel="icon" href="images.webofknowledge/WOKRS5272R3/images/zh_CN/wok_favicon.ico"
type="image/x-icon"/><title>Web of Science [v.5.27.2]  -      所有数据库主页  </title><link rel="stylesheet"
href="images.webofknowledge/WOKRS5272R3/css/WoKcommon.css" type="text/css" /><link rel="stylesheet" href="images.webofknowledge/WOKRS5272R3/css/WoKcomponents.css" type="text/css" /><link
rel="stylesheet" href="'

本文发布于:2024-09-22 07:36:54,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/4/371317.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:请求   字符   数据库   主页   变为   代码
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议