Python网络爬虫与数据采集教学大纲

Python网络爬虫课程教学大纲
课程代码:
课程名称:Python网络爬虫 /Web Crawler Programming with Python
开课学期:
学分/学时:3/32+16
课程类型:必修/选修
适用专业/开课对象:
先修课程:
开课单位:
团队负责人: 责任教授:
执笔人: 核准院长:
船用倾斜仪
一、课程的性质、目的与任务
《Python网络爬虫》是计算机科学、软件工程等专业中的一项面向实践的课程,与高级程序设计语言、计算机网络等课程相关。本课程的目标在于使学生循序渐进地了解并掌握网络爬虫编写,在学习Python编程的基本方法与常见技巧的同时,对网络与Web相关知识也取得较好的理解。本课程的安排为:介绍Python编程基础知识,之后引入Web与HTML等网络抓取基本概念,然后详细介绍使用Python处理各类问题的方法,包括网页解析、文件存储、数据库存储、文本分析等方面。之后进入主体部分即各类爬虫程序的编写,包括静态网页抓取、动态网页抓取、处理AJAX页面等。最后以几个较为综合的实践课题来让学生应用所学内容,完成如电商评论分析这样的有一定应用价值的爬虫程序。本课程不仅要求学生掌握知识与理论,还要求学生动手实践,鼓励学生自主探索,培养对于技术以及应用场景的理解。
二、教学内容及教学基本要求
1. Python语言及编程基础(4学时)
了解Python语言的基本知识,学会Python的安装与开发环境配置,包括Windows与Ubuntu等不同系统平台上的安装与配置;了解PyCharm与Jupyter Notebook等重要开发工具的使用;掌握Python的基本语法,理解Python中的数据类型、逻辑语句、函数与类(面向对象编程);学会进阶学习Python的方法;
2. HTTP与Web(4学时)
了解互联网与HTTP协议;掌握HTML语言的基本知识;了解网络访问过程中的信息处理过程;掌握分析网站的基本方法;学会使用浏览器的开发者工具来分析网站;
3. 爬虫程序入门(2学时)
了解爬虫程序的基本概念;掌握爬虫程序的基本方法;
4. 数据采集方法(4学时)
了解包括正则表达式、BeautifulSoup、XPath等在内的网页解析工具;掌握遍历网站页面与使用网站所提供的API来获取数据的方法;
5. 文件与数据存储(4学时)
掌握使用Python进行文件读写的方法;掌握Python中字符串的处理;了解Python中对图片的各类操作;掌握CSV文件的读写;掌握MySQL、SQLite3等不同数据库的使用。
板端连接器
6. JavaScript与动态网页(4学时)
超导电机了解JavaScript语言的基本知识;掌握AJAX技术的基本概念;掌握抓取AJAX数据的各类方法;了解Selenium等浏览器自动化工具的使用;
7. 表单与模拟登录(2学时)
讲解处理表单的方法;讲述使用Cookie等方法进行模拟登录;
8. 数据分析(2学时)
讲述使用Python进行文本分析、数据处理等各类高级问题的方法。
d2x说明书
9. 爬虫框架与各类爬虫程序(4学时)
讲述常见的爬虫框架使用;讲解各类多样化爬虫程序;
密封性测试10. 网站反爬虫(2学时)
讲述常见的网站反爬虫策略;了解应对反爬虫的方法;编写高性能的爬虫程序。
11. 爬虫综合实践(?学时)
编写处理实际需求的爬虫程序,完成对各类网站的抓取,获得有价值的信息。
三、教学方法
    本课程以教师讲授为主,同时注重学生讨论和实验。实验以个人作业、团队作业等形式体现。具体要点包括:
1. 因本课程实践性较强,因此应注意教师授课与学生实验并重。本课程拟采取PPT的教学方式,并加入课程知识相关的信息,由于网络爬虫技术本身发展速度很快,且贴近日常网络生活,因此在材料选择上尤其注意时效性。
2. 对于课程中涉及的程序案例,鼓励学生进行讨论,并提出自己的创意。
3. 为体现面向实践的课程特点,本课程在每部分结束后安排实验作业,帮助学生将所学知识动手应用。
四、课内外教学环节及基本要求
本课程共32+16个学时,理论32个学时,讲授16周(每周2学时);实验16个学时。
课外学习要求:
1. 做好预习,学生预习时以教材与推荐阅读材料为主。
2. 要求学生课外积极探索课程相关知识,向学生推荐的阅读参考资料以本大纲所列出参考资料为主。
3. 强调实验内容的重要性,并对学生每次完成的实验作业进行反馈(包括打分、意见、学生互评等)。
五、考核内容及方式
本课程成绩由平时成绩、实验成绩和期末考核成绩组合而成,课程成绩以百分制计算,分配比例如下:
1. 平时成绩占20%,主要考察理论课与实验课出勤率,其中理论作业占10%,理论课出勤率占比5%,实验课出勤率占比5%。
2. 实验成绩占50%,主要考察实践项目的完成度。最终实验成绩取所有实验成绩的平均数。
3. 期末成绩占30%,采用考试的考核方式。考试采用闭卷形式,题型为选择题、正确/错误题、填空题、简答题。
六、持续改进
本课程根据学生作业、课堂讨论、平时考核情况和学生、教学督导等反馈,及时对教学中不足之处进行改进,并在下一轮课程教学中有所提高。
七、建议教材及参考资料
建议教材:
[1] 吕云翔钢制汽车尾板. Python网络爬虫数据采集[M]. 北京:人民邮电出版社,2021

本文发布于:2024-09-23 18:30:39,感谢您对本站的认可!

本文链接:https://www.17tex.com/tex/2/111659.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:课程   学生   爬虫   掌握   方法
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议