首页 >> 实验教学 >> 实验大纲 >> 详细内容
实验教学
 
实验大纲 >> 正文
《网络爬虫》课程实验教学大纲
日期:2021-12-09 16:53:57  发布人:nclgjsj  浏览量:270

 

课程代码:               课程名称:网络爬虫

    分:4                 时:64

讲课学时:32               实验学时:32      

适用对象:计算机科学与技术(专升本)  先修课程:Python程序设计

 

一、教学目标与基本要求 

课程的性质:本课程主要针对计算机科学与技术、电子商务、大数据技术与应用等专业2年级以上本科生,主要讲解互联网大数据采集技术及各种典型爬虫的技术,并结合相关的开源包使用Python进行实现,以加深学生对所学内容的理解。

课程的任务:通过本课程教学,使学生对互联网大数据采集技术有一个全面的了解,掌握基本的信息内容采集、提取和分析方法,并且具备一定的针对具体信息采集需求的实际运用和解决能力。

 

二、基本理论与实验技术知识

要求理解互联网大数据采集的技术体系、主要技术;掌握各种典型爬虫的技术原理、技术框架、实现方法、主要开源包的使用;理解对爬虫采集到的Web页面数据的处理方法、文本处理与相关的挖掘方法,并会使用Python进行技术实现。

 

三、实验方法、特点与基本要求

1、要求按照教师的步骤,分组完成实验

2、实验中,注意细节问题,如:开始制作实验前,需要对相关的实验做准备工作。

3、实验后要对实验进行总结

 

四、主要仪器设备

微机+windows操作系统+Pycharm+Jypter 

 

五、实验项目的设置与内容提要

序号

实验项目

      

学时

类型

每组人数

要求

教学目标

1

初识网络爬虫

1. 认识爬虫的概念

2. 认识爬虫的原理

3. 了解爬虫运作时应遵守的规则 4. 了解反爬虫的目的和常用手段 5. 针对反爬虫的常用手段制定对应爬取 策略

6. 掌握 ancanda 安装的方法

8

设计

4

必做

 

2

网页数据获取

1. 掌握使用 urllib3 库生成 HTTP 请求、处理请求头、设置超时、设置请求重试

2. 掌握使用 Requests 库生成 HTTP 请求、查看状态码与编码、处理请求头与响应头、设置超时

3. 掌握使用 chrome 开发者工具查看页面元素、查看页面源码、查看资源详细信息

6

设计

4

必做

 

3

网页数据解析

 

1. 掌握使用正则表达式模块匹配字符串、查找网页中的标题内容

2. 掌握使用etree模块实现通过 Xpath获取标题内容、节点下的文本内容

3. 握 使 用 Beautiful Soup 4 块 创 建BeautifulSoup 对象

4. 掌握 Beautiful Soup 中的对象类型

5. 掌握使用 Beautiful Soup 4 模块遍历文档树、搜索文档树

 

4

验证

4

必做

 

4

网页数据存储

 

1. 掌握 MySQL 数据库的配置方法

2. 掌握 MongoDB 数据库的配置方法

3. 掌握使用 PyMySQL 库将获取的数据存储入 MySQL 数据库

4. 掌握使用 PyMongo 库将获取的数据存储入 MySQL 数据库

 

6

设计

4

必做

 

5

常规动态网页爬取

 

1. 了解静态网页和动态网页的区别。

2. 获取http://www.ptpress.com.cn”首页的信息。

3. http://www.ptpress.com.cn”首页进行逆向分析爬取。

4. 了解 Selenium 库的使用方法。

5. 分析http://www.ptpress.com.cn/search/books” 首页的网页结构。

6. 分析网页

http://www.ptpress.com.cn/search/books” 搜索“Python 编程”图书的操作。

4

验证

4

必做

 

6

综合案例

1. 世界大学城空间留言板数据爬取

2. 链家长沙楼盘信息爬取

3. 猫眼电影网站信息爬取

4. 斗鱼网站信息爬取

4

设计

4

必做

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

六、实验报告要求

实验报告是实验工作的全面总结,要用简明的形式将实验结果完整和真实地表达出来因此,实验报告的质量好坏将体现学生对实验内容的理解能力、动手能力水平。

实验报告的格式和内容包括以下几个方面:

1.内容:实验报告一般由基本信息,实验名称,实验目的,实验内容和原理,实验条件,实验过程,实验结果,实验结果分析讨论,实验结论,教师评语及成绩评定等部分组成。

2.格式:各院系按照南昌理工学院实验报告样本(附件),统一制定实验报告,也可结合学科和专业课程特点,对实验报告样本作科学合理的调整。

 

七、考核方式与成绩评定 

1.实验考核内容:

1)实验课出勤情况,必选实验课学生必须参加实验。

2)积极主动认真做实验。

3)实验方案过程结果要正确。

2.成绩评定标准:

优秀:实验中认真操作,实验报告独立完成,字迹工整,实验步骤清晰,数据处理及计算正确,有实验分析和总结(特别是总结出实验中出现的问题及解决的方法等);对实验过程自己设计的 ,实验步骤自己编写的,只要无根本性错误。

良好:实验中认真操作,实验报告独立完成,字迹工整,实验步骤清晰,数据处理及计算无根本错误。

中等:实验中认真操作,实验报告独立完成,实验步骤清晰,数据处理及计算无根本错误。

及格:实验中基本能认真操作,实验报告按标准格式独立完成,数据处理及计算无根本错误。

不及格:实验中不认真操作,实验报告不完成,抄袭实验报告,字迹潦草,数据处理及计算错误等。

 

八、推荐教材和教学参考书目与文献

推荐教材:唐松编著.Python网络爬虫从入门到实践(第2版)》 北京:机械工业出版社.2020.11

参考资料:韦玮著《精通Python网络爬虫核心技术》机械工业出版社20181

 

 

 

大纲制订人:关南宝

大纲审定人:

教学院长(主任):

制订日期: 2021  3  2 

核发:nclgjsj 点击数:270收藏本页