课程代码: 课程名称:数据采集与处理
学 分:4 总 学 时:64
讲课学时:32 实验学时:32
适用对象:电子商务(专升本) 先修课程:Python程序设计
一、教学目标与基本要求
课程的性质:本课程主要针对电子商务、大数据技术与应用、数据科学、计算机与电子信息等专业2年级以上本科生,主要讲解互联网大数据采集技术及各种典型爬虫的技术,并结合相关的开源包使用Python进行实现,以加深学生对所学内容的理解。
课程的任务:通过本课程教学,使学生对互联网大数据采集技术有一个全面的了解,掌握基本的信息内容采集、提取和分析方法,并且具备一定的针对具体信息采集需求的实际运用和解决能力。
二、基本理论与实验技术知识
要求理解互联网大数据采集的技术体系、主要技术;掌握各种典型爬虫的技术原理、技术框架、实现方法、主要开源包的使用;理解对爬虫采集到的Web页面数据的处理方法、文本处理与相关的挖掘方法,并会使用Python进行技术实现。
三、实验方法、特点与基本要求
1、要求按照教师的步骤,分组完成实验
2、实验中,注意细节问题,如:开始制作实验前,需要对相关的实验做准备工作。
3、实验后要对实验进行总结
四、主要仪器设备
微机+windows操作系统+Pycharm+Jypter等
五、实验项目的设置与内容提要
序号 |
实验项目 |
内 容 提 要 |
学时 |
类型 |
每组人数 |
要求 |
教学目标 |
1 |
初识网络爬虫 |
1. 认识爬虫的概念 2. 认识爬虫的原理 3. 了解爬虫运作时应遵守的规则 4. 了解反爬虫的目的和常用手段 5. 针对反爬虫的常用手段制定对应爬取 策略 6. 掌握 ancanda 安装的方法 |
8 |
设计 |
4 |
必做 |
|
2 |
网页数据获取 |
1. 掌握使用 urllib3 库生成 HTTP 请求、处理请求头、设置超时、设置请求重试 2. 掌握使用 Requests 库生成 HTTP 请求、查看状态码与编码、处理请求头与响应头、设置超时 3. 掌握使用 chrome 开发者工具查看页面元素、查看页面源码、查看资源详细信息 |
6 |
设计 |
4 |
必做 |
|
3 |
网页数据解析
|
1. 掌握使用正则表达式模块匹配字符串、查找网页中的标题内容 2. 掌握使用etree模块实现通过 Xpath获取标题内容、节点下的文本内容 3. 掌 握 使 用 Beautiful Soup 4 模 块 创 建BeautifulSoup 对象 4. 掌握 Beautiful Soup 中的对象类型 5. 掌握使用 Beautiful Soup 4 模块遍历文档树、搜索文档树
|
4 |
验证 |
4 |
必做 |
|
4 |
网页数据存储
|
1. 掌握 MySQL 数据库的配置方法 2. 掌握 MongoDB 数据库的配置方法 3. 掌握使用 PyMySQL 库将获取的数据存储入 MySQL 数据库 4. 掌握使用 PyMongo 库将获取的数据存储入 MySQL 数据库
|
6 |
设计 |
4 |
必做 |
|
5 |
常规动态网页爬取
|
1. 了解静态网页和动态网页的区别。 2. 获取“http://www.ptpress.com.cn”首页的信息。 3. 对“http://www.ptpress.com.cn”首页进行逆向分析爬取。 4. 了解 Selenium 库的使用方法。 5. 分析“http://www.ptpress.com.cn/search/books” 首页的网页结构。 6. 分析网页 “http://www.ptpress.com.cn/search/books” 搜索“Python 编程”图书的操作。 |
4 |
验证 |
4 |
必做 |
|
6 |
综合案例 |
1. 世界大学城空间留言板数据爬取 2. 链家长沙楼盘信息爬取 3. 猫眼电影网站信息爬取 4. 斗鱼网站信息爬取 |
4 |
设计 |
4 |
必做 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
六、实验报告要求
实验报告是实验工作的全面总结,要用简明的形式将实验结果完整和真实地表达出来因此,实验报告的质量好坏将体现学生对实验内容的理解能力、动手能力水平。
实验报告的格式和内容包括以下几个方面:
1.内容:实验报告一般由基本信息,实验名称,实验目的,实验内容和原理,实验条件,实验过程,实验结果,实验结果分析讨论,实验结论,教师评语及成绩评定等部分组成。
2.格式:各院系按照南昌理工学院实验报告样本(附件),统一制定实验报告,也可结合学科和专业课程特点,对实验报告样本作科学合理的调整。
七、考核方式与成绩评定
1.实验考核内容:
(1)实验课出勤情况,必选实验课学生必须参加实验。
(2)积极主动认真做实验。
(3)实验方案过程结果要正确。
2.成绩评定标准:
优秀:实验中认真操作,实验报告独立完成,字迹工整,实验步骤清晰,数据处理及计算正确,有实验分析和总结(特别是总结出实验中出现的问题及解决的方法等);对实验过程自己设计的 ,实验步骤自己编写的,只要无根本性错误。
良好:实验中认真操作,实验报告独立完成,字迹工整,实验步骤清晰,数据处理及计算无根本错误。
中等:实验中认真操作,实验报告独立完成,实验步骤清晰,数据处理及计算无根本错误。
及格:实验中基本能认真操作,实验报告按标准格式独立完成,数据处理及计算无根本错误。
不及格:实验中不认真操作,实验报告不完成,抄袭实验报告,字迹潦草,数据处理及计算错误等。
八、推荐教材和教学参考书目与文献
推荐教材:唐松编著.《Python网络爬虫从入门到实践(第2版)》 北京:机械工业出版社.2020.11。
参考资料:韦玮著《精通Python网络爬虫核心技术》机械工业出版社2018年1月
大纲制订人:关南宝
大纲审定人:
教学院长(主任):
制订日期: 2021 年 3 月 2 日