爬虫项目-猫眼TOP100爬取
爬取猫眼TOP100榜 1. 爬取流程 主要有以下四步: 爬取单页内容:利利⽤用requests请求⽬目标站点,得 到单个⽹网⻚页HTML代码,返回结果。 正则表达式分析:根据HTML代码分析得到电影的 名称、主演、上映时间、评分、 图⽚片链接等信息。 保存至文件:通过⽂文件的形式将结果保存,每 一部电影一个结果一行Json字符串,图片保存成jpg格式。 开启循环及多线程:对多⻚页内容遍历,开启多线程提 ⾼高抓取速度。 ...
爬取猫眼TOP100榜 1. 爬取流程 主要有以下四步: 爬取单页内容:利利⽤用requests请求⽬目标站点,得 到单个⽹网⻚页HTML代码,返回结果。 正则表达式分析:根据HTML代码分析得到电影的 名称、主演、上映时间、评分、 图⽚片链接等信息。 保存至文件:通过⽂文件的形式将结果保存,每 一部电影一个结果一行Json字符串,图片保存成jpg格式。 开启循环及多线程:对多⻚页内容遍历,开启多线程提 ⾼高抓取速度。 ...