crawler-01 网络爬虫简介

crawler-01 网络爬虫简介

一、概念引入

  网络爬虫与信息提取,需要掌握定向网络数据爬取和网页解析的基本能力。“The Website is the API”,网站提供数据,我们的软件将网站当成API,即可获取想要的数据。

二、知识点

1、requests库

  获取网页信息,自动爬取html页面,自动提交网络请求。

2、robots协议

  网络爬虫排除标准,合理合法使用爬虫。

3、beautiful soup库

  解析html页面,解析相关内容。

4、项目实战

  projects,多做项目才能掌握爬虫。

5、re库

  正则表达式,提取页面关键信息。

6、scrapy

  专业网络爬虫框架,中规模快速爬虫实现。

三、python开发工具

  常用的python IDE(集成开发环境)工具包括文本工具类IDE和集成工具类IDE,各有特点,没有最好的,只有最适合自己的。

1、文本工具类IDE

1)IDLE:python自带,右键.py文件选择IDLE打开即可

2)notepad++

3)sublime text:程序员专用,第三方专用编程工具,免注册免费

4)vim & emacs

5)Atom

6)Komodo Edit

2、集成工具类IDE

1)pycharm:社区版免费,简单,适合复杂工程

2)wing:专业,收费,功能丰富,支持版本控制、版本同步等,适用于多人共同开发

3)pydev&eclipse:原用于java,需要用户使用pydev自定义python开发环境,比较复杂

4)visual studio&PTVS:需要用户使用PTVS自定义python开发环境

5)anaconda&spyder:开源免费,很好用

6)canopy:收费,适用于科学计算领域应用开发

四、注意事项

1、python大小写敏感;

欢迎打赏,谢谢
------ 本文结束------
0%