crawler-01 网络爬虫简介

一、概念引入

　　网络爬虫与信息提取，需要掌握定向网络数据爬取和网页解析的基本能力。“The Website is the API”，网站提供数据，我们的软件将网站当成API，即可获取想要的数据。

1、requests库

　　获取网页信息，自动爬取html页面，自动提交网络请求。

2、robots协议

　　网络爬虫排除标准，合理合法使用爬虫。

3、beautiful soup库

　　解析html页面，解析相关内容。

4、项目实战

　　projects，多做项目才能掌握爬虫。

5、re库

　　正则表达式，提取页面关键信息。

6、scrapy

　　专业网络爬虫框架，中规模快速爬虫实现。

　　常用的python IDE（集成开发环境）工具包括文本工具类IDE和集成工具类IDE，各有特点，没有最好的，只有最适合自己的。

1）IDLE：python自带，右键.py文件选择IDLE打开即可

2）notepad++

3）sublime text：程序员专用，第三方专用编程工具，免注册免费

4）vim & emacs

5）Atom

6）Komodo Edit

1）pycharm：社区版免费，简单，适合复杂工程

2）wing：专业，收费，功能丰富，支持版本控制、版本同步等，适用于多人共同开发

3）pydev&eclipse：原用于java，需要用户使用pydev自定义python开发环境，比较复杂

4）visual studio&PTVS：需要用户使用PTVS自定义python开发环境

5）anaconda&spyder：开源免费，很好用

6）canopy：收费，适用于科学计算领域应用开发

1、python大小写敏感；