crawler-01 网络爬虫简介
一、概念引入
网络爬虫与信息提取,需要掌握定向网络数据爬取和网页解析的基本能力。“The Website is the API”,网站提供数据,我们的软件将网站当成API,即可获取想要的数据。
二、知识点
1、requests库
获取网页信息,自动爬取html页面,自动提交网络请求。
2、robots协议
网络爬虫排除标准,合理合法使用爬虫。
3、beautiful soup库
解析html页面,解析相关内容。
4、项目实战
projects,多做项目才能掌握爬虫。
5、re库
正则表达式,提取页面关键信息。
6、scrapy
专业网络爬虫框架,中规模快速爬虫实现。
三、python开发工具
常用的python IDE(集成开发环境)工具包括文本工具类IDE和集成工具类IDE,各有特点,没有最好的,只有最适合自己的。
1、文本工具类IDE
1)IDLE:python自带,右键.py文件选择IDLE打开即可
2)notepad++
3)sublime text:程序员专用,第三方专用编程工具,免注册免费
4)vim & emacs
5)Atom
6)Komodo Edit
2、集成工具类IDE
1)pycharm:社区版免费,简单,适合复杂工程
2)wing:专业,收费,功能丰富,支持版本控制、版本同步等,适用于多人共同开发
3)pydev&eclipse:原用于java,需要用户使用pydev自定义python开发环境,比较复杂
4)visual studio&PTVS:需要用户使用PTVS自定义python开发环境
5)anaconda&spyder:开源免费,很好用
6)canopy:收费,适用于科学计算领域应用开发
四、注意事项
1、python大小写敏感;