[分享]爬虫学习笔记-WEB安全-看雪-安全社区|安全招聘|kanxue.com

[分享]爬虫学习笔记

发表于: 2019-3-28 21:54 5622

[分享]爬虫学习笔记

dolphindiv 活跃值

2019-3-28 21:54

5622

最近在一次面试中被问做过哪些成果，反思自己这方的面经验还是比较少。于是决定以后侧重实际应用，就以爬虫作为出发点。
较好的学习资源：  1.[SuperSpider——打造功能强大的爬虫利器](477K9s2c8@1M7s2y4Q4x3@1q4Q4x3V1k6Q4x3V1k6K6k6h3y4#2M7X3W2@1P5g2)9J5k6i4c8W2L8X3y4W2L8Y4c8Q4x3X3g2U0L8$3#2Q4x3V1k6A6L8X3c8W2P5q4)9J5k6i4m8Z5M7q4)9J5c8X3u0D9L8$3N6Q4x3V1k6E0M7$3N6Q4x3V1j5K6y4q4)9J5z5b7`.`.
《Python网络爬虫从入门到精通》重点内容
1、Robots协议
Robots协议（爬虫协议）的全称是"网络爬虫排除标准"，网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。
以Allow项开头的URL是允许robot访问的，例如，Allow：/article允许百度爬虫引擎访问/article.htm、/article/12345.com等
以Disallow项开头的链接是不允许百度爬虫引擎访问的。例如，Disallow：/product/不允许百度百度爬虫引擎访问/product/12345.com等。
2、网络爬虫的约束
过于快速或者频繁的网络爬虫都会对服务器产生巨大的压力，网站可能会封锁你的IP，甚至会采取进一步的法律行动。因此要约束自己的网络爬虫行为，将请求的速度限定在一个合理的范围之内。
3.网络爬虫的基本议题
 (1)python爬虫的流程是怎样的？
 (2)三个流程的技术实现是什么？
3.1python爬虫的流程
分为三个部分：（1）获取网页；（2）解析网页（提取数据）；(3)存储数据。
3.2三个流程的技术实现
1.获取网页
基础技术：request、urllib和selenium(模拟浏览器)
进阶技术：多进程多线程抓取、登录抓取、突破IP封锁和服务器抓取
2.解析网页
基础技术：re正则表达式、BeautifulSoup和lxml。
进阶技术：解决中文乱码
3.存储数据
基础技术：存入txt文件和存入csv文D件
进阶技术：存入MySQL数据库和MongoDB数据库

[培训]内核驱动高级班，冲击BAT一流互联网大厂工作，每周日13:00-18:00直播授课

最后于 2019-3-28 22:53 被dolphindiv编辑，原因：

收藏・2

免费・1

支持