-
-
[分享]爬虫学习笔记
-
发表于: 2019-3-28 21:54 5622
-
最近在一次面试中被问做过哪些成果,反思自己这方的面经验还是比较少。于是决定以后侧重实际应用,就以爬虫作为出发点。 较好的学习资源: 1.[SuperSpider——打造功能强大的爬虫利器](477K9s2c8@1M7s2y4Q4x3@1q4Q4x3V1k6Q4x3V1k6K6k6h3y4#2M7X3W2@1P5g2)9J5k6i4c8W2L8X3y4W2L8Y4c8Q4x3X3g2U0L8$3#2Q4x3V1k6A6L8X3c8W2P5q4)9J5k6i4m8Z5M7q4)9J5c8X3u0D9L8$3N6Q4x3V1k6E0M7$3N6Q4x3V1j5K6y4q4)9J5z5b7`.`. 《Python网络爬虫从入门到精通》重点内容 1、Robots协议 Robots协议(爬虫协议)的全称是"网络爬虫排除标准",网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。 以Allow项开头的URL是允许robot访问的,例如,Allow:/article允许百度爬虫引擎访问/article.htm、/article/12345.com等 以Disallow项开头的链接是不允许百度爬虫引擎访问的。例如,Disallow:/product/不允许百度百度爬虫引擎访问/product/12345.com等。 2、网络爬虫的约束 过于快速或者频繁的网络爬虫都会对服务器产生巨大的压力,网站可能会封锁你的IP,甚至会采取进一步的法律行动。因此要约束自己的网络爬虫行为,将请求的速度限定在一个合理的范围之内。 3.网络爬虫的基本议题 (1)python爬虫的流程是怎样的? (2)三个流程的技术实现是什么? 3.1python爬虫的流程 分为三个部分:(1)获取网页;(2)解析网页(提取数据);(3)存储数据。 3.2三个流程的技术实现 1.获取网页 基础技术:request、urllib和selenium(模拟浏览器) 进阶技术:多进程多线程抓取、登录抓取、突破IP封锁和服务器抓取 2.解析网页 基础技术:re正则表达式、BeautifulSoup和lxml。 进阶技术:解决中文乱码 3.存储数据 基础技术:存入txt文件和存入csv文D件 进阶技术:存入MySQL数据库和MongoDB数据库
[培训]内核驱动高级班,冲击BAT一流互联网大厂工作,每周日13:00-18:00直播授课
最后于 2019-3-28 22:53
被dolphindiv编辑
,原因:
赞赏
他的文章
- [原创]large chunk分配过程调试 13091
- [原创]BCTF 2018 House of Atum分析 12388
- [原创]HITB CTF 2018 gundam分析 17779
- [原创][原创]Unsorted Bin 利用后续 6103
赞赏
雪币:
留言: