python3小白，求助关于正则表达式爬取豆瓣图书，一直卡在那也不报错，不知道问题出在哪？？？-编程技术-看雪-安全社区|安全招聘|kanxue.com

最新回复 (9)
SevenSir 雪币： 129 活跃值： (497) 能力值： ( LV4，RANK：50 ) 在线值：发帖 5 回帖 70 粉丝 1 关注私信	SevenSir 1 2 楼能描述清楚。卡在第几行？哪一个函数？ 2018-5-3 09:46 0
junkboy 雪币： 11716 活跃值： (133) 能力值： ( LV2，RANK：10 ) 在线值：发帖 5 回帖 348 粉丝 2 关注私信	junkboy 3 楼没有实际测试，但我觉得可能是正则表达式的非贪婪模式引起的。可以试试优化一下表达式 2018-5-3 09:49 0
OtuDeveloper 雪币： 243 活跃值： (10) 能力值： ( LV2，RANK：10 ) 在线值：发帖 2 回帖 7 粉丝 0 关注私信	OtuDeveloper 4 楼 SevenSir 能描述清楚。卡在第几行？哪一个函数？这个不知道，因为就一直卡然后啥也没有，估计是re.compile那里在匹配时候出了问题吧！ 2018-5-3 10:53 0
OtuDeveloper 雪币： 243 活跃值： (10) 能力值： ( LV2，RANK：10 ) 在线值：发帖 2 回帖 7 粉丝 0 关注私信	OtuDeveloper 5 楼 junkboy 没有实际测试，但我觉得可能是正则表达式的非贪婪模式引起的。可以试试优化一下表达式不会优化，能帮忙指点下吗？ 2018-5-3 10:54 0
OxCL 雪币： 18 活跃值： (25) 能力值： ( LV2，RANK：10 ) 在线值：发帖 2 回帖 15 粉丝 0 关注私信	OxCL 6 楼貌似是 re.findall 的问题，虽然也不知道则么会卡住，不过 html 的话用 pyquery 或 BeautifulSoup 比较方便吧，应该也不会有这个问题 2018-5-3 11:59 0
OtuDeveloper 雪币： 243 活跃值： (10) 能力值： ( LV2，RANK：10 ) 在线值：发帖 2 回帖 7 粉丝 0 关注私信	OtuDeveloper 7 楼 OxCL 貌似是 re.findall 的问题，虽然也不知道则么会卡住，不过 html 的话用 pyquery 或 BeautifulSoup 比较方便吧，应该也不会有这个问题据说正则挺重要，所以就想学学，结果刚入门就入坑了 2018-5-3 15:47 0
OtuDeveloper 雪币： 243 活跃值： (10) 能力值： ( LV2，RANK：10 ) 在线值：发帖 2 回帖 7 粉丝 0 关注私信	OtuDeveloper 8 楼 import requests import re content = requests.get('6e7K9s2c8@1M7s2y4Q4x3@1q4Q4x3V1k6Q4x3V1k6T1L8$3!0C8i4K6u0W2k6r3!0#2j5X3q4F1i4K6u0W2j5$3!0E0i4K6u0r3i4K6t1%4i4K6t1&6i4K6u0W2N6r3g2^5N6l9`.`. #print (content) pattern = re.compile(r'<li.?cover.?href="(.?)"\stitle="(.?)".?more-meta.?author">(.?)</span>.?year">(.?)</span>.?</li>', re.S)##这里应该要在URL和title之间匹配空格，用\s results = re.findall(pattern, content) #print(results) for result in results: url , name , author , date = result name = re.sub('\s','',name) author = re.sub('\s','',author) date = re.sub('\s','',date) print(url,name,author,date) 2018-5-9 11:28 0
SevenSir 雪币： 129 活跃值： (497) 能力值： ( LV4，RANK：50 ) 在线值：发帖 5 回帖 70 粉丝 1 关注私信	SevenSir 1 9 楼 OtuDeveloper 据说正则挺重要，所以就想学学，结果刚入门就入坑了如果你是解析html的话，用pyquery吧。很好用。py的正则我觉得挺麻烦的。推荐你一个学习正则的工具:9dbK9s2c8@1M7s2y4Q4x3@1q4Q4x3V1k6Q4x3V1k6V1k6h3g2J5j5$3S2S2L8#2)9J5k6h3&6W2N6q4)9J5c8Y4c8G2L8$3I4K6i4K6u0r3M7X3g2Y4k6i4y4@1k6i4u0Q4x3V1k6A6L8X3c8W2P5q4)9J5k6h3S2@1L8b7`.`. 含有正则工具和一部分实用的正则教程。你可以先用这个工具去匹配、测试，然后再把正则表达式转换成python的格式即可。 2018-5-9 11:41 0
OtuDeveloper 雪币： 243 活跃值： (10) 能力值： ( LV2，RANK：10 ) 在线值：发帖 2 回帖 7 粉丝 0 关注私信	OtuDeveloper 10 楼 SevenSir 如果你是解析html的话，用pyquery吧。很好用。py的正则我觉得挺麻烦的。推荐你一个学习正则的工具:88aK9s2c8@1M7s2y4Q4x3@1q4Q4x3V1k6Q4x3V1k6V1k6h3g2J5j5$3S2S2L8#2)9J5k6h3&6W2N6q4)9J5c8Y4c8G2L8$3I4K6i4K6u0r3M7X3g2Y4k6i4y4@1k6i4u0Q4x3V1k6A6L8X3c8W2P5q4)9J5k6h3S2@1L8b7`.`. ... 嗯呢，用正则解析html感觉确实挺麻烦，谢谢啦 2018-5-9 13:25 0
	游客登录 \| 注册方可回帖回帖表情雪币赚取及消费高级回复

最新回复 (9)
SevenSir 雪币： 129 活跃值： (497) 能力值： ( LV4，RANK：50 ) 在线值：发帖 5 回帖 70 粉丝 1 关注私信	SevenSir 1 2 楼能描述清楚。卡在第几行？哪一个函数？ 2018-5-3 09:46 0
junkboy 雪币： 11716 活跃值： (133) 能力值： ( LV2，RANK：10 ) 在线值：发帖 5 回帖 348 粉丝 2 关注私信	junkboy 3 楼没有实际测试，但我觉得可能是正则表达式的非贪婪模式引起的。可以试试优化一下表达式 2018-5-3 09:49 0
OtuDeveloper 雪币： 243 活跃值： (10) 能力值： ( LV2，RANK：10 ) 在线值：发帖 2 回帖 7 粉丝 0 关注私信	OtuDeveloper 4 楼 SevenSir 能描述清楚。卡在第几行？哪一个函数？这个不知道，因为就一直卡然后啥也没有，估计是re.compile那里在匹配时候出了问题吧！ 2018-5-3 10:53 0
OtuDeveloper 雪币： 243 活跃值： (10) 能力值： ( LV2，RANK：10 ) 在线值：发帖 2 回帖 7 粉丝 0 关注私信	OtuDeveloper 5 楼 junkboy 没有实际测试，但我觉得可能是正则表达式的非贪婪模式引起的。可以试试优化一下表达式不会优化，能帮忙指点下吗？ 2018-5-3 10:54 0
OxCL 雪币： 18 活跃值： (25) 能力值： ( LV2，RANK：10 ) 在线值：发帖 2 回帖 15 粉丝 0 关注私信	OxCL 6 楼貌似是 re.findall 的问题，虽然也不知道则么会卡住，不过 html 的话用 pyquery 或 BeautifulSoup 比较方便吧，应该也不会有这个问题 2018-5-3 11:59 0
OtuDeveloper 雪币： 243 活跃值： (10) 能力值： ( LV2，RANK：10 ) 在线值：发帖 2 回帖 7 粉丝 0 关注私信	OtuDeveloper 7 楼 OxCL 貌似是 re.findall 的问题，虽然也不知道则么会卡住，不过 html 的话用 pyquery 或 BeautifulSoup 比较方便吧，应该也不会有这个问题据说正则挺重要，所以就想学学，结果刚入门就入坑了 2018-5-3 15:47 0
OtuDeveloper 雪币： 243 活跃值： (10) 能力值： ( LV2，RANK：10 ) 在线值：发帖 2 回帖 7 粉丝 0 关注私信	OtuDeveloper 8 楼 import requests import re content = requests.get('6e7K9s2c8@1M7s2y4Q4x3@1q4Q4x3V1k6Q4x3V1k6T1L8$3!0C8i4K6u0W2k6r3!0#2j5X3q4F1i4K6u0W2j5$3!0E0i4K6u0r3i4K6t1%4i4K6t1&6i4K6u0W2N6r3g2^5N6l9`.`. #print (content) pattern = re.compile(r'<li.?cover.?href="(.?)"\stitle="(.?)".?more-meta.?author">(.?)</span>.?year">(.?)</span>.?</li>', re.S)##这里应该要在URL和title之间匹配空格，用\s results = re.findall(pattern, content) #print(results) for result in results: url , name , author , date = result name = re.sub('\s','',name) author = re.sub('\s','',author) date = re.sub('\s','',date) print(url,name,author,date) 2018-5-9 11:28 0
SevenSir 雪币： 129 活跃值： (497) 能力值： ( LV4，RANK：50 ) 在线值：发帖 5 回帖 70 粉丝 1 关注私信	SevenSir 1 9 楼 OtuDeveloper 据说正则挺重要，所以就想学学，结果刚入门就入坑了如果你是解析html的话，用pyquery吧。很好用。py的正则我觉得挺麻烦的。推荐你一个学习正则的工具:9dbK9s2c8@1M7s2y4Q4x3@1q4Q4x3V1k6Q4x3V1k6V1k6h3g2J5j5$3S2S2L8#2)9J5k6h3&6W2N6q4)9J5c8Y4c8G2L8$3I4K6i4K6u0r3M7X3g2Y4k6i4y4@1k6i4u0Q4x3V1k6A6L8X3c8W2P5q4)9J5k6h3S2@1L8b7`.`. 含有正则工具和一部分实用的正则教程。你可以先用这个工具去匹配、测试，然后再把正则表达式转换成python的格式即可。 2018-5-9 11:41 0
OtuDeveloper 雪币： 243 活跃值： (10) 能力值： ( LV2，RANK：10 ) 在线值：发帖 2 回帖 7 粉丝 0 关注私信	OtuDeveloper 10 楼 SevenSir 如果你是解析html的话，用pyquery吧。很好用。py的正则我觉得挺麻烦的。推荐你一个学习正则的工具:88aK9s2c8@1M7s2y4Q4x3@1q4Q4x3V1k6Q4x3V1k6V1k6h3g2J5j5$3S2S2L8#2)9J5k6h3&6W2N6q4)9J5c8Y4c8G2L8$3I4K6i4K6u0r3M7X3g2Y4k6i4y4@1k6i4u0Q4x3V1k6A6L8X3c8W2P5q4)9J5k6h3S2@1L8b7`.`. ... 嗯呢，用正则解析html感觉确实挺麻烦，谢谢啦 2018-5-9 13:25 0
	游客登录 \| 注册方可回帖回帖表情雪币赚取及消费高级回复