能力值:
( LV4,RANK:50 )
2 楼
能描述清楚。卡在第几行?哪一个函数?
能力值:
( LV2,RANK:10 )
3 楼
没有实际测试,但我觉得可能是正则表达式的非贪婪模式引起的。可以试试优化一下表达式
能力值:
( LV2,RANK:10 )
4 楼
SevenSir
能描述清楚。卡在第几行?哪一个函数?
这个不知道,因为就一直卡然后啥也没有,估计是re.compile那里在匹配时候出了问题吧!
能力值:
( LV2,RANK:10 )
5 楼
junkboy
没有实际测试,但我觉得可能是正则表达式的非贪婪模式引起的。可以试试优化一下表达式
不会优化,能帮忙指点下吗?
能力值:
( LV2,RANK:10 )
6 楼
貌似是 re.findall 的问题,虽然也不知道则么会卡住,不过 html 的话用 pyquery 或 BeautifulSoup 比较方便吧,应该也不会有这个问题
能力值:
( LV2,RANK:10 )
7 楼
OxCL
貌似是 re.findall 的问题,虽然也不知道则么会卡住,不过 html 的话用 pyquery 或 BeautifulSoup 比较方便吧,应该也不会有这个问题
据说正则挺重要,所以就想学学,结果刚入门就入坑了
能力值:
( LV2,RANK:10 )
8 楼
import requests import re content = requests.get('6e7K9s2c8@1M7s2y4Q4x3@1q4Q4x3V1k6Q4x3V1k6T1L8$3!0C8i4K6u0W2k6r3!0#2j5X3q4F1i4K6u0W2j5$3!0E0i4K6u0r3i4K6t1%4i4K6t1&6i4K6u0W2N6r3g2^5N6l9`.`.
#print (content) pattern = re.compile(r'<li.*?cover.*?href="(.*?)"\stitle="(.*?)".*?more-meta.*?author">(.*?)</span>.*?year">(.?)</span>. ?</li>', re.S)##这里应该要在URL和title之间匹配空格,用\s results = re.findall(pattern, content)
#print(results) for result in results: url , name , author , date = result name = re.sub('\s','',name) author = re.sub('\s','',author) date = re.sub('\s','',date) print(url,name,author,date)
能力值:
( LV4,RANK:50 )
9 楼
OtuDeveloper
据说正则挺重要,所以就想学学,结果刚入门就入坑了
如果你是解析html的话,用pyquery吧。很好用。py的正则我觉得挺麻烦的。推荐你一个学习正则的工具:
9dbK9s2c8@1M7s2y4Q4x3@1q4Q4x3V1k6Q4x3V1k6V1k6h3g2J5j5$3S2S2L8#2)9J5k6h3&6W2N6q4)9J5c8Y4c8G2L8$3I4K6i4K6u0r3M7X3g2Y4k6i4y4@1k6i4u0Q4x3V1k6A6L8X3c8W2P5q4)9J5k6h3S2@1L8b7`.`. 含有正则工具和一部分实用的正则教程。你可以先用这个工具去匹配、测试,然后再把正则表达式转换成python的格式即可。
能力值:
( LV2,RANK:10 )
10 楼
SevenSir
如果你是解析html的话,用pyquery吧。很好用。py的正则我觉得挺麻烦的。推荐你一个学习正则的工具:88aK9s2c8@1M7s2y4Q4x3@1q4Q4x3V1k6Q4x3V1k6V1k6h3g2J5j5$3S2S2L8#2)9J5k6h3&6W2N6q4)9J5c8Y4c8G2L8$3I4K6i4K6u0r3M7X3g2Y4k6i4y4@1k6i4u0Q4x3V1k6A6L8X3c8W2P5q4)9J5k6h3S2@1L8b7`.`.
...
嗯呢,用正则解析html感觉确实挺麻烦,谢谢啦