博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
爬取豌豆荚
阅读量:5054 次
发布时间:2019-06-12

本文共 1145 字,大约阅读时间需要 3 分钟。

''' 爬取豌豆荚APP数据     url:https://www.wandoujia.com/category/6001     data:         名称、详情页、下载人数、APP大小         app_name         detail_url         download_num         app_size         (.*?).*?(.*?).*?(.*?)
(.*?)
''' import requests import re # 1.发送请求 def get_page(url): response=requests.get(url) return response def parse_index(html): movie_list=re.findall('

.*?.*?(.*?)万人安装 .*?MB', html, re.S) return movie_list # 保持数据 def save_data(movie): detail_url,app_name,download_num,app_size=movie data=f''' 游戏名称:{app_name} 详情页url:{detail_url} 下载人数:{download_num}万人 APP大小:{app_size} \n \n ''' print(data) with open('wandoujia.text','a',encoding='utf-8')as f: f.write(data) # print("写入成功!") if __name__ == '__main__': url=f'https://www.wandoujia.com/category/6001' print(url) index_res=get_page(url) movie_list=parse_index(index_res.text) for movie in movie_list: save_data(movie)

转载于:https://www.cnblogs.com/2328322824chx/p/11129387.html

你可能感兴趣的文章
(转)notepad++去重
查看>>
sqlserver convert 日期时间 转换格式化
查看>>
摆脱DOM操作,从TodoMVC看angularJS
查看>>
[usaco2009nov]奶牛的图片
查看>>
FFT理解
查看>>
App弱网测试方式
查看>>
PHP zendstudio framework2配置过程
查看>>
Xor Sum 01字典树 hdu4825
查看>>
数据访问:三大范式
查看>>
ok6410 android driver(10)
查看>>
kubuntu设置
查看>>
Python基础-----random随机模块(验证码)
查看>>
手机端fixed底部跟着窗口动问题
查看>>
树专题(伸展树 / 树链剖分 / 动态树 学习笔记)
查看>>
HTML图像、超链接标签
查看>>
[国嵌攻略][164][USB驱动程序设计]
查看>>
C# 实现Bresenham算法(vs2010)
查看>>
基于iSCSI的SQL Server 2012群集测试(一)--SQL群集安装
查看>>
list 容器 排序函数.xml
查看>>
存储开头结尾使用begin tran,rollback tran作用?
查看>>