博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
爬取豌豆荚
阅读量:5054 次
发布时间:2019-06-12

本文共 1145 字,大约阅读时间需要 3 分钟。

''' 爬取豌豆荚APP数据     url:https://www.wandoujia.com/category/6001     data:         名称、详情页、下载人数、APP大小         app_name         detail_url         download_num         app_size         (.*?).*?(.*?).*?(.*?)
(.*?)
''' import requests import re # 1.发送请求 def get_page(url): response=requests.get(url) return response def parse_index(html): movie_list=re.findall('

.*?.*?(.*?)万人安装 .*?MB', html, re.S) return movie_list # 保持数据 def save_data(movie): detail_url,app_name,download_num,app_size=movie data=f''' 游戏名称:{app_name} 详情页url:{detail_url} 下载人数:{download_num}万人 APP大小:{app_size} \n \n ''' print(data) with open('wandoujia.text','a',encoding='utf-8')as f: f.write(data) # print("写入成功!") if __name__ == '__main__': url=f'https://www.wandoujia.com/category/6001' print(url) index_res=get_page(url) movie_list=parse_index(index_res.text) for movie in movie_list: save_data(movie)

转载于:https://www.cnblogs.com/2328322824chx/p/11129387.html

你可能感兴趣的文章
iOS 使用Quartz 2D画虚线 【转】
查看>>
平面最接近点对
查看>>
HTML列表,表格与媒体元素
查看>>
PHP、Java、Python、C、C++ 这几种编程语言都各有什么特点或优点?
查看>>
感谢青春
查看>>
Jquery Uploadify4.2 falsh 实现上传
查看>>
雨林木风 GHOST_XP SP3 快速装机版YN12.08
查看>>
linux基础-命令
查看>>
java对象的深浅克隆
查看>>
Hadoop流程---从tpch到hive
查看>>
数据结构3——浅谈zkw线段树
查看>>
Introduction to my galaxy engine 2: Depth of field
查看>>
V2019 Super DSP3 Odometer Correction Vehicle List
查看>>
Python 3.X 练习集100题 05
查看>>
今时不同往日:VS2010十大绝技让VS6叹服
查看>>
设计器 和后台代码的转换 快捷键
查看>>
在线视频播放软件
查看>>
用代码生成器生成的DAL数据访问操作类 基本满足需求了
查看>>
28初识线程
查看>>
Monkey测试结果分析
查看>>