Python爬虫实战:爬取steam打折优惠数据

前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

以下文章来源于云+社区,作者 Elapse

转载地址

https://blog.csdn.net/fei347795790?t=1

Python爬虫实战:爬取steam打折优惠数据

类似前言一样的东西

妈妈再也不用担心我不知道哪些游戏没有打折了,一键爬取steam优惠名单,就是写到钱的部分程序崩溃了,以至于只有游戏名

Python爬虫实战:爬取steam打折优惠数据

环境

环境需要 Python3.5.4的版本 需要的运行库有

  • BeautifulSoup(解析html,安装方法:(pip install BeautifulSoup)
  • requests(请求url,安装方法:(pip install requests)

代码部分

首先看一下,steam的网站结构

Python爬虫实战:爬取steam打折优惠数据

发现游戏名字是存在 <divclass=”responsive_search_name_combined”>下的再去看url链接https://store.steampowered.com/search/?specials=1&page=1其中page=1就是第一页的意思,所以整体思路就有了,先写一个页面的循环

pageid = 1 while pageid<599: url = "https://store.steampowered.com/search/?specials=1&page=" + str(pageid) res = requests.get(url) soup = bs4.BeautifulSoup(res.text) contents = soup.select('div[class="responsive_search_name_combined"]')

这样,599页的steam游戏优惠的界面都会被requests请求一遍,并查找指定的元素,也就是存放游戏名的元素 接下来把游戏名抓取下来

for content in contents: name = content.find("span",class_="title").string.strip() print(name)

运行一下

Python爬虫实战:爬取steam打折优惠数据

成功,右边,游戏名出来了,接下来把名字都保存成txt

Python爬虫实战:爬取steam打折优惠数据

要注意的是,有的游戏名很奇怪,有特殊符号,写不进去,那么就会报错,所以,添加一个异常处理就好了

下面贴出完整代码

Python爬虫实战:爬取steam打折优惠数据

爬虫的主要问题,基本就是字符串的编码问题,现在整理出来的,最好的方法应该就是直接把url编码的当作正常内容输入就好了

原文链接:https://blog.csdn.net/m0_48405781/article/details/108812319?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522165277499316781667866347%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fblog.%2522%257D&request_id=165277499316781667866347&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~blog~first_rank_ecpm_v1~times_rank-4-108812319-null-null.nonecase&utm_term=%E4%BC%98%E6%83%A0

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享
评论 抢沙发
头像
文明发言,共建和谐米科社区
提交
头像

昵称

取消
昵称表情图片