最新版某评详情页反反爬(超实用)

本期系列博文终于按时更新啦!!

本期内容我们所需要讲的主题是详情页的数据抓取,这一块内容也是抓取整个网站系列中的难点,其中涉及到了字体反爬的相关内容,这本期就给大家好好讲一讲字体反爬的应对方法。

在之前的系列教程中我们已经抓取完成

一级类目名称以及它所对应的url链接,

二级类目名称以及它所对应的url链接,

区域名称以及它所对应的url链接,

商品列表页中每个具体商品的标题信息,

现在我们需要做的就是通过商品列表页的url链接,调用selenium的get方法,将url作为参数进入到每个具体商品的详情页中,并且我们对详情页进行分析后发现详情页中电话、地址以及评论等信息都是存在的,我们从网络源代码后台分析可以看到,这些数据的呈现形式和我们之前所遇到的数据形态是不一样的,如图所示

我们在页面中看到的是这样的,而我们通过分析代码看到的则是这样的,如下图所示

那么,在这里大家就会疑惑了,这是什么原因造成的呢?

其实这是网站设置的反爬手段中的字体反爬手段,这里给大家介绍一下什么是字体反爬,字体反爬顾名思义就是在网页的数据信息上通过设置不同的字体格式来进行对数据信息的包裹,这样做会增加网站数据的安全性,但同时也会增加我们抓取数据的难度,通常来说,网站的字体反爬是通过网站的css文件来进行设定的

我们现在需要做的第一步肯定还是先要把数据按照之前的方法通过xpath或者css来对数据进行提取,提取之后我们就会发现提取到的数据都是这种奇怪的符号,那我们这个时候就需要对数据格式进行转换了,大家不难看出,我们在分析详情页标题信息或者地址以及电话对应数据之时在网页源码后台会出现一个文件,如下图所示

我们可以看到每一个小模块的右上方都会对应这一个文件链接,这个文件链接就是对应着我们需要寻找的css文件,当我们点击这个链接之后就会显示如下

我们在这里复制一下它的链接并且新建网页打开之后我们就会发现有6个关于woff文件的链接信息,如下图所示

这其中的woff文件其实就是网站转换的字体格式文件,这里我们需要对每一部分的信息进行对应好,我们woff文件链接搜索之后会自动进行下载,到此,我们就已经获取网站对应的字体转换文件并且存储到本地了,那存储下来之后我们需要做什么呢?

这时我们就需要用到一个在线编辑器,这里附上链接(在线字体编辑器-JSON在线编辑器),我们打开编辑器并且将我们存储到本地的woff文件上传就可以得到图片形式的文字以及它所对应的编号,如下图所示

举个例子来说,其中我这个字体文件是‘店’对应的编号为‘unif5e8’,大家打开不同的文件对应编号是不一样的哦,大家多多尝试一下就会有心得和经验啦!

本期的博文就到这里啦,下一期不见不散,多多关注不迷路~

原文链接:https://blog.csdn.net/qq_44969651/article/details/124428024?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522165277096216782388034072%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fblog.%2522%257D&request_id=165277096216782388034072&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~blog~first_rank_ecpm_v1~times_rank-28-124428024-null-null.nonecase&utm_term=%E5%AE%9E%E7%94%A8%E6%95%99%E7%A8%8B

© 版权声明
THE END
喜欢就支持一下吧
点赞0打赏 分享
评论 抢沙发
头像
文明发言,共建和谐米科社区
提交
头像

昵称

取消
昵称表情图片