隋唐演义

隋唐演义

python爬虫爬取淘宝售卖数据 python爬虫淘宝商品信息步骤

双十一 0

手机淘宝搜:天降红包55 5月20日开始,每天领红包。
京示搜:天降红包369,5月28日开始


(一)确定需要爬取的信息

在爬取前首先确定需要获取的信息,打开taobao,在搜索框中输入,需要获取的商品的信息,比如ipad,点击搜索

就可以看到许多的ipad,选择其中的一款商品,比如第一个

?

可以看到,其包含了以下的信息:

(1)price: 售价

(2)deal-cnt: 付款人数

(3)name: 产品名称

(4)shop_name: 店铺名称

(5)location: 店铺所在地

因此,我们可以爬取上面的这些信息,最后将结果存储在 数据库 mongo 中,最终的存储效果为:

接下来开始介绍整个的爬取流程

(二)爬取流程

1.网页特点分析

在商品页面右键查看源代码,会发现找不到需要的信息,便可以猜测其是通过ajax或者其他的方式来加载的。因此,采用selenium 和 pyquery 来爬取商品信息。

2.代码分析

2.1 导入相关的库

2.2 进行必要的初始化

2.3获取网页

首先分析网页的特点,右键 ― 查看元素,首先找到页面下方的切换网页的地方

其对应的源代码如下:

2.4获取商品信息

首先分析网页,发现商品的信息都存储在 id ="mainsrp-itemlist"?

其下面的 class = "items" 的每一个子节点 class = "item" 均代表一个商品,点开每个标签,即可看到详细信息

获取商品信息的代码如下:

2.5 存储

将最终的结果存储到 非关系型数据库 Mongo ?中

2.6主函数

2.7运行整个程序

?

2.8最终结果

?

最终爬取了4800条数据

欢迎关注,获取更多实用技能: ?

?


..互助群最新2023,互助群最新2023,微信小程序互助微信群二维码,在我们的天猫618 理想生活狂欢季互喵币每天几次里,每天参与活动和游戏,大家玩得很开心。加入我们,你可以和新朋友一起度过欢乐的时光,让生活更有趣味!