网页数据抓取W系列函数

本公式适用于Windows7+环境,WPS 2016及以上版本 或 Excel 2007及以上版本

GetXPathW()(Url)

其中Url指待抓取网页地址

GetWebContentByXPathW(Url, XPath)

其中XPath指的是网页XPath地址,可通过GetXPathW()返回地址。这里不能直接使用Firefox或Chrome浏览器拾取的XPath,存在差异,导致无法正确返回结果。示例:如何查汉字拼音和音标

GetWebContentByIdW(Url, XPath)

视频教程:淘宝网页抓取

GetWebContentByClassNameW(Url, XPath)

GetImgW(Url, Filter)

其中Filter指筛选关键词,如果设置了Filter,那么函数仅返回包含了Filter关键词的图片地址。

GetLinkW(Url, Filter)

其中Filter指筛选关键词,如果设置了Filter,那么函数仅返回包含了Filter关键词的Link地址。

基本原理:先通过GetXPathW()函数与Excel浏览器将待抓取网页的数据下载到本地数据库,再通过数据抓取函数抓取目标数据。这样做的好处是提供数据抓取效率,尤其是一个网页抓取的数据项比较多的情形。

网页数据抓取W系列函数,包括GetXPathW()、GetWebContentByXPathW()、GetWebContentByIdW()、GetWebContentByClassNameW()、GetImgW()、GetLinkW()等函数,其中W指Web browser的简称,指浏览器,W系列函数需要借助Excel浏览器。

网页抓取公式视频教程

第一步,下载网页HTML源码

1、打开Excel浏览器,初次使用Excel浏览器时,需执行初始数据库动作,如下图所示。如遇初始化数据库失败,请确保已经关闭了Excel程序。
2、设置网页抓取模式,出现百度页面后,然后点开始任务。
3、打开Excel文件,使用GetXPathW()函数下载网页源代码,建议使用独立的Excel文件下载网页源代码,再使用其他Excel文件抓取数据。

第二步,抓取网页数据

创建一个新的Excel文件,然后使用W系列函数抓取网页
下载 淘宝数据抓取1.xlsx
下载 淘宝数据抓取2.xlsx
下载 淘宝商品抓取模板.xlsx
下载 京东工业品抓取模板.xlsx
下载 拼音音标抓取模板.xlsx