本公式适用于Windows7+环境,WPS 2016及以上版本 或 Excel 2007及以上版本
GetXPathW()(Url)
其中Url指待抓取网页地址
GetWebContentByXPathW(Url, XPath)
其中XPath指的是网页XPath地址,可通过GetXPathW()返回地址。这里不能直接使用Firefox或Chrome浏览器拾取的XPath,存在差异,导致无法正确返回结果。示例:如何查汉字拼音和音标
GetWebContentByIdW(Url, XPath)
视频教程:淘宝网页抓取
GetWebContentByClassNameW(Url, XPath)
GetImgW(Url, Filter)
其中Filter指筛选关键词,如果设置了Filter,那么函数仅返回包含了Filter关键词的图片地址。
GetLinkW(Url, Filter)
其中Filter指筛选关键词,如果设置了Filter,那么函数仅返回包含了Filter关键词的Link地址。
基本原理:先通过GetXPathW()函数与Excel浏览器将待抓取网页的数据下载到本地数据库,再通过数据抓取函数抓取目标数据。这样做的好处是提供数据抓取效率,尤其是一个网页抓取的数据项比较多的情形。
网页数据抓取W系列函数,包括GetXPathW()、GetWebContentByXPathW()、GetWebContentByIdW()、GetWebContentByClassNameW()、GetImgW()、GetLinkW()等函数,其中W指Web browser的简称,指浏览器,W系列函数需要借助Excel浏览器。