我们都在某种情况下我们必须在一个情况下从网站上提取数据。
在新的帐户或广告系列工作时,您可能没有数据或信息例如,创建广告。
在理想的世界中,我们将以易于进口的格式提供我们所需要的所有内容,着陆页和相关信息。 CSV,Excel电子表格或Google表。 (或者至少提供了我们需要的标签数据,可以将其作为上述格式之一导入的标签数据。)
但这并不总是如此。
那些缺乏的方式Web Scraping的工具 – 或者使用Python这样的编码知识来帮助任务 – 可能已经不得不诉诸繁琐的MA繁琐工作通常复制和粘贴可能是数百或数千个条目。
在最近的工作中,我的团队被要求:
向客户网站阅读低于客户的网站。下载超过150个新产品,分布在15个不同的页面上分布了150多个新产品.copy并将每个产品的产品名称和登陆页面URL粘贴到电子表格中。
现在,您可以想象任务是多么冗长,如果我们完成了这一点并手动执行任务。
不仅耗时,而且有人手动经历许多物品和页面,并物理地通过产品复制和粘贴数据产品,造成错误或两个的机会非常高。
然后需要更多的时间来查看文档并确保它没有错误。
必须有更好的方法。
好消息:有!让我告诉你我们是怎么做到的。
什么是importxml?
输入Google纸张。我希望您能够满足ImportXML函数。
根据Google的
支持页面
,importXML“从包含XML,HTML,CSV,TSV和的各种结构化数据类型中的任何一种从任何各种结构化数据类型导入数据RSS和Atom XML源。“
基本上,ImportXML的广告传票读数基本上是一个函数,允许您从网页刮擦结构化数据 – 没有所需的编码知识。
例如,它是快速且易于提取数据等页面标题,描述或链接,但也更复杂。
importxml如何帮助刮掉网页的删除元素?
函数本身非常简单,只有res两个值:
我们打算从包含数据的元素的
xpath
的网页的URL。
XPath
。
XPath代表 XML Path语言并且可用于在XML文档中浏览元素和属性。例如,例如,从https://en.wikipedia.org/wiki/moon_land中提取页面标题,我们会使用:
= importXML(“https://en.wikipedia.org/wiki/moon_landing”,“//标题”)
这将返回值:月亮登陆 – 维基百科。
或者,如果我们正在寻找页面描述,请尝试一下:
= importxml(“https://www.searchenginejournal.com/”,“// meta [@名= ‘描述’] / @内容”)
下面是一些最常见的的候选名单D有用XPath查询:页面标题:// titeapage元描述://元[@ name =’说明’] ///////////////////////////////////////////page链接:// @ href
请参阅ImportXML In Action 自从在Google单中发现ImportXML以来,它真正成为我们在许多日常任务的自动化中的秘密武器之一,从广告系列和广告创建到内容研究,更多。 此外,与其他公式和附加组合的函数可以用于更高级的任务,否则否则需要复杂的解决方案和开发,例如在Python中构建的工具。
但在这种情况下,我们会查看importxml在其最基本的形式中:从网页刮下数据。
让我们看看一个实际的例子。
想象我们已被要求创建一个搜索引擎日记的竞选活动。
他们希望我们宣传在网站的PPC部分下发布的最后30篇文章。
广告Continue读数下面
一定的简单任务,您可能说。
遗憾的是,编辑不能向我们发送数据并善意要求我们参考网站来源来源设定广告系列所需的信息。
如上所述我们的文章的开头,一种方法是要打开两个浏览器Windows – 一个与网站的Windows,另一方面与Google纸张或Excel一起使用。然后,我们将开始复制和粘贴文章的文章,并通过链接链接。
但是在Google单中使用ImportXML,我们可以实现相同的输出,几乎没有风险在一小部分时间内犯错误。
这里是如何。
步骤1:从新的Google纸张开始
首先,我们打开一个新的空白的Google纸张文件:
第2步:添加内容,您需要刮
添加页面的URL(或页面)我们希望从中刮掉信息。
在我们的情况下读数下方
,我们首先从
https://www.searchenginejournam.com/category/pay-per-click/ :
第3步:找到的XPath
我们发现元素的XPath的,我们要导入的内容进入我们的数据电子表格。在我们的示例中,让我们从最新30篇文章的标题开始。
前往铬。一旦徘徊在其中一个阿里的标题上克莱斯,右键单击并选择检查
这将打开Chrome浏览器开发工具窗口:
确保文章标题仍处于选中状态,并强调,然后再次单击鼠标右键,然后选择复制>复制XPath 。下面的广告传票读数步骤4:将数据提取到Google Sheets
返回Google Sheets文档中,介绍导入XML函数,如下所示:
= ImportXML(B1 ,“// * [开始 – 与(@id’标题’)]”)
要注意的几件事: 首先
,在我们的公式中,我们将页面的URL替换为对存储URL的单元格(B1)。 第二
,在复制Chrome时,这将始终是enc呈现双引号。
(// * [@ id =“title_1”])
但是,为了确保它不会破坏公式,双引号符号需要更改为单个报价符号。
(// * [@ id =’title_1′])
注意,在这种情况下,因为页面ID标题为每个标题更改文章(title_1,title_2等),必须略微修改查询并使用“启动”,以便使用包含“标题”页面上的页面上的所有元素。
这是什么在短时间内,在查询之后,这就是结果看起来像是这样的结果将数据加载到电子表格:
正如你可以看到,该列表的回报是有限元分析的所有文章在我们刚刚刮下的页面上(包括我之前的关于自动化以及如何使用
广告的自定义程序来改进Google广告活动
)。
读数下方
您可以将其应用于
刮擦任何其他信息需要设置广告活动。
让我们添加着陆页网址,
每篇文章的
精选赛段
,以及作者的名称我们的表格文档。对于登陆页面URL,我们需要调整查询以指定我们在附加到文章标题的HREF元素之后。因此,我们的查询看起来像这个:
= importXML(B1,“// * [开始 – 使用(@ID,’标题’)] / @ href”) 现在,附加’/ @ href’ XPath的末端。
voila!马上,我们对着陆页的网址:
您可以针对精选片段及作者姓名做同样的:
故障排除
一两件事要提防的是,为了能够充分拓展并填写电子表格通过查询返回的所有数据,填充数据的列必须有足够的单元格,没有其他数据。
在下面
下面的广告传票读数这与我们使用Arrayformula时的方式,对于扩展的公式,必须在同一列中没有其他数据。
结论
以及您有一个完全自动化,无差错的方式来刮掉(潜在)的方式任何网页,无论是需要的他的内容和产品描述,或产品价格或运费等电子商务数据。
在信息和数据可能是提供优于平均结果的优势时,刮网页和结构的能力以简单快捷方式的内容可以是无价的。此外,正如我们上面所见,ImportXML可以帮助削减执行时间并减少错误的机会。
此外,该功能不仅仅是一种可以专门用于 PPC任务的伟大工具
,但是,在许多需要Web刮擦的不同项目中可以真正有用,包括SEO和内容任务。 更多资源:
10 Google Sheets添加 – 使SEO工作更容易
如何构建链接分析鞋板在Google Shoths [免费模板]
PPC 101:PPC营销基础的完整指南
图像信用
所有屏幕截图,8月2021日