电脑打开做的网站总显示404/上海专业的seo公司-黄石网站建设

也许爬我？网站爬虫是如何工作的。你可能听说过网站爬虫——你甚至可能对它有一个模糊的概念——但是你知道为什么它很重要，或者它和网络爬虫有什么区别吗？（是的，这是有区别的！）

当涉及到他们允许进入搜索结果的网站的质量时，搜索引擎变得越来越无情。

如果你不掌握优化网络爬虫（和最终用户）的基本知识，你的自然流量可能会付出代价。

一个好的网站爬虫可以告诉你如何保护甚至提高你网站的可见性。

以下是关于网络爬虫和网站爬虫你需要知道的事情。

内容

什么是网络爬虫？

网络爬虫是一种软件程序或脚本，可以自动搜索互联网，分析和索引网页。

也被称为网络蜘蛛或蜘蛛机器人，网络爬虫评估页面的内容，以决定如何在索引中优先考虑它。

谷歌的网络爬虫Googlebot一丝不苟地浏览网页，从一个页面链接到另一个页面，收集数据，并处理内容以包含在谷歌的搜索引擎中。

网络爬虫如何影响SEO？

网络爬虫会分析你的页面，并决定它的可索引性或排名性，这最终决定了你驱动自然流量的能力。

如果你想在搜索结果中被发现，那么准备好抓取和索引你的内容是很重要的。

你知道吗？AhrefsBot是一个网络爬虫，它：

每24小时访问超过80亿个网页

每15-30分钟更新一次

是排名第一的最活跃的SEO爬虫（全球第四活跃的爬虫）

网络爬虫实际上是如何工作的？

网络爬行大致有七个阶段：

1. URL的发现

当你发布你的网页（例如，你的站点地图），网络爬虫发现它，并使用它作为一个“种子”URL。就像发芽周期中的种子一样，这些起始url允许爬行和随后的爬行循环开始。

2. 爬行

在发现URL之后，您的页面将被调度，然后被抓取。像元标签、图像、链接和结构化数据这样的内容被下载到搜索引擎的服务器上，在那里等待解析和索引。

3. 解析

解析本质上意味着分析。爬虫机器人提取它刚刚抓取的数据，以确定如何索引和排名页面。

3 a。URL发现循环

URL发现循环也在解析阶段，但值得单独使用一小节。这是指将新发现的链接（包括通过重定向发现的链接）添加到爬虫访问的url队列中。这些都是有效的新“种子”URL，步骤1-3作为“URL发现循环”的一部分被重复。

4. 索引

在发现新URL时，对原始URL进行索引。索引是指搜索引擎存储从网页收集的数据。它使他们能够快速检索用户查询的相关结果。

5. 排名

索引页面在搜索引擎中排名基于质量、与搜索查询的相关性以及满足某些其他排名因素的能力。当用户执行搜索时，这些页面将被提供给用户。

6. 爬结束

最终，整个抓取（包括URL重新发现循环）会根据分配的时间、抓取的页面数量、链接深度等因素而结束。

7. 回顾

爬虫程序定期重新访问页面以检查更新、新内容或结构更改。

正如您可能猜到的那样，在此过程中发现和抓取的url数量在几个跃点内呈指数级增长。

你如何让搜索引擎首先抓取你的网站？

搜索引擎的网络爬虫是自主的，这意味着你不能触发它们抓取，也不能随意打开或关闭它们。

但是，您可以通过以下方式帮助爬虫：

XML站点地图

XML站点地图是一个文件，它列出了您网站上所有重要的页面，以帮助搜索引擎准确地发现和索引您的内容。

谷歌的URL检查工具

您可以要求谷歌考虑通过谷歌搜索控制台中的URL检查工具重新抓取您的网站内容。如果谷歌知道您的URL，但还没有抓取或索引它，您可能会在GSC中收到一条消息。如果是这样，找出如何修复“发现-目前未索引”。

IndexNow

而不是等待机器人重新抓取和索引你的内容，你可以使用IndexNow自动ping搜索引擎，如Bing， Yandex, Naver, Seznam。cz，是的，当你：

添加新页面

更新现有内容

删除过期页面

执行重定向

您可以通过Ahrefs网站审计设置自动IndexNow提交。

如何让谷歌更频繁地抓取更多的页面

搜索引擎抓取的决定是动态的，而且有点模糊。

虽然我们不知道谷歌用来确定何时或多久抓取内容的最终标准，但我们已经推断出三个最重要的方面。

这是基于b谷歌在支持文档和代表访谈中掉落的面包屑。

1. 优先考虑质量

谷歌PageRank评估链接到一个页面的数量和质量，将它们视为重要性的“投票”。

获得高质量链接的页面被认为更重要，在搜索结果中排名更高。

PageRank是b谷歌算法的基础部分。因此，你的链接和内容的质量在你的网站被抓取和索引的方式中起着很大的作用。

为了判断你网站的质量，谷歌会考虑以下因素：

内部链接

外部链接

页面的经验

要评估网站上链接最多的页面，请查看Ahrefs网站上的“最佳链接”报告。

注意“第一次看到”、“最后一次检查”这一栏，这些栏显示了哪些页面被抓取的次数最多，以及什么时候被抓取的。

2. 保持新鲜

b谷歌的高级搜索分析师约翰·穆勒表示……

搜索引擎以不同的速度抓取url，有时一天抓取多次，有时每隔几个月抓取一次。约翰·穆勒，搜索律师，b谷歌

但如果你定期更新你的内容，你会发现爬虫会更频繁地出现。

像谷歌这样的搜索引擎希望提供准确和最新的信息，以保持竞争力和相关性，所以更新你的内容就像在大棒上悬挂胡萝卜一样。

您可以通过检查谷歌搜索控制台中的抓取统计信息来检查谷歌处理更新的速度。

当你在那里的时候，看看“按目的”抓取的细分（即页面刷新和页面新发现的百分比）。这也将帮助你计算出你鼓励网络爬虫访问你网站的频率。

要查找网站上需要更新的特定页面，请前往Ahrefs网站浏览器中的Top pages报告，然后：

将流量过滤器设置为“谢绝”

将比较日期设置为最近一年或两年

查看Content Changes状态，更新页面时只做微小的修改

Top Pages向您展示了您网站上驱动最自然流量的内容。向这些页面推送更新将鼓励爬虫更频繁地访问您的最佳内容，并（希望）提高任何下降的流量。

3. 完善你的网站结构

通过逻辑站点地图提供一个清晰的站点结构，并支持相关的内部链接将有助于爬虫：

更好地浏览您的网站

理解它的层次结构

索引和排名你最有价值的内容

结合起来，这些因素也会让用户满意，因为它们支持简单的导航，降低跳出率，提高用户粘性。

下面是一些可能会影响你的网站在爬虫中被发现和优先级的因素：

什么是爬行预算？爬虫模仿人类用户的行为。每当他们访问一个网页，该网站的服务器就会收到ping信号。难以抓取的页面或网站会导致错误和缓慢的加载时间，如果一个页面被抓取机器人频繁访问，服务器和网站管理员会阻止它过度使用资源。

由于这个原因，每个站点都有一个抓取预算，这是一个抓取器可以和想要抓取的url的数量。网站速度、移动友好性和合理的网站结构等因素都会影响抓取预算的效果。

要深入了解爬行预算，请查看Patrick Stox的指南：何时应该担心爬行预算？

什么是网站爬虫？

像b谷歌这样的网络爬虫会抓取整个互联网，你无法控制它们访问哪些网站，或者访问的频率。

但你能做的是使用网站爬虫，就像你自己的私人机器人。

让他们抓取你的网站，发现并修复重要的搜索引擎优化问题，或者研究你的竞争对手的网站，把他们最大的弱点变成你的下一个机会。

站点爬虫基本上模拟搜索性能。它们可以帮助您了解搜索引擎的网络爬虫如何根据以下内容解释您的页面：

结构

内容

元数据

页面加载速度

错误

等

示例：Ahrefs Site Audit

Ahrefs网站审计爬虫为以下工具提供动力：RankTracker， Projects和Ahrefs的主要网站爬行工具：网站审计。

网站审核帮助seo：

分析170多个SEO技术问题

使用实时站点性能数据进行按需抓取

每分钟最多评估17万个url

排除故障，维护和提高他们在搜索引擎中的可见性

从URL发现到重新访问，网站爬虫的操作与网页爬虫非常相似——只是它们不是在serp中对你的页面进行索引和排名，而是在自己的数据库中存储和分析它。

您可以在本地或远程抓取站点。像ScreamingFrog这样的桌面爬虫可以让你下载和定制你的网站爬虫，而像Ahrefs网站审计这样的基于云的工具可以在不使用你的计算机资源的情况下执行爬虫——帮助你在修复和网站优化方面协同工作。

如何抓取你自己的网站

如果您想实时扫描整个网站以检测技术SEO问题，请在站点审计中配置抓取。

它将为您提供可视化的数据分解、站点健康评分和详细的修复建议，以帮助您了解搜索引擎如何解释您的站点。

1. 设置你的爬行

导航到Site Audit选项卡并选择一个现有项目，或者设置一个项目。

项目是您想要跟踪的任何域、子域或URL。

一旦你配置好了你的抓取设置——包括你的抓取计划和URL来源——你就可以开始你的审计了，一旦完成你就会收到通知。

这里有一些你可以马上做的事情。

2. 诊断主要错误

根据受影响的url数量，Site Audit中的Top Issues概述会显示最紧迫的错误、警告和通知。

通过这些工作，作为你的SEO路线图的一部分，将帮助你：

1. 点错误（红色图标）影响爬行-例如：

HTTP状态码/客户端错误

失效链接

规范的问题

2. 根据警告（黄色）优化你的内容和排名。

缺少全部文本

重定向链接

元描述过长

3. 通过通知（蓝色图标）保持稳定的可见性——例如：

自然流量下降

多个h1

可索引页面不在站点地图中

过滤问题

您还可以使用过滤器确定修复的优先级。

假设你有数千个页面缺少元描述。首先瞄准高流量页面，使任务更易于管理和有效。

转到站点审计中的页面资源管理器报告

选择高级过滤器下拉菜单

设置内部页面过滤器

选择“And”操作符

选择‘ Meta description ’和‘ Not exists ’

选择“自然流量bbbb100”

抓取网站最重要的部分

使用site Audit的200多个过滤器对你网站上最重要的页面（例如子文件夹或子域名）进行细分和归零——无论是你的博客，电子商务商店，甚至是赚取超过一定流量门槛的页面。

3. 加速修复

如果您没有编码经验，那么爬行您的站点并实现修复的前景可能会令人生畏。

如果你有开发支持，问题就更容易解决，但这就变成了与他人讨价还价的问题。

我们有一个新功能来帮助你解决这些头痛的问题。

即将到来的补丁是你可以在站点审计中自主修复的补丁。

标题更改，缺少元描述，网站范围内的断裂链接-当你面对这些类型的错误时，你可以点击“修补它”直接在你的网站上发布修复，而不必纠缠开发人员。

如果您对任何事情都不确定，您可以在任何时候回滚补丁。

4. 现场优化机会

使用网站爬虫审核您的网站，既要发现机会，也要修复漏洞。

改善内部链接

网站审计中的内部链接机会报告显示了相关的内部链接建议，通过获取每个抓取页面的前10个关键字（按流量计算），然后在其他抓取页面上查找它们的提及。

“源”页面是你应该链接的页面，而“目标”页面是你应该链接的页面。

你在你的内容之间建立的高质量连接越多，谷歌机器人就越容易抓取你的网站。

最终的想法

了解网站爬行不仅仅是一个SEO技巧——它是直接影响你的流量和投资回报率的基础知识。

知道爬虫如何工作意味着知道搜索引擎是如何“看到”你的网站的，这就是排名的一半。

相关文章：