日志文件分析是任何技术和现场SEO审计的重要组成部分。日志文件是唯一100%准确的数据,当涉及到真正了解机器人是如何爬行你的网站。通过日志分析,你可以比简单的抓取更进一步,获得更高的排名,获得更多的流量、转化和销售。
日志文件实际上是由web服务器输出的文件,其中包含“点击”或服务器收到的所有请求的记录。存储数据并提供有关发出请求的时间和日期、请求的URL、用户代理、请求ID地址和其他信息的详细信息。
让我们看看日志文件分析的优点以及如何免费进行分析。
日志文件分析的优点
日志文件分析可以帮助您了解搜索引擎如何抓取网站及其对SEO的影响。这些见解对提高你的可抓取性和SEO性能有很大帮助。有了这些数据,你就可以分析抓取行为,确定一些有趣的指标,比如:
你的爬行预算是否有效使用?
在抓取过程中遇到了哪些可访问性错误?
爬行不足的地方在哪里?
哪些是我最活跃的页面?
谷歌不知道哪些页面?
这些只是日志文件分析机会的几个例子。b谷歌确实有一个爬行预算。设置正确的改进将帮助您节省预算,并帮助谷歌抓取正确的页面并更频繁地访问。
以下是你应该注意的一些指标:
SEO访问次数
日志分析有助于确定网站上收到的SEO访问次数(来自自然结果)。这些是产生流量的页面。这些页面是正确的吗?你最有价值的页面是否为你的网站带来了自然流量?这是一个非常可行的指标。
爬行的频率
日志还允许您确定机器人抓取的数量,或者换句话说,Googlebot, Bingbot, Yahoo, Yandex或任何其他引擎在一段时间内实现的请求数量。抓取量显示网站被访问的频率。这个指标有助于观察添加新内容是否增加了机器人的访问量。抓取频率的突然下降可以警告你网站上可能会阻止这些访问的变化。
代码响应中的错误
日志数据分析还可以帮助跟踪状态码(如4xx或5xx)中的错误,这些错误会影响SEO。分析网站的状态码也有助于衡量它们对机器人点击率和频率的影响。太多的404错误会限制爬虫的访问。
抓取优先级和活动页面
日志分析还可以帮助确定谷歌眼中最受欢迎的页面,并查看哪些页面被抓取的次数较少。因此,这些信息可以帮助了解它是否经常被机器人访问的最重要的页面。这样可以避免忽略网站的某些页面或部分。
实际上,日志分析可以突出显示机器人不经常抓取的url或目录。例如,如果用户希望他的博客的特定出版物在目标查询中排名,但该出版物位于谷歌每六个月只访问一次的目录中,那么他将错过至少六个月从该出版物获得有机流量的机会。如果是这样的话,他就会知道有必要重新定义他的内部链接来推送他的“最有价值的页面”。
日志分析还可以帮助您了解最活跃的页面,或者换句话说,获得更多SEO访问的页面。
资源爬行和预算浪费
日志分析还可以帮助您确定爬行预算在文件类型中的使用情况。谷歌是否花了太多时间来抓取图像?
抓取预算是指搜索引擎每次访问您的网站时抓取的页面数量。这个预算是链接到域名的权威,你的网站的理智,是成比例的流量链接权益通过网站。
实际上,这种抓取预算可能会浪费在不相关的页面上。假设你每天有100单位的预算,那么你希望这100单位花在重要的页面上。
如果机器人在你的网站上遇到太多的负面因素,他们就不会经常回来,你就会把你的抓取预算浪费在无用的页面上。如果你有新鲜的内容,你想要索引,但没有预算,那么谷歌不会索引它。
这就是为什么你想通过日志分析来观察你的抓取预算花在哪里,并优化你的网站以增加bot的访问量。
最后爬行日期
日志文件分析告诉谷歌最后一次抓取特定页面以及用户希望快速索引该页面的时间。
日志文件分析:做它免费
您可以使用像OnCrawl ELK这样的开源日志分析器来审计您的SEO。它会帮助你发现:
由谷歌抓取的唯一页面
按页面组抓取频率
监控状态码
发现活动和非活动页面。
例如,如果你有一个托管在OVH上的网站,你已经设置了日志,以便根据主机类型区分它们,下面是过程:
1:安装Docker
安装Docker工具箱
选择“Docker快速启动终端”启动
复制/粘贴IP地址192.168.99.100
下载爬虫-麋鹿发布:https://github.com/cogniteev/oncrawl-elk/archive/1.1.zip
添加以下几行来创建一个目录并解压缩文件:
MacBook-Air:~ cogniteev$ mkdir oncrawl-elk
MacBook-Air:~ cogniteev$ cd oncrawl-elk/
MacBook-Air:oncrawl-elk cogniteev$ unzip ~/Downloads/oncrawl-elk-1.1.zip
然后:
mac - air:oncrawl-elk cogniteev$ cd oncrawl-elk-1.1/
oncrawl-elk-1.1 cogniteev$ docker-compose -f docker-compose。Yml up -d
docker -compose将从docker hub下载所有必需的映像,这可能需要几分钟。启动docker容器后,您可以在浏览器中输入以下地址:http://DOCKER-IP:9000。确保将DOCKER-IP替换为之前复制的IP。
您应该看到OnCrawl-ELK仪表板,但还没有数据。让我们拿一些数据来分析。
2:导入日志文件
导入数据就像将日志访问文件复制到正确的文件夹一样简单。Logstash开始自动索引logs/apache/*.log, logs/nginx/*.log中找到的任何文件。
Apache / Nginx日志
如果你的服务器是由Apache或NGinx驱动的,确保格式是组合日志格式。它们应该是这样的:
127.0.0.1 - - [28/Aug/2015:06:45:41 +0200] “GET /apache_pb.gif HTTP/1.0“ 200 2326 “http://www.example.com/start.html“ “Mozilla/5.0(兼容;Googlebot / 2.1;+ http://www.google.com/bot.html)”
将.log文件放到logs/apache或logs/nginx目录下。
3:玩
回到http://DOCKER-IP:9000。你应该有数字和图表。恭喜!
现在,您可以开始使用免费的开源日志分析器,并每天监控您的SEO性能。如果你有任何问题,请留下评论。让我们知道你的结果如何。