当我们制作网站时,一个完整的网站应该有301个重定向、404个页面和robots.txt文件,这些都是制作网站所必需的。那网站robots.txt文件的作用有哪些?如何编写网站robots.txt,一起来了解一下吧!
网站robots.txt文件的作用有哪些?
robots.txt协议(也称为爬虫协议、爬虫规则、机器人协议等。)它是存储在网站根目录下的TXT文本文档。这是网站和蜘蛛之间的协议。该文件告诉搜索引擎哪些页面可以被抓取,哪些页面不想通过机器人协议被抓取。
如果你的网站根目录中有一个像robots.txt这样的文件,蜘蛛在抓取你的网站时会首先访问这个文件(robots文件通常存储在根目录中,蜘蛛首先访问这个文件,所以这个文件非常重要)。robots文件用于告诉搜索引擎蜘蛛网站的哪些文件夹可以被检索,哪些文件夹不能被检索,从而确保我们网站的隐私内容不会被包括在内。
如何编写网站robots.txt?
1.robots文件的后缀必须是.txt;
2.robots文件应该存放在网站的根目录,而且所有字母都必须小写;
3.在写robots文件的时候,User-agent、Disallow、Allow、Sitemap这些词开头第一个字母必须大写,后面的字母则要小写;
4.特别注意,在:后面必须有一个英文状态下的空格。
robots.txt实例说明:
①禁止所有搜索引擎访问:
User-agent: *
Disallow: /
②禁止访问网站中的动态页面:
User-agent: *
Disallow: /*?*
注意:?表示动态路径,*表示所有。
③只允许搜索引擎爬虫访问网站首页:
User-agent: *
Disallow: /*
上一篇:新站怎么增加搜索引擎认可度?