Allow: /
User-agent: *
Disallow: /
只允许谷歌蜘蛛爬取网站,其他搜索引擎禁止爬取 。User-agent: Googlebot
Disallow: /
User-agent: *
Allow: /
除了谷歌不可以抓?。?其他搜索引擎均可爬取网站 。User-agent: *
Disallow: /abc.html
禁止所有搜索引擎抓取abc这个html页面;此规则可用于禁止抓取网站中某个页面 。User-agent: *
Disallow: /images/abc.jpg
禁止所有搜索引擎抓取网站images目录下的abc这个jpg图片 。禁止抓取某个页面或者图片等文件,需要正确填写所在位置 。User-agent: Googlebot
Disallow: /*xls$
禁止谷歌抓取网站中所有以xls为结尾格式的文件 。
使用robots.txt的注意事项
- 如果使用robots.txt协议,首先一点就是确保配置正确 , 不要影响到正常内容的抓取 。网站如果长时间没被谷歌收录,有可能就是因为robots.txt配置错误导致的 。
- 为了方便搜索引擎查找、识别,robots.txt一般放在网站的根目录中最好 , 也就是空间最开始的文件目录里 。
- robots文件,必须是txt格式结尾,并且全称为robots.txt,不要大些首字母变成Robots.txt或者其他任何形式 。
- robots.txt规则主流搜索引擎都会遵守,但不排除有些网站或者软件的爬虫会忽视这个文件,比如一些内容采集软件就不会遵守规则,所以不要指望robots规则可以把这类软件拦截在外 。
- 如果有些页面信息是比较私人的或者含有隐私,不要把它添加到robots文件内容中,虽然搜索引擎不会抓取,但访客是可以直接打开robots文件,查看到该页面地址的 。
- 如果一个网站有二级域名,那么二级域名的网站也是需要配置robots.txt文件的,如果它含有不想被抓取的内容,主域名配置的robots文件对二级域名不起作用 。
- robots.txt最好含有sitemap地址,能够帮助搜索引擎更快地找到网站的站点地图 。站点地图利于搜索引擎的抓取和收录,网站如果还没有sitemap , 可以参照此篇文章进行创建:Sitemap站点地图生成工具
制作robots.txt文件的方法很简单:在电脑桌面创建一个txt文本,然后命名为robots即可 。书写规则内容时,注意:
- 每行一个规则指令,如果是两段规则,中间空一行;
- 使用英文输入法,不要使用中文输入法,: 号后面空一格 。
User-agent: *
Disallow: /(第一段)
【robots.txt是什么,robots协议怎么写配置,robots文件怎么写,robots协议的用途】User-agent: Googlebot
Allow: /(第二段)
如何提交robots.txt给谷歌
网站中已经有了robots.txt文件,可以通过robots测试工具提交给Google,让其尽快识别 。打开工具:https://www.google.com/webmasters/tools/robots-testing-tool,选择资源(先得到谷歌站长工具中验证网站所有权):

文章插图
测试无误后,点击提交:

文章插图
Tags:robots.txt robots协议
推荐阅读
- 好吃开胃,在夏天家中必备的五种水果是什么
- 万国觉醒部队容量是什么意思,万国觉醒高级军队扩编什么意思
- 王一博第四张单曲怎么买,王一博的第一支单曲是什么
- 收货时寄件享8折是什么意思,京东可享一次上门取件是什么意思
- 议论是什么表达方式
- 小米手环2屏幕解锁怎么用,小米手环5nfc屏幕解锁是什么意思
- 周海媚在香港,算是什么级别的女演员?
- fpy是什么梗
- 贝利亚压迫感是什么梗,王者充满压迫感的名字
- 汨怎么读拼音是什么意思
