乐淘游戏娱乐官网

  •    

当前位置:首页 >  站长 >  搜索优化 >  正文

  

看完秒懂robots.txt写法和注意事项

 2019-01-07 11:46  来源:乐呵seo 

 

robots.txt直接放在网站根目录下,是蜘蛛访问网站时,第一个抓取的文件。robots.txt是告诉蜘蛛网站的哪些文件允许抓取,哪些文件不允许抓取,甚至可以指定特定的蜘蛛能不能抓取特定的文件。没有抓取就没有收录,没有收录就没有排名。所以作为第一蜘蛛访问的文件,写好robots.txt是很重要的,写好robots.txt后,一定要再检查一两遍,以防出错。这里总结下robots.txt写法,让你看完秒懂robots.txt写法和注意事项

一.robots.txt具体作用

1.对搜索引擎做出规定,抓取或者不抓取。

2.由于有些信息规定了不让抓取,所以可以保护到一些必要的信息,比如:网站后台,用户信息。

3.节省搜索引擎抓取资源。

二.robots.txt规则

1.User-agent,用于告诉识别蜘蛛类型。比如,User-agent: Baiduspider 就是指百度蜘蛛。

各类蜘蛛列举如下:

百度蜘蛛:Baiduspider

谷歌机器人:GoogleBot

360蜘蛛:360Spider

搜狗蜘蛛:Sogou News Spider

雅虎蜘蛛:“Yahoo! Slurp China” 或者 Yahoo!

有道蜘蛛:Youdaobot 或者 Yodaobot

Soso蜘蛛:Sosospider

2.Allow,允许蜘蛛抓取指定目录或文件,默认是允许抓取所有。

3.Disallow,不允许蜘蛛抓取指定目录或文件。

4.通配符,“*”,匹配0或多个任意字符。

5.终止符,“$”,可以匹配以指定字符结尾的字符。

举个例子:下面是一个wordpress程序的robots.txt

User-agent: *

Disallow: /wp-admin/

Disallow: /wp-includes/

Disallow: /wp-content/plugins

Disallow: /wp-content/themes

Disallow: /feed

Disallow: /*/feed

Disallow: /comments/feed

Disallow: /*.js$

Disallow: /*?*

Sitemap: http://www.leheseo.com/sitemap.xml

解释:

User-agent: *:对所有搜索引擎都使用下面的规则。

Disallow: /wp-admin/:不让蜘蛛抓取根目录下的wp-admin文件夹。

Disallow: /*.js$:不让蜘蛛抓取根目录下所有的js文件。

Disallow: /*?*:不抓取所有的动态链接。

Sitemap: http://www.leheseo.com/sitemap.xml:给蜘蛛提供网站地图,方便蜘蛛抓取网站内容。

三.robots.txt注意事项

1.如果你希望搜索引擎收录网站上所有的内容,那么就不要建立robots.txt文件。

2.如果同时存在动态和静态链接,那么建议屏蔽动态链接。

3.robots.txt只能是屏蔽站内文件的,对站外文件没有屏蔽功能。

4.User-agent,Allow,Disallow,Sitemap的首字母都是大写的。

5.User-agent,Allow,Disallow,Sitemap的冒号后面都是有空格的,没有写空格直接写接下来的内容会出错。

6.网站通常会屏蔽搜索结果页面。因为搜索结果页和正常展示的内容页相比,标题和内容上相同的,而这两个页面链接是不同的。那搜索引擎该将这篇文章归属于哪个内链呢?这样就会造成内链之间相互竞争,造成内部资源损耗。

比如上面举的例子,那个wordpress程序,在没有设置伪静态,还是动态链接的时候,搜索结果页面链接都包含有/?s=,而 标题和内容 与 正常展示的动态链接内容页重复,可以通过Disallow: /?=*来屏蔽搜索结果页面。

而现在那个wordpress程序已经设置了伪静态,也设置了Disallow: /*?*,Disallow: /*?*本身就包含了Disallow: /?=*,所以Disallow: /?=*这句写不写都没有关系

7.建议屏蔽js文件。Disallow: /*.js$,以 .js 结尾的路径统统被屏蔽,这样就屏蔽了js文件。

8.路径是区分大小写的。Disallow: /ab/ 和 Disallow: /Ab/ 是不一样的。

9.robots.txt会暴露网站相关目录,写robots.txt时要考虑到这一点。

10.有些seo会将文件直接备份在服务器中,文件是 .zip 格式,然后在robots.txt中屏蔽。个人不建议这样,这就是明显告诉人家你的备份文件位置。建议文件和数据都备份到本地。

11.一些特殊规则对比:

①Disallow: /和Disallow: / ab (/后面有个空格,再有ab)是一样的,/后面多了个空格,蜘蛛之认空格前面那一段,就是Disallow: /,所以两个都是屏蔽整站的。

②Disallow: /ab和Disallow: /ab*是一样的。比如两个都能屏蔽http://域名/ab,http://域名/abc,http://域名/abcd。

③Disallow: /ab/和Disallow: /ab是不一样的。很明显,Disallow: /ab范围更广,包含了Disallow: /ab/。因为Disallow: /ab/只能屏蔽http://域名/ab/,http://域名/ab/....这样的路径,也就是只能屏蔽ab目录和ab目录下的文件不被蜘蛛抓取。

四.验证robots.txt文件的正确性和是否生效

当我们写好了robots.txt文件后,怎么确定文件的正确性呢?上传到服务器根目录后,怎么判断robots.txt文件是否生效了呢?这时我们可以借助百度资源平台Robots。比如输入乐呵SEO测试服网址,得到如下结果。

验证robots.txt文件是否生效

检测到robots.txt文件的内容

验证robots.txt文件的正确性

结果证明,http://wordpress.leheseo.com/robots.txt这个文件没有语法错误,并且已经生效了。

若是想测试某一个目录或者文件是否被屏蔽了,百度也是提供了工具的。如下图,由于 http://wordpress.leheseo.com 是测试服,我屏蔽了所有文件。所以无论我输入根目录下的任何目录或者任何文件,都是检测不到的,也就是说蜘蛛是抓取不到的。

输入了后台目录wp-admin:

后台目录检测结果:

经过测试,其他文件和目录页也检测不到,所以这个功能还是很好用的。

更多robots.txt内容,可以参考百度提供的文档哦。https://ziyuan./college/courseinfo?id=267&page=12

robots.txt写法和注意事项就总结到这里了,内容相对细致,结合了例子讲解会很容易看懂,希望对您有所帮助咯。

原创文章,作者:乐呵seo,如若转载,请注明出处:http://www.leheseo.com/seojiaocheng/282.html

责任编辑:A5大昊   /   作者:乐呵seo

申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!

相关文章

  • 解除网站Robots封禁全过程

    obots协议或者说robots文件对搜索引擎优化中非常重要,但设置出错可能会导致收录下降或不能正常收录。今天,小小课堂SEO自学网带来的是《【robots文件协议】解除Robots封禁全过程》。希望本次的百度SEO优化培训对大家有所帮助。

  • robots协议对网站、搜索引擎的重要性

    很多站长最头疼的一个问题就是,搜索引擎蜘蛛为什么不光顾自己的网站,或者光顾频率比较低。这样对网站收录的影响是比较大的,直接影响到网站的排名。先谈一下搜索引擎蜘蛛的工作原理吧,蜘蛛又称网络爬虫、网页蜘蛛、网络机器人,更生动的叫网页追逐者。一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些

    标签:
    robots.txt技巧
  • 了解robots文件,主动告诉搜索引擎该抓取什么内容

    导读:首先我们要了解什么是robots文件,比如,在安徽人才库的首页网址后面加入“/robots.txt”,即可打开该网站的robots文件,如图所示,文件里显示的内容是要告诉搜索引擎哪些网页希望被抓取,哪些不希望被抓取。因为网站中有一些无关紧要的网页,如“给我留言”或“联系方式”等网页,他们并不参

  • 怎样使用robots.txt 使用方法详解和文件配置

    robots.txt文件,提起这个概念,可能不少站长还很陌生:什么是robots.txt文件?robots.txt文件有什么作用?如何配置robots.txt文件?如何正确使用robots.txt文件?下面,就这些问题进行剖析,让你深入认识robots.txt文件。robots.txt文件是什么?r

    标签:
    robots.txt标签
  • 教你robots.txt设置方法技巧

    在SEO优化网站当中,做好robots.txt至关重要因为每个搜索引擎抓取网站信息第一步就是爬去robots.txt文件来引导搜索引擎爬取;合理的使用robots文件能够更好的集中网站的权重,避免一些不想被搜索引擎查看的文件抓取,是非常必要的一种SEO手段,但是好多做seo的朋友对于robots的文

    标签:
    robots.txt技巧
  • SEO快排实操流程经验分享

    搜索引擎它的排名原理是死的,但是我们人是活的,我们想在搜索引擎上分一杯羹那么就要清楚的知道它的排名原理,为什么它会给予你排名,同时,也要不断的摸索它的漏洞,从而赚取属于自己的流量。

    标签:
    seo优化技术
  • 揭秘SEO快排原理

    搜索引擎它的排名原理是死的,但是我们人是活的,我们想在搜索引擎上分一杯羹那么就要清楚的知道它的排名原理,为什么它会给予你排名,同时,也要不断的摸索它的漏洞,从而赚取属于自己的流量。

    标签:
    seo优化
  • 企业网站TDK标签标题优化如何设置才能获得较好的优化排名

    想要网站得到较好的点击量和曝光量,需要给网站进行TDK标签标题的设置,同时在优化过程中根据网站的排名情况需要适当的修改一下网站标题助于搜索引擎更好的优化排名。那么在修改网站标题的时候我们该怎么做呢?又该注意哪些方面呢?接下来乐偶官微建站小编给大家说明一下。

  • 新站交换较好的友情链接的方法和技巧

    新站我们知道它需要快速的建立一些外链,吸入一些蜘蛛,从而让网站有好的收录,这样都会让站点有不错的排名。当然,现在的外链比较难推广,我们可以利用友情链接代替,不过由于是新站,想要做好友情链接交换,还是有一定的技巧的。

  • 聊聊新网站SEO优化到底多长时间有收录和排名

    SEO优化人员都知道网站SEO优化见效时间比较慢,对于企业来说做SEO优化也想快速达到效果。而绝大多数企业网站要么从来没做过SEO优化,要么是搭建的新网站。那么网站多长时间有收录和排名呢?

  • seo推广方案解析 如何做才最有效果?

    随着互联网用户的搜索习惯被普及,搜索引擎用户及需求不断的增加,很多中小型企业不断使用各种营销推广手段来获取客户源。其中SEO推广手段较为受欢迎。今天小编就带来seo推广方案解析,希望大家喜欢。

    标签:
    seo推广
    seo案例

热门排行

创业好项目

信息推荐

扫一扫关注最新创业资讯