帮助企业成功,是我们的梦想!

制作robots.txt的注意事项

欢迎来到搜外,我是夫唯这节课,我们讲制作robots.txt的注意事项:

robots.txt是什么呢?

我们可以这样来理解这个文件,我们做了一个网站,这个网站上面有一部分内容允许搜索引擎收录,有一部分内容不允许搜索引擎收录,那么我们把这样的一个信息放在哪里让搜索引擎知道呢?

于是呢互联网上就有一个共同的协议,我们把这个文件叫做许可文件,搜索引擎来抓取一个网站的时候,他首先第1件事情要去看一下这个网站它的robots文件,robots文件就知道你这个网站哪些页面允许我抓取哪些页面不允许我抓取,那有些同学说显然做的网站所有的页面都允许搜索引擎抓取呀,还有不允许它抓取的吗?

但是你想想比如支付宝这样的网站,它上面涉及到大量的交易信息,个人信息那显然有很多的页面是不允许抓取的。还有一个比较有名的就是淘宝,我们在百度上搜索淘宝的商品页面,宝贝的页面是搜索不到的,容易是因为淘宝他主动的屏蔽了搜索引擎的抓取和收录那哪些页面抓取?

哪些页面要让搜索引擎抓取?

这个信息写在哪里呢?

就是写在robots.txt文件,robots.txt这个文件怎么来做?我们来看一个案例,刚才我们提到的这个淘宝txt制作的方法就是做一个记事本,以txt为结尾,然后呢,把它命名叫做:robots.txt,这个命名必须是要小写的.

命名的名称是不能变,不能说我叫robots1或者robots2是不行的,必须就这个名字做完了之后就把这个文件上传到网站的根目录下面,上传上去之后通过一个域名后面带上这个地址就可以正常的访问到,所以搜索引擎给网站就达成了这样的一个一致的一个协议,就是我每次抓取一个网站的时候,我就主动的来到这个网站的目录下去找这个文件,如果有这个文件,我就来看他的网站里面哪些允许我抓取那些,不允许我抓取,我就按他的规则来进行。

如果没有做这个文件呢,那他就是默认全部都允许抓取,所以制作robots.txt特别简单,就是做一个记事本把内容写进去,然后上传到网站根目录通过www.XX.com/robots.txt你能够正常访问到那就OK了.

《制作robots.txt的注意事项》

 

 

 

 

 

制作这个文件有哪些注意事项呢?

我们当然是要看案例来说明问题,首先第1个事情呢就是如果我们所做的这个工作是针对所有搜索引擎的,那么我们就用*号(User-agent: *)来表示有的搜索引擎。用户代理那这后面信号就代表我针对的是所有的诉讼权如果我要把它分开,百度的是一套,Google的时间为一套,要写多个像淘宝的,这个他就是针对百度的,这是真的,这下面还真有bingbot,在robots里面我们刚才看到一个叫做Allow这个啊,他在上面有一个允许允许抓取目录下的文章,允许抓取这个目录下的文章,允许抓取这个目录下的文章。

Disallow就不允许不允许抓取产品以及之外的所有人页面。那当Disallow和allow,两个同时存在的时候优先级是谁呢?
优先级是这样,就是你允许的先都可以抓取,然后剩下的都是不允许的,所以像淘宝的这种写法,他的这个所有的,然后里面允许了一部分,那就是这个是先抓住,剩下的就是按他所说的更不允许。
我们做robots.txt,里面至少要屏蔽一个,不能说我做robots.txt一个都不屏蔽,不屏蔽就是不太好的,里面至少有屏蔽一个,
哪一个同学说我什么都没有要屏蔽的呀那怎么办?
我们就至少可以屏蔽两个页面,一个是搜索结果一般网站上面都有一个搜索界面的意思,
就是在我们网站上面有个搜索框里面输入一个关键词之后,它就会产生一个新的新的页面,这个页面往往是在搜索结果页后面再带上参数,所以我们可以直接把搜索结果又屏蔽了,
就避免了网站上面产生大量的低质量内容被说成收入,

视频教程:https://www.seowhy.com/play/3349.html
打赏

点赞
     

博主作者:梁永昌 (QQ/微信号:1558154330 )
博主提供 南宁seo优化,企业网站排名优化,seo推广,网络营销,网站建设,微信小程序开发。
我们的梦想就是帮助企业快速增长,我们是企业的搬运工,神奇快速的搬运工。
业务洽淡 QQ/微信号:1558154330

发表评论

电子邮件地址不会被公开。 必填项已用*标注