制作robots.txt的注意事项

欢迎来到搜外,我是夫唯这节课,我们讲制作robots.txt的注意事项:

robots.txt是什么呢?

我们可以这样来理解这个文件,我们做了一个网站,这个网站上面有一部分内容允许搜索引擎收录,有一部分内容不允许搜索引擎收录,那么我们把这样的一个信息放在哪里让搜索引擎知道呢?

于是呢互联网上就有一个共同的协议,我们把这个文件叫做许可文件,搜索引擎来抓取一个网站的时候,他首先第1件事情要去看一下这个网站它的robots文件,robots文件就知道你这个网站哪些页面允许我抓取哪些页面不允许我抓取,那有些同学说显然做的网站所有的页面都允许搜索引擎抓取呀,还有不允许它抓取的吗?

但是你想想比如支付宝这样的网站,它上面涉及到大量的交易信息,个人信息那显然有很多的页面是不允许抓取的。还有一个比较有名的就是淘宝,我们在百度上搜索淘宝的商品页面,宝贝的页面是搜索不到的,容易是因为淘宝他主动的屏蔽了搜索引擎的抓取和收录那哪些页面抓取?

哪些页面要让搜索引擎抓取?

这个信息写在哪里呢?

就是写在robots.txt文件,robots.txt这个文件怎么来做?我们来看一个案例,刚才我们提到的这个淘宝txt制作的方法就是做一个记事本,以txt为结尾,然后呢,把它命名叫做:robots.txt,这个命名必须是要小写的.

命名的名称是不能变,不能说我叫robots1或者robots2是不行的,必须就这个名字做完了之后就把这个文件上传到网站的根目录下面,上传上去之后通过一个域名后面带上这个地址就可以正常的访问到,所以搜索引擎给网站就达成了这样的一个一致的一个协议,就是我每次抓取一个网站的时候,我就主动的来到这个网站的目录下去找这个文件,如果有这个文件,我就来看他的网站里面哪些允许我抓取那些,不允许我抓取,我就按他的规则来进行。

如果没有做这个文件呢,那他就是默认全部都允许抓取,所以制作robots.txt特别简单,就是做一个记事本把内容写进去,然后上传到网站根目录通过www.XX.com/robots.txt你能够正常访问到那就OK了.

 

 

 

 

 

制作这个文件有哪些注意事项呢?

我们当然是要看案例来说明问题,首先第1个事情呢就是如果我们所做的这个工作是针对所有搜索引擎的,那么我们就用*号(User-agent: *)来表示有的搜索引擎。用户代理那这后面信号就代表我针对的是所有的诉讼权如果我要把它分开,百度的是一套,Google的时间为一套,要写多个像淘宝的,这个他就是针对百度的,这是真的,这下面还真有bingbot,在robots里面我们刚才看到一个叫做Allow这个啊,他在上面有一个允许允许抓取目录下的文章,允许抓取这个目录下的文章,允许抓取这个目录下的文章。

Disallow就不允许不允许抓取产品以及之外的所有人页面。那当Disallow和allow,两个同时存在的时候优先级是谁呢?
优先级是这样,就是你允许的先都可以抓取,然后剩下的都是不允许的,所以像淘宝的这种写法,他的这个所有的,然后里面允许了一部分,那就是这个是先抓住,剩下的就是按他所说的更不允许。
我们做robots.txt,里面至少要屏蔽一个,不能说我做robots.txt一个都不屏蔽,不屏蔽就是不太好的,里面至少有屏蔽一个,
哪一个同学说我什么都没有要屏蔽的呀那怎么办?
我们就至少可以屏蔽两个页面,一个是搜索结果一般网站上面都有一个搜索界面的意思,
就是在我们网站上面有个搜索框里面输入一个关键词之后,它就会产生一个新的新的页面,这个页面往往是在搜索结果页后面再带上参数,所以我们可以直接把搜索结果又屏蔽了,
就避免了网站上面产生大量的低质量内容被说成收入,

视频教程:https://www.seowhy.com/play/3349.html

网站地图制作sitemap的注意事项_sitemap是什么?

欢迎来到搜外,我是夫唯这节课我们介绍制作sitemap的注意事项,sitemap是什么呢?

我们做了一个网站,这个网站上面有非常多的链接,那为了让搜索引擎更好的来爬取我们的网站,于是我们就做了一个页面把网站上面所有的链接都放在一个页面上,形成一个链接的集合.

这样的一个页面我们叫做sitemap也就是网站地图.

做这个网站地图的目的就是为了方便搜索引擎来抓取我们的网站上面所有的页面.

那怎么做一个网站地图,有两个工具:第一个工具叫做:老虎sitemap,咱们说的这个搜外seo工具大全上面可以有一个下载地址叫老虎sitemap.

第2个工具叫做:小爬虫sitemap这个是在线版本这个是软件那这两个工具就可以制作出一个网站的所有的链接的集合。

做出一个sitemap网页.

让我们重点来介绍做sitemap的注意事项:

首先做sitemap它有两种页面形式:

一种是TXT的一种是xml的。

sitemap.txt/sitemap.xml

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

看一下类似这种把链接,所有的都这样列在里面一个记事本他是以TXT为结尾这种里面就是TXT的sitemap。

还有一种呢是这样的,那他的页面的形式是以。xml结尾的它里面的内容不是单纯的一个链接,一个链接的列表上是这种的形式存在那这种呢,就是xml不是的,一共有两种,那这两种都可以,搜索引擎都接受,如果是普通的企业网站,我建议简单的就直接用TXT就行了.

如果是比较大型的网站,那就采用xml格式的好一点,在做这个网站地图的时候不管是TXT的还是XML的注意事项就是我们在摆放这些链接的时候呢,可以采用倒叙的方式时间倒序的方式来摆放。

我们看一下这个啊,这个ID号是109,

下一个是108,

再下一个是107,

再下一个是106,

那我们看它这个时间它是按时间倒序来排列的,也就是说一个网页在我们的网站上面,它发出的时间越往后在我们的网站地图里面摆放的是越靠前,我们再看一下咱们搜外问答的这个TXT一样似的,这个IP是比较大,越往下越小,为什么这么放呢?

因为搜索引擎来抓取我们这个网页的时候,它也是从上到下来抓去,而我们的这些后面才发的链接往往说成就是还没有机会收录到,所以我们就把它放在网站地图的前面,以方便被搜索引擎更好的抓取到。

网站地图做完了之后要多长时间更新一次呢?

这个取决于我们所用的这个网站系统以及程序员给我们开发的这个网站地图更新的频率,如果说我们的企业网站,它没有自动更新完善网站功能,那我们就需要手动的用刚才我们所说的那两个工具每周来更新下,然后更新到网站的这个网站地图里面每周更新手动更新一次。

如果能够做到系统自动更新,那当然每天或者我们每次网站上有新更新的时候就把网站地图更新一下,这是最好的。

那做好了sitemap之后呢,要记得把它放入到我们网站的这个robots.TXT里面,robots.TxT它是相当于搜索引擎,每次来访问一个网站,抓取一个网站,它第1件事情会先来到这个网站的robots.TxT这个文件里面。

也就是我们在网页上设置这么一个网页,这个网页是搜索引擎每次来抓取我们网站之前,他都会第1件事情来抓取的页面抓取的时候呢,它一方面会看到我们的网站上面哪些页面不允许收录,

Disallow开头这些是不允许收录的,哪些页面是允许搜索引擎收录那些是希望搜索引擎收录,就是下面这些以sitemap开头的,后面这个就是希望搜索引擎来收录的,所以我们做了sitemap之后就要记得把这个放入到robots.txx里面,

别外一个就是需要把我们这个sitemap网站地址:https://www.ttjseo.com/sitemap.txt就相当于刚才我们做的这种网站地址要提交给搜索引擎,各个搜索引擎它都有站长平台,百度资源平台或者Google管理员工具都有类似这样的平台,我们就把网站地图地址提交在里面就可以了.

那在这个里面sitemap.xml格式的网站地图里面,

 

权重因子:

它有一个叫权重因子的东西在这里面我们可以看到这个东西,我们称之为权重因子,首页它的权重因子一定是1,然后内页或者栏目页我们可以由自己来定,。内页我们就把它定义为0.8栏目页我们就给它定义为0.9,所以这个要注意一下,不要全部都是0.8,0.9也不要是全部的权重因子都是1。

sitemap一个网页里面最多是放5万条,就类似这样的网页,他最多放5万条,不是无限的方所以呢,当我们的网站的页面数已经超过了5万,那怎么办呢?

我们就可以分门别类的做很多个网站地图,你比如我们就说外问答他的问问题是一个网站地图,它的文章是个文章的地图,它是话题系统他做了话题网站地图,一共做了三个网站地图,然后呢,把这多个sitemap一起都放到robots.txt里面好那以上这些呢,就是给大家介绍的sitemap注意事项。

网站301如何实现,301怎么判断

我们讲如何实现301,301怎么判断,我们上节课说了,为了给网站做好首选域,那最简单直接的方法就是网站要做一个301,网站的首选域就已经做好了。

301那么那怎么做呢?

我们先来说一下怎么来判断网站已经做好了301,我们在浏览器上面输入baidu.com没有带WWW那输入完了之后按回车。你看到了他地址栏上面就变成www.baidu.com。这样的自动跳转就叫做301。

那我们看到了很多大型的网站都有这样301的实现,终极的目的就是为了实现首选域为了集中权重,为了让所有的排名和收录都集中到首选域上面。

我们国内的这个搜索一大部分都是采用带WWW域名来的,这是判断301的方法。

那么如何实现呢?

有这么几种情况:如果说你用的是虚拟主机,那么在idc服务商那边,比如西部数码阿里云啊,腾讯啊,等等这些idc服务商的网站上面,他们都有一个功能就是301开启这个功能,然后输入不带WWW域名之后它就会跳转过来了.

如果说你采用的是云服务器,那么你可以采用一个工具叫做云帮手或者宝塔在百度上搜一下这两个工具,可以用来管理这个云服务器,这两个工具上面就有这个301的功能,如果说你用来做网站的这个系统或者是搜外6系统,那我们已经实现了自动的301。

如何确认网站首选域_网站首选域是什么?

为这节课我们讲如何确定网站首选域,首选域是什么?

首先我们说首选域是什么?

我举两个案例在百度搜索一下“搜外”的时候看到是带了WWW的排名是www.seowhy.com,

 

 

 

 

 

 

 

 

 

在百度上搜WordPress搜到不带WWW的是WordPress.org, 那么首选域的概念就是指搜索一个网站的品牌词和核心词它参与排名的是哪一个的域名?

那这个域名就是这个网站的首选域,就是让搜索引擎在排名和收录的时候,就以我们首选域为主要的链接来进行排名和收录。

 

如何来确定一个网站的首选域呢?

我们建议说采用带WWW作为网站的首选域,因为我们中国的网民他比较习惯用带WWW域名这是最主要的。

另外一个就是我们平时在交换链接或者做一些各方面的推广的时候,人们也都是很习惯的带WWW的域名,所以如果你用不WWW的域名就损失很多的权重。在搜索引擎的这个索引库里面带WWW的域名和不带WWW域名,他是去判断这两个域名获得的站内站外的链接的数量来确定谁是首选域。

所以我们在做这个首选域的时候,实际上我们是提前来确定好我们想要用哪一个域名,然后呢,在站内站外做推广的时候就指定的给我们已经内定好的就是首选域来做推广,这样就能够避免掉权重的流失。

所以我们中国网民的习惯带WWW域名,那么我们自己在设置我们网站首选域的时候就在一开始就选了,带三个域名来做什么那就会避免了权重的流失和浪费。

有些同学在运营的过程中会发现某一段时间内不带www域名他表现比较好,比如说收录比较多,比如说排名比较好,然后呢,他就开始动摇了,想要换回去不带WWW的域名,那我建议尽量不要修改,依然保持用带WWW的域名。

那确定了某一个域名作为首选域之后,要做哪些操作才能够把这个事情确定下来呢?

1.个操作就是制作一下301,比如咱们同学在百度上搜索一下百度,看到搜索结果里面百度的这个,所以它是带www.baidu.com,那你如果说在浏览器里面输入baidu.com没有带上,它就会自动跳转到百度WWW上这个实际上它就是它已经做好了301,301怎么做?做301就是做首选域最有效最直接最简单的方法。

2.个就是咱们在做站内和站外链接的时候就要有意识的带WWW域名来做,有的时候网站是相对地址,那这个时候可以不用去带www域名,如果是采用的绝对地址或者说在外面去找别人有些链接做外链,外推。这个时候就要有意识的用带WWW域名。来做我们这个外推的域名。

3.个就是我们网站的地图里面要写明白,网站首选域的域名的各个连接。

4.个就是在给熊掌号或者搜索引擎的各个平台来给你做推送的时候那是一定要采用网站首选域的。