robots.txt文件说明，针对于搜索引擎的优化！

robots.txt（统一小写）是一种存放于网站根目录下的ASCII编码的文本文件，它通常告诉网络搜索引擎的漫游器（又称网络蜘蛛），此网站中的哪些内容是不能被搜索引擎的漫游器获取的，哪些是可以被（漫游器）获取的。所以你可以告诉搜索引擎哪些是可以被搜索的，哪些是不可以被搜索的，还可以告诉搜索引擎你的网站地图的地址，这样对wordpress优化是很有用的。

就像这样：

Sitemap: http://www.****.com/sitemap.xml

目前对此表示支持的搜索引擎公司有Google, Yahoo, Ask and MSN。而中文搜索引擎公司，显然不在这个圈子内。这样做的好处就是，站长不用到每个搜索引擎的站长工具或者相似的站长部分，去提交自己的sitemap文件，搜索引擎的蜘蛛自己就会抓取robots.txt文件，读取其中的sitemap路径，接着抓取其中相链接的网页。

因为一些系统中的URL是大小写敏感的，所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为，那么可以将自定的设置合并到根目录下的robots.txt，或者使用robots元数据。

robots.txt协议并不是一个规范，而只是约定俗成的，所以并不能保证网站的隐私。注意robots.txt是用字符串比较来确定是否获取URL，所以目录末尾有和没有斜杠“／”这两种表示是不同的URL，也不能用”Disallow: *.gif”这样的通配符。

创建自己的 robots.txt 文件后，请用 robots.txt 作为文件名将其保存到网站域名的根目录下。漫游器会在此位置对您的文件进行检查。如果您将文件保存在其他位置，漫游器便无法找到文件。

您也可以使用任何文本编辑器手动创建此 robots.txt 文件。该文件应为 ASCII 编码的文本文件，而非 HTML 文件。文件名应使用小写字母。

robots.txt文件用法举例

最简单的 robots.txt 文件使用两条规则：

User-agent：应用下列规则的漫游器
Disallow：要拦截的网址

User-agent 行中应列出什么内容？

User-agent 是一种特定的搜索引擎漫游器。网络漫游器数据库列出了许多常用的漫游器。您可以将某一条目设置为应用于特定漫游器（通过列示名称）或应用于所有漫游器（通过列示星号）。应用于所有漫游器的条目应与下列条目类似：

User-agent: *

Disallow 行中应列出什么内容？

Disallow 行列出的是您要拦截的网页。您可以列出某一具体网址或网址模式。条目应以正斜杠 (/) 开头。

要拦截整个网站，请使用正斜扛。
```
Disallow: /
```
要拦截目录及其中的所有内容，请在目录名后添加正斜杠。
```
Disallow: /junk-directory/
```
要拦截某个网页，请列出该网页。
```
Disallow: /private_file.html
```
要从 Google 图片搜索中删除特定图片，请添加如下内容：
```
User-agent: Googlebot-Image  Disallow: /images/狗.jpg
```
要从 Google 图片搜索中删除网站上的所有图片：
```
User-agent: Googlebot-Image  Disallow: /
```
要拦截某一特定文件类型的文件（例如 .gif），请使用以下内容：
```
User-agent: Googlebot  Disallow: /*.gif$
```
要在阻止网站页面被抓取的同时仍然在这些页面上显示 AdSense 广告，请禁止除 Mediapartners-Google 以外的所有漫游器。这样可使页面不出现在搜索结果中，同时又能让 Mediapartners-Google 漫游器分析页面，从而确定要展示的广告。 Mediapartners-Google 漫游器并不与其他 Google User-agent 共享网页。例如：
```
User-agent: *  Disallow: /folder1/    User-agent: Mediapartners-Google  Allow: /folder1/
```

请注意，指令区分大小写。例如， Disallow: /junk_file.asp 会拦截 http://www.example.com/junk_file.asp，但会允许 http://www.example.com/Junk_file.asp。对每一个目录必须分开声明，而不要写成：“Disallow: /cgi-bin/ /tmp/”。

网站管理员必须使蜘蛛程序远离某些服务器上的目录——保证服务器性能。比如：大多数网站服务器都有程序储存在“cgi-bin”目录下，因此在robots.txt文件中加入“Disallow: /cgi-bin”是个好主意，这样能够避免将所有程序文件被蜘蛛索引，可以节省服务器资源。一般网站中不需要蜘蛛抓取的文件有：后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等

模式匹配

Googlebot（但不是所有搜索引擎）遵循某些模式匹配。

要匹配连续字符，请使用星号 (*)。例如，要拦截对所有以 private 开头的子目录的访问：
```
User-agent: Googlebot  Disallow: /private*/
```
要拦截对所有包含问号 (?) 的网址的访问（具体地说，这种网址以您的域名开头，后接任意字符串，然后是问号，而后又是任意字符串），可使用以下条目：
```
User-agent: Googlebot  Disallow: /*?
```
要指定与某个网址的结束字符相匹配，请使用 $。例如，要拦截以 .xls 结束的所有网址，请使用：
```
User-agent: Googlebot   Disallow: /*.xls$
```
您可将此模式匹配与 Allow 指令配合使用。例如，如果 ? 代表一个会话 ID，您可能希望排除包含 ? 的所有网址，以便确保 Googlebot 不会抓取重复网页。但是以 ? 结束的网址可能是您希望包含的网页的版本。在此情况下，您可以对 robots.txt 文件进行如下设置：
```
User-agent: *  Allow: /*?$  Disallow: /*?
```
Disallow: / *? 指令将阻止包含 ? 的所有网址（具体而言，它将拦截所有以您的域名开头、后接任意字符串，然后是问号，而后又是任意字符串的网址）。

Allow: /*?$ 指令将包含以 ? 结束的所有网址（具体而言，它将允许包含所有以您的域名开头、后接任意字符串，然后是问号 (?)，问号之后没有任何字符的网址）。

Robots META标签的写法：

Robots META标签中没有大小写之分，name=”Robots”表示所有的搜索引擎，可以针对某个具体搜索引擎写为name=”BaiduSpider”。 content部分有四个指令选项：index、noindex、follow、nofollow，指令间以“,”分隔。

INDEX 指令告诉搜索机器人抓取该页面；

FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去；

Robots Meta标签的缺省值是INDEX和FOLLOW，只有inktomi除外，对于它，缺省值是INDEX,NOFOLLOW。

除非注明，饮水思源博客文章均为原创，转载请以链接形式标明本文地址

本文地址： http://www.alonemonkey.com/robots-seo.html

本文链接：http://www.alonemonkey.com/robots-seo.html

Coder

猿，改变世界的动物！| 追梦人的梦想

robots.txt文件说明，针对于搜索引擎的优化！