robots.txt。 - zhangziyueup - ITeye博客

`

zhangziyueup

浏览: 1168664 次

最近访客更多访客>>

qinjames

u012363178

woshiliukun

自己123456

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

全部博客 (1774)

社区版块

存档分类

2012-01 ( 5)
2011-12 ( 47)
2011-11 ( 141)
更多存档...

最新评论

怪兽00： lz说的挺实际！都得踏踏实实的工作！
IT人的前途

robots.txt。

阅读更多

robots.txt文件是放在网站的根目录下，作用是告诉搜索引擎网站的哪些文件，哪些目录可以被索引，哪些不要索引。因此，这个文件是相当的重要，正确书写好robots.txt文件，可以保证你的网页被搜索引擎正确地索引、收录。

书写robots.txt文件时，要使用纯文本的编辑器，使文件是纯文本的格式。robots.txt文件的结构还是比较简单的。它是由一行一行的纪录组成，每行由两个部份组成：
<Field> : <value>

<Field> 有两种，一个是User-agent，一个是Disallow

User-agent代表搜索引擎的名字，比如：
User-agent:googlebot
User-agent:Baiduspider
也可以用通配符*来代表任何的搜索引擎，即User-agent:*

Disallow代表要限制的文件或目录，比如：
Disallow:error.html
Disallow:/cgi-bin/
Disallow支持通配符，Disallow:/eagle 代表/eagle.html或/eagle/index.html都将被屏蔽。

一些例子如下：

允许所有的搜索引擎索引所有的文件

User-agent: *
Disallow:

不允许任何的搜索引擎索引任何文件

User-agent: *
Disallow: /

允许任何的搜索引擎，但禁止索引/cgi-bin/和/images/目录

User-agent: *
Disallow: /cgi-bin/
Disallow: /images/

禁止Google索引所有的文件

User-agent: googlebot
Disallow: /

可以直接察看网站的robots.txt文件，看看别人是如何写的。
百度的robots.txt

User-agent: Baiduspider
Disallow: /baidu

User-agent: *
Disallow: /shifen/dqzd.html

Google的robots.txt可就长的多了。

分享到：

反spam与spam间的较量 - | XmlHttp技术资料

2006-03-20 09:05
浏览 620
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

robots.txt用法与写法: robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果...

如何写robots.txt？: 在国内，网站管理者似乎对robots.txt并没有引起多大重视，应一些朋友之请求，今天想通过这篇文章来简单谈一下robots.txt的写作

robots.txt使用方法反爬虫 SEO.zip: robots.txt使用方法反爬虫 SEO.zip

robots.txt解析器_Ruby_下载.zip: robots.txt解析器_Ruby_下载.zip

搜索蜘蛛：什么是robots.txt，要怎么写？: 搜索蜘蛛：什么是robots.txt，要怎么写？

一个经典的wordpress的robots.txt的写法: 一个经典的wordpress的robots.txt的写法下载后直接复制就行了略微调一下也行的文件来自：www.52jiwai.com 分享时请注明来处！

搜索引擎机器人文件robots.txt让你的网站得到更好的优化: 搜索引擎机器人文件,上传到你网站的根目录,并改文件名为robots.txt即可..让你的网站更好的优化

robots.txt文件在线生成工具.zip: robots.txt可以告诉搜索引擎您的网站哪些页面可以被收录，哪些页面不可以被收录，如果您不想让搜索引擎收录您网站的某些内容，请用robots.txt文件指定搜索引擎在您网站上的抓取范围。此工具本人找了很久，源码...

如何写robots,robots.txt是一个纯文本文件: robots.txt是一个纯文本文件，在这个文件中网站管理者可以声明该网站中不想被robots访问的部分，或者指定搜索引擎只收录指定的内容。当一个搜索机器人（有的叫搜索蜘蛛）访问一个站点时，它会首先检查该站点根目录...

robots.js:用于robots.txt的用于node.js的解析器: setUrl ( 'http://nodeguide.ru/robots.txt' , function ( parser , success ) { if ( success ) { parser . canFetch ( '*' , '/doc/dailyjs-nodepad/' , function ( access ) { if ( access ) { // parse url

robots.txt详细介绍: robots.txt是一个纯文本文件，在这个文件中网站管理者可以声明该网站中不想被robots访问的部分，或者指定搜索引擎只收录指定的内容。 robots.txt基本介绍 robots.txt是一个纯文本文件，在这个文件中网站管理者可以...

robots.io:Robots.txt 解析库: Robots.io 是一个 Java 库，旨在简化网站“robots.txt”文件的解析。如何使用类提供了使用 robots.io 的所有功能。例子连接要使用 User-Agent 字符串“test”解析 Google 的 robots.txt： RobotsParser ...

在线生成Robots.txt 的Js脚本: 内容索引:脚本资源,Ajax/JavaScript,Robots　在线生成Robots.txt 的Js脚本，能帮助新手快速正确的建立网站的Robots.txt文件，建立一个支持Google(谷歌) 、 Baidu(百度) baiduspider 、 Sogou(搜狗) sogou spider 、...

robotstxt-webpack-plugin:一个Webpack插件，用于生成robots.txt文件: robotstxt-webpack-plugin 使用webpack生成robots.txt 。为什么您需要？用于软件包的Webpack插件。入门首先，您需要安装robotstxt-webpack-plugin ： npm install --save-dev robotstxt-webpack-plugin webpack....

wordpress robots.txt优化你的博客: WordPress博客的robots.txt文件写法得根据自身网站情况来定，当然我们可以借鉴一些知名网站的robots.txt写法，比如可以看wordpress教程网的robots.txt,可以通过访问：http://www.shouce.ren/robots.txt 获取 ...

一个经典的zencart的robots.txt的写法: 一个经典的zencart的robots.txt的写法下载后直接复制就行了略微调一下也行的

一个遵守 robots.txt 规则的爬虫: 编写一个遵守 robots.txt 规则的数据爬虫程序涉及到多个步骤，包括请求网页、解析 robots.txt 文件、扫描网页内容、存储数据以及处理异常。由于编程语言众多，且每种语言编写爬虫程序的方式可能有所不同，程序使用 ...

帝国CMS中robots.txt文件用法: 主要为大家介绍了帝国CMS中robots.txt文件用法,详细分析了robots协议的原理与使用技巧,并实例讲述了帝国CMS中robots.txt文件的使用方法,需要的朋友可以参考下

robots.txt的NuxtJS模块_TypeScript_JavaScript_下载.zip: robots.txt的NuxtJS模块_TypeScript_JavaScript_下载.zip

Global site tag (gtag.js) - Google Analytics