如何使用robots.txt禁止仅对我的子域进行爬网?

前端之家收集整理的这篇文章主要介绍了如何使用robots.txt禁止仅对我的子域进行爬网?前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
如果我希望我的主网站在搜索引擎上,但没有子域名,我应该在子域名的目录中放置“禁止所有”robots.txt吗?如果我这样做,我的主域名仍然可以抓取吗?

解决方法

@H_404_5@ robots.txt文件需要放在您的网络服务器的顶级目录中.如果您的主域和每个子域位于不同的vhost上,那么您可以将它放在每个子域的顶级目录中并包含类似的内容
User-agent: *
Disallow: /

robots.txt的位置取决于您访问特定网站的方式.给出像这样的URL

http://example.com/somewhere/index.html

爬虫将丢弃域名右侧的所有内容并附加robots.txt

http://example.com/robots.txt

因此,您需要将robots.txt放在example.com的DocumentRoot指令所指向的目录中,并禁止访问/您需要的位置

User-agent: *
Disallow: /somewhere

如果您有子域名并且可以访问它们

http://subdomain.example.com

并且您希望禁止访问整个子域,然后您需要将robots.txt放在DocumentRoot指令指向的子目录中.

原文链接:https://www.f2er.com/html/229339.html

猜你在找的HTML相关文章