Что такое файл robots.txt

Жирный шрифт и курсив в html
Дата: 2012-03-01
Автор: admin

Как добавить сайт в поисковики
Дата: 2010-11-26
Автор: Олег Каминский

Кроссбраузерная верстка. Полезные советы
Дата: 2011-08-31
Автор: Олег Каминский

Как раскрутить интернет-магазин бесплатно
Дата: 2012-01-16
Автор: Олег Каминский

Как вставить видео с youtube на сайт
Дата: 2011-02-16
Автор: Олег Каминский

Как правильно составить файл robots.txt



Прежде чем регистрировать сайт в поисковых системах и различных тематических каталогах необходимо грамотно составить и закачать в корень сайта файл robots.txt. Как раз этому файлу и посвящена данная статья.

Robots.txt – это первый файл, на который обратят внимание поисковые роботы, при посещении вашего сайта, поэтому и внимание этому файлу нужно уделить соответствующее, чтобы ничего не перепутать. Данный файл не является обязательной составляющей сайта, и его можно вообще не делать, если ваш сайт состоит из нескольких страниц и служит визиткой Вашей фирмы или компании. Но если же на Вашем сайте хранятся какие-то скрытые страницы или файлы и Вы хотите закрыть их от индексации поисковыми системами, тогда файл robots.txt Вам просто необходим. В данном файле Вы как бы даете команды роботам определенных поисковых систем. А выглядят эти команды следующим образом:

  • User-agent: - после двоеточия Вы указываете название поискового бота определенной поисковой системы для которой будут прописываться все последующие команды. Обычно после двоеточия прописывается просто звездочка: User-agent:*. Это обозначает, что последующие команды будут касаться всех поисковых систем.
    Ниже приведен список роботов самых популярных поисковиков:
    Google http://www.google.com Googlebot
    Yahoo! http://www.yahoo.com Slurp (или Yahoo! Slurp)
    AOL http://www.aol.com Slurp
    MSN http://www.msn.com MSNBot
    Live http://www.live.com MSNBot
    Ask http://www.ask.com Teoma
    AltaVista http://www.altavista.com Scooter
    Alexa http://www.alexa.com ia_archiver
    Lycos http://www.lycos.com Lycos
    Яндекс http://www.ya.ru Yandex
    Рамблер http://www.rambler.ru StackRambler
    Мэйл.ру http://mail.ru Mail.Ru
    Aport http://www.aport.ru Aport
    Вебальта http://www.webalta.ru WebAlta (WebAlta Crawler/2.0)

  • Disallow: - после двоеточия прописывается файл или папка, доступ к которой вы хотите запретить. Например, Disallow: /img/ - это означает, что все файлы или папки, находящиеся в папке img индексироваться не будут. Стоит отметить, что нет команды разрешающей индексацию, поэтому если Вы хотите сделать доступной для поиска всего одну страницу сайта, а остальные запретить, то придется все их прописать.

  • Host: - это очень важная и специфическая команда. Вы на верное уже знаете, что url одного и того же сайта можно прописать как с www так и без. Но это для нас он один и тот же, а для поисковых машин - это  вполне может оказаться два разных ресурса. Поэтому Яндекс без проблем может поделить тИЦ Вашего сайта на два: первая половина достанется домену без www, вторая с www. Это называется двуличность домена и для того, чтобы ее избежать и существует команда Host:, где после двоеточия прописывается желаемый Вами домен с  www или без, например: Host: sites-builder.ru. Следует отметить, что это все нужно прописывать до того, как Ваш сайт проиндексируют поисковые системы, иначе сайту можно навредить. Если же сайт уже проиндексировали поисковики, тогда посмотрите, как они это сделали с  www так или без и пропишите соответственно в команде Host:.

  • В данном файле указывается путь к карте сайта в формате xml, например:
    Sitemap: http://vash_site.ru/sitemap.xml

  • Можно также использовать команду allow, например:
    Disallow:/img/
    Allow:/img/miniimg/
    Такая запись будет означать, что в закрытой для индексации папке img будет доступна к индексации папка miniimg

Создается файл robots.txt в обычном текстовом блокноте. И закачивается исключительно в корень сайта, причем название сайта должно быть прописано только буквами с нижним индексом. Ниже представлен пример содержания такого файла:

User-agent:*
Disallow: /img/
Allow:/img/miniimg/
Disallow: /oplata.php
Host: mysite.ru
Sitemap: http://mysite.ru/sitemap.xml

Расшифровка данного файла  простым русским языком звучит следующим образом: «Поисковым роботам всех поисковых систем запрещается индексировать файл oplata.php, а также все файлы и папки, находящиеся в папке img, кроме miniimg, а основным доменом считать домен mysite.ru».



Поделитесь статьёй с друзьями:


Автор: Олег Каминский| Дата: 2010-11-27| Просмотров:(11333)| Комментов:(3)



Комментарии:

Автор:
Дата: (2016-01-06)

Автор: РњС‹ предлагаем кредита
Дата: (2013-04-23)

Мы предлагаем кредита, Это Центральный Банк Plc, мы предлагаем кредита для всех нуждающихся в кредит под 2.5%. Свяжитесь с нами сейчас для вашего бизнеса кредит сегодня.cebeconomy@live.com Гос. Ламидо Сануси

Автор: Дмитрий
Дата: (2011-12-16)

После двоиточия нужно ставить пробел это важно, не написанно применени символа * не полная статья

Добавить Ваш комментарий:

Введите сумму чисел с картинки: