Абсолютно любой трафик необходимо монетизировать.

Поиск по этому блогу

среда, 28 сентября 2011 г.

Яндекс. Новые правила обработки директивы Allow файла robots.txt

Одним из методов управления поведения поисковым роботом на вашем сайте является текстовый файл robots.txt. В нем можно указать параметры индексирования своего сайта как для всех роботов сразу, так и для каждой поисковой системы по отдельности.
Чтобы разрешить доступ робота к некоторым частям сайта или сайту целиком, используется директива 'Allow'.

Пример:

    User-agent: Yandex
    Allow: /catalog
    Disallow: /
    # запрещает скачивать все, кроме страниц
    # находящихся в '/catalog'


Сейчас для корректной обработки этой директивы ее необходимо использовать с учетом порядка: если для данной страницы сайта подходит несколько директив, то выбирается первая в порядке появления в выбранном User-agent блоке.

Примеры:

    User-agent: Yandex
    Allow: /catalog
    Disallow: /
    # запрещает скачивать все, кроме страниц
    # находящихся в '/catalog'
   
    User-agent: Yandex
    Disallow: /
    Allow: /catalog
    # запрещает скачивать весь сайт

Через несколько недель мы планируем внедрить изменение в обработке поисковым роботом директивы allow и отказаться от учета порядка. Директивы будут сортироваться по длине префикса URL’а (от меньшего к большему) и применяться последовательно. Такое изменение позволит нам соответствовать международным принципам применения директивы, чтобы и у российских, и у зарубежных вебмастеров не возникало трудностей при составлении файла robots.txt для разных поисковых систем.

Если на вашем сайте в robots.txt используются директивы allow и disallow, пожалуйста, проверьте их на соответствие новым стандартам.