FIREISER

Категории раздела

Хостинги [3]

Файлы [1]

Другое [0]

Халява [1]

Обзоры [0]

Веб-мастеру [34]

Интернет-клубы [0]

Электронная почта [0]

Интернет-услуги [0]

Статьи

Главная » Статьи » Интернет » Веб-мастеру

Как самому создать robot.txt для сайта

robots.txt – это обычный текстовый файл, размещенный на сайте и предназначенный для роботов поисковых систем. В этом файле можно указать параметры индексирования своего сайта для всех роботов поисковых систем сразу или для каждой поисковой системы по отдельности. Все поисковые роботы при заходе на сайт в первую очередь ищут файл robots.txt.

Как создать?

Сделать файл robots.txt очень просто – создаете обычный текстовый документ в Блокноте, называете его robots, не ошибитесь в регистре букв или в самих буквах, название должно быть именно такое. Если не планируете запрещать индексирование страниц сайта, можно созданный файл оставить пустым. Если планируете – просто заполняете документ в соответствии с принятыми в 1994 году общими стандартами. После этого необходимо загрузить файл в корневой каталог вашего сайта, чтобы файл открывался по ссылке http://fireiser.org/robots.txt, где fireiser.org - адрес вашего сайта.

Что закрывать от индексации?

Вообще от индексации рекомендуется закрыть все страницы с неуникальным контентом, страницы с результатами поиска по сайту, страницы авторизации и другие технические страницы, которые не должны участвовать в поисковой выдаче.

Правила заполнения файла robots.txt

В файле robots.txt каждая команда или директива должна прописываться отдельной строкой. Число команд не ограничено.

Директива User-agent

Первое, с чего следует начать заполнение файла – указать, для какого робота будут команды, для этого пишем в первой строчке:

если ваши инструкции предназначены для роботов Яндекса:
User-agent: yandex

для роботов Google:
User-agent: googlebot

для всех роботов без исключения:
User-agent: *

Директива Disallow и Allow

Команда Disallow запрещает роботу индексировать тот или иной файл или папку. Например:

запрещает индексировать файлы данной папки:
Disallow: /cgi-bin/

запрещает индексировать данный файл:
Disallow: /company.html

запрет на индексацию всего сайта:
Disallow: /

Проверьте ваш сайт – это одна из частых причин неиндексирования сайта.

Важно! Неправильно указывать несколько директив в одной строчке:
Disallow: /cgi-bin/ /cell/ /bot/

Директива Allow наоборот – снимает запрет на индексацию некоторых файлов. Пример ее использования:
User-agent: Yandex
Allow: /cgi-binDisallow: /

Такая запись в файле запрещает скачивать роботу Яндекса все, кроме страниц, начинающихся с '/cgi-bin'.

Директива Sitemap

Если у вас есть карта сайта в формате sitemaps.xml, укажите путь к ней в специальной директиве Sitemap (если файлов несколько, укажите все):
Sitemap: http://site.ru/sitemaps1.xml
Sitemap: http://site.ru/sitemaps2.xml

Директива Host

Данная запись используется роботами Яндекса. Определите и укажите в директиве Host главное зеркало вашего сайта:
Host: fireiser.org

Часто начинающие вебмастера забывают, что сайт с www и без (www.fireiser.org и fireiser.org) являются зеркалами друг друга. Поэтому обязательно укажите, какой адрес является приоритетным с www или без. Директива Host не гарантирует выбор указанного главного зеркала, но Яндекс учитывает ее с высоким приоритетом.

Пример заполнения robots.txt:
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /language/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Host: fireiser.org
Sitemap: http://fireiser.org/sitemap.xml

Проверка файла robots.txt

Для проверки получившегося файла можно воспользоваться Яндекс.Вебмастером. Часто при создании файла robots.txt допускаются ошибки, которые приводят к некорректной его работе или вообще делают функционирование невозможным. Давайте посмотрим на самые распространенные ошибки, к чему они приводят, а также как не допустить их у себя на сайте.

Расположение файла. Файл robots.txt должен располагаться только в корневой директиве сайта. Другими словами, у него должен быть URL вот такого вида: http://fireiser.org/robots.txt, где fireiser.org – адрес вашего ресурса в сети. Если файл robots.txt располагается не в корне сайта (у него другой URL), то роботы поисковых систем его не увидят и, следовательно, будут индексировать ваш сайт полностью (включая файлы, которые индексировать нежелательно).
Чувствительность к регистру. Имя файла всегда прописывается только с маленькой буквы. Правильно использовать только такой вариант: robots.txt. Неправильный вариант: http://fireiser.org/Robots.txt. При таком написании поисковый робот, заходя на сайт, получит 404 (страница ошибки) или 301 (переадресация) ответ сервера, а должен получить 200. Только при ответе сервера кодом 200 вы сможете управлять поисковым роботом. В остальных случаях индексация пойдет так, словно файла robots.txt нет на сайте.
Открытие на странице браузера. Файл robots.txt всегда должен открываться на странице браузера. Только так роботы смогут его правильно прочитать и использовать. Здесь все зависит от настройки серверной части системы управления сайтом. В некоторых случаях по умолчанию будет предлагаться скачать файл данного типа. В такой ситуации необходимо сделать настройки на показ, или сайт будет индексироваться так, как этого захотят поисковые роботы.
Ошибки запрета и разрешения. Чтобы запретить доступ робота к сайту или некоторым его разделам, правильно использовать только директиву «Disallow». Например, вы хотите запретить к индексированию все страницы с результатами поиска на сайте, прописать это в файле robots.txt надо следующим образом: «Disallow: /search/». Так вы говорите роботу: «Запрети все страницы, где будет встречаться слово search». Если надо запретить вообще все страницы к индексации, то прописываем директиву Disallow: /. Так вы говорите роботу: «Запретить все». Неправильно здесь ставить директиву «Allow» (разрешить). Часто пытаются прописать запрет директивы такого вида: «Allow:», как бы говоря роботам: «Разрешаю к индексации ничего». Это считается ошибкой. Если же вам надо разрешить все к индексированию, то используйте директиву вот такого вида: «Allow: /». Для роботов это означает :«Разрешить все». Если вы прописываете неверные директивы, это может привести к ошибкам в индексации и робот добавит в поиск страницы, которые там быть не должны.
Совпадение директив. Часто так бывает, что при составлении файла robots.txt для одного раздела указывают сразу 2 противоположные директивы: разрешить и запретить к индексированию (Disallow: и Allow:). Так может случиться, например, если вы сначала разрешили раздел к индексированию, а спустя время добавили информацию и хотите закрыть ее от индекса. При этом просто добавляете в коде запрещающую директиву, а разрешающую не убираете. В таких ситуациях поисковые роботы отдают предпочтение директиве Allow:. Другими словами, закрытая от индекса информация все равно будет в индексе.
Директива Host. Директива Host (используется для определения главного зеркала) известна только роботу Яндекса. Проблема в том, что остальные поисковые роботы не воспринимают ее или видят как ошибочную или неизвестную. Если вы ее используете в файле, то лучше определить двух ботов: все и боты Яндекса. Для Яндекса уже прописать директиву Host. Если задать такую директиву для всех, то во многих вебмастерах это будет восприниматься как ошибка.
Директива Sitemap. Файл Sitemap показывает роботам, какие есть страницы на сайте. С его помощью поисковики узнают обо всех страницах вашего ресурса. Частая ошибка вебмастеров в том, что файл sitemap.xml располагают не в корне сайта, в то время как местоположение файла Sitemap очень важно. Оно определяет набор URL-адресов, которые можно включить в этот файл. Например, файл Sitemap, расположенный в каталоге (вот так выглядит URL в этом случае http://primer.ru/catalog/sitemap.xml), может включать любые URL-адреса, начинающиеся с http://primer.ru/catalog/..., но не должен включать URL-адреса, начинающиеся, скажем, с http://primer.ru/images/... Если вы располагаете неверно файл Sitemap, то роботы неверно определят количество страниц вашего сайта, и они не попадут в индекс.

В качестве вывода запомните: файл robots.txt необходим для вашего сайта, если вы хотите, чтобы поисковые системы его индексировали и делали это так, как нужно вам. Но при этом он должен быть составлен грамотно, без ошибок. В противном случае вы рискуете получить неверную индексацию сайта.

Категория: Веб-мастеру | Добавил: Fireiser (20.10.2015)

Просмотров: 1174 | Теги: оптимизация, сайт, поиск, seo, txt, Robots | Рейтинг: 0.0/0

Всего комментариев: 0

Добавлять комментарии могут только зарегистрированные пользователи.
[ Регистрация | Вход ]

Поиск

Друзья сайта
Официальный блог Сообщество uCoz База знаний uCoz

FIREISER

Категории раздела

Статьи

Поиск

Друзья сайта