29 мая 2009 г. Google Wordpress SEO Яндекс Поисковые системы

Делаем правильный robots.txt и sitemap.xml

Задача состоит в том, чтобы запретить некоторые каталоги для индексации поисковым системам, для того, чтобы избавится от дублированного контента. Например, на одну и ту же статью можно попасть как с /tag/ так и с /category/.

Почему дублирующийся контент это плохо?

Вот, что говорит по этому поводу Google (перевод), можно так же найти информацию по поводу поисковой системы Яндекс, где говорится что их алгоритмы банят сайты с дублирующимся контентом. Не знаю так это или нет, я не специалист в области SEO (если есть спецы - отпишите в камменты), но на всякий случай прикрою дубляжи!

Воспользуйтесь поиском от Google или Яндекс и вы найдете море информации по этой теме.

UPD: Про дублирующийся контент в Wordpress.

Robots.txt

robots.txt — файл ограничения доступа к содержимому роботам на http-сервере. Файл должен находиться в корне сайта (т.е. иметь путь относительно имени сайта /robots.txt). При наличии нескольких субдоменов файл должен располагаться в корневом каталоге каждого из них. Данный файл дополняет стандарт Sitemaps, который служит прямо противоположной цели: облегчать роботам доступ к содержимому.

http://ru.wikipedia.org/wiki/Robots.txt

Также есть немного информации на форуме MasterTalk: Что такое robots.txt и для чего он нужен, а также есть сайт посвященный этому файлу - Все о файле robots.txt по-русски.

Вот еще эксперименты Дениса Болтикова по идеальному роботсу для Wordpress: Идеальный robots.txt для Wordpress и Идеальный robots.txt для Wordpress — 2.

Мой Robots.txt

Так вот выглядит мой роботс:

User-agent: *
Disallow: /wp-
Disallow: /xmlrpc.php
Disallow: /category/
Disallow: /page/
Disallow: /trackback/
Disallow: /feed
Disallow: /comments/
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
Allow: /wp-content/uploads/
Sitemap: /sitemap.xml

Я разрешил поисковым ботам индексировать меня только по "Тегам" и "Архиву". Обратите внимание, я использую маску /wp-, для того чтобы URL'ы wp-login.php, wp-register.php, wp-admin и т.д. попали под запрет индексации (Disallow).

Также я разрешил индексировать мой "/wp-content/uploads/" для сервисов "Яндекс.Картинки" и "Google Картинки", так как там хранятся в основном картинки. И расшарил файл "sitemap.xml" для лучшей индексации.

Для проверки синтаксиса и структуры файла robots.txt существует ряд специализированных онлайн-служб:

Sitemaps

Так же следует не забыть о файле sitemap.xml

Sitemaps — это XML-файл с информацией для поисковых систем (таких как Google, Yahoo, Ask.com, MSN, Яндекс) о страницах веб-сайта, которые подлежат индексации. Sitemaps может помочь поисковикам определить местонахождение страниц сайта, время их последнего обновления, частоту обновления и важность относительно других страниц сайта для того, чтобы поисковая машина смогла более разумно индексировать сайт.

http://ru.wikipedia.org/wiki/Sitemaps

Сайтмап не обязателен и поисковые системы не гарантируют его использование, он лишь помогает поисковым ботам проводить индексацию, однако я считаю что это очень полезным!

Для Wordpress существует плагин - Google XML Sitemaps (другие полезные плагины для Wordpress используемые мной). Этот плагин генерирует за вас файл sitemap.xml, в котором и содержится информация для поисковых ботов по индексации сайта. Вы сами можете его настроить и указать проценты приоритета для статей, страниц и т.д.

Центры веб-мастеров Google и Яндекс

Для ускорения индексации рекомендуется оповестить Google и Яндекс о ваших файлах robots.txt и sitemap.xml, для этого существуют специальные сервисы:

Инструменты Google для веб-мастеров
Яндекс.Вебмастер (после добавления сайта вы сможете прикрепить sitemap.xml)

Использование http-пингов для уведомления поисковых систем о обновлениях в sitemaps

Можно указать поисковым системам местонахождение файла Sitemap при помощи HTTP-запроса:

Google
http://google.com/webmasters/sitemaps/ping?sitemap=<sitemap_location>

Яндекс
http://webmaster.yandex.ru/wmconsole/sitemap_list.xml?host=<sitemap_location>

Yahoo!
http://search.yahooapis.com/SiteExplorerService/V1/updateNotification?appid=SitemapWriter&url=<sitemap_location>
http://search.yahooapis.com/SiteExplorerService/V1/ping?sitemap=<sitemap_location>

Ask.com
http://submissions.ask.com/ping?sitemap=<sitemap_location>

Live Search
http://webmaster.live.com/ping.aspx?siteMap=<sitemap_location>

Где <sitemap_location> необходимо заменить на полный URL файла Sitemap. Например, чтобы добавить файл http://www.example.com/sitemap.xml в поисковик Google, нужно отправить HTTP-запрос http://www.google.com/webmasters/sitemaps/ping?sitemap=http://www.example.com/sitemap.xml.

Информация по пингам взята с http://ru.wikipedia.org/wiki/Sitemaps

Google не рекомендует чаще чем раз в час его пинговать, вот пруфлинк.

в таком случает прописывать ли путь к sitemap и Yandex тоже?
Нет, достаточно один раз прописать. Вы можете проверить robots.txt в центре веб-мастеров Яндекса и если прикрепиться сайтмат, то все работает нормально.

Лично я для Яши ничего не прописывал дополнительно, работает все хорошо!

Advent 14 июля 2009 г. 19:46

Я тоже таким образом делал примерное, хотя в некоторых случаях разбивал на поисковые боты. Недавно встретил сервис проверки на валидность и он показал кучу ошибок именно в


Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/

И еще allow считается неправильным выражением. По крайней мере читал об этом несколько раз.
А сервис проверки на валидность привожу
http://tool.motoricerca.info/robots-checker.phtml

adw0rd 15 июля 2009 г. 0:29

Advent, ага ругается, спасибо, буду изучать сервис :)

Advent 16 июля 2009 г. 20:34

Добрый день. Я разобрался почему оно ругается. Дело в том, что это чекер указывает на то что символ * относится, как бы к именным поисковым ботам,то есть тем которые переваривают эту фишку. К таким системам относится гугл и яндекс.Тоже самое и с кодом allow. То есть по существу заданные параметры отвечают как гуглеботу, так и яндексу. Остается занозой внедрение гуглом нового алгоритма индексирования nofolow. По сути наверняка плагин сео, теперь нельзя использовать с nofolow, а рубить ненужные страницы в роботсе.тхт, как это сделано на примере, добавляя при необходимости все что является тормозом.

adw0rd 16 июля 2009 г. 20:49

Угу, спасибо за информацию, полезно!

alex 12 августа 2009 г. 22:53

А почему ты выбрал индесацию по тэгам и архиву и закрыл по страницам и категориям?

adw0rd 12 августа 2009 г. 22:57

Потомучто надо было один источник, а теги наиболее тематичны на мой взгляд

alex 12 августа 2009 г. 23:00

да, но как раз с тэгов получается море ссылок на одни и те же страницы.

adw0rd 12 августа 2009 г. 23:07

Хм, не подумал сначала, думаю потом на категории переправлю )

alex 13 августа 2009 г. 15:35

я тут с роботсом занятную штуку увидел, куда бы не заходил на блоге постоянные ссылки на конкретную страницу и из архивов и из категорий, а при попытке зайти через категорию например адрес переписывается на стандартный. Что-то мне подсказывает, что при установке ЧПУ вся возня с запретами в роботсе не нужна никому.

Imen 13 октября 2009 г. 12:37

Спасибо, за пост! Пост очень помог с создание robots.txt

Камил 28 ноября 2009 г. 22:46

Столкнулся с проблемой, мне нужно запретить проход поисковых ботов по счётчикам скачиваний файлов, можно ли через роботс это сделать?

adw0rd 29 ноября 2009 г. 3:21

Что такое "счётчикам скачиваний файлов"? У них есть URL?

Евгений 30 ноября 2009 г. 15:05

Доброе время суток. У меня вопрос по поводу дублирующегося контента.
Например, в рубрике есть список статей, у многих из них есть тег , кликая на ссылку "читать далее" мы переходим на статью со своим уникальным url-ом. Но есть в рубрике короткие статьи, которые полностью отображают текст статьи в списке статей рубрики. Т.е. кликая на эту статью, мы заходим на юрл статьи, где текст абсолютно идентичен тексту на странице рубрики. Каким образом лучше избежать такой дубляж?
Спасибо за ответ.

adw0rd 30 ноября 2009 г. 16:00

Вообще я бы закрывал для индексации тела статей в списке, а оставлял только названия и ссылки на отдельную страницу.

Евгений 1 декабря 2009 г. 17:12

Спасиб. Закрыл через плагин SEO все-в-одном рубрики, архивы и теги. Надеюсь этого должно хватить.

Евгений 1 декабря 2009 г. 17:19

Не, вернул рубрики назад, они мне нужны... Подскажите, каким образом можно закрыть именно "тела статей в списке рубрики"?

adw0rd 1 декабря 2009 г. 20:47

noindex/nofollow не подходит?

VRS 9 декабря 2009 г. 8:18

Нашла такой перечень:

User-agent: *
Disallow: /cgi-bin
Disallow: /tmp/
Disallow: /wp-admin
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /feed
Disallow: */feed
Disallow: /*?*
Disallow: /*?
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /search/*/feed
Disallow: /search/*/*
Disallow: /tag/
Allow: /wp-content/uploads/

User-agent: Googlebot-Image
Disallow:
Allow: /*

User-agent: Mediapartners-Google*
Disallow:
Allow: /*

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /feed
Disallow: */feed
Disallow: /*?*
Disallow: /*?
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /search/*/feed
Disallow: /search/*/*
Disallow: /tag/
Allow: /wp-content/uploads/
Host: www.domen.ru
Sitemap: http://www.domen.ru/sitemap.xml

User-agent: YandexBlog
Disallow:
Allow: /*

но валидатор robots.txt ругается на все строки кроме карты сайта... почему?

Саша Ярош 21 февраля 2010 г. 18:34

Привет. Я добавил в Яндекс сайт и в корень своего сайта файл robots.txt, но мой сайт так и не проиндексирован в Яндексе и Гугле. Почему? Как заставить поисковиков Google и Яндекс проиндексировать мои сайты? Так чтобы они попали в поисковики и чтобы было ТИЦ 50 PR 15.

adw0rd 21 февраля 2010 г. 19:43

В статье описано как... Читайте "Центры веб-мастеров Google и Яндекс"

Саша Ярош 21 февраля 2010 г. 20:06

Adw0rd, а где это? В Яндексе?

adw0rd 21 февраля 2010 г. 21:30

По ссылке "Яндекс.Вебмастер" перешли?

Саша Ярош 21 февраля 2010 г. 21:33

Да, adw0rd. И что мне теперь делать? Вот мои сайты:
http://*/. Это сайт с бесплатными играми, программами и фильмами для скачивания.
http:///. Это сайт с кулинарными рецептами добавленными посетителями в блог.
Но эти сайты НЕ проиндексированы. :( Я уже жду, жду, но результат нулевой. Что делать?

adw0rd 21 февраля 2010 г. 22:02

http://help.yandex.ru/webmaster/?id=995306 надеюсь после этого у вас не будет вопросов

Саша Ярош 21 февраля 2010 г. 22:05

Я когда пытаюсь в Яндексе сообщить о новом сайте, мне в ответ выдают ошибку вот какую: "Указанный URL запрещен к индексации. Подробнее о запрете на индексацию вы можете прочитать в FAQ". Почему так? Что делать?

adw0rd 21 февраля 2010 г. 22:33

А факу пробовали читать? Наверняка с юкозов всяких нельзя добавлять...

Саша Ярош 21 февраля 2010 г. 23:07

Я ещё хочу чтобы туда сайты принимали и с бесплатных хостингов!

Саша Ярош 21 февраля 2010 г. 23:10

Но там в помощи как создать сайт было вот что написано:
"Чтобы сайт появился в поиске Яндекса, робот должен проиндексировать его. Если на ваш сайт есть ссылки с других (чужих) сайтов, то специально добавлять сайт не требуется — он автоматически будет найден и, скорее всего, проиндексирован. Если ссылок на ваш сайт еще нет, вы можете воспользоваться формой «Сообщить о новом сайте», чтобы сообщить роботу о существовании сайта. Также сообщить о новом сайте можно через добавление его в разделе в «Мои сайты». Обратите внимание — добавление URL не гарантирует, что сайт будет проиндексирован или проиндексирован быстро".

А что должно быть в роботе, ну в файле robots.txt? Сайты мои и страницы которые робот должен проиндексировать?

adw0rd 21 февраля 2010 г. 23:16

Там должны быть правила индексации для текущего сайта.
http://ru.wikipedia.org/wiki/Robots.txt

Сергей Дорохин 22 февраля 2010 г. 17:23

А есть ли средство автоматизации пингов для уведомления поисковиков?
Google XML Sitemaps для Wordpress уведомляет Gooogle и Bing. Как быть с остальными?

adw0rd 22 февраля 2010 г. 18:38

Я для уведомления Яндекса юзаю его сервис Яндекс.Вебмастер, он сам забирает мой сайтмап. Плагинов для wp я не втречал и не искал. Но думаю такие есть, там его делать то 5 минут

Саша Ярош 22 февраля 2010 г. 20:28

А там файл sitemap.xml (сайтмэп.экс-эм-эль) обязательно? Если да - то как его скачать бесплатно и без регистрации?

adw0rd 22 февраля 2010 г. 22:07

Где? Вы сначала почитайте что такое sitemap.xml...

Саша Ярош 22 февраля 2010 г. 22:11

Там на сайте http://help.yandex.ru/webmaster/?id=1111288 там вот написано что такое файл Sitemap: "Файл Sitemap - это файл с дополнительной информацией о страницах сайта, подлежащих индексированию. С помощью файла Sitemap вы можете сообщить Яндексу, какие страницы вашего сайта нужно индексировать, как часто обновляется информация на страницах, а также индексирование каких страниц наиболее важно. Подробно об использовании файлов Sitemap читайте в соответствующем разделе Помощи".

Саша Ярош 22 февраля 2010 г. 23:11

Привет. Я вот ещё добавил в свой сайт файл robots.txt С таким содержимым:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-login.php
Sitemap: http://mrjaroshfiles.at.ua/sitemap.xml
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-login.php
Sitemap: http://mrjaroshfiles.at.ua/sitemap.xml
Host: mrjaroshfiles.at.ua

Но мне всё равно выдают вот какую ошибку: "Указанный URL запрещен к индексации.
Подробнее о запрете на индексацию вы можете прочитать в FAQ". А там в запрете на индексирование сайта там написано:
"Индексирование сайта может быть запрещено либо по причинам технического характера (страницы содержат ошибки и их содержимое невозможно корректно проиндексировать или индексирование сайта запрещено в файле robots.txt) либо за использование недобросовестных приемов продвижения сайтов в поисковых системах (поисковый спам)".
Как эту проблему устранить? Я ещё хочу чтобы туда принимали сайты и с бесплатных хостингов! В том числе сайты с Ucoz!

adw0rd 22 февраля 2010 г. 23:43

Тут вы можете проверить синтаксис http://webmaster.yandex.ru/robots.xml, это единственно что я вам могу посоветовать, остальное вы сами решаете надо индексировать или нет.

Если вы вообще ничего в этом не понимаете, а именно такое мнение сложилось, то тщательно погуглите и найдите ответы на вопросы. После чего проанализируйте ответы, все обдумайте и тогда можете еще что-то написать в камменты.

Как эту проблему устранить? Я ещё хочу чтобы туда принимали сайты и с бесплатных хостингов! В том числе сайты с Ucoz!

Я ничем вам не могу помочь, не я писал правила. А юкоз и прочие конструкторы - рассадник ГС.

Саша Ярош 22 февраля 2010 г. 23:54

Ну всё правильно. Вот роботс так выглядит:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-login.php
Sitemap: http://mrjaroshfiles.at.ua/sitemap.xml
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-login.php
Sitemap: http://mrjaroshfiles.at.ua/sitemap.xml
Host: mrjaroshfiles.at.ua

А ошибку всё равно выдаёт. Может там ещё чего-то не хватает? Может ещё не хватает файла sitemap.xml?

adw0rd 23 февраля 2010 г. 0:51

Может. Не пробовали указывать один раз сайтмап?

Саша Ярош 23 февраля 2010 г. 0:52

Пока нет. А этот файл можно скачать?

adw0rd 23 февраля 2010 г. 2:01

Саша Ярош, да, по вашей же ссылке

Саша Ярош 23 февраля 2010 г. 2:04

Аааа. Ну понятно. Но сейчас я вот какую ссылку добавлял: http://webmaster.yandex.ru/wmconsole/sitemap_list.xml?host=mrjaroshfiles.at.ua. Но мне пишут вот что: "Сервер возвращает код статуса http 403 (ожидался код 200)". Что это значит? Опять ошибку выдаёт или что?

adw0rd 23 февраля 2010 г. 2:38

http://ru.wikipedia.org/wiki/HTTP_403#403 почиатйте

Саша Ярош 23 февраля 2010 г. 13:56

Ааааа. Там в Википедии там где эти коды там я понял что обозначает код ошибки 403:

«Появился в HTTP/1.0.

Сервер понял запрос, но он отказывается его выполнять из-за ограничений в доступе со стороны клиента к указанному ресурсу.

Если для доступа к ресурсу требуется аутентификация средствами HTTP, то сервер вернёт ответ 401 (или 407 для прокси). В противном случае ограничения были заданы администратором сервера или разработчиком веб-приложения и могут быть любыми в зависимости от возможностей используемого ПО.

В любом случае клиенту следует сообщить причины отказа в обработке запроса.

Наиболее вероятными причинами ограничения могут послужить:

Попытка доступа к системным ресурсам веб-сервера (например, файлам .htaccess или .htpasswd) или к файлам, доступ к которым был закрыт с помощью конфигурационных файлов.

Для доступа требуется аутентификация не средствами HTTP (например, для доступа к CMS или разделу для зарегистрированных пользователей).

Сервер не удовлетворён IP-адресом клиента (например, временная блокировка из-за частых обращений или же на этапе разработки приложения доступ разрешён только некоторым IP)».

А код 200 — это:

«Появился в HTTP/1.0.

Успешный запрос ресурса. Если клиентом были запрошены какие-либо данные, то они находятся в заголовке и/или теле сообщения».

А я всё-таки хочу чтобы мои сайты проиндексировали!!! И ещё хочу чтобы принимали сайты и с бесплатных хостингов! В том числе сайты с Ucoz! И я ещё хочу сделать такие показатели своего сайта как ТИЦ 1500 PR 13. Как мне это сделать? Ответьте кто-нибудь пожалуйста?

adw0rd 23 февраля 2010 г. 14:19

Саша Ярош, пожалуйста перестаньте писать сюда. Проблемы тут ваши не решаться, это не сео-форум.

Сергей Дорохин 23 февраля 2010 г. 19:46

2 Саша Ярош
Красавец! PR равный 13-ти! Для тебя будет легче поработить вселенную!

2 adw0rd
Прошу ответить на мой вопрос, если не сложно. Как автоматизировать уведомление Яндекс'а новом sitemap.xml с помощью http-пинга?

Саша Ярош 23 февраля 2010 г. 20:07

Сергей, у меня показатели сайта mrjaroshfiles.at.ua тИЦ 0 PR 2. А у сайта 400receptow.ucoz.ua тИЦ 0 PR 0.

adw0rd 23 февраля 2010 г. 20:45

Саша Ярош, pr больше 10 не бывает. Вы задолбали задавать глупые вопросы, еще раз прошу сначала погуглить обо всех материалах, а потом говорить/спрашивать.

adw0rd 23 февраля 2010 г. 20:45

Сергей Дорохин, я вам уже отвечал

Я для уведомления Яндекса юзаю его сервис Яндекс.Вебмастер, он сам забирает мой сайтмап. Плагинов для wp я не втречал и не искал. Но думаю такие есть, там его делать то 5 минут

Саша Ярош 23 февраля 2010 г. 20:56

Adw0rd, а что означает погуглить? Как это сделать?

adw0rd 23 февраля 2010 г. 23:00

Саша Ярош, вы издеваетесь? Погуглить

Саша Ярош 24 февраля 2010 г. 12:31

А как сделать файл Sitemap_list.xml? Как он выглядит? Что там в нём есть?

adw0rd 24 февраля 2010 г. 13:18

Я не знаю что такое "Sitemap_list.xml".

Саша Ярош 24 февраля 2010 г. 13:21

Adw0rd, это я имел в виду "Sitemap.xml". Так что там должно быть? Ну чтобы я мог сообщить о новом сайте в Яндексе.

Саша Ярош 24 февраля 2010 г. 13:23

А то вместо того чтобы сообщить о новом сайте мне ошибку выдают такую: "Сервер возвращает код статуса http 403 (ожидался код 200)".

adw0rd 24 февраля 2010 г. 13:45

Я в статье давал ссылку на http://ru.wikipedia.org/wiki/Sitemaps, читайте внимательно.

Саша Ярош 24 февраля 2010 г. 13:46

А я и забыл.

Дорохин Сергей 24 февраля 2010 г. 13:47

С помощью программы Xenu ты просканируешь свой сайт, а потом создашь этот sitemap.xml

Сашок! читай документацию, википедию, статьи всякие, пользуй поиск, не доставай людей!

adw0rd 24 февраля 2010 г. 13:49

Сергей, +1 :)

Саша Ярош 24 февраля 2010 г. 14:55

Серёжа, это прога Xenu она на английском языке. Я английского НЕ понимаю. Можешь дать мне русификатор программы Xenu или другую выбрать по сканированию сайта? Только на русском языке!

Дорохин Сергей 24 февраля 2010 г. 15:56

Саша, я объясню. Если хочешь стать специалистом, сначала читаешь книги, статьи, блоги, форумы по теме. Терпишь и читаешь, пытаешься САМ ПОНЯТЬ ОСНОВЫ. А уж потом спрашиваешь у людей. Дилетанты отпугивают, ответа ты не получишь, пока не пройдешь начальную школу. Умываю руки.

Саша Ярош 24 февраля 2010 г. 16:14

Почему?

adw0rd 24 февраля 2010 г. 16:21

Потому что никому не охота помогать тому, кто не хочет сам себе помочь.
Я снова солидарен с вами Сергей.

Саша Ярош 24 февраля 2010 г. 20:01

Ой б%№дь. Ну хорошо. Я найду другую прогу по сканированию сайта. Но такую которая только на русском языке. Я английского НЕ понимаю.

Саша Ярош 26 февраля 2010 г. 23:20

Привет. Так должен выглядеть файл robots.txt? Вот он:

main section

User-agent:*

End of main section

sitemap section

User-agent: Yandex
Allow: /
Sitemap: http://mrjaroshfiles.at.ua/sitemap.xml

end of sitema section

Но когда я запускаю под браузером интернета, мне оно выдаёт ошибку. Почему?

VRS 26 февраля 2010 г. 23:47

Саша Ярош, думаю, Вам лучше заказать сайт у людей, которые разбираются в сайтостроении. Т.к. похоже, что Вы не хотите разбираться сами, а ждете что Вам бесплатно сделают конфетку под все ваши требования и сразу с PR = 100 :))))...

adw0rd, от оповещений на e-mail отписалась, но ваш сайт внесла в закладки

Саша Ярош 26 февраля 2010 г. 23:49

Если я сообщу роботу поисковых систем о новом сайте, то через сколько дней мои сайты проиндексируются?

Дорохин Сергей 27 февраля 2010 г. 7:13

Да, сообщите Гуглу и Яндексу. На практике блог из 50 страниц индексируется неделю-две.

Саша Ярош 27 февраля 2010 г. 15:35

Я уже сообщал. И что теперь?

adw0rd 27 февраля 2010 г. 22:40

Саша Ярош, пить чай с плюшками и ждать великого дня.

Саша Ярош 27 февраля 2010 г. 22:41

Это НЕ ПОМОЖЕТ!

adw0rd 27 февраля 2010 г. 23:16

Тогда обратите внимание на предложение VRS :)

Саша Ярош 27 февраля 2010 г. 23:17

VRS - это... ?

adw0rd 28 февраля 2010 г. 0:51

Это никнейм, смотрите камменты выше!
Только не говорите что не знаете что такое "никнейм" и "камменты", вы уже знаете что такое "гуглить" и сможеть нагуглить новые для вас слова.

Саша Ярош 28 февраля 2010 г. 0:58

Привет. Если робот Яндекса проиндексирует все мои страницы сайта, то повыситься от этого тИЦ и PR?

VRS 28 февраля 2010 г. 16:47

VRS - это.. я :)

Саша Ярош, Вы определитесь сначала, для чего Вам нужны тИЦ и PR?
У меня, например, сайт с тИЦ=0, PR=1, при этом ежедневное посещение - более 400 уников и СЧ запросам он на первой странице Яши..

Саша Ярош 28 февраля 2010 г. 16:50

тИЦ и PR нужен для того чтобы мои сайты находились в поисковиках Яндекс и Google. У вас ежедневное посещение более 400 уников. А как у вас это произошло?

VRS 28 февраля 2010 г. 21:56

Саша Ярош, прочтите сначала что такое тИЦ и PR . тИЦ НЕ ВЛИЯEТ на выдачу ПС Яндекса. PR тоже не единственный фактор для выдачи Гугла..

Вы задаете глупые вопросы, ответы на которые давно даны специально для новичков. Научитесь пользоваться поиском.

Уникальные продуманные тексты с грамотно подобранными ключевиками, регистрация в каталогах, размещение на досках объявлений... в сети море... нет... океан... нет... - ВСЕЛЕННАЯ информации о методах оптимизации сайта! Ищите, читайте, учитесь... Лень? Хотите получить в разжеванном виде? - идите на платные курсы или в институт..

OZ 29 марта 2010 г. 16:34

Прошу оценить:

User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-register.php
Disallow: /wp-login.php
Disallow: /xmlrpc.php
Disallow: /.js$
Disallow: /.inc$
Disallow: /.css$
Disallow: /?*
Disallow: /?*
Disallow: /trackback
Disallow: /trackback
Disallow: /feed
Disallow: */feed
Disallow: /comments
Disallow: */comments
Disallow: /category
Disallow: /page
Disallow: */?replytocom*
Disallow: /search

User-agent: Yandex
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-register.php
Disallow: /wp-login.php
Disallow: /xmlrpc.php
Disallow: /.js$
Disallow: /.inc$
Disallow: /.css$
Disallow: /?*
Disallow: /?*
Disallow: /trackback
Disallow: /trackback
Disallow: /feed
Disallow: */feed
Disallow: /comments
Disallow: */comments
Disallow: /category
Disallow: /page
Disallow: */?replytocom*
Disallow: /search
Host: домен

Sitemap: http://домен/sitemap.xml.gz

Саша Ярош 29 марта 2010 г. 23:15

Как самому проиндексировать сайт в Яндексе бесплатно?

Двуглазый Юм 19 июля 2010 г. 14:29

Боюсь попасть в одну мусорку с Ярошем, но все-таки обрисую ситуевину и попрошу совета.

twoeyedyum . megabyet . net - вот он, источник моих мучений (вирусов нет)

Есть сайт: бесплатный хостинг, домен третьего уровня, блог Вордпресс. ЧПУ включены (само собой, хочется человеческих ссылок).
В canonical.php добавлена директива на запрет неправильных редиректов (нагуглил в десяти источниках, так что вроде не брехня) и, соответственно, перепроверен основной адрес в настройках Вордпресс.
Роботс.тхт составлен по вышеупомянутым правилам (открытыми я оставил именно диретории, в остальном отличий почти нет). Один раз упомянут sitemap.xml (автоматически создается плагином).

Сайт спокойно виден в гугле, а вот Яша уже полтора апа меня игнорирует (апы ТИЦ имеются ввиду, ибо апов выдачи было гораздо больше). В Яндекс.Вебмастере карта сайта тестируется на УРА, ошибок не найдено, но страниц в поиске по-прежнему 0 (ноль штук). Вроде никаких правил сайт не нарушает, причин попадать совсем уж в бан - нет. Гугл-робот дает всем страницам код 200, яша-робот дает 403 Форбидден.

Собственно вопрос: неужели нужно ждать еще один-два (или еще десяток) апа ТИЦ/выдачи, чтобы Яша наконец разглядел и проиндексировал сайт в соотвествии с картой сайта и Роботс.тхт, которые ему так понравились?
Сами Гугл и Яндекс уже не знают, что мне ответить...

Двуглазый Юм 19 июля 2010 г. 14:34

Дополнительный момент касательно блога автора: здесь, как и в многих других стандалонах, нельзя подписаться своим блогом (просто не хочется быть совсем Анонимусом). Это какая-то фишка ВП, или я просто не нагуглил такого плагина?

оеночка 29 июля 2010 г. 21:12

гляньте тут: http://kiev-security.org.ua/sitemap.htm

adw0rd 29 июля 2010 г. 21:19

Forbidden You don't have permission to access /sitemap.htm on this server.

Двуглазый Юм 30 июля 2010 г. 2:34

Заранее извиняюсь, но паре десятков людей может помочь мой случай, разрешившийся тяжелыми родами недавно:

twoeyedyum.megabyet.net (megabyet.net - собственно, хостер, домен 3-го уровня бесплатный) выпадает в 403 ошибку исключительно у Яши, и дело тут вовсе не в роботсах, и не в картах сайта. Кто тоже грешил на эти два объекта, но еще не обратился в саппорт Яндекса, тех предупреждаю заранее - Яндекс страдает паранойей пополам с легким детским синдромом наивности.

На свои вопросы я получил примерно такой ответ: "Извините, но домен содержит в себе много доменов третьего уровня, на которых расположены дорвеи и прочие нехорошие сайты. ПОПРОСИТЕ вашего хостера, раз уж вы пользуетесь его доменным именем, убрать все дорвеи со своих доменов, и ТОГДА мы разблокируем megabyet.net и все домены в этой группе, и не будет появляться 403 ошибка."

От така *ня, малята! © Простите, не сдержался. Просто представил, как я буду уговаривать своего финского хостера уничтожить часть сайтов ради меня и Яши...

Ларчик просто открывался, не поленитесь и со своей проблемой постучать прежде всего к саппорту Яши - люди душевные, завсегда посоветуют "хорошего"...

Алекс Маслаков 5 октября 2010 г. 1:24

То, что надо! Вот только нужно отправлять файл sitemap часто (но не чаще одного раза в час) или только единожды?

adw0rd 5 октября 2010 г. 2:27

Я изменяю часто и отправляю тоже часто (пингую только гугл).
То есть, например я публикую 20 записей, то в течении 20 минут я каждую минуту пингую гугл. И когда я так начал делать, гугл только еще больше полюбил меня и стал чаще индексировать :) Этот пример касается проект http://kinsburg.ru/, вы можете посмотреть его sitemap.

Арчи 19 октября 2010 г. 15:23

Здравствуйте!
У меня сайт на Wordpress. Установил плагин Google XML Sitemaps, активировал, создал Sitemap. Все получилось. Ошибок Гугл не заметил. Но страничка c sitemap моего сайта на второй день визуально изменилась - http://shara-kiev.com/sitemap.xml. Хотя должна выглядеть вот так, например, - http://www.wp-info.ru/sitemap.xml.
При этом, когда я отправил Sitemap в Гугл, то он не ругался. То еть, как бы всё хорошо. Но тогда что же это такое? Ошибка - не ошибка?

andrej 14 ноября 2010 г. 20:11

я пытался добавить свой сайт в яндекс а он мне выдал что типо не индексирует из за заперта роботом но я вообще этот робот не добавлял, но яндекс он почему то находит. и действительно там роботс написан так что запрещает индексировать весь сайт всеми коталогами. что это ваще такое и что делать теперь?

adw0rd 14 ноября 2010 г. 20:39

Погуглите в факу юкоза или спросите в их техподержке

ruspravabcde 15 декабря 2010 г. 0:41

andrej, сайт покажи

Александр 30 марта 2011 г. 14:25

User-agent: *
Disallow: /engine/go.php
Disallow: /user/
Disallow: /newposts/
Disallow: /statistics.html
Disallow: /subaction=userinfo
Disallow: /subaction=newposts
Disallow: /do=lastcomments
Disallow: /do=feedback
Disallow: /do=register
Disallow: /do=lostpassword
Disallow: /do=addnews
Disallow: /do=stats
Disallow: /*do=pm

Sitemap: http://home-center74.ru/sitemap.xml
Вопрос это для Dle немагу понять прочитал много и вывот всёжи не зделал чтоб яша и гугол тебя хорошо скан7ировали что нужно для этого или дайте что надо добавить к ниму.

Вадим 1 апреля 2011 г. 12:51

Здравствуйте! правильно ли я создал robots.txt??

User-agent: *
Sitemap: http://www.gt-light.ru/sitemap.xml
Allow: /office.html
Allow: /index.html
Allow: /product.html
Allow: /doc.html
Allow: /contact.html
Allow: /
Allow: /street.html
Allow: /jkx.html
Allow: /link.html
Allow: /contact2.html
Allow: /send.php

Вадим 1 апреля 2011 г. 13:31

а sitemap у меня :

http://www.gt-light.ru/
2011-04-01T08:38:30+00:00
always
1.00

http://www.gt-light.ru/product.html
2011-04-01T08:35:39+00:00
always
0.80

http://www.gt-light.ru/link.html
2011-04-01T08:35:39+00:00
always
0.80

http://www.gt-light.ru/contact.html
2011-04-01T08:37:06+00:00
always
0.80

http://www.gt-light.ru/Links/life.html
2011-03-22T19:21:49+00:00
always
0.80

http://www.gt-light.ru/Link.html
2011-03-22T19:21:49+00:00
always
0.80

http://www.gt-light.ru/office.html
2011-04-01T08:36:16+00:00
always
0.64

http://www.gt-light.ru/jkx.html
2011-04-01T08:34:35+00:00
always
0.64

http://www.gt-light.ru/street.html
2011-04-01T08:35:17+00:00
always
0.64

http://www.gt-light.ru/contact2.html
2011-03-26T14:47:26+00:00
always
0.64

http://www.gt-light.ru/office.pdf
2011-04-01T08:35:39+00:00
always
0.80

http://www.gt-light.ru/street.pdf
2011-04-01T08:35:39+00:00
always
0.80

http://www.gt-light.ru/jkx.pdf
2011-03-21T07:00:53+00:00
always
0.51

bulanovandrej 1 апреля 2011 г. 18:46

Спасибо с статейку, я как раз щас это в оптимизации сайта своего делаю!

Design 4 ноября 2011 г. 20:55

спасибо за статью но для яндекса запрос
http://webmaster.yandex.ru/wmconsole/sitemap_list.xml?host=
не работает

adw0rd 7 ноября 2011 г. 8:13

Я перешел по этой ссылке и меня средиректило на http://webmaster.yandex.ru/site/map.xml?host=, видимо теперь это правильный URL, но так как там есть редирект, то смысла пока не вижу переписывать, так как ещё может поменяться не раз :)

Николай 13 декабря 2011 г. 15:00

Уважаемый автор.

Я профессионально занимаюсь SEO-обучением http://seo-obuchenie.ru/ (смотри здесь) и продвижением сайтов http://prodvizhenie-saytov.ru/ (смотри здесь), поэтому приходится помнить все тонкости создания robots.txt.

У Вас есть ошибка в посте и одна ненужная строка в robots.txt, так как в данном виде директива Allow не выполнится. К тому же эту директиву изначально поддерживал только Яндекс.

Так вот выглядит мой роботс: User-agent: * Disallow: /wp- Disallow: /xmlrpc.php Disallow: /category/ Disallow: /page/ Disallow: /trackback/ Disallow: /feed Disallow: /comments/ Disallow: */trackback/ Disallow: */feed/ Disallow: */comments/ Disallow: /?feed= Disallow: /?s= Allow: /wp-content/uploads/ Sitemap: http://adw0rd.ru/sitemap.xml Я разрешил поисковым ботам индексировать меня только по «Тегам» и «Архиву». Обратите внимание, я использую маску /wp- , для того чтобы URL'ы wp-login.php, wp-register.php, wp-admin и т.д. попали под запрет индексации (Disallow). Также я разрешил индексировать мой «/wp-content/uploads/» для сервисов «Яндекс.Картинки» и «Google Картинки», так как там хранятся в основном картинки. И расшарил файл «sitemap.xml» для лучшей индексации.

Если
Allow: /wp-content/uploads/
стоит после
Disallow: /wp-
, то выполнится именно первая сверху(!) дирректива, а Allow: /wp-content/uploads/ не выполнится. Приоритет у вышестоящих записей.

Поэтому и в своем robots.txt просто поменяйте их местами.

С уважением, Николай.

P.S. На другие сообщения отвечать не стал, так как их очень много, но почти во всех примерах есть масса ошибок в составлении robots.txt.

Иван 9 января 2012 г. 14:44

User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /editor/
Disallow: /help/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /index2.php?option=com_content&task=emailform
Disallow: /?sl
Disallow: /index.php?*
Disallow: .pdf$
Disallow: /name.php?action=print
Disallow: /trackback
Disallow: /rss.html
Disallow: /*atom.html
Host: ads-74.ru
Sitemap: http://ads-74.ru/sitemap.xml

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /editor/
Disallow: /help/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /index2.php?option=com_content&task=emailform
Disallow: /?sl
Disallow: /index.php?*
Disallow: .pdf$
Disallow: /name.php?action=print
Disallow: /trackback
Disallow: /rss.html
Disallow: /*atom.html

Игорь 29 декабря 2012 г. 15:14

Использую компонент Xmap (Joomla2.5). После настройки беру со строки браузера ссылку (http://filter-tver.com/component/xmap/xml?option=com_xmap&view=xml&id=1&filter_showtitle=1&filter_showexcluded=1) и заношу её в robot.txt (Sitemap: http://filter-tver.com/component/xmap/xml?option=com_xmap&view=xml&id=1&filter_showtitle=1&filter_showexcluded=1)
В результате:
- "Валидатор файлов Sitemap" (на яндексе) пишет:
Результаты проверки
Произошла внутренняя ошибка. Попробуйте повторить попытку позже.Превышено время ожидания ответа.
Не удалось загрузить Sitemap
Не удалось загрузить указанный файл
- Гугл пишет:
При попытке доступа к вашему файлу Sitemap произошла ошибка. Убедитесь, что этот файл Sitemap соответствует нашимправилам и находится в указанном местоположении, а затем отправьте его повторно.
Что я делаю не правильно?

adw0rd 29 декабря 2012 г. 22:14

Ну может им не нравится скорость с которой генерируется sitemap? Ничего другого подозрительного я не увидел

Артур 30 июня 2013 г. 2:34

Привет,пишет такую ошибку - http:// www.piecework.ru/category/c-chego-nachat/ запрещен правилом /category// подскажите пожалуйста в чем ошибка?
Вот сам код

User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /webstat/
Disallow: /feed/
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /category/*/*
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /comments

User-agent: Yandex
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /webstat/
Disallow: /feed/
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /category/*/*
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /comments
Host: piecework.ru

Sitemap: http://www.piecework.ru/sitemap.xml
Sitemap: http://www.piecework.ru/sitemap.xml.gz

adw0rd 30 июня 2013 г. 9:55

Это не ошибка. Вы сами запретили:

Disallow: /category/*/*

Артур 30 июня 2013 г. 11:26

То есть надо убрать это - (//) или полностью - (Disallow: /category//) ?

adw0rd 30 июня 2013 г. 19:31

Да, полностью

Disallow: /category/*/*

Andrei 12 января 2015 г. 20:26

Помогите пожалуйста!!!
Сегодня поставил плагин для генерации сайтмап googl sitemap, посл установки и генерации в конце каждой страницы после значка счетчика лайф интернет появилась вот это - < /a> что это за чтука и как ее убрать