29 мая 2009 г. Google Wordpress SEO Яндекс Поисковые системы

Делаем правильный robots.txt и sitemap.xml

Задача состоит в том, чтобы запретить некоторые каталоги для индексации поисковым системам, для того, чтобы избавится от дублированного контента. Например, на одну и ту же статью можно попасть как с /tag/ так и с /category/.

Почему дублирующийся контент это плохо?

Вот, что говорит по этому поводу Google (перевод), можно так же найти информацию по поводу поисковой системы Яндекс, где говорится что их алгоритмы банят сайты с дублирующимся контентом. Не знаю так это или нет, я не специалист в области SEO (если есть спецы - отпишите в камменты), но на всякий случай прикрою дубляжи!

Воспользуйтесь поиском от Google или Яндекс и вы найдете море информации по этой теме.

UPD: Про дублирующийся контент в Wordpress.

Robots.txt

robots.txt — файл ограничения доступа к содержимому роботам на http-сервере. Файл должен находиться в корне сайта (т.е. иметь путь относительно имени сайта /robots.txt). При наличии нескольких субдоменов файл должен располагаться в корневом каталоге каждого из них. Данный файл дополняет стандарт Sitemaps, который служит прямо противоположной цели: облегчать роботам доступ к содержимому.

http://ru.wikipedia.org/wiki/Robots.txt

Также есть немного информации на форуме MasterTalk: Что такое robots.txt и для чего он нужен, а также есть сайт посвященный этому файлу - Все о файле robots.txt по-русски.

Вот еще эксперименты Дениса Болтикова по идеальному роботсу для Wordpress: Идеальный robots.txt для Wordpress и Идеальный robots.txt для Wordpress — 2.

Мой Robots.txt

Так вот выглядит мой роботс:

User-agent: *
Disallow: /wp-
Disallow: /xmlrpc.php
Disallow: /category/
Disallow: /page/
Disallow: /trackback/
Disallow: /feed
Disallow: /comments/
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
Allow: /wp-content/uploads/
Sitemap: /sitemap.xml

Я разрешил поисковым ботам индексировать меня только по "Тегам" и "Архиву". Обратите внимание, я использую маску /wp-, для того чтобы URL'ы wp-login.php, wp-register.php, wp-admin и т.д. попали под запрет индексации (Disallow).

Также я разрешил индексировать мой "/wp-content/uploads/" для сервисов "Яндекс.Картинки" и "Google Картинки", так как там хранятся в основном картинки. И расшарил файл "sitemap.xml" для лучшей индексации.

Для проверки синтаксиса и структуры файла robots.txt существует ряд специализированных онлайн-служб:

Sitemaps

Так же следует не забыть о файле sitemap.xml

Sitemaps — это XML-файл с информацией для поисковых систем (таких как Google, Yahoo, Ask.com, MSN, Яндекс) о страницах веб-сайта, которые подлежат индексации. Sitemaps может помочь поисковикам определить местонахождение страниц сайта, время их последнего обновления, частоту обновления и важность относительно других страниц сайта для того, чтобы поисковая машина смогла более разумно индексировать сайт.

http://ru.wikipedia.org/wiki/Sitemaps

Сайтмап не обязателен и поисковые системы не гарантируют его использование, он лишь помогает поисковым ботам проводить индексацию, однако я считаю что это очень полезным!

Для Wordpress существует плагин - Google XML Sitemaps (другие полезные плагины для Wordpress используемые мной). Этот плагин генерирует за вас файл sitemap.xml, в котором и содержится информация для поисковых ботов по индексации сайта. Вы сами можете его настроить и указать проценты приоритета для статей, страниц и т.д.

Центры веб-мастеров Google и Яндекс

Для ускорения индексации рекомендуется оповестить Google и Яндекс о ваших файлах robots.txt и sitemap.xml, для этого существуют специальные сервисы:

Использование http-пингов для уведомления поисковых систем о обновлениях в sitemaps

Можно указать поисковым системам местонахождение файла Sitemap при помощи HTTP-запроса:

Google
http://google.com/webmasters/sitemaps/ping?sitemap=<sitemap_location>

Яндекс
http://webmaster.yandex.ru/wmconsole/sitemap_list.xml?host=<sitemap_location>

Yahoo!
http://search.yahooapis.com/SiteExplorerService/V1/updateNotification?appid=SitemapWriter&url=<sitemap_location>
http://search.yahooapis.com/SiteExplorerService/V1/ping?sitemap=<sitemap_location>

Ask.com
http://submissions.ask.com/ping?sitemap=<sitemap_location>

Live Search
http://webmaster.live.com/ping.aspx?siteMap=<sitemap_location>

Где <sitemap_location> необходимо заменить на полный URL файла Sitemap. Например, чтобы добавить файл http://www.example.com/sitemap.xml в поисковик Google, нужно отправить HTTP-запрос http://www.google.com/webmasters/sitemaps/ping?sitemap=http://www.example.com/sitemap.xml.

Информация по пингам взята с http://ru.wikipedia.org/wiki/Sitemaps

Google не рекомендует чаще чем раз в час его пинговать, вот пруфлинк.

Комментарии

Киберпанк 2 июня 2009 г. 21:23

Уф, наконец-то и я сподобился сделать себе сайтмап. Спасибо за ссылку на плагин.

Пожалуйста :)

Вот некоторые советуют прописывать Яшу отдельно - в таком случает прописывать ли путь к sitemap и Yandex тоже? или можно sitemap http://site/sitemap.xml поставить в любом месте robots.txt?

в таком случает прописывать ли путь к sitemap и Yandex тоже?
Нет, достаточно один раз прописать. Вы можете проверить robots.txt в центре веб-мастеров Яндекса и если прикрепиться сайтмат, то все работает нормально.

Лично я для Яши ничего не прописывал дополнительно, работает все хорошо!

Я тоже таким образом делал примерное, хотя в некоторых случаях разбивал на поисковые боты. Недавно встретил сервис проверки на валидность и он показал кучу ошибок именно в


Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/

И еще allow считается неправильным выражением. По крайней мере читал об этом несколько раз.
А сервис проверки на валидность привожу
http://tool.motoricerca.info/robots-checker.phtml

Advent, ага ругается, спасибо, буду изучать сервис :)

Добрый день. Я разобрался почему оно ругается. Дело в том, что это чекер указывает на то что символ * относится, как бы к именным поисковым ботам,то есть тем которые переваривают эту фишку. К таким системам относится гугл и яндекс.Тоже самое и с кодом allow. То есть по существу заданные параметры отвечают как гуглеботу, так и яндексу. Остается занозой внедрение гуглом нового алгоритма индексирования nofolow. По сути наверняка плагин сео, теперь нельзя использовать с nofolow, а рубить ненужные страницы в роботсе.тхт, как это сделано на примере, добавляя при необходимости все что является тормозом.

Угу, спасибо за информацию, полезно!

А почему ты выбрал индесацию по тэгам и архиву и закрыл по страницам и категориям?

Потомучто надо было один источник, а теги наиболее тематичны на мой взгляд

да, но как раз с тэгов получается море ссылок на одни и те же страницы.

Хм, не подумал сначала, думаю потом на категории переправлю )

я тут с роботсом занятную штуку увидел, куда бы не заходил на блоге постоянные ссылки на конкретную страницу и из архивов и из категорий, а при попытке зайти через категорию например адрес переписывается на стандартный. Что-то мне подсказывает, что при установке ЧПУ вся возня с запретами в роботсе не нужна никому.

Спасибо, за пост! Пост очень помог с создание robots.txt

Столкнулся с проблемой, мне нужно запретить проход поисковых ботов по счётчикам скачиваний файлов, можно ли через роботс это сделать?

Что такое "счётчикам скачиваний файлов"? У них есть URL?

Доброе время суток. У меня вопрос по поводу дублирующегося контента.
Например, в рубрике есть список статей, у многих из них есть тег , кликая на ссылку "читать далее" мы переходим на статью со своим уникальным url-ом. Но есть в рубрике короткие статьи, которые полностью отображают текст статьи в списке статей рубрики. Т.е. кликая на эту статью, мы заходим на юрл статьи, где текст абсолютно идентичен тексту на странице рубрики. Каким образом лучше избежать такой дубляж?
Спасибо за ответ.

Вообще я бы закрывал для индексации тела статей в списке, а оставлял только названия и ссылки на отдельную страницу.

Спасиб. Закрыл через плагин SEO все-в-одном рубрики, архивы и теги. Надеюсь этого должно хватить.

Не, вернул рубрики назад, они мне нужны... Подскажите, каким образом можно закрыть именно "тела статей в списке рубрики"?

noindex/nofollow не подходит?

Нашла такой перечень:

User-agent: *
Disallow: /cgi-bin
Disallow: /tmp/
Disallow: /wp-admin
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /feed
Disallow: */feed
Disallow: /*?*
Disallow: /*?
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /search/*/feed
Disallow: /search/*/*
Disallow: /tag/
Allow: /wp-content/uploads/

User-agent: Googlebot-Image
Disallow:
Allow: /*

User-agent: Mediapartners-Google*
Disallow:
Allow: /*

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /feed
Disallow: */feed
Disallow: /*?*
Disallow: /*?
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /search/*/feed
Disallow: /search/*/*
Disallow: /tag/
Allow: /wp-content/uploads/
Host: www.domen.ru
Sitemap: http://www.domen.ru/sitemap.xml

User-agent: YandexBlog
Disallow:
Allow: /*

но валидатор robots.txt ругается на все строки кроме карты сайта... почему?

Привет. Я добавил в Яндекс сайт и в корень своего сайта файл robots.txt, но мой сайт так и не проиндексирован в Яндексе и Гугле. Почему? Как заставить поисковиков Google и Яндекс проиндексировать мои сайты? Так чтобы они попали в поисковики и чтобы было ТИЦ 50 PR 15.

В статье описано как... Читайте "Центры веб-мастеров Google и Яндекс"

Adw0rd, а где это? В Яндексе?

По ссылке "Яндекс.Вебмастер" перешли?

Да, adw0rd. И что мне теперь делать? Вот мои сайты:
http://*/. Это сайт с бесплатными играми, программами и фильмами для скачивания.
http://
/. Это сайт с кулинарными рецептами добавленными посетителями в блог.
Но эти сайты НЕ проиндексированы. :( Я уже жду, жду, но результат нулевой. Что делать?

http://help.yandex.ru/webmaster/?id=995306 надеюсь после этого у вас не будет вопросов

Я когда пытаюсь в Яндексе сообщить о новом сайте, мне в ответ выдают ошибку вот какую: "Указанный URL запрещен к индексации. Подробнее о запрете на индексацию вы можете прочитать в FAQ". Почему так? Что делать?

А факу пробовали читать? Наверняка с юкозов всяких нельзя добавлять...

Я ещё хочу чтобы туда сайты принимали и с бесплатных хостингов!

Но там в помощи как создать сайт было вот что написано:
"Чтобы сайт появился в поиске Яндекса, робот должен проиндексировать его. Если на ваш сайт есть ссылки с других (чужих) сайтов, то специально добавлять сайт не требуется — он автоматически будет найден и, скорее всего, проиндексирован. Если ссылок на ваш сайт еще нет, вы можете воспользоваться формой «Сообщить о новом сайте», чтобы сообщить роботу о существовании сайта. Также сообщить о новом сайте можно через добавление его в разделе в «Мои сайты». Обратите внимание — добавление URL не гарантирует, что сайт будет проиндексирован или проиндексирован быстро".

А что должно быть в роботе, ну в файле robots.txt? Сайты мои и страницы которые робот должен проиндексировать?

Там должны быть правила индексации для текущего сайта.
http://ru.wikipedia.org/wiki/Robots.txt

Сергей Дорохин 22 февраля 2010 г. 17:23

А есть ли средство автоматизации пингов для уведомления поисковиков?
Google XML Sitemaps для Wordpress уведомляет Gooogle и Bing. Как быть с остальными?

Я для уведомления Яндекса юзаю его сервис Яндекс.Вебмастер, он сам забирает мой сайтмап. Плагинов для wp я не втречал и не искал. Но думаю такие есть, там его делать то 5 минут

А там файл sitemap.xml (сайтмэп.экс-эм-эль) обязательно? Если да - то как его скачать бесплатно и без регистрации?

Где? Вы сначала почитайте что такое sitemap.xml...

Там на сайте http://help.yandex.ru/webmaster/?id=1111288 там вот написано что такое файл Sitemap: "Файл Sitemap - это файл с дополнительной информацией о страницах сайта, подлежащих индексированию. С помощью файла Sitemap вы можете сообщить Яндексу, какие страницы вашего сайта нужно индексировать, как часто обновляется информация на страницах, а также индексирование каких страниц наиболее важно. Подробно об использовании файлов Sitemap читайте в соответствующем разделе Помощи".

Привет. Я вот ещё добавил в свой сайт файл robots.txt С таким содержимым:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-login.php
Sitemap: http://mrjaroshfiles.at.ua/sitemap.xml
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-login.php
Sitemap: http://mrjaroshfiles.at.ua/sitemap.xml
Host: mrjaroshfiles.at.ua

Но мне всё равно выдают вот какую ошибку: "Указанный URL запрещен к индексации.
Подробнее о запрете на индексацию вы можете прочитать в FAQ". А там в запрете на индексирование сайта там написано:
"Индексирование сайта может быть запрещено либо по причинам технического характера (страницы содержат ошибки и их содержимое невозможно корректно проиндексировать или индексирование сайта запрещено в файле robots.txt) либо за использование недобросовестных приемов продвижения сайтов в поисковых системах (поисковый спам)".
Как эту проблему устранить? Я ещё хочу чтобы туда принимали сайты и с бесплатных хостингов! В том числе сайты с Ucoz!

Тут вы можете проверить синтаксис http://webmaster.yandex.ru/robots.xml, это единственно что я вам могу посоветовать, остальное вы сами решаете надо индексировать или нет.

Если вы вообще ничего в этом не понимаете, а именно такое мнение сложилось, то тщательно погуглите и найдите ответы на вопросы. После чего проанализируйте ответы, все обдумайте и тогда можете еще что-то написать в камменты.

Как эту проблему устранить? Я ещё хочу чтобы туда принимали сайты и с бесплатных хостингов! В том числе сайты с Ucoz!
Я ничем вам не могу помочь, не я писал правила. А юкоз и прочие конструкторы - рассадник ГС.

Ну всё правильно. Вот роботс так выглядит:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-login.php
Sitemap: http://mrjaroshfiles.at.ua/sitemap.xml
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-login.php
Sitemap: http://mrjaroshfiles.at.ua/sitemap.xml
Host: mrjaroshfiles.at.ua

А ошибку всё равно выдаёт. Может там ещё чего-то не хватает? Может ещё не хватает файла sitemap.xml?

Может. Не пробовали указывать один раз сайтмап?

Пока нет. А этот файл можно скачать?

Саша Ярош, да, по вашей же ссылке

Аааа. Ну понятно. Но сейчас я вот какую ссылку добавлял: http://webmaster.yandex.ru/wmconsole/sitemap_list.xml?host=mrjaroshfiles.at.ua. Но мне пишут вот что: "Сервер возвращает код статуса http 403 (ожидался код 200)". Что это значит? Опять ошибку выдаёт или что?

http://ru.wikipedia.org/wiki/HTTP_403#403 почиатйте

Ааааа. Там в Википедии там где эти коды там я понял что обозначает код ошибки 403:

«Появился в HTTP/1.0.

Сервер понял запрос, но он отказывается его выполнять из-за ограничений в доступе со стороны клиента к указанному ресурсу.

Если для доступа к ресурсу требуется аутентификация средствами HTTP, то сервер вернёт ответ 401 (или 407 для прокси). В противном случае ограничения были заданы администратором сервера или разработчиком веб-приложения и могут быть любыми в зависимости от возможностей используемого ПО.

В любом случае клиенту следует сообщить причины отказа в обработке запроса.

Наиболее вероятными причинами ограничения могут послужить:

Попытка доступа к системным ресурсам веб-сервера (например, файлам .htaccess или .htpasswd) или к файлам, доступ к которым был закрыт с помощью конфигурационных файлов.

Для доступа требуется аутентификация не средствами HTTP (например, для доступа к CMS или разделу для зарегистрированных пользователей).

Сервер не удовлетворён IP-адресом клиента (например, временная блокировка из-за частых обращений или же на этапе разработки приложения доступ разрешён только некоторым IP)».

А код 200 — это:

«Появился в HTTP/1.0.

Успешный запрос ресурса. Если клиентом были запрошены какие-либо данные, то они находятся в заголовке и/или теле сообщения».

А я всё-таки хочу чтобы мои сайты проиндексировали!!! И ещё хочу чтобы принимали сайты и с бесплатных хостингов! В том числе сайты с Ucoz! И я ещё хочу сделать такие показатели своего сайта как ТИЦ 1500 PR 13. Как мне это сделать? Ответьте кто-нибудь пожалуйста?

Саша Ярош, пожалуйста перестаньте писать сюда. Проблемы тут ваши не решаться, это не сео-форум.

Сергей Дорохин 23 февраля 2010 г. 19:46

2 Саша Ярош
Красавец! PR равный 13-ти! Для тебя будет легче поработить вселенную!

2 adw0rd
Прошу ответить на мой вопрос, если не сложно. Как автоматизировать уведомление Яндекс'а новом sitemap.xml с помощью http-пинга?

Сергей, у меня показатели сайта mrjaroshfiles.at.ua тИЦ 0 PR 2. А у сайта 400receptow.ucoz.ua тИЦ 0 PR 0.

Саша Ярош, pr больше 10 не бывает. Вы задолбали задавать глупые вопросы, еще раз прошу сначала погуглить обо всех материалах, а потом говорить/спрашивать.

Сергей Дорохин, я вам уже отвечал

Я для уведомления Яндекса юзаю его сервис Яндекс.Вебмастер, он сам забирает мой сайтмап. Плагинов для wp я не втречал и не искал. Но думаю такие есть, там его делать то 5 минут

Adw0rd, а что означает погуглить? Как это сделать?

Саша Ярош, вы издеваетесь? Погуглить

А как сделать файл Sitemap_list.xml? Как он выглядит? Что там в нём есть?

Я не знаю что такое "Sitemap_list.xml".

Adw0rd, это я имел в виду "Sitemap.xml". Так что там должно быть? Ну чтобы я мог сообщить о новом сайте в Яндексе.

А то вместо того чтобы сообщить о новом сайте мне ошибку выдают такую: "Сервер возвращает код статуса http 403 (ожидался код 200)".

Я в статье давал ссылку на http://ru.wikipedia.org/wiki/Sitemaps, читайте внимательно.

А я и забыл.

Дорохин Сергей 24 февраля 2010 г. 13:47

С помощью программы Xenu ты просканируешь свой сайт, а потом создашь этот sitemap.xml

Сашок! читай документацию, википедию, статьи всякие, пользуй поиск, не доставай людей!

Сергей, +1 :)

Серёжа, это прога Xenu она на английском языке. Я английского НЕ понимаю. Можешь дать мне русификатор программы Xenu или другую выбрать по сканированию сайта? Только на русском языке!

Дорохин Сергей 24 февраля 2010 г. 15:56

Саша, я объясню. Если хочешь стать специалистом, сначала читаешь книги, статьи, блоги, форумы по теме. Терпишь и читаешь, пытаешься САМ ПОНЯТЬ ОСНОВЫ. А уж потом спрашиваешь у людей. Дилетанты отпугивают, ответа ты не получишь, пока не пройдешь начальную школу. Умываю руки.

Почему?

Потому что никому не охота помогать тому, кто не хочет сам себе помочь.
Я снова солидарен с вами Сергей.

Ой б%№дь. Ну хорошо. Я найду другую прогу по сканированию сайта. Но такую которая только на русском языке. Я английского НЕ понимаю.

Привет. Так должен выглядеть файл robots.txt? Вот он:

main section

User-agent:*

End of main section

sitemap section

User-agent: Yandex
Allow: /
Sitemap: http://mrjaroshfiles.at.ua/sitemap.xml

end of sitema section

Но когда я запускаю под браузером интернета, мне оно выдаёт ошибку. Почему?

Саша Ярош, думаю, Вам лучше заказать сайт у людей, которые разбираются в сайтостроении. Т.к. похоже, что Вы не хотите разбираться сами, а ждете что Вам бесплатно сделают конфетку под все ваши требования и сразу с PR = 100 :))))...

adw0rd, от оповещений на e-mail отписалась, но ваш сайт внесла в закладки

Если я сообщу роботу поисковых систем о новом сайте, то через сколько дней мои сайты проиндексируются?

Дорохин Сергей 27 февраля 2010 г. 7:13

Да, сообщите Гуглу и Яндексу. На практике блог из 50 страниц индексируется неделю-две.

Я уже сообщал. И что теперь?

Саша Ярош, пить чай с плюшками и ждать великого дня.

Это НЕ ПОМОЖЕТ!

Тогда обратите внимание на предложение VRS :)

VRS - это... ?

Это никнейм, смотрите камменты выше!
Только не говорите что не знаете что такое "никнейм" и "камменты", вы уже знаете что такое "гуглить" и сможеть нагуглить новые для вас слова.

Привет. Если робот Яндекса проиндексирует все мои страницы сайта, то повыситься от этого тИЦ и PR?

VRS - это.. я :)

Саша Ярош, Вы определитесь сначала, для чего Вам нужны тИЦ и PR?
У меня, например, сайт с тИЦ=0, PR=1, при этом ежедневное посещение - более 400 уников и СЧ запросам он на первой странице Яши..

тИЦ и PR нужен для того чтобы мои сайты находились в поисковиках Яндекс и Google. У вас ежедневное посещение более 400 уников. А как у вас это произошло?

Саша Ярош, прочтите сначала что такое тИЦ и PR . тИЦ НЕ ВЛИЯEТ на выдачу ПС Яндекса. PR тоже не единственный фактор для выдачи Гугла..

Вы задаете глупые вопросы, ответы на которые давно даны специально для новичков. Научитесь пользоваться поиском.

Уникальные продуманные тексты с грамотно подобранными ключевиками, регистрация в каталогах, размещение на досках объявлений... в сети море... нет... океан... нет... - ВСЕЛЕННАЯ информации о методах оптимизации сайта! Ищите, читайте, учитесь... Лень? Хотите получить в разжеванном виде? - идите на платные курсы или в институт..

Прошу оценить:

User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-register.php
Disallow: /wp-login.php
Disallow: /xmlrpc.php
Disallow: /.js$
Disallow: /
.inc$
Disallow: /.css$
Disallow: /
?*
Disallow: /?*
Disallow: /trackback
Disallow: /trackback
Disallow: /feed
Disallow: */feed
Disallow: /comments
Disallow: */comments
Disallow: /category
Disallow: /page
Disallow: */
?replytocom*
Disallow: /search

User-agent: Yandex
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-register.php
Disallow: /wp-login.php
Disallow: /xmlrpc.php
Disallow: /.js$
Disallow: /
.inc$
Disallow: /.css$
Disallow: /
?*
Disallow: /?*
Disallow: /trackback
Disallow: /trackback
Disallow: /feed
Disallow: */feed
Disallow: /comments
Disallow: */comments
Disallow: /category
Disallow: /page
Disallow: */
?replytocom*
Disallow: /search
Host: домен

Sitemap: http://домен/sitemap.xml.gz

Саша Ярош 29 марта 2010 г. 23:15

Как самому проиндексировать сайт в Яндексе бесплатно?

Двуглазый Юм 19 июля 2010 г. 14:29

Боюсь попасть в одну мусорку с Ярошем, но все-таки обрисую ситуевину и попрошу совета.

twoeyedyum . megabyet . net - вот он, источник моих мучений (вирусов нет)

Есть сайт: бесплатный хостинг, домен третьего уровня, блог Вордпресс. ЧПУ включены (само собой, хочется человеческих ссылок).
В canonical.php добавлена директива на запрет неправильных редиректов (нагуглил в десяти источниках, так что вроде не брехня) и, соответственно, перепроверен основной адрес в настройках Вордпресс.
Роботс.тхт составлен по вышеупомянутым правилам (открытыми я оставил именно диретории, в остальном отличий почти нет). Один раз упомянут sitemap.xml (автоматически создается плагином).

Сайт спокойно виден в гугле, а вот Яша уже полтора апа меня игнорирует (апы ТИЦ имеются ввиду, ибо апов выдачи было гораздо больше). В Яндекс.Вебмастере карта сайта тестируется на УРА, ошибок не найдено, но страниц в поиске по-прежнему 0 (ноль штук). Вроде никаких правил сайт не нарушает, причин попадать совсем уж в бан - нет. Гугл-робот дает всем страницам код 200, яша-робот дает 403 Форбидден.

Собственно вопрос: неужели нужно ждать еще один-два (или еще десяток) апа ТИЦ/выдачи, чтобы Яша наконец разглядел и проиндексировал сайт в соотвествии с картой сайта и Роботс.тхт, которые ему так понравились?
Сами Гугл и Яндекс уже не знают, что мне ответить...

Двуглазый Юм 19 июля 2010 г. 14:34

Дополнительный момент касательно блога автора: здесь, как и в многих других стандалонах, нельзя подписаться своим блогом (просто не хочется быть совсем Анонимусом). Это какая-то фишка ВП, или я просто не нагуглил такого плагина?

гляньте тут: http://kiev-security.org.ua/sitemap.htm

Forbidden You don't have permission to access /sitemap.htm on this server.
Двуглазый Юм 30 июля 2010 г. 2:34

Заранее извиняюсь, но паре десятков людей может помочь мой случай, разрешившийся тяжелыми родами недавно:

twoeyedyum.megabyet.net (megabyet.net - собственно, хостер, домен 3-го уровня бесплатный) выпадает в 403 ошибку исключительно у Яши, и дело тут вовсе не в роботсах, и не в картах сайта. Кто тоже грешил на эти два объекта, но еще не обратился в саппорт Яндекса, тех предупреждаю заранее - Яндекс страдает паранойей пополам с легким детским синдромом наивности.

На свои вопросы я получил примерно такой ответ: "Извините, но домен содержит в себе много доменов третьего уровня, на которых расположены дорвеи и прочие нехорошие сайты. ПОПРОСИТЕ вашего хостера, раз уж вы пользуетесь его доменным именем, убрать все дорвеи со своих доменов, и ТОГДА мы разблокируем megabyet.net и все домены в этой группе, и не будет появляться 403 ошибка."

От така *ня, малята! © Простите, не сдержался. Просто представил, как я буду уговаривать своего финского хостера уничтожить часть сайтов ради меня и Яши...

Ларчик просто открывался, не поленитесь и со своей проблемой постучать прежде всего к саппорту Яши - люди душевные, завсегда посоветуют "хорошего"...

Алекс Маслаков 5 октября 2010 г. 1:24

То, что надо! Вот только нужно отправлять файл sitemap часто (но не чаще одного раза в час) или только единожды?

Я изменяю часто и отправляю тоже часто (пингую только гугл).
То есть, например я публикую 20 записей, то в течении 20 минут я каждую минуту пингую гугл. И когда я так начал делать, гугл только еще больше полюбил меня и стал чаще индексировать :) Этот пример касается проект http://kinsburg.ru/, вы можете посмотреть его sitemap.

Здравствуйте!
У меня сайт на Wordpress. Установил плагин Google XML Sitemaps, активировал, создал Sitemap. Все получилось. Ошибок Гугл не заметил. Но страничка c sitemap моего сайта на второй день визуально изменилась - http://shara-kiev.com/sitemap.xml. Хотя должна выглядеть вот так, например, - http://www.wp-info.ru/sitemap.xml.
При этом, когда я отправил Sitemap в Гугл, то он не ругался. То еть, как бы всё хорошо. Но тогда что же это такое? Ошибка - не ошибка?

я пытался добавить свой сайт в яндекс а он мне выдал что типо не индексирует из за заперта роботом но я вообще этот робот не добавлял, но яндекс он почему то находит. и действительно там роботс написан так что запрещает индексировать весь сайт всеми коталогами. что это ваще такое и что делать теперь?

Погуглите в факу юкоза или спросите в их техподержке

andrej, сайт покажи

Александр 30 марта 2011 г. 14:25

User-agent: *
Disallow: /engine/go.php
Disallow: /user/
Disallow: /newposts/
Disallow: /statistics.html
Disallow: /subaction=userinfo
Disallow: /
subaction=newposts
Disallow: /do=lastcomments
Disallow: /
do=feedback
Disallow: /do=register
Disallow: /
do=lostpassword
Disallow: /do=addnews
Disallow: /
do=stats
Disallow: /*do=pm

Sitemap: http://home-center74.ru/sitemap.xml
Вопрос это для Dle немагу понять прочитал много и вывот всёжи не зделал чтоб яша и гугол тебя хорошо скан7ировали что нужно для этого или дайте что надо добавить к ниму.

Здравствуйте! правильно ли я создал robots.txt??

User-agent: *
Sitemap: http://www.gt-light.ru/sitemap.xml
Allow: /office.html
Allow: /index.html
Allow: /product.html
Allow: /doc.html
Allow: /contact.html
Allow: /
Allow: /street.html
Allow: /jkx.html
Allow: /link.html
Allow: /contact2.html
Allow: /send.php

а sitemap у меня :

http://www.gt-light.ru/
2011-04-01T08:38:30+00:00
always
1.00

http://www.gt-light.ru/product.html
2011-04-01T08:35:39+00:00
always
0.80

http://www.gt-light.ru/link.html
2011-04-01T08:35:39+00:00
always
0.80

http://www.gt-light.ru/contact.html
2011-04-01T08:37:06+00:00
always
0.80

http://www.gt-light.ru/Links/life.html
2011-03-22T19:21:49+00:00
always
0.80

http://www.gt-light.ru/Link.html
2011-03-22T19:21:49+00:00
always
0.80

http://www.gt-light.ru/office.html
2011-04-01T08:36:16+00:00
always
0.64

http://www.gt-light.ru/jkx.html
2011-04-01T08:34:35+00:00
always
0.64

http://www.gt-light.ru/street.html
2011-04-01T08:35:17+00:00
always
0.64

http://www.gt-light.ru/contact2.html
2011-03-26T14:47:26+00:00
always
0.64

http://www.gt-light.ru/office.pdf
2011-04-01T08:35:39+00:00
always
0.80

http://www.gt-light.ru/street.pdf
2011-04-01T08:35:39+00:00
always
0.80

http://www.gt-light.ru/jkx.pdf
2011-03-21T07:00:53+00:00
always
0.51

Спасибо с статейку, я как раз щас это в оптимизации сайта своего делаю!

спасибо за статью но для яндекса запрос
http://webmaster.yandex.ru/wmconsole/sitemap_list.xml?host=
не работает

Я перешел по этой ссылке и меня средиректило на http://webmaster.yandex.ru/site/map.xml?host=, видимо теперь это правильный URL, но так как там есть редирект, то смысла пока не вижу переписывать, так как ещё может поменяться не раз :)

Уважаемый автор.

Я профессионально занимаюсь SEO-обучением http://seo-obuchenie.ru/ (смотри здесь) и продвижением сайтов http://prodvizhenie-saytov.ru/ (смотри здесь), поэтому приходится помнить все тонкости создания robots.txt.

У Вас есть ошибка в посте и одна ненужная строка в robots.txt, так как в данном виде директива Allow не выполнится. К тому же эту директиву изначально поддерживал только Яндекс.

Так вот выглядит мой роботс: User-agent: * Disallow: /wp- Disallow: /xmlrpc.php Disallow: /category/ Disallow: /page/ Disallow: /trackback/ Disallow: /feed Disallow: /comments/ Disallow: */trackback/ Disallow: */feed/ Disallow: */comments/ Disallow: /?feed= Disallow: /?s= Allow: /wp-content/uploads/ Sitemap: http://adw0rd.ru/sitemap.xml Я разрешил поисковым ботам индексировать меня только по «Тегам» и «Архиву». Обратите внимание, я использую маску /wp- , для того чтобы URL'ы wp-login.php, wp-register.php, wp-admin и т.д. попали под запрет индексации (Disallow). Также я разрешил индексировать мой «/wp-content/uploads/» для сервисов «Яндекс.Картинки» и «Google Картинки», так как там хранятся в основном картинки. И расшарил файл «sitemap.xml» для лучшей индексации.

Если
Allow: /wp-content/uploads/
стоит после
Disallow: /wp-
, то выполнится именно первая сверху(!) дирректива, а Allow: /wp-content/uploads/ не выполнится. Приоритет у вышестоящих записей.

Поэтому и в своем robots.txt просто поменяйте их местами.

С уважением, Николай.

P.S. На другие сообщения отвечать не стал, так как их очень много, но почти во всех примерах есть масса ошибок в составлении robots.txt.

User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /editor/
Disallow: /help/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /index2.php?option=com_content&task=emailform
Disallow: /?sl
Disallow: /index.php?*
Disallow: .pdf$
Disallow: /name.php?action=print
Disallow: /trackback
Disallow: /
rss.html
Disallow: /*atom.html
Host: ads-74.ru
Sitemap: http://ads-74.ru/sitemap.xml

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /editor/
Disallow: /help/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Disallow: /index2.php?option=com_content&task=emailform
Disallow: /?sl
Disallow: /index.php?*
Disallow: .pdf$
Disallow: /name.php?action=print
Disallow: /trackback
Disallow: /
rss.html
Disallow: /*atom.html

Использую компонент Xmap (Joomla2.5). После настройки беру со строки браузера ссылку (http://filter-tver.com/component/xmap/xml?option=com_xmap&view=xml&id=1&filter_showtitle=1&filter_showexcluded=1) и заношу её в robot.txt (Sitemap: http://filter-tver.com/component/xmap/xml?option=com_xmap&view=xml&id=1&filter_showtitle=1&filter_showexcluded=1)
В результате:
- "Валидатор файлов Sitemap" (на яндексе) пишет:
Результаты проверки
Произошла внутренняя ошибка. Попробуйте повторить попытку позже.Превышено время ожидания ответа.
Не удалось загрузить Sitemap
Не удалось загрузить указанный файл
- Гугл пишет:
При попытке доступа к вашему файлу Sitemap произошла ошибка. Убедитесь, что этот файл Sitemap соответствует нашимправилам и находится в указанном местоположении, а затем отправьте его повторно.
Что я делаю не правильно?

Ну может им не нравится скорость с которой генерируется sitemap? Ничего другого подозрительного я не увидел

Привет,пишет такую ошибку - http:// www.piecework.ru/category/c-chego-nachat/ запрещен правилом /category// подскажите пожалуйста в чем ошибка?
Вот сам код

User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /webstat/
Disallow: /feed/
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /category/*/*
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /comments

User-agent: Yandex
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /webstat/
Disallow: /feed/
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /category/*/*
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /comments
Host: piecework.ru

Sitemap: http://www.piecework.ru/sitemap.xml
Sitemap: http://www.piecework.ru/sitemap.xml.gz

Это не ошибка. Вы сами запретили:

Disallow: /category/*/*

То есть надо убрать это - (//) или полностью - (Disallow: /category//) ?

Да, полностью

Disallow: /category/*/*

Помогите пожалуйста!!!
Сегодня поставил плагин для генерации сайтмап googl sitemap, посл установки и генерации в конце каждой страницы после значка счетчика лайф интернет появилась вот это - < /a> что это за чтука и как ее убрать

Помогите пожалуйста!!!
Сегодня поставил плагин для генерации сайтмап googl sitemap, посл установки и генерации в конце каждой страницы после значка счетчика лайф интернет появилась вот это - < /a> что это за чтука и как ее убрать

Добрый день)
Очень нужна ваша помощь).
Сейчас разработку портала.
Нам нужно придумать модуль управления robots.txt в связке с sitemap.xml.
Необходимо описание данного модуля и возможности.

Вот с описанием данного модуля и его возможностями проблемка ((, сможете помочь за оплату???.
Также хотелось бы у вас проконсультироваться, что лучше всего включать в ленту RSS???

Оставьте свой комментарий

Markdown