FreeBSD. Установка и настройка Яндекс.Сервер
Начнем с того, что надо выбрать правильную версию этого сервера, ибо это может обернуться плачевно. Потому что одна из версий это просто какой-то ужас, порт из линукса, который криво собирается, и версию зовут - FREE.
Вообще существует две версии, это ENT и FREE. Первая как догадались ентерпрайс, а вторая бесплатная.
Дело в том, что с недавнего времени FREE пропал со страниц технологий и продуктов Яндекса и ENT стал распространяется - бесплатно, хотя может и раньше он распространялся бесплатно, просто я не замечал.
Условия распространения
Яндекс.Сервер распространяется бесплатно.
Список возможностей и требований сморите тут. Более подробную документацию можно получить тут.
Установка
Качаем версию для своей архитектуры и устанавливаем путем распаковки архива в корень системы.
Настраиваем поисковый сервер
Редактируем файл /usr/local/etc/yandex/yandex.cfg
<Server> Port 17000 Host example.com ServerLog /var/local/yandex/yandex.log WorkDir /var/local/yandex <Authorization> UserName admin UserPassword R#T$56YS </Authorization> </Server> <Collection autostart="yes"> IndexDir /var/local/yandex/workindex <IndexLog> FileName /var/local/yandex/index.log Level verbose moreinfo info debug moredebug </IndexLog> <DocFormat> MimeType application/pdf </DocFormat> <DataSrc id="webds"> # название проекта Name exmaple # указываем с какого адреса надо начинать индексировать Config -w example.com </DataSrc> </Collection>
Настраиваем индексатор
Редактируем файл /usr/local/etc/yandex/dsindexer.cfg
<Collection> WorkDir /var/local/yandex/ IndexDir /var/local/yandex/workindex TempDir /var/local/yandex/newindex <DocFormat> MimeType text/html </DocFormat> <DocFormat> Extensions .txt MimeType text/plain </DocFormat> <DataSrc id="webds"> # название проекта Name exmaple # указываем с какого адреса надо начинать индексирование Config -w example.com </DataSrc> <IndexLog> Level info </IndexLog> </Collection>
Пробуем в работе
Перезагружаем Яндекс.Сервер
# /usr/local/etc/rc.d/yandex.sh restart
После чего заходим на , если сервер работает, то запустится страница администрирования, введите туда имя пользователя и пароль который вы указали в yandex.cfg, секция "Authorization".
Теперь запустите индексацию!
# dsindexer
После завершении работы индексатора — он скажет вам сколько документов он проиндексировал и в каталогах /var/local/yandex/newindex/ и /var/local/yandex/workindex/ должны появится новые файлы или изменится их дата и размер.
Теперь зайдите на и попробуйте поискать что-то на вашем сайте :)
Оформление выдачи
Далее, если вы захотите сменить оформление результатов выдачи, то есть 2 варианта:
- Использовать XML-выдачу и выводить как вам заблагорассудится
- Править шаблоны на Perl/C++ которые есть в системе
Меня интересует 1 вариант, то есть будем работать с XML. Делается очень просто, в строку запроса надо добавить xml=yes и после чего парсить результат выдачи, вот и все!
Удачной индексации! :)

Комментарии
Приветствую, могли вы порекомендовать зарубежные компании предоставляющие качественные выделенные сервера.
А разьве не удобнее юзать "blabla bla inurl=adw0rd.ru" в гугле?
Это немного разные вещи, внешний гугл или яндекс ты не сможешь юзать для интранета... Так же не сможешь управлять индексацией и т.д.
Пузат, не, к сожалению не подскажу...
Как вообще доволен Яндекс сервером?
Тоесть это типа выбор для локалки?
dallone, ну как доволен... Так же как и Яндекс.Поиск'ом в целом... )
Интересно, я раньше был Энтепрайс вариан и Профессионал Яндекс Сервера по ценам ~800$ и ~8000$, а сейчас я не могу найти инфу про отличия фри варианта от платного....В чем разница?
Поставил фри версию без проблем, текстовые-хтмл файлы хорошо индексируются, а с pdf проблемы! Только около 15% файлов незащищенных ИМЕЮЩИХ текст внутри индексируются!
Кстати до конца 2007 активно разрабатывался Яндекс Десктоп, в нем была даже индексация djvu,chm файлов, похоже это фичи нет, да и индексация pdf большей!
Кто-нибудь пробовал pdf индексировать?
ENT - http://company.yandex.ru/technology/server/features.xml
FREE - http://company.yandex.ru/technology/products/Yandex-Server/features.xml
Пока потестил под виндовозом....Иногда вылетает почему-то..:( особенно когда останавливаешь сервис- ран-там еррор(Вижуал студио рулит:))). Потом попробую под БСД.
За ссылки спасиб долго разглядывал, принципиальных отличий не заметил ....??? Все так ж не понятно:( то би фри он нот.....:)
Как дополнительный вариант поиска Яндекс Сервер неплох.... Пробовал Сфинкс довольно хорошие возможности, под БСД, настраивается чуть сложнее, но есть API под PHP.
У меня основной код на PHP так, что путь - парсить xml.
Кстати народ написал код под такое дело http://anton.shevchuk.name/php/php-class-for-yandex-xml/?replytocom=39201
И ещё ....Закрытость Сервера от Яндекса пугает возможной утечкой инфы (напросто spyware)... Хотя Яндекс это опровергает....
Шевчука читаю... По поводу Сфинкс знаю и использую на некоторых проектах, потом напишу про него...
И ещё: мне приходится останавливать сервер при переиндексации! иначе новые файлы с индексами не переписываются по старым....странно из ссылок следует, должно быть прямо противоположное : "Индексирование без остановки поискового сервиса."
Кстати из писанины... хорошо бы написать установку Сфинкса под виндовоз (особенности) , Виндовоз Сервер 2003-2007 не редкость....
>По поводу Сфинкс знаю и использую на некоторых проектах, потом напишу про него…
Хотел бы почитать про сфинкс
А как правильно индексировать и искать по нескольким сайтам (как сразу по всем так и по каждому в отдельности)?
Создавать для каждого новую коллекцию? но тогда как я понимаю,нужно для каждого из них запускать отдельно индексатор и сам демон, что не есть гууд.
или создавать в одной коллекции несколько источников данных webds ?
Пузат
Я работал с двумя русскими компаниями, арендующими стойки в Германских ДЦ, но все они крайне не расторопны. Хотя если админ не косячит, то обращаться в ТП поводов не возникает.
Кстати, рекомендую себя как одмина ;) за скормную оплату подниму сервер на FreeBSD и буду его поддерживать.
> Шевчука читаю…
Про Яндексю Сервер->XML->PHP
Я посмотрел и решил..что слишком мудренно...и сделал по сути тоже, но проще без классов: curl + simpleXML - 50 строк
pirrat, даже незнаю, возможно нужно создавать новую коллекцию... однако не думаю что нужно запускать отдельную индексацию, хотя возможно. Думаю вам надо почитать оф. документацию?
Похоже, у Яндекс Сервера начинаются проблемы, когда кол-во фалов txt/html за 200тыс, их объем ~ 600 Мб. Переиндексация уходит в пике -длится более 1.5 часов (терпения не хватило -остановил). Sphinx справляется быстрее - результата я дождался:))
Похоже, у Яндекс Сервера начинаются проблемы, когда кол-во фалов txt/html за 200тыс, их объем ~ 600 Мб. Переиндексация уходит в пике -длится более 1.5 часов . Sphinx справляется быстрее - результата я дождался:))
Я уже начал писать статью про Sphinx, скоро будет :)
>Я уже начал писать статью про Sphinx, скоро будет :)
хорошо, почитаем...:)
>Я уже начал писать статью про Sphinx, скоро будет :)
Жду с нетерпением - собсно я уже читал про него - но хотел бы ещё почитать:)
Когда же будет долгожданная статья?
Все не могу собраться и закончить статью :)
Постараюсь до 5-го дописать :)
Подскажите, что вбить в конфиг, что бы он открывал по ссылкам сайт, а не закешированые страницы?
damp, ссылки в результатах выдачи?
Думаю надо менять шаблон выдачи, посмотрите
This incident will be reported to the server administration!
Может там нужен на конце слеш? Я просто с Я.Сервером уже не работаю, теперь только со Sphinx
Нет - все равно не пашет
что за ошибка?
~/yandex/etc/rc.d/yandex.sh start
Starting Yandex.Server (/root/yandex/sbin/yandex)
/root/yandex/etc/rc.d/yandex.sh: line 93: /root/yandex/sbin/yandex: No such file or directory
/root/yandex/etc/rc.d/yandex.sh start: error: cannot run /root/yandex/sbin/yandex.
Try to find error description in the file /root/yandex/yandex.log
У вас есть такой файл?
А такой?
Выполните пожалуйста и покажите мне результат
whereis yandex
yandex: /sbin/yandex /usr/sbin/yandex /usr/etc/yandex /usr/local/sbin/yandex /us r/local/yandex
в каталоге /root/yandex/sbin/yandex файл есть.. а вот /root/yandex/yandex.log нету...
кста дистрибутив под дебиан есть ?
ставлю на VPS, ОС debian, нужно проводить поиск по нескольким сайиам. Посоветуйте дистрибутив яндекс.сервера.
http://company.yandex.ru/technology/server/shareware.xml
Зато я.сервер не может его увидеть:
Почему "я.сервер" находится в /root, для чего это надо?
ставил по мануалу, если разрешите дам ссылку..
там дистрибутивы на i686 платформу, подскажите на i386 (ВПС на ней)
вы запускаете из каталога рута, как я понял, думаю от этого и проблемы
ставьте i686скачал и распоковал в корень вот этот дистрибутив http://download.yandex.ru/yandex-server/download/FreeBSD-6.3/ENT/Yandex_Server-3.10.9-ENT-FreeBSD64-i686.tgz
usr/local/etc/rc.d/yandex.sh start
Starting Yandex.Server (/usr/local/sbin/yandex-server)
/usr/local/etc/rc.d/yandex.sh: line 90: /usr/local/sbin/yandex-server: No such file or directory
/usr/local/etc/rc.d/yandex.sh start: error: cannot run /usr/local/sbin/yandex-server.
Try to find error description in /var/local/yandex/yandex.log
лог создал в ручную (в архиве его нет)
все остальные файлы на местах вроде... хотя dsindexer.cfg находится тут /usr/local/share/yandex/dsindexer.cfg
Выполните и покажите мне
whereis yandex-server
yandex-server: /usr/local/sbin/yandex-server
А что находится на 90 строке файла /usr/local/etc/rc.d/yandex.sh?
Ну и рядом какие строки +5 сверху и снизу
Поменяйте строку
на
и выполните
в чём проблема?:( дайте ссылку на подходящий дистрибутив.. плиз)
а что написано в
?
не в дистрибутиве дело, я уже давал ссылку
ничего....
я так понимаю вы тоже не знаете в чём проблема, спасибо за помощь
А в логи то права есть писать?
777 стоят
Не могу так понять в чем трабла, надо самому смотреть...
всё поставил :) вот только есть ошибки
А что у вас в Name? :)
в каком "name" ?:)
было search.moy_domen.com исправил на domen
вот ещё такая проблема
Дмитрий, ну вам же говорится, что в секции Collection есть недопустимая директива WorkDir, наверное надо ее оттуда убрать?))
ещё вопрос, куда вписывать сайты которые нужно индексировать?
вот ещё ошибка:))
Ну и о чем это "Indexing: datasource webds opened successfully" говорит?
я про это
Дмитрий, Поправьте предыдущую ошибку, наверняка эта пропадет. Либо гуглите "St9bad_alloc", там много результатов.
вот так вот ставить сайты ?
или можно как нибудь сделать такое: я ставлю в индексацию каталог где есть n-е кол-во сайтов которое я хачу проиндексировать, как это сделать?
В документации об этом всем написано http://download.yandex.ru/yandex-server/download/yandex-server-manual.pdf
пока не нашёл, но всё-равно Спасибо.
вот вылезла такая ошибка:
переход с выдачи по ссылкам...
Файл есть такой? Что документация об этом говорит?
каким-то загадочным способом все файлы из /var/local/yandex/newindex удаляются... при индексации в http://site.ru:17000/admin/ ... в выдачу из консоли можно как нибудь добавить?
Я не знаю, смотрите документацию. И кстати, почему бы вам не попробовать Sphinx?
хм, как он в работе? как индексирует? возможно ли индексировать несколько сайтов? в настройке как?
Дмитрий, в работе прекрасно, сам его использую на своих проектах. Индексировать возможно все, что вы задумаете. http://adw0rd.ru/tag/sphinx/
а с ресурсами как? мне нужно индексировать около 300-500 сайтов в в сети моего оператора.. как с выдачей? долго думает?
размер памяти сможете сами указать для индексатора, а в целом вы сможете понять, если только проведете тесты. Установите Sphinx и тестите, я не пробовал индексировать сайты, тем более 500 штук.
При попытке запуска сервера постоянно вылезает ошибка:
Права все вроде выставлены правильно, не могу понять в чем дело.
Выполните
индексировать много разных сайтов:
StartUrls www.is74.ru hosting-free-vpn.is74.ru defender73.is74.ru и так далее через пробел хоть сотню
если на одном хостинге:
IpMask 78.29.0.254 78.29.7.2 тоже через пробел все сервера, где живут сайты чтоб не забредал на чужие
чтобы правильно индексировал все документы без разбора:
со строки
................ со строкой
удаляем полностью индексирует правильно pdf, mp3 и даже avi (ENT)
Options GetHttp:httpOptions UseDirectUrls IndexSubDomain
UseDirectUrls - прямые ссылки на страницы, а не на хэш
IndexSubDomain - думаю, понятно
в robot.txt:
Sitemap: http://mysite.ru/site_structure/my_sitemap.xml
Clean-param: s /forum/showthread.php
не индексировать (forum/showthread.php?s=6...)
Clean-param: f /forum/calendar.php
не индексировать (forum/calendar.php?f=2009....)
сожрал Extensions /Extensions
а для чего вот это ?
а ступил, субдомены:)
ещё вопрос. Я использую в выдаче perl шаблон и там ссылки вот такие
как мне сделать обычную ссылку типа
где найти robot.txt ?
Дмитрий, может robots.txt?
да
ещё вопрос. Я использую в выдаче perl шаблон и там ссылки вот такие
как мне сделать обычную ссылку типа
Здравствуйте
При индексации сайтов индексатор очень медленно работает. Тесть при нахождении ссылки на mail.ru (пример) он как будто подвисает(и висит n-е время). Как можно это исправить?
Не знаю, я настолько с ним плотно не работал.
Используйте ShpinxSearch
Здравствуйте!
Прошу прощения за тупой вопрос:
На сколько я понял, требование к ОС при выборе дистрибутива относится к ОС установленной на сервере, а не к ОС компьютера с которого производится установка?
У моего хостера стоит FreeBSD 7.2 скачал дистрибутив для нее, но там нет файла dsindexer.cfg, а при попытке запустить # /usr/local/etc/rc.d/yandex.sh restart
выскакивает сообщение
500 USR/LOCAL/ETC/RC.D/YANDEX.SH not understood
Подскажите плиз как исправить?
Покажите список файлов, которые находится в каталоге /usr/local/etc/rc.d/
yandex.sh (только этот файл)
какие у него права?
yandex.sh - 644
у папки rc.d - 755
Значит у вас нет прав на запуск
Спасибо за помощь!
Попробую поговорить с хостером...
Здраствуйте, а у меня такая проблема
операционная система:
дистрибутив ставил Yandex_Server-2009.5.4-ENT-FreeBSD72-i686.tbz путем
Хостер меня послал, сказал данные права есть только для виртуального хостинга и или колокейшн-сервере (((
Подскажите пожалуйста какой скрипт поиска можно установить не имея этих прав?
zar0ku1,
тут же явно говорится о том что такая либа не найдена. Значит надо ее установить :)либо поисчите libodbc.so.*
и попробуйте создать копию с требуемым названием:
XXXX, а что у вас за хостинг (компания) и какой тип (vds, vps, shared, etc)?
zar0ku1, кстати, я пробовал ставить "как пакет" - у меня были проблемы, я вам рекомендую просто распаковать архив и запустить я.сервер
2adw0rds:
спасибо, поставил - запустился индексер
но чего там забыл конфигурационный файл?
Положил я его ему туда, запустил - индексация прошла
но при запуске:
в логе только:
какие советы?
zar0ku1, думаю стоит прошерстить права, методом тыка и логики. Либо если не помогло, то смотреть сорцы и размышлять где затык произошел.
И еще, вы как его поставили всетаки? Типа как пакет или распаковали архив и оттуда стартуете?
Ставил пакетом, сейчас качаю tar.gz версию
Супер для конфига прописать относительный путь, чего-то меня уже этот яндекс.сервер
Может что-то другое посоветуете для поиска по сайту? именно чтобы по страницам лазил и индексировал, базу данных не нужно
Хостинг виртуальный от HOSTLAND.
zar0ku1, даже не знаю что и предложить. Sphinx вроде как умеет работать с html, почитайте про него.
XXXX, у вас есть ssh? У вас есть право устанавливать ПО на ваш хостинг?
На данный момент нет (
Похоже выход только один Яндекс.Сайт =(, а как не хочется...
XXXX, Тогда я вообще не пойму как вы умудрились установить Я.Сервер...
Зато при попытке зайти на domen.ru:17000 пишет
Может это чем-то помочь?
Супер блин, запустил domen.ru:17000/admin/
выдал админку, сказал что поиск остановлен, нажал кнопку запустить - и все заработало =)
Да я сам не понимаю ), а поиск я нашел PHP+NYSQL "PHPDIG"(версия 1.8.8, версия 1.8.9 сильно глючит).
Большое спасибо за помощь!
XXXX, когда попробуете - отпишитесь сюда в камменты, интересно ваше мнение
Подскажите плз как заставить Я.Сервер индексить файлы форматов OpenOffice и MS Office 2007
Поиск "PHPDIG"
К плюсам можно отнести - очень простую установку и маленький вес(меньше 1 мб), к минусам - не любит большое количество перекрестных ссылок, не видит ссылки такого вида http://www.site.ru/cat.php?kat=1&page=2, в исходной настройке обходит не более 50 ссылок за один раз (на сайте разработчика сказано что в конфиге можно увеличить до 100, но у меня столько не осилил - обошел 47 потом завис).
Вообщем очень хороший поисковик для мальеньких сайтов с простой структурой.
Михаил, я не знаю
Подскажите, пожалуйста, как назначать дополнительные атрибуты для группировки результатов при индексировании через ODBC ? Или есть какой-нибудь другой способ группировки? Индексировать необходимо одну директорию и несколько БД.
heretique, я не знаю, я работаю со Sphinx
Вы же работали с яндексом. Неужто все забыли... :) Может вы знаете, как в запросе обращаться к определенной коллекции, а не ко всем сразу?
heretique, я давно с ним работал, и глубоко не лез :)
А как насчет Sphinx? Как у него с морфологией? Хотелось бы иметь на уровне яндекса..
heretique, мне он больше нравится. С морфологией хорошо.
А у меня во такой трабл :
подскажите, кто знает, как это решается.
crash, установить libperl
libperl есть. (perl 5.8)
на ln -s libperl.so libperl.so.5.10
яндекс-сервер отвечает :
/usr/local/sbin/yandex-server: /lib/libc.so.6: version `GLIBC_2.4' not found (required by /usr/local/sbin/yandex-server)
есть glibc-2.3.5
Возможно есть другое решение кроме как удовлетворять ВСЕ зависимости?
Если не хотите линковать, то надо вам все обновить, либо сорцы перепишите...
отчего же не хочу? я не хочу лишь бездумно все обновлять. в требованиях к яндекс-серверу v.2009.05 указано: от glibc-2.3
Ну, про требования это не ко мне, не я их писал... :)
чертов яндекс так я и не разобрался как его настроить... плюнул и бросил))
Используйте sphinx
Доброго дня. Убила день, чтобы поставить на локальную машину на винду. Питон, Перл есть. Конфиги как только не редактировала. Правда версия последняя - может не стабильная. А может что-то делаю не то. Запускаться не желает ни в какую - выдает Windows-вские ошибки.
Оплачу установку с краткой пошаговой инструкцией на какой-нибудь фри-хост. Либо инструкцию рабочую, либо через log-me-in устновить на локалку.
312009309 - ася
Только что скачала старую версию - поставилась гадина на раз. Вот же ж западло, товарисчи, имейте в виду и не наступайте на эти же грабли.
И почему вы так любите этот продукт? На мой взгляд он проигрывает SphinxSearch по кастомизации и удобству использования. По поводу скорости тоже думаю проигрывает, но тут надо проверять уже
http://site.ru:17000/admin
You don't have permission to view this web page.
This incident will be reported to the server administration!
не пускает в админку в чем может быть проблема ?
Подскажите пожалуйста с чем связана такая ошибка??
/libexec/ld-elf.so.1: Undefined symbol "PL_thr_key" referenced from COPY relocation in /usr/local/sbin/yandex-server
Оставьте свой комментарий