Kiev1.org Карта сайта Файлы Фотографии Киева
  
Реклама:






Разделы
 
 Sysadmin
 Антиглобалисты
 Ереси и секты
 Катастрофы
 Компьютерные новости
 Непроверенное
 О проекте
 О фотогалерее
 Политика и власть
 Православие
 Предприятия Украины
 Протесты Людей против нового мирового концлагеря
 Разное
 Россия
 Старец Паисий 1924-1994
 Стояние за Истину
 Суды в Украине
 Тайна беззакония
 экуменизм


Внимание! Читая пророчества на этом сайте помните что достоверность трудно проверить и все может во времени изменяться - самое главное думать своей головой и не верить легкомысленно всему что говорят, особенно советское телевидение
"О дне же том, или часе, никто не знает, ни Ангелы небесные, ни Сын, но только Отец (Мк. 13, 32)"

Серьезный поиск по сайту



Хочется сделать поиск на сайте с учетом морфологии русского, плюс чтобы индексировались не файлы, а результаты их работы. Cамому такую штуку писать - очень похоже на изобретение велосипеда. Опять таки явно нужно, чтобы поиск шел по заранее созданному словарю, а не в горячем режиме... Существуют какие-либо типовые решения?

Rodion Alukhanov 2002-07-09 19:24:35

Хочется сделать поиск на сайте с учетом морфологии русского, плюс чтобы индексировались не файлы, а результаты их работы. Cамому такую штуку писать - очень похоже на изобретение велосипеда. Опять таки явно нужно, чтобы поиск шел по заранее созданному словарю, а не в горячем режиме...

Существуют какие-либо типовые решения?

P.S. Было бы здорово, если бы работало и под Linux и под Windows...

Дмитрий Росляков 2002-07-09 19:29:03

ht://Dig - http://www.htdig.org>
MnogoSearch - http://www.mnogosearch.ru>
ASPseek - http://www.aspseek.org>

Дмитрий Росляков 2002-07-09 19:41:22

Да, про ht://Dig можете почитать еще вот здесь:
http://lexa.ru/articles/htdig.html>

Михаил siam Кюршин 2002-07-09 23:06:14

Rodion Alukhanov: для успешной и простой работы поиска с особенностями языка используются словари типа ispell

http://www.xpoint.ru/archive/topic7/13/2679.html>
http://scon155.phys.msu.su/~swan/orthography.html>
http://ispell.narod.ru>

последняя ссылка -- это пример использования ispell в связке с Perl

Давид Мзареулян 2002-07-10 19:53:07

У меня связанный с этим вопрос. Нужен действительно серьёзный поиск по сайту. Т.е. по серьёзному сайту - с генерацией страниц оного из некой SQLной БД. Соответственно, нет нужды индексировать HTML-страницы, но есть нужда индексировать записи в БД. Какой из поисковиков с морфологией это умеет? ХТдиг точно не умеет. Вроде бы заявлена такая возможность у Многосёрча - никто не пробовал?

Rodion Alukhanov 2002-07-10 21:32:29

mnoGoSearch вроде не умеет индексировать базу. Там можно индексировать http и файлы на диске. По крайней мере так в Windows версии, Linux'овскую еще не изучал...

Давид Мзареулян 2002-07-11 00:16:10

Rodion Alukhanov:
Вот смотрите, что у них на сайте написано (я только цитирую, сам с ним не работал):


mnoGoSearch can index SQL database text fields - the so called htdb: virtual URL scheme.

Using htdb:/ virtual scheme you can build full text index of your SQL tables as well as index your database driven WWW server.
...
You can also use htdb:/ scheme to index your database driven WWW server. It allows to create indexes without having to invoke your web server while indexing. So, it is much faster and requires less CPU resources when direct indexing from WWW server.




Peter Didenko 2002-07-11 19:06:39

Я думаю, проще всего, это Yandex.Site. Его и бесплатно можно получить. А можно просто у хостера пользоваться. Вот, например - http://host.ru/documentation/v-www/0010.html.> Отдельный, маленький, Ваш собственный, но Яндекс. Умеет индексировать по файлам, по вебу и как спайдер. То, что нужно.

Peter Didenko 2002-07-12 12:20:47

ht://Dig и mnogoSearch это поделки на коленке. Не надо. Муть. Таких много. Яндекс лучше.

Андрей Новиков 2002-07-12 13:14:55

Peter Didenko: аргументы? Таких много где? Чем лучше?

LakeDaemon 2002-07-12 14:19:30

Самый серьезный недостаток "бесплатного" Яндекса -- ограничение на 5 мегабайт (по-моему) индексируемой информации... Мне, например, нужен реальный поисковый механизм с поддержкой неограниченного объема индексируемого материала -- и придется, судя по всему, использовать mnogoSearch
Яндекс -- действительно, одна из лучших поисковых систем, заточенных под русский язык. Хотя бы потому, что релевантность выдаваемых ей результатов всегда очень близка к желаемой.

Rodion Alukhanov 2002-07-12 14:25:57

> ht://Dig и mnogoSearch это поделки на коленке. Не надо. Муть. Таких много.
> Яндекс лучше.

Будьте добры аргументировать эту реплику! Вы работали с со всеми тремя продуктами!?


Яндекс индексирует только 5Mb, а за большее хочет бешенных денег.
http://company.yandex.ru/programs/price.html> . mnogoSearch для Windows также платный для коммерческого использования, но при этом заметно дешевле Яндекса.

Peter Didenko 2002-07-15 13:34:46

Если кто-то может объяснить чем mnogoSearch лучше - пожалуйста, высказывайтесь. В смысле потребительких его качеств, я не нахожу аргументов в его пользу по сравнению с Yandex.Site. mgogosearch/udmseasrch/ispseek.. Там везде одни корни. Я как-то ставил все это дело, смотрел, выбирал. У нас есть две поисковые системы для юзеров:

1. Yandex.Site - http://host.ru/documentation/v-www/0010.html>
2. Наш собственный Gliws - http://host.ru/documentation/pages/sc-gliws.html>

Gliws простой, Яндекс.Сайт сложнее и лучше. Задача была попробовать найти еще один поисковик чтобы предложить юзерам еще одну возможность. Причем, она должна была быть кардинально лучше. Все же существующие поисковики для небольших (умещающихся на хостинге) сайтов не предлагают чего-то кардинально сверхудобного или сверхлучшего, что выгодно отличало бы их от других.

В общем, все они, по-моему, примерно одного уровня. Соответственно, ищем что же лучше. В Яндекс.Сайт мне нравится то, что там есть нормальная схема client/server, что он довольно легкий при индексации, пожалуй, и то, что он хорошо развивается, не распыляя силы на непонятные фичи. То есть, если говорить о хостинге, то разработка Яндекс.Сайт сконцентрирована именно на него.

Про поддержку. Она есть. Мы пользуемся. Очень удобно.

Про бесплатные 5Мб. Это много. Обратите внимание: индексируется только текст. Правильно постройте индексирования и Вам хватит наверняка. Это очень много. "Война и Мир" Л. Н. Толстого это 3.5Мб. Помните 4 огромных тома на уроках литераторы в 9 классе? Это меньше 5Мб. Вы точно уверены, что у Вас на сайте больше текста или Ваш html-код настолько оптимизирован, что Вы не загружаете юзеру половину ненужной информации? В общем, тут тоже много вопросов, но 5Мб это много. Согласен. Бывают Большие Сайты. Ваш - точно большой? :) Да и поиск по 100Мб-индексу то еще развлечение, например...

Про цены. Да. Дорого. Нам кажется, оно того стоит. Впрочем, зря Яндекс не пытается продвигать продукт. Думаю, причина в несформированном рынке. Надеюсь, пока.

Чем же все-таки Яндекс.Сайт сильно лучше mnogoSearch, например? :)) Ответы: отличное качество поиска (релевантность, ...), реальная поддержка, "откатанность" на боевых условиях.

Андрей Новиков 2002-07-15 15:18:06

Пока все, что Вы написали - реклама (или личное восприятие - вовсе не хочу Вас обижать) Яндекса. Но за "поделки на коленке" Вы так и не "ответили".
Я тоже знакомился с Yandex.Site, даже не бесплатным. Давно. Он мне не понравился. Падал в кору, не умел индексировать по http, только файлы на диске, не знал ничего про Word, PDF и т.д. и т.п. Может он сейчас все это умеет, но мне лень это изучать, так как htdig меня устраивает на все 100%. Мне его настраиваемости, функциональности и производительности вполне хватает. Это здесь (на Xpoint). А вот на работе htdig (кстати не мой выбор) замечательно индексирует сайт на 10 языках (опять же с кучей Ворда, PDFа и т.п.). При этом интерфейс результатов поиска тоже на 10 языках. Как с этим у Яндекса?

Я не хочу вступать с Вами в полемику, какой продукт лучше. Есть много продуктов на рынке, каждый выбирает то, что ему больше нравится, и это замечательно. Просто очень не люблю, когда все, что не используют, считают полным дерьмом. По-моему, это из разряда Windows-must-die и Unix-suxx. Несерьезно как-то...

LakeDaemon 2002-07-15 15:24:56

Про бесплатные пять мегабайт: это очень мало, на самом деле.... у меня, например, около 30 мегабайт есть сайт, к которому нужен поиск, и эти 30 мегабайт -- в основном, текст. HTML-шаблона там сравнительно немного, а графики -- почти совсем нет. А проект -- некоммерческий совершенно и держится на "героическом энтузиазме" разработчиков и отчислений с грантов... И с каких денег нам оплачивать Яндекс?
так что вопрос о том, какой поисковик из бесплатных лучше по качеству -- актуален донельзя...

Андрей Новиков 2002-07-16 09:45:20

Вы имеете в виду "обозреть и сравнить"? По хорошему - это не пара дней. Надо их всех поставить, поюзать, составить впечатление, разобраться в фичах, описать. Если просто перевести на русский feature lists, получится коряво и несолидно. Другой вариант - каждый обозревает свой вариант, потом все это компилируется вместе, и отдельно выносятся главные плюсы и минусы каждого продукта. Чтобы было более объективно можно разбить на составляющие - например, установка, гибкость и возможности настройки, индексация, возможности поисковых запросов, интерфейс результатов поиска, разное. Примерно как в "За рулем" делаются обзоры нескольких машин в одной статье.

Давид Мзареулян 2002-07-17 01:41:09

Как вам сказать про яндекс... мне нравится, как он ищет (как веб-сервис). Очень нравится. Но есть одна маленькая проблема. Совсем маленькая. У меня на сайте 200 мегабайт текста (даже не HTML). Сайт не является некоммерческим, но я не могу представить себе аргументов, которые убедят начальство потратить восемь килобаксов на яндекс.сайт, когда тот же ht-dig тоже ищет, и причём совсем неплохо. Я готов согласиться, что яндекс ищет несколько лучше (я с этим "несколько лучше" пока не сталкивался, но согласиться готов). Но чтобы оправдать 8K$ "несколько лучше" совершенно недостаточно... прямо скажу, он ещё петь, плясать и кофе варить за эти деньги должен.

Хотя, наверное, для крупнозатратных проектов (с бюджетом в десятки и сотни килобаксов), яндекс - самое то, особенно потому что поддержка и т.п... да и в самом деле, яндекс - очень хорошая искалка. Я не спорю. Вот только ценовая политика у него, мне кажется, сильно устарела - она из тех докризисных времён, когда Тёма Лебедев брал по пятьдесят килобаксов за логотип, просто потому что у клиентов были деньги, но оные клиенты не знали, сколько стоит дизайн. Ценовая политика монополиста, другими словами.

Из архива "Управление узлами"

<!--StartFragment -->&nbsp;
Дело не в опенсос, дело в многосёрч... который, как тут уже сказали, да.

(Ответить)

&nbsp;
[info]madfire
2003-12-29 04:08 (ссылка)
Поставил aspseek. сижу индексирую. в процессе нарвался на две неприятности.
1) не любит gcc 3.2+ (hash_map и hash_set там в namespace __gnu_cxx вместо std =&gt; search/replace namespace std на __gnu_cxx)
2) дибильная бага в parse.cpp которая приводит к полному непониманию команды Server (off-by-one).
вылечилось так:
--- parse1.cpp 2002-06-21 20:42:03.000000000 +0600
+++ parse.cpp 2003-12-29 17:07:54.000000000 +0500
@@ -264,7 +264,7 @@
{
// Scheme is case-insensitive, according to RFC 1738, 2.1
char *p = m_schema;
- while (*p) *p++ = tolower(*p);
+ while (*p) { *p = tolower(*p); p++; }

if (!strcmp(m_schema, "ftp") ||
(!strcmp(m_schema, "http")) ||

(Ответить) (Ветвь дискуссии)

&nbsp;
[info]squadette
2004-01-12 07:18 (ссылка)
по первому пункту -- надо брать aspseek из CVS и прикладывать к нему патч, описанный здесь: http://bugzilla.aspseek.org/show_bug.cg<WBR>i?id=34
>после этого работает.

второй пункт исправлен в CVS&#39;е уже. не пойму, кем и когда...

&nbsp;






Внимание! Читая пророчества на этом сайте помните что достоверность трудно проверить и все может во времени изменяться
"О дне же том, или часе, никто не знает, ни Ангелы небесные, ни Сын, но только Отец (Мк. 13, 32)"