Алгоритм стоп-слов.
Порулил поиском, ничего толкового не нашел. Может я хреновый поисковик. :D
Заявки принимаются на автомате. Интересует следующее. Сейчас будет многабукф. :p 1. Где можно более подробно почитать/узнать, как на сегодняшний день работает список стоп-слов? Раньше, насколько помню, было так: например, слово "аналитика" - и слово не проходило по стоп-словам. Потом, как-то видел пост (точно не могу вспомнить, от Авелона, возможно. Тему так и не нашел), что теперь это исправлено. Вот задумался, чтобы проапдейтить стоп-лист. Поэтому интересует, как все это дело срабатывает, учитываются ли словоформы и т.д. 2. Например, в списке стоп-слов указано "база данных", и пройдет ли такая заявка (выдумал из головы) "Автомобили, огромная база данных"? Как я понял, связки "база данных" нет. Есть только "база" и "данных"? То есть, если я внесу в стоп слова "телефонные базы данных", то это будет как три слова? И все заявки, где попадутся эти три слова не пройдут по стоп словам? А если я не хочу пропускать "телефонные базы данных", но хочу увидеть, например "автомобильная база данных", при этом в разных словоформах, чтобы в стоп-слова не вбивать разные словоформы, а срабатывало, например, по предложениям, это нереально? 3. Cтоп-слова срабатывают только на анкор или на околоссылочный тоже? 4. Cейчас список стоп-слов неограничен, как раньше до 1к знаков был? В общем, если есть где инфа подробная, как это дело сейчас работает, буду благодарен за урлик. :) Сам ничего толкового не нашел, темы либо не раскрыты, либо старые и также с минимум инфы. Напомню, что речь идет со стороны В и подтверждение заявок на автомате. |
Исходя из такого подробного ТЗ, как Вы изложили в топике, осталось просто провести эксперимент и все выявить самому :) Я бы так сделал.
Делов минут на 15... |
Цитата:
Может, Авелон "спалит тему". :rolleyes: |
Часовой пояс GMT +3, время: 15:46. |
Работает на vBulletin® версия 3.8.7.
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Перевод: zCarot
SAPE.RU — система купли-продажи ссылок с главных и внутренних страниц сайтов.