Вернуться   Форум SAPE.RU > Общие вопросы > Разработка и сопровождение сайтов

-->
Ответ
 
Опции темы
Старый 13.12.2010, 16:44   #1
Специалист
 
Аватар для Михаил)
 
Регистрация: 17.05.2008
Сообщений: 215
Вес репутации: 202
Михаил) - как роза среди колючекМихаил) - как роза среди колючекМихаил) - как роза среди колючекМихаил) - как роза среди колючек
Question Совет по работе с ключевыми словами страницы

Здравствуйте! Прошу совету - помогите с алгоритмом:
Обрабатываю текстовый контент веб-страниц для получения наиболее часто повторяющихся слов и словосочетаний. Обрабатываются формы из одного, двух и трёх слов. Перед обработкой для чистоты текста из контента удаляются HTML-таги, в.т.ч. содержимое script, embed, комментарии.

Часто в результаты влазят словоформы из слов, бывших в разных местах страницы и не связанные между собой. Например:
"Подробнее" и "добавить комментарий" в очищенном тексте становятся рядом и воспринимаются как "Подробнее добавить" и "Подробнее добавить комментарий".

Вопрос: как разделить в тексте при очищении HTML-тэгов, текст, находившийся в разных местах страницы и не связанный между собой?
__________________
Автоматическая регистрация в каталогах - бывают интересные акции и скидки.
Promotion in Google - Submit Article or Post to SEO blog for Free.
Михаил) вне форума   Ответить с цитированием
Старый 13.12.2010, 17:30   #2
Магистр
 
Аватар для Йода
 
Регистрация: 04.12.2007
Сообщений: 3,680
Вес репутации: 416
Йода - прекрасное будущееЙода - прекрасное будущееЙода - прекрасное будущееЙода - прекрасное будущееЙода - прекрасное будущееЙода - прекрасное будущееЙода - прекрасное будущееЙода - прекрасное будущееЙода - прекрасное будущееЙода - прекрасное будущееЙода - прекрасное будущее
По умолчанию

Никак. Ибо неправильный подход.
Сначала надо выделить значащие блоки текста.
Как- отдельный разговор. Можно по маркерам, можно еще както.
После того как вы их выделили- таких вопросов как ваш не возникнет в принципе, ибо "добавить комментарий" туда не попадет.
__________________
С уважением, Йода
Йода вне форума   Ответить с цитированием
Старый 13.12.2010, 17:37   #3
Специалист
 
Аватар для Михаил)
 
Регистрация: 17.05.2008
Сообщений: 215
Вес репутации: 202
Михаил) - как роза среди колючекМихаил) - как роза среди колючекМихаил) - как роза среди колючекМихаил) - как роза среди колючек
По умолчанию

Т.к. анализ делается "на лету", не хотелось бы гонять несколько раз контент частями.

Вы навели меня на мысль - при очистке HTML, заменить некоторые теги (div, p, ? ) "кучей" пробелов. Таким образом поиск ключевых словосочетаний происходит также однократно, но не сливаются в словосочетания края разных текстовых блоков.
__________________
Автоматическая регистрация в каталогах - бывают интересные акции и скидки.
Promotion in Google - Submit Article or Post to SEO blog for Free.

Последний раз редактировалось Михаил); 13.12.2010 в 17:43.
Михаил) вне форума   Ответить с цитированием
Ответ


Ваши права в разделе
Вы не можете создавать новые темы
Вы не можете отвечать в темах
Вы не можете прикреплять вложения
Вы не можете редактировать свои сообщения

BB коды Вкл.
Смайлы Вкл.
[IMG] код Вкл.
HTML код Выкл.

Быстрый переход

Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
Проблема с ключевыми словами zzmeioka Вопросы по работе системы 0 29.01.2010 13:49
Система слежения за ключевыми словами в выдаче поисковиков HiddenEngine Софт для оптимизаторов и вебмастеров 4 28.09.2009 09:11
Совет: если не добавляются новые страницы при переиндексации aship Вопросы по работе системы 4 25.06.2009 16:39
Ссылки с повторными словами Одинокий админ Вопросы по работе системы 6 12.03.2009 10:03
Обмен стоп-словами vitvol Вопросы от новичков 14 05.05.2008 03:49


Часовой пояс GMT +3, время: 13:08.