13.12.2010, 16:44 | #1 |
Специалист
Регистрация: 17.05.2008
Сообщений: 215
Вес репутации: 202
|
Совет по работе с ключевыми словами страницы
Здравствуйте! Прошу совету - помогите с алгоритмом:
Обрабатываю текстовый контент веб-страниц для получения наиболее часто повторяющихся слов и словосочетаний. Обрабатываются формы из одного, двух и трёх слов. Перед обработкой для чистоты текста из контента удаляются HTML-таги, в.т.ч. содержимое script, embed, комментарии. Часто в результаты влазят словоформы из слов, бывших в разных местах страницы и не связанные между собой. Например: "Подробнее" и "добавить комментарий" в очищенном тексте становятся рядом и воспринимаются как "Подробнее добавить" и "Подробнее добавить комментарий". Вопрос: как разделить в тексте при очищении HTML-тэгов, текст, находившийся в разных местах страницы и не связанный между собой?
__________________
Promotion in Google - Submit Article or Post to SEO blog for Free. |
13.12.2010, 17:30 | #2 |
Магистр
Регистрация: 04.12.2007
Сообщений: 3,680
Вес репутации: 416
|
Никак. Ибо неправильный подход.
Сначала надо выделить значащие блоки текста. Как- отдельный разговор. Можно по маркерам, можно еще както. После того как вы их выделили- таких вопросов как ваш не возникнет в принципе, ибо "добавить комментарий" туда не попадет.
__________________
|
13.12.2010, 17:37 | #3 |
Специалист
Регистрация: 17.05.2008
Сообщений: 215
Вес репутации: 202
|
Т.к. анализ делается "на лету", не хотелось бы гонять несколько раз контент частями.
Вы навели меня на мысль - при очистке HTML, заменить некоторые теги (div, p, ? ) "кучей" пробелов. Таким образом поиск ключевых словосочетаний происходит также однократно, но не сливаются в словосочетания края разных текстовых блоков.
__________________
Promotion in Google - Submit Article or Post to SEO blog for Free. Последний раз редактировалось Михаил); 13.12.2010 в 17:43. |
|
|
Похожие темы | ||||
Тема | Автор | Раздел | Ответов | Последнее сообщение |
Проблема с ключевыми словами | zzmeioka | Вопросы по работе системы | 0 | 29.01.2010 13:49 |
Система слежения за ключевыми словами в выдаче поисковиков | HiddenEngine | Софт для оптимизаторов и вебмастеров | 4 | 28.09.2009 09:11 |
Совет: если не добавляются новые страницы при переиндексации | aship | Вопросы по работе системы | 4 | 25.06.2009 16:39 |
Ссылки с повторными словами | Одинокий админ | Вопросы по работе системы | 6 | 12.03.2009 10:03 |
Обмен стоп-словами | vitvol | Вопросы от новичков | 14 | 05.05.2008 03:49 |
Часовой пояс GMT +3, время: 13:08.