03.09.2014, 20:42 | #1 |
Мастер
Регистрация: 05.10.2011
Адрес: Напротив окна
Сообщений: 741
Вес репутации: 189
|
Работа со словоформами
Есть задача, нужно при помощи некоего API перейти от частного варианта отдельного слова к его основной форме.
Пример, слово "труда". Нужно получить основную форму - "труд" . Есть очень хороший сервис http://export.yandex.ru/inflect.xml?name=труд его беда в том что основываясь на "труд" он может показать "труда" , а наоброт - нет, наоборот на выходе полная фигня. Кто-нибудь видел другие API на эту тему ?
__________________
|
03.09.2014, 21:01 | #2 |
Эксперт
Регистрация: 17.02.2008
Адрес: Донецк, ДНР, Россия
Сообщений: 8,885
Вес репутации: 508
|
Что подразумевается под основной формой? Корень слова? Существительное в именительном падеже единственном числе? Таким образом надо обрабатывать только существительные или глаголы, прилагательные?
API не встречал. Но куда рыть знаю - база данных из какого-либо орфографического словаря. В каком всем словоформам приводится основная. Идея (не без недостатков) реальзована в Библейском компьютерном справочнике фирмы Аркадия, впоследствии в Яндексе. |
04.09.2014, 11:21 | #3 |
Мастер
Регистрация: 05.10.2011
Адрес: Напротив окна
Сообщений: 741
Вес репутации: 189
|
SergejF, В первую очередь задача относится к переводу существительных в именительный падеж и единственное число (кстати, если оно есть) . У глаголов еще сложней, там нужно со временем работать, переводить в настоящее, как базовое и во все остальные.
База данных это хорошо, но пока ищу именно API , т.к. уровень задачи и сроки ее реализации не допускают создание или адаптацию баз.
__________________
|
04.09.2014, 12:17 | #5 |
Злой модератор
Регистрация: 25.03.2007
Адрес: Deep forest
Сообщений: 5,343
Вес репутации: 508
|
Это называется "лемматизация". Начните поиск отсюда например.
Заодно посмотрите алгоритмы и реализации стемминга. В отличиии от лемматизации, он не требует использования словарей. Может для вашей задачи и обычного стеммера хватит, кто знает. Последний раз редактировалось Wink; 06.09.2014 в 07:47. |
|
|
Похожие темы | ||||
Тема | Автор | Раздел | Ответов | Последнее сообщение |
Непонятка со словоформами | sabonett | Яндекс | 11 | 07.06.2011 15:28 |
Совместная работа работа надо проектом | arkasha69 | Вопросы по работе системы | 5 | 17.05.2011 14:08 |
Работа с Избраное не пойму почему работа идет со всеми сайтами | Abbadona | Вопросы по работе системы | 14 | 14.11.2007 21:36 |
Работа с поддоменами, работа с e-107. | jeka | Вопросы по работе системы | 3 | 12.07.2007 09:49 |
Часовой пояс GMT +3, время: 04:00.