Форум SAPE.RU

Форум SAPE.RU (http://forum.sape.ru/index.php)
-   Разработка и сопровождение сайтов (http://forum.sape.ru/forumdisplay.php?f=29)
-   -   Работа со словоформами (http://forum.sape.ru/showthread.php?t=93694)

SPQR 03.09.2014 20:42

Работа со словоформами
 
Есть задача, нужно при помощи некоего API перейти от частного варианта отдельного слова к его основной форме.

Пример, слово "труда". Нужно получить основную форму - "труд" .

Есть очень хороший сервис
http://export.yandex.ru/inflect.xml?name=труд

его беда в том что основываясь на "труд" он может показать "труда" , а наоброт - нет, наоборот на выходе полная фигня.

Кто-нибудь видел другие API на эту тему ?

SergejF 03.09.2014 21:01

Цитата:

Сообщение от SPQR (Сообщение 1421980)
перейти от частного варианта отдельного слова к его основной форме.

Что подразумевается под основной формой? Корень слова? Существительное в именительном падеже единственном числе? Таким образом надо обрабатывать только существительные или глаголы, прилагательные?

API не встречал. Но куда рыть знаю - база данных из какого-либо орфографического словаря. В каком всем словоформам приводится основная.

Идея (не без недостатков) реальзована в Библейском компьютерном справочнике фирмы Аркадия, впоследствии в Яндексе.

SPQR 04.09.2014 11:21

SergejF, В первую очередь задача относится к переводу существительных в именительный падеж и единственное число (кстати, если оно есть) . У глаголов еще сложней, там нужно со временем работать, переводить в настоящее, как базовое и во все остальные.

База данных это хорошо, но пока ищу именно API , т.к. уровень задачи и сроки ее реализации не допускают создание или адаптацию баз.

SergejF 04.09.2014 12:02

API не встречал, но (еще одна мысль) все программы проверки орфографии, всякие там ОРФО, должны использовать подобный частотный словарь. Может поискать в этой стороне?

Wink 04.09.2014 12:17

Цитата:

Сообщение от SPQR (Сообщение 1421980)
перейти от частного варианта отдельного слова к его основной форме

Это называется "лемматизация". Начните поиск отсюда например.
Заодно посмотрите алгоритмы и реализации стемминга. В отличиии от лемматизации, он не требует использования словарей. Может для вашей задачи и обычного стеммера хватит, кто знает.

SPQR 04.09.2014 15:56

Wink, Спасибо, Вы указали правильный путь


Часовой пояс GMT +3, время: 01:23.

Работает на vBulletin® версия 3.8.7.
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Перевод: zCarot
SAPE.RU — система купли-продажи ссылок с главных и внутренних страниц сайтов.