Главное меню
Мы солидарны с Украиной. Узнайте здесь, как можно поддержать Украину.

Обработка текстов на естественном языке

Автор myst, декабря 11, 2010, 21:59

0 Пользователи и 1 гость просматривают эту тему.

myst

Цитата: http://www.osp.ru/text/print/302/183694.html
Вероятностный способ [6] проведения морфологического анализа слов состоит в следующем. Одна и та же словоформа может принадлежать сразу к нескольким грамматическим классам. Для каждой словоформы определяются все ее грамматические классы, а также вероятность ее отношения к каждому из этих классов. Это выполняется на основе некоторого набора документов, где каждому слову предварительно поставлен в соответствие грамматический класс. После этого вычисляются вероятности сочетаний определенных грамматических классов для слов, стоящих рядом — для двоек, троек, четверок и т.д. На основе этих чисел может проводиться анализ слов, но для него необходимо уже не только само слово, но и стоящие рядом с ним слова.

Необходимо сделать два важных замечания. Во-первых, вероятностный метод применим только для тех языков, у которых четко фиксирован порядок слов в предложении. Если же порядок слов можно изменять, то все возможные сочетания грамматических классов будут практически равновероятны. Во-вторых, если первые два способа анализа (четкая и нечеткая морфология) на входе принимают отдельные слова, то вероятностный способ, напротив, на входе принимает либо все предложение, либо, по крайней мере, несколько стоящих рядом слов.
:??? А равновероятны ли для русского языка?

Bhudh

Если в обрабатываемом тексте встречаются отрывки разных регистров — да.
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

myst

Они что, равновероятно встречаются? Что-то не ладно в этой сказке.

myst

Полного списка словоформ русского языка ни у кого нет? А то, тот, который у меня, вызывает определённые сомнения... :(


myst




Alone Coder


myst

Цитата: Alone Coder от декабря 12, 2010, 15:31
Зато там есть правила, как их получить.
Вы уже сделали на их основе генератор словоформ? :eat:

Alone Coder


myst

Цитата: Alone Coder от декабря 12, 2010, 15:51
Его сделали в Викисловаре. Уэлкам: http://ru.wiktionary.org/
Что-то я не вижу ссылочки Download our state-of-the-art Russian word form generator and use it for free.

Bhudh

Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

myst


Bhudh

Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

myst

Цитата: Bhudh от декабря 12, 2010, 17:40
На васике⁈
Без разницы, но помни, форм > 2,5 миллиона, а генератор не должен работать дольше 10 минут на моём железе. :)

Bhudh

Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

myst

Цитата: Bhudh от декабря 12, 2010, 18:13
Э, не-е, на моём тогда он будет > 10 часов работать.
Если он будет работать 10 минут на твоём, я не обижусь. :)

Bhudh

Сложность в омографичных окончаниях. :( Можно столько лишних деепричастий типа «батарея» наделать :3tfu:.
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

myst

Цитата: Bhudh от декабря 12, 2010, 18:30
Сложность в омографичных окончаниях. :( Можно столько лишних деепричастий типа «батарея» наделать :3tfu:.
Не понял. :what:
У тебя список лемм + код, определяющий парадигму словоизменения. В чём проблема?

Bhudh

А! Точно. Спутал что-то. А зачем тогда вообще список готовый делать, если можно на лету генерить? :what:
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

myst

Потому что мне нужен список, а не генерить. К тому же его нельзя налету генерить, так как генератора нет. Я был бы не против, если бы в выхлопе генератора была грамматическая и прочая информация, которая есть в словаре. :)

Bhudh

Цитата: mystК тому же его нельзя налету генерить, так как генератора нет.
А к майстэму прикрутить?
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

myst

Цитата: Bhudh от декабря 12, 2010, 19:22
А к майстэму прикрутить?
Как прикрутить? mystem выдаёт только грамматическую информацию о слове. Поэтому мне и нужен список словоформ.

myst

Я уже с его помощью сделал таблицу и загнал её в базу данных, но исходный список подозрительный, возможны сюрпризы.

Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр