Цитата: http://www.osp.ru/text/print/302/183694.html
Вероятностный способ [6] проведения морфологического анализа слов состоит в следующем. Одна и та же словоформа может принадлежать сразу к нескольким грамматическим классам. Для каждой словоформы определяются все ее грамматические классы, а также вероятность ее отношения к каждому из этих классов. Это выполняется на основе некоторого набора документов, где каждому слову предварительно поставлен в соответствие грамматический класс. После этого вычисляются вероятности сочетаний определенных грамматических классов для слов, стоящих рядом — для двоек, троек, четверок и т.д. На основе этих чисел может проводиться анализ слов, но для него необходимо уже не только само слово, но и стоящие рядом с ним слова.
Необходимо сделать два важных замечания. Во-первых, вероятностный метод применим только для тех языков, у которых четко фиксирован порядок слов в предложении. Если же порядок слов можно изменять, то все возможные сочетания грамматических классов будут практически равновероятны. Во-вторых, если первые два способа анализа (четкая и нечеткая морфология) на входе принимают отдельные слова, то вероятностный способ, напротив, на входе принимает либо все предложение, либо, по крайней мере, несколько стоящих рядом слов.
:??? А равновероятны ли для русского языка?
Если в обрабатываемом тексте встречаются отрывки разных регистров — да.
Они что, равновероятно встречаются? Что-то не ладно в этой сказке.
Полного списка словоформ русского языка ни у кого нет? А то, тот, который у меня, вызывает определённые сомнения... :(
Полного списка?! :o
Цитата: Demetrius от декабря 12, 2010, 14:19
Полного списка?! :o
Я имею в виду слова, зафиксированные в словарях.
Словарь Зализняка же.
Цитата: Alone Coder от декабря 12, 2010, 15:25
Словарь Зализняка же.
В нём нет списка словоформ.
Зато там есть правила, как их получить.
Цитата: Alone Coder от декабря 12, 2010, 15:31
Зато там есть правила, как их получить.
Вы уже сделали на их основе генератор словоформ? :eat:
Его сделали в Викисловаре. Уэлкам: http://ru.wiktionary.org/
Цитата: Alone Coder от декабря 12, 2010, 15:51
Его сделали в Викисловаре. Уэлкам: http://ru.wiktionary.org/
Что-то я не вижу ссылочки
Download our state-of-the-art Russian word form generator and use it for free.
Можно сварганить по этим табличкам :eat::
http://ru.wiktionary.org/wiki/Категория:Шаблоны_словоизменений
http://ru.wiktionary.org/wiki/Викисловарь:Использование_словаря_Зализняка
Цитата: Bhudh от декабря 12, 2010, 17:22
Можно сварганить по этим табличкам :eat:
Сваргань и поделись со мной. :)
На васике⁈
Цитата: Bhudh от декабря 12, 2010, 17:40
На васике⁈
Без разницы, но помни, форм > 2,5 миллиона, а генератор не должен работать дольше 10 минут на моём железе. :)
Э, не-е, на моём тогда он будет > 10 часов работать.
Цитата: Bhudh от декабря 12, 2010, 18:13
Э, не-е, на моём тогда он будет > 10 часов работать.
Если он будет работать 10 минут на твоём, я не обижусь. :)
Сложность в омографичных окончаниях. :( Можно столько лишних деепричастий типа «батарея» наделать :3tfu:.
Цитата: Bhudh от декабря 12, 2010, 18:30
Сложность в омографичных окончаниях. :( Можно столько лишних деепричастий типа «батарея» наделать :3tfu:.
Не понял. :what:
У тебя список лемм + код, определяющий парадигму словоизменения. В чём проблема?
А! Точно. Спутал что-то. А зачем тогда вообще список готовый делать, если можно на лету генерить? :what:
Потому что мне нужен список, а не генерить. К тому же его нельзя налету генерить, так как генератора нет. Я был бы не против, если бы в выхлопе генератора была грамматическая и прочая информация, которая есть в словаре. :)
Цитата: mystК тому же его нельзя налету генерить, так как генератора нет.
А к майстэму прикрутить?
Цитата: Bhudh от декабря 12, 2010, 19:22
А к майстэму прикрутить?
Как прикрутить? mystem выдаёт только грамматическую информацию о слове. Поэтому мне и нужен список словоформ.
Я уже с его помощью сделал таблицу и загнал её в базу данных, но исходный список подозрительный, возможны сюрпризы.
Не зализняковский, что ли? :what:
Ну будет время попробую свой словогенератор на пыхе переделать под сабж...
Цитата: Bhudh от декабря 12, 2010, 19:59
Не зализняковский, что ли? :what:
Ты знаешь, я даже не знаю. Остыв от гугления, я не смог вспомнить, откуда я его скачал и чей он. :)
У меня есть ещё словарь от AOT'а, но он разбит на кучу файлов, в общем, мне показалось, что делать из него таблицу будет более трудоёмко, чем из списка словоформ.
Сейчас таблица — 2 805 889 строк и 22 столбца. Файл SQLite — 196 Мбайт, с индексом — 315. Скорость вроде хорошая, можно юзать.
По своему опыту скажу, что разобрать 10000 слов по корням - задача двух рабочих дней (именно столько мне понадобилось для глаголов из словаря Шарова). А вырезать левоту из 10000 слов - пара часов (именно столько мне понадобилось, чтобы выяснить объём своего латинского лексикона).
Цитата: Bhudh от декабря 11, 2010, 23:13
Если в обрабатываемом тексте встречаются отрывки разных регистров — да.
При чем тут регистры?
Я тоже не понял, почему равновероятны, но похоже имеется в виду просто что вероятностный метод не работает, потому что действительно вероятности очень близки и толку от них нет.
Цитата: RawonaM от декабря 13, 2010, 22:22
Я тоже не понял, почему равновероятны, но похоже имеется в виду просто что вероятностный метод не работает, потому что действительно вероятности очень близки и толку от них нет.
Что-то мне подсказывает, что аффтар просто гонит пургу. :)
Цитата: Alone Coder от декабря 13, 2010, 22:02
По своему опыту скажу, что разобрать 10000 слов по корням - задача двух рабочих дней (именно столько мне понадобилось для глаголов из словаря Шарова). А вырезать левоту из 10000 слов - пара часов (именно столько мне понадобилось, чтобы выяснить объём своего латинского лексикона).
У Вас масса свободного времени, я погляжу. Могу подкинуть задание на вырезку левоты. :eat:
А я вам за это - задание на сортировку глагольных корней на общую лексику и периферийную (заменябельную синонимами из общей лексики). Пойдёт? :)
У меня времени на ручной труд нет.
У меня тоже. У меня мегабайт информации ещё в Орфовики не внесено.
А как же «Одним лёгким движением руки мы делаем с 10000 слов то, другим — сё»? :eat:
Это было давно.