Печать страницы - Обработка текстов на естественном языке

Название: Обработка текстов на естественном языке
Отправлено: myst от декабря 11, 2010, 21:59

Цитата: http://www.osp.ru/text/print/302/183694.html
Вероятностный способ [6] проведения морфологического анализа слов состоит в следующем. Одна и та же словоформа может принадлежать сразу к нескольким грамматическим классам. Для каждой словоформы определяются все ее грамматические классы, а также вероятность ее отношения к каждому из этих классов. Это выполняется на основе некоторого набора документов, где каждому слову предварительно поставлен в соответствие грамматический класс. После этого вычисляются вероятности сочетаний определенных грамматических классов для слов, стоящих рядом — для двоек, троек, четверок и т.д. На основе этих чисел может проводиться анализ слов, но для него необходимо уже не только само слово, но и стоящие рядом с ним слова.

Необходимо сделать два важных замечания. Во-первых, вероятностный метод применим только для тех языков, у которых четко фиксирован порядок слов в предложении. Если же порядок слов можно изменять, то все возможные сочетания грамматических классов будут практически равновероятны. Во-вторых, если первые два способа анализа (четкая и нечеткая морфология) на входе принимают отдельные слова, то вероятностный способ, напротив, на входе принимает либо все предложение, либо, по крайней мере, несколько стоящих рядом слов.

:??? А равновероятны ли для русского языка?

Название: Обработка текстов на естественном языке
Отправлено: Bhudh от декабря 11, 2010, 23:13

Если в обрабатываемом тексте встречаются отрывки разных регистров — да.

Название: Обработка текстов на естественном языке
Отправлено: myst от декабря 12, 2010, 09:40

Они что, равновероятно встречаются? Что-то не ладно в этой сказке.

Название: Обработка текстов на естественном языке
Отправлено: myst от декабря 12, 2010, 13:58

Полного списка словоформ русского языка ни у кого нет? А то, тот, который у меня, вызывает определённые сомнения... :(

Название: Обработка текстов на естественном языке
Отправлено: Demetrius от декабря 12, 2010, 14:19

Полного списка?! :o

Название: Обработка текстов на естественном языке
Отправлено: myst от декабря 12, 2010, 15:10

Цитата: Demetrius от декабря 12, 2010, 14:19
Полного списка?! :o

Я имею в виду слова, зафиксированные в словарях.

Название: Обработка текстов на естественном языке
Отправлено: Alone Coder от декабря 12, 2010, 15:25

Словарь Зализняка же.

Название: Обработка текстов на естественном языке
Отправлено: myst от декабря 12, 2010, 15:29

Цитата: Alone Coder от декабря 12, 2010, 15:25
Словарь Зализняка же.

В нём нет списка словоформ.

Название: Обработка текстов на естественном языке
Отправлено: Alone Coder от декабря 12, 2010, 15:31

Зато там есть правила, как их получить.

Название: Обработка текстов на естественном языке
Отправлено: myst от декабря 12, 2010, 15:37

Цитата: Alone Coder от декабря 12, 2010, 15:31
Зато там есть правила, как их получить.

Вы уже сделали на их основе генератор словоформ? :eat:

Название: Обработка текстов на естественном языке
Отправлено: Alone Coder от декабря 12, 2010, 15:51

Его сделали в Викисловаре. Уэлкам: http://ru.wiktionary.org/

Название: Обработка текстов на естественном языке
Отправлено: myst от декабря 12, 2010, 16:39

Цитата: Alone Coder от декабря 12, 2010, 15:51
Его сделали в Викисловаре. Уэлкам: http://ru.wiktionary.org/

Что-то я не вижу ссылочки Download our state-of-the-art Russian word form generator and use it for free.

Название: Обработка текстов на естественном языке
Отправлено: Bhudh от декабря 12, 2010, 17:22

Можно сварганить по этим табличкам :eat::
http://ru.wiktionary.org/wiki/Категория:Шаблоны_словоизменений
http://ru.wiktionary.org/wiki/Викисловарь:Использование_словаря_Зализняка

Название: Обработка текстов на естественном языке
Отправлено: myst от декабря 12, 2010, 17:33

Цитата: Bhudh от декабря 12, 2010, 17:22
Можно сварганить по этим табличкам :eat:

Сваргань и поделись со мной. :)

Название: Обработка текстов на естественном языке
Отправлено: Bhudh от декабря 12, 2010, 17:40

На васике⁈

Название: Обработка текстов на естественном языке
Отправлено: myst от декабря 12, 2010, 18:11

Цитата: Bhudh от декабря 12, 2010, 17:40
На васике⁈

Без разницы, но помни, форм > 2,5 миллиона, а генератор не должен работать дольше 10 минут на моём железе. :)

Название: Обработка текстов на естественном языке
Отправлено: Bhudh от декабря 12, 2010, 18:13

Э, не-е, на моём тогда он будет > 10 часов работать.

Название: Обработка текстов на естественном языке
Отправлено: myst от декабря 12, 2010, 18:18

Цитата: Bhudh от декабря 12, 2010, 18:13
Э, не-е, на моём тогда он будет > 10 часов работать.

Если он будет работать 10 минут на твоём, я не обижусь. :)

Название: Обработка текстов на естественном языке
Отправлено: Bhudh от декабря 12, 2010, 18:30

Сложность в омографичных окончаниях. :( Можно столько лишних деепричастий типа «батарея» наделать :3tfu:.

Название: Обработка текстов на естественном языке
Отправлено: myst от декабря 12, 2010, 18:33

Цитата: Bhudh от декабря 12, 2010, 18:30
Сложность в омографичных окончаниях. :( Можно столько лишних деепричастий типа «батарея» наделать :3tfu:.

Не понял. :what:
У тебя список лемм + код, определяющий парадигму словоизменения. В чём проблема?

Название: Обработка текстов на естественном языке
Отправлено: Bhudh от декабря 12, 2010, 18:39

А! Точно. Спутал что-то. А зачем тогда вообще список готовый делать, если можно на лету генерить? :what:

Название: Обработка текстов на естественном языке
Отправлено: myst от декабря 12, 2010, 18:49

Потому что мне нужен список, а не генерить. К тому же его нельзя налету генерить, так как генератора нет. Я был бы не против, если бы в выхлопе генератора была грамматическая и прочая информация, которая есть в словаре. :)

Название: Обработка текстов на естественном языке
Отправлено: Bhudh от декабря 12, 2010, 19:22

Цитата: mystК тому же его нельзя налету генерить, так как генератора нет.

А к майстэму прикрутить?

Название: Обработка текстов на естественном языке
Отправлено: myst от декабря 12, 2010, 19:48

Цитата: Bhudh от декабря 12, 2010, 19:22
А к майстэму прикрутить?

Как прикрутить? mystem выдаёт только грамматическую информацию о слове. Поэтому мне и нужен список словоформ.

Название: Обработка текстов на естественном языке
Отправлено: myst от декабря 12, 2010, 19:50

Я уже с его помощью сделал таблицу и загнал её в базу данных, но исходный список подозрительный, возможны сюрпризы.

Название: Обработка текстов на естественном языке
Отправлено: Bhudh от декабря 12, 2010, 19:59

Не зализняковский, что ли? :what:

Ну будет время попробую свой словогенератор на пыхе переделать под сабж...

Название: Обработка текстов на естественном языке
Отправлено: myst от декабря 12, 2010, 20:09

Цитата: Bhudh от декабря 12, 2010, 19:59
Не зализняковский, что ли? :what:

Ты знаешь, я даже не знаю. Остыв от гугления, я не смог вспомнить, откуда я его скачал и чей он. :)

Название: Обработка текстов на естественном языке
Отправлено: myst от декабря 12, 2010, 20:14

У меня есть ещё словарь от AOT'а, но он разбит на кучу файлов, в общем, мне показалось, что делать из него таблицу будет более трудоёмко, чем из списка словоформ.
Сейчас таблица — 2 805 889 строк и 22 столбца. Файл SQLite — 196 Мбайт, с индексом — 315. Скорость вроде хорошая, можно юзать.

Название: Обработка текстов на естественном языке
Отправлено: Alone Coder от декабря 13, 2010, 22:02

По своему опыту скажу, что разобрать 10000 слов по корням - задача двух рабочих дней (именно столько мне понадобилось для глаголов из словаря Шарова). А вырезать левоту из 10000 слов - пара часов (именно столько мне понадобилось, чтобы выяснить объём своего латинского лексикона).

Название: Обработка текстов на естественном языке
Отправлено: RawonaM от декабря 13, 2010, 22:22

Цитата: Bhudh от декабря 11, 2010, 23:13
Если в обрабатываемом тексте встречаются отрывки разных регистров — да.

При чем тут регистры?

Я тоже не понял, почему равновероятны, но похоже имеется в виду просто что вероятностный метод не работает, потому что действительно вероятности очень близки и толку от них нет.

Название: Обработка текстов на естественном языке
Отправлено: myst от декабря 14, 2010, 09:04

Цитата: RawonaM от декабря 13, 2010, 22:22
Я тоже не понял, почему равновероятны, но похоже имеется в виду просто что вероятностный метод не работает, потому что действительно вероятности очень близки и толку от них нет.

Что-то мне подсказывает, что аффтар просто гонит пургу. :)

Название: Обработка текстов на естественном языке
Отправлено: myst от декабря 14, 2010, 09:05

Цитата: Alone Coder от декабря 13, 2010, 22:02
По своему опыту скажу, что разобрать 10000 слов по корням - задача двух рабочих дней (именно столько мне понадобилось для глаголов из словаря Шарова). А вырезать левоту из 10000 слов - пара часов (именно столько мне понадобилось, чтобы выяснить объём своего латинского лексикона).

У Вас масса свободного времени, я погляжу. Могу подкинуть задание на вырезку левоты. :eat:

Название: Обработка текстов на естественном языке
Отправлено: Alone Coder от декабря 14, 2010, 18:03

А я вам за это - задание на сортировку глагольных корней на общую лексику и периферийную (заменябельную синонимами из общей лексики). Пойдёт? :)

Название: Обработка текстов на естественном языке
Отправлено: myst от декабря 14, 2010, 18:11

У меня времени на ручной труд нет.

Название: Обработка текстов на естественном языке
Отправлено: Alone Coder от декабря 14, 2010, 18:17

У меня тоже. У меня мегабайт информации ещё в Орфовики не внесено.

Название: Обработка текстов на естественном языке
Отправлено: myst от декабря 14, 2010, 18:44

А как же «Одним лёгким движением руки мы делаем с 10000 слов то, другим — сё»? :eat:

Название: Обработка текстов на естественном языке
Отправлено: Alone Coder от декабря 14, 2010, 18:54

Это было давно.

Лингвофорум

Общий раздел => Наука и техника => Компьютеры => Тема начата: myst от декабря 11, 2010, 21:59