алгоритм или метод, анализ на часть речи

YaMolekula · декабря 24, 2010, 22:02

Всем доброго времени суток! Я, в общем, пишу программку, которая должна выявлять из поступающего текста принадлежащие определённой части речи слова , в моём случае это имя прилагательное. Затем, проводить незамысловатый анализ найденного слова. Но, если с анализом слова проблем не возникло, то с выявлением прилагательного случилась просто беда. Сами прилагательные в программе ищутся путём сравнения "окончания" каждого слова с "окончаниями", которые обычно встречаются в прилагательном. Слово "окончание" я взял в кавычки, потому что там не только окончания, там вообще на что обычно прилагательное заканчивается (постфиксы и др.). Но проблема в том, что, среди найденных слов, около половины - слова принадлежащие другим частям речи.
Мне бы, в общем, любую идею или мануал какой-нить, чтобы хотя бы за что-то зацепиться

Bhudh · декабря 24, 2010, 22:05

Offtop

Батарея...

RawonaM · декабря 24, 2010, 22:08

На каком языке надо-то? В обоих смыслах.

YaMolekula · декабря 24, 2010, 22:18

Надо на русском. А стилистика ближе к литературному, программа проверяется на отрывке из современного или классического литературного произведения.

YaMolekula · декабря 24, 2010, 22:27

Цитата: Bhudh от декабря 24, 2010, 22:05
Offtop
Батарея...

Это конечно жёстко))
Но мне чтоб хотя бы до 30% погрешность уменьшить.

RawonaM · декабря 24, 2010, 22:33

А на каком языке пишете?

Интересно, какой процент ошибочных предположений? Покажите результаты, посмотрим.

На самом деле изобретать надежный велосипед будет совсем не просто, как может показаться. Одного поверхностного морфологического (или скорее буквенного) анализа никак не хватит. Полный парсер предложения и семантический анализ — это может дать хоть какой-то вменяемый научный результат.
Вопрос какие у вас цели. Может возможно поиграться и прийти к устраивающему вас проценту ложных результатов.

Самое простое — взять какой-то сносно работающий парсер и встроить его в вашу программу.

Darkstar · декабря 25, 2010, 00:36

Какое открытие, автор первого поста! Вы никогда не слышали, что проблема семантики и многозначности в общем случае неразрешима?

YaMolekula · декабря 25, 2010, 01:01

Я сейчас проверил программу на примере отрывка из "Мастер и Маргарита":

Spoiler ⇓⇓⇓

В спальне Воланда все оказалось, как было до бала. Воланд в сорочке сидел на постели, и только Гелла не растирала ему ногу, а на столе, там, где раньше играли в шахматы, накрывала ужин.
Коровьев и Азазелло, сняв фраки, сидели у стола, и рядом с ними, конечно, помещался кот, не пожелавший расстаться со своим галстуком, хоть тот и превратился в совершеннейшую грязную тряпку. Маргарита, шатаясь, подошла к столу и оперлась на него. Тогда Воланд поманил ее, как и тогда, к себе и показал, чтобы она села рядом.
– Ну что, вас очень измучили? – спросил Воланд.
– О нет, мессир, – ответила Маргарита, но чуть слышно.
– Ноблесс оближ, – заметил кот и налил Маргарите какой то прозрачной жидкости в лафитный стакан.
– Это водка? – слабо спросила Маргарита.
Кот подпрыгнул на стуле от обиды.
– Помилуйте, королева, – прохрипел он, – разве я позволил бы себе налить даме водки? Это чистый спирт!
Маргарита улыбнулась и сделала попытку отодвинуть от себя стакан.
– Смело пейте, – сказал Воланд, и Маргарита тотчас взяла стакан в руки. – Гелла, садись, – приказал Воланд и объяснил Маргарите: – Ночь полнолуния – праздничная ночь, и я ужинаю в тесной компании приближенных и слуг. Итак, как чувствуете вы себя? Как прошел этот утомительный бал?
– Потрясающе! – затрещал Коровьев, – все очарованы, влюблены, раздавлены, сколько такта, сколько умения, обаяния и шарма!

Она выдала следующий список слов как прилагательные:

Цитировать
0.рядом
1.пожелавший
2.своим
3.галстуком
4.совершеннейшую
5.грязную
6.него
7.какой
8.прозрачной
9.лафитный
10.чистый
11.праздничная
12.тесной
13.приближенных
14.утомительный

Попался более удачный текст, обычно прилагательных составляет где-то 40%.

Велосипед пришлось изобретать, после безуспешных попыток найти уже существующие методы. В известных мне учебниках по алгоритмам этому уделено, к сожалению, очень мало внимания.

RawonaM · декабря 25, 2010, 01:06

Вам надо изучать вот это http://corpus.leeds.ac.uk/mocky/.

В национальном корпусе использовали Мystem и Dialing.

У последнего есть открытые исходники.

Пример майстема:

Код Выделить

$./mystem -ig
Однажды в студеную зимнюю пору
Однажды{однажды=ADV=}в{в=PR=}студеную{студеный=A=вин,ед,жен}зимнюю{зимний=A=вин,ед,жен}пору{пора=S,жен,неод=вин,ед}

Mystem неплох, он в Яндексе склоняет незнакомые слова, поэтому, например (Yandex) вакерный.
Не знаю что это такое, толкьо что придумал, но видите, что склоняет. А гугл не может: (Google) вакерный

Может вам вообще можно взять все готовое с национального корпуса и не напрягаться

RawonaM · декабря 25, 2010, 01:10

Аутпут из майстема:

Цитироватьрядом{ряд=S,муж,неод=твор,ед|рядом=ADV=}
пожелавший{пожелать=V,сов=(прош,им,ед,прич,муж|прош,вин,ед,прич,муж,неод)}
своим{свой=A=(дат,мн|твор,ед,муж|твор,ед,сред)|свое=S,ед,сред,неод=твор|свой=S,муж,од=(дат,мн|твор,ед)}
галстуком{галстук=S,муж,неод=твор,ед}
совершеннейшую{совершенный=A=вин,ед,прев,жен}
грязную{грязный=A=вин,ед,жен}
него{него=S,ед,муж,од=(род|вин)|него=S,ед,сред,од=(род|вин)|он=S,ед,муж,од=(род|вин)|оно=S,ед,сред,од=(род|вин)}
какой{какой=A=(им,ед,муж|род,ед,жен|дат,ед,жен|вин,ед,муж,неод|твор,ед,жен|пр,ед,жен)}
прозрачной{прозрачный=A=(род,ед,жен|дат,ед,жен|твор,ед,жен|пр,ед,жен)}
лафитный{лафитный=A=(им,ед,муж|вин,ед,муж,неод)}
чистый{чистый=A=(им,ед,муж|вин,ед,муж,неод)}
праздничная{праздничный=A=им,ед,жен}
тесной{тесный=A=(род,ед,жен|дат,ед,жен|твор,ед,жен|пр,ед,жен)}
приближенных{приближать=V=(прош,род,мн,прич,сов,страд|прош,вин,мн,прич,сов,страд,од|прош,пр,мн,прич,сов,страд)|приближенный=A=(род,мн|вин,мн,од|пр,мн)|приближенный=S,муж,од=(род,мн|вин,мн|пр,мн)|приближенная=S,жен,од=(род,мн|вин,мн|пр,мн)}

Короче я предлагаю велосипед не изобретать

RawonaM · декабря 25, 2010, 01:21

Найдете что-нибудь интересное, давайте сюда или в более общую тему:
Компьютерная лингвистика

YaMolekula · декабря 26, 2010, 13:14

Спасибо большое, RawonaM! С готовыми парсерами гораздо удобней и эффективней.

RawonaM · декабря 26, 2010, 13:17

И вам спасибо за вопрос, мы сами много чего нового узнали

myst · декабря 27, 2010, 17:28

mystem выручает, да.

Bhudh · декабря 27, 2010, 20:10

mystem выручает μύστην.

myst · декабря 27, 2010, 20:15

Bhudh · декабря 27, 2010, 20:24

:gozhe:, :gozhe:...

vlad9486 · декабря 31, 2010, 16:40

Делаеш многослойный персептрон, вход - слово, выход -вероятность того, что это прилагательное. Обучешь его. Вроде должно работать.

Alone Coder · августа 20, 2011, 20:48

ЦитироватьЗнакома я с одним ученейшим, мужем, эллинистом, латинистом,
математиком, философом, медиком, настоящим царем всех наук, человеком уже
лет шестидесяти, который, позабыв все на свете, уже лет двадцать корпит и
мучается над грамматикой, утешая себя надеждой дожить до того счастливого
дня, когда он научится безошибочно различать все восемь частей речи, чего,
как известно, не мог вполне достигнуть ни один из эллинистов и латинистов.

Эразм Роттердамский. Похвала глупости

Bhudh · августа 20, 2011, 20:50

Ну не было ещё логлана!

Лингвофорум

алгоритм или метод, анализ на часть речи

YaMolekula

Bhudh

RawonaM

YaMolekula

YaMolekula

RawonaM

Darkstar

YaMolekula

RawonaM

RawonaM

RawonaM

YaMolekula

RawonaM

myst

Bhudh

myst

Bhudh

vlad9486

Alone Coder

Bhudh

Быстрый ответ