Главное меню
Мы солидарны с Украиной. Узнайте здесь, как можно поддержать Украину.

Обработка текстов на естественном языке

Автор myst, декабря 11, 2010, 21:59

0 Пользователи и 1 гость просматривают эту тему.

Bhudh

Не зализняковский, что ли? :what:

Ну будет время попробую свой словогенератор на пыхе переделать под сабж...
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

myst

Цитата: Bhudh от декабря 12, 2010, 19:59
Не зализняковский, что ли? :what:
Ты знаешь, я даже не знаю. Остыв от гугления, я не смог вспомнить, откуда я его скачал и чей он. :)

myst

У меня есть ещё словарь от AOT'а, но он разбит на кучу файлов, в общем, мне показалось, что делать из него таблицу будет более трудоёмко, чем из списка словоформ.
Сейчас таблица — 2 805 889 строк и 22 столбца. Файл SQLite — 196 Мбайт, с индексом — 315. Скорость вроде хорошая, можно юзать.

Alone Coder

По своему опыту скажу, что разобрать 10000 слов по корням - задача двух рабочих дней (именно столько мне понадобилось для глаголов из словаря Шарова). А вырезать левоту из 10000 слов - пара часов (именно столько мне понадобилось, чтобы выяснить объём своего латинского лексикона).

RawonaM

Цитата: Bhudh от декабря 11, 2010, 23:13
Если в обрабатываемом тексте встречаются отрывки разных регистров — да.
При чем тут регистры?

Я тоже не понял, почему равновероятны, но похоже имеется в виду просто что вероятностный метод не работает, потому что действительно вероятности очень близки и толку от них нет.

myst

Цитата: RawonaM от декабря 13, 2010, 22:22
Я тоже не понял, почему равновероятны, но похоже имеется в виду просто что вероятностный метод не работает, потому что действительно вероятности очень близки и толку от них нет.
Что-то мне подсказывает, что аффтар просто гонит пургу. :)

myst

Цитата: Alone Coder от декабря 13, 2010, 22:02
По своему опыту скажу, что разобрать 10000 слов по корням - задача двух рабочих дней (именно столько мне понадобилось для глаголов из словаря Шарова). А вырезать левоту из 10000 слов - пара часов (именно столько мне понадобилось, чтобы выяснить объём своего латинского лексикона).
У Вас масса свободного времени, я погляжу. Могу подкинуть задание на вырезку левоты. :eat:

Alone Coder

А я вам за это - задание на сортировку глагольных корней на общую лексику и периферийную (заменябельную синонимами из общей лексики). Пойдёт? :)


Alone Coder

У меня тоже. У меня мегабайт информации ещё в Орфовики не внесено.

myst

А как же «Одним лёгким движением руки мы делаем с 10000 слов то, другим — сё»? :eat:


Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр