Лингвофорум

Общий раздел => Наука и техника => Компьютеры => Тема начата: myst от октября 12, 2010, 16:02

Название: Система предсказания текста
Отправлено: myst от октября 12, 2010, 16:02
Я таки скрестил Presage с текстовой службой. Сегодня попробовал русский язык. И что удивительно, работает. :)
Система предлагает дополнение для набираемого слова и целые слова после пробела.
Это макет, поэтому бинарники не дам. Но могу дать исходники тем, кто захочет допилить. ;)
Вот как это выглядит:
Название: Система предсказания текста
Отправлено: Cirrus uncinus от октября 12, 2010, 17:17
Интересно!
Только шрифт бы сменили с MS SansSerif на Tahoma...
Название: Система предсказания текста
Отправлено: myst от октября 12, 2010, 17:23
Шрифт дефолтный.
Название: Система предсказания текста
Отправлено: Cirrus uncinus от октября 12, 2010, 17:43
Это и плохо, никто им не пользуется.
Название: Система предсказания текста
Отправлено: myst от октября 12, 2010, 17:58
Цитата: Cirrus uncinus от октября 12, 2010, 17:43
Это и плохо, никто им не пользуется.
Это макет, а не продукт для конечного пользователя.
Название: Система предсказания текста
Отправлено: Bhudh от октября 12, 2010, 22:27
А сикоку весит и чо требуит?
Название: Система предсказания текста
Отправлено: Nekto от октября 12, 2010, 23:56
Вау!
Название: Система предсказания текста
Отправлено: Bhudh от октября 13, 2010, 00:31
Залива требуит⁇. :what:
Название: Система предсказания текста
Отправлено: myst от октября 13, 2010, 11:40
Цитата: Bhudh от октября 12, 2010, 22:27
А сикоку весит и чо требуит?
Сама текстовая служба ок. 3 мегабайт. Но это отладочная сборка, релиз должен быть поменьше. Правда, это ещё только макет. Надо конфиги добавить, кое-какие проблемы решить... Больше 5 всяко не будет. :)
Ну, а сами данные для предсказателей, это уж как захочешь.
Требует Windows >=2000, если я ничего не забыл. Я специально статическую сборку сделал, чтобы поменьше зависимостей было.
Название: Система предсказания текста
Отправлено: Тайльнемер от октября 13, 2010, 15:31
Цитата: myst от октября 12, 2010, 16:02
могу дать исходники тем, кто захочет допилить.
Я вряд ли буду допиливать, но очень интересно было бы посмотреть! Можно?

Кстати, насколько эффективным выходит такой метод для русского языка, где куча слов, отличающихся только одной или несколькими последними буквами?
Название: Система предсказания текста
Отправлено: myst от октября 13, 2010, 15:54
Цитата: Тайльнемер от октября 13, 2010, 15:31
Я вряд ли буду допиливать, но очень интересно было бы посмотреть! Можно?
Конечно, можно. http://zalil.ru/29809067
Это переделанный пример из SDK, я его переписал под ATL. Код экспериментальный, чумазый.

Цитата: Тайльнемер от октября 13, 2010, 15:31
Кстати, насколько эффективным выходит такой метод для русского языка, где куча слов, отличающихся только одной или несколькими последними буквами?
Это я и хочу узнать. :) А ещё хочу попробовать такой ввод на скорость. Выбор должен ограничивать скорость, но вот насколько? На худой конец эту штуку можно приспособить для вставки длинных терминов. Хотя в плане словосочетаний есть вопросы...
Название: Система предсказания текста
Отправлено: myst от октября 16, 2010, 20:47
Ничего не получится. Я так и не нашёл универсального решения. :(
Windows — груда костылей из говна. :wall:
Название: Система предсказания текста
Отправлено: myst от октября 16, 2010, 20:49
В отчаянии посмотрел документацию Mac OS, погрыз локти от зависти...
Название: Система предсказания текста
Отправлено: myst от октября 29, 2010, 21:31
Нужен сбалансированный корпус русских текстов для базы предсказателя.
Название: Система предсказания текста
Отправлено: myst от октября 29, 2010, 21:34
Ну что, кто хочет попробовать? :)
Название: Система предсказания текста
Отправлено: Demetrius от октября 29, 2010, 22:00
Offtop

Цитата: Cirrus uncinus от октября 12, 2010, 17:17
Интересно!
Только шрифт бы сменили с MS SansSerif на Tahoma...
MS SansSerif≠System
Название: Система предсказания текста
Отправлено: myst от октября 30, 2010, 12:02
С предсказанием словосочетаний облом. :(
Название: Система предсказания текста
Отправлено: myst от октября 30, 2010, 18:42
Гугл свою делает: http://scribe.googlelabs.com/
Да-анила, это же новый тренд!
Название: Система предсказания текста
Отправлено: Hellerick от октября 30, 2010, 18:58
Cool, I have installed the extension and typing with it just now.
Название: Система предсказания текста
Отправлено: myst от октября 30, 2010, 19:09
Русскаго нет, расширения для жирнолиса нет. :(
Название: Система предсказания текста
Отправлено: Hellerick от октября 30, 2010, 19:18
А расширение-то и по-русски пытается подсказывать. Правда, совершенно по-дурацки.

А еще интересно давать расширению самому писать тексты. Например, я ввел буквы «emp», а дальше, нажимая только цифры и клавиши курсора получил такой текст: «Emperor and his advisers have made it possible for the government to stay out of the way of the future.»
Название: Система предсказания текста
Отправлено: myst от октября 30, 2010, 19:44
Presage фразы не умеет, а так заткнул бы любой Гугл. И с русским проблем нет...
Название: Система предсказания текста
Отправлено: myst от октября 31, 2010, 12:48
Никто, что ли, не встречал готовые подборки русских текстов? :(
Ну не на фантастике же базу делать. :wall:
Название: Система предсказания текста
Отправлено: Hellerick от октября 31, 2010, 13:02
В Dasher'е есть специальный файл для статистического «натренировывания» русского языка.
Название: Система предсказания текста
Отправлено: myst от октября 31, 2010, 13:25
У меня он есть, но это УГ. Нужен сбалансированный корпус.
Название: Система предсказания текста
Отправлено: myst от октября 31, 2010, 13:31
В общем, нужен архив текстов: литература, публицистика, немного науки, чуть-чуть техники. Последние может быть даже отдельно.
Название: Система предсказания текста
Отправлено: Hellerick от октября 31, 2010, 13:33
Займитесь экспортом текстов статей из Википедии. На пару месяцев работы хватит :)
Название: Система предсказания текста
Отправлено: myst от октября 31, 2010, 13:43
Издеваетесь, да? :'(
Название: Система предсказания текста
Отправлено: myst от октября 31, 2010, 13:45
Для книгочиталок нет никаких подборок?
Название: Система предсказания текста
Отправлено: Bhudh от октября 31, 2010, 13:46
Цитата: mystНикто, что ли, не встречал готовые подборки русских текстов? :(
Ну не на фантастике же базу делать. :wall:
Ты чего это? Идёшь на торренты и выкачиваешь весь либрусек! Там что-то около ста гирь было, когда я последний раз заглядывал...
Название: Система предсказания текста
Отправлено: Hellerick от октября 31, 2010, 13:54
Цитата: myst от октября 31, 2010, 13:43
Издеваетесь, да? :'(
А почему «издеваетесь»? Экспорт текстов статей — это довольно просто. Рутинная автоматическая операция. Только потом нужно будет почистить текст от ссылок и прочей вики-разметки. Получится мегабайт пятьсот энциклопедического текста — в будущем наверняка пригодится.
Название: Система предсказания текста
Отправлено: Bhudh от октября 31, 2010, 14:03
Цитата: HellerickПолучится мегабайт пятьсот энциклопедического текста
http://download.wikimedia.org/ruwiki/20101023

«All pages, current versions only: 1.2 GB»
Название: Система предсказания текста
Отправлено: Hellerick от октября 31, 2010, 14:18
Цитата: Bhudh от октября 31, 2010, 14:03
«All pages, current versions only: 1.2 GB»
Ну, я называл цифру наобум, и порядок угадал. :)
Осталось пройтись каким-нибудь SSED'ом, убрав XML и вики-разметку — и будет то, что нужно Myst'у, ね?

Только лучше, наверное, использовать это:

ЦитироватьArticles, templates, image descriptions, and primary meta-pages.
2010-10-24 09:21:41: ruwiki 1693975 pages (291.193/sec), 1693975 revs (291.193/sec), 92.9% prefetched, ETA 2010-10-24 10:24:17 [max 2787800]
This contains current versions of article content, and is the archive most mirror sites will probably want.
pages-articles.xml.bz2 1015.8 MB
Название: Система предсказания текста
Отправлено: Bhudh от октября 31, 2010, 14:20
Насчёт порядка не уверен — там сжатая в 7z база...
Название: Система предсказания текста
Отправлено: myst от октября 31, 2010, 14:44
Цитата: Bhudh от октября 31, 2010, 13:46
Ты чего это? Идёшь на торренты и выкачиваешь весь либрусек! Там что-то около ста гирь было, когда я последний раз заглядывал...
Хоть бы ссылку дал. :(
Название: Система предсказания текста
Отправлено: myst от октября 31, 2010, 14:45
Цитата: Hellerick от октября 31, 2010, 13:54
А почему «издеваетесь»? Экспорт текстов статей — это довольно просто. Рутинная автоматическая операция. Только потом нужно будет почистить текст от ссылок и прочей вики-разметки. Получится мегабайт пятьсот энциклопедического текста — в будущем наверняка пригодится.
Садист. :(
Название: Система предсказания текста
Отправлено: Hellerick от октября 31, 2010, 15:05
Цитата: myst от октября 31, 2010, 14:45
Садист. :(
Господи, да что ж вам надо-то? Вам лень скачать один файл, и убрать лишнюю разметку?

Цитата: myst от октября 31, 2010, 14:44
Цитата: Bhudh от октября 31, 2010, 13:46
Ты чего это? Идёшь на торренты и выкачиваешь весь либрусек! Там что-то около ста гирь было, когда я последний раз заглядывал...
Хоть бы ссылку дал. :(

http://rutracker.org/forum/viewtopic.php?t=1844961
Название: Система предсказания текста
Отправлено: myst от октября 31, 2010, 15:17
Цитата: Hellerick от октября 31, 2010, 15:05
Господи, да что ж вам надо-то? Вам лень скачать один файл, и убрать лишнюю разметку?
Не просто лень, мне не нужна Википедия.

Цитата: Hellerick от октября 31, 2010, 15:05
http://rutracker.org/forum/viewtopic.php?t=1844961
О! А вот это вроде то, что нужно. Thank you very much! :)
Название: Система предсказания текста
Отправлено: myst от октября 31, 2010, 15:23
Из современной публицистики кого лучше взять?
Название: Система предсказания текста
Отправлено: myst от ноября 1, 2010, 10:05
Скачал два гига макулатуры и думаю: а нужна ли она вся релевантных предсказаний, особенно классика? :???
Название: Система предсказания текста
Отправлено: Bhudh от ноября 1, 2010, 21:51
Цитата: mystа нужна ли она вся релевантных предсказаний
Что за старославянщина?‥ :what:
Название: Система предсказания текста
Отправлено: myst от ноября 2, 2010, 07:33
Предлог для пропущен. Не видно, что ли?
Название: Система предсказания текста
Отправлено: Hellerick от ноября 2, 2010, 08:08
А вообще я как-то сомневаюсь в пользе этой системы. В английском языке слова в основном и так короткие, а в русском суффиксы и окончания всё портят.
Название: Система предсказания текста
Отправлено: myst от ноября 2, 2010, 08:36
Лично мне она нужна для вставки словосочетаний (у меня по работе многословных терминов как грязи). Правда, она их не умеет, либо костыль надо лепить, либо переделывать библиотеку. Я ещё не решил, какой вариант предпочесть.

Цитата: Hellerick от ноября  2, 2010, 08:08
в русском суффиксы и окончания всё портят
А вот это выяснится во время испытаний.
Название: Система предсказания текста
Отправлено: myst от ноября 2, 2010, 14:08
100000 строк превращаются в 200 Мбайт, и предсказатель заметно тормозит на поиске в базе данных. :(
Название: Система предсказания текста
Отправлено: myst от ноября 2, 2010, 16:21
Окончания действительно обламывают, но можно сделать словарь слов без окончаний, а окончания дописывать. В принципе не так уж и плохо выходит.
Название: Система предсказания текста
Отправлено: myst от ноября 2, 2010, 16:59
Так никто и не хочет поэкспериментировать? Макет теперь более менее рабочий и доступен даже для простых смертных. :)
Название: Система предсказания текста
Отправлено: Demetrius от ноября 2, 2010, 17:21
У меня Windows нет, чтобы экспериментировать. :о
Название: Система предсказания текста
Отправлено: Hellerick от ноября 2, 2010, 17:24
Ну, я мог бы побаловаться.
А что, инсталляшка весит 200 мегабайт?
Название: Система предсказания текста
Отправлено: myst от ноября 2, 2010, 17:29
Цитата: Demetrius от ноября  2, 2010, 17:21
У меня Windows нет, чтобы экспериментировать. :о
В Linux'е эта штука искаропки есть. :)
Название: Система предсказания текста
Отправлено: myst от ноября 2, 2010, 17:38
Цитата: Hellerick от ноября  2, 2010, 17:24
А что, инсталляшка весит 200 мегабайт?
Никаких инсталляшек. Сама программа 1,5 Мбайта. Есть несколько предсказателей, для работы некоторых из них требуются исходные данные. n-gram'ный работает с базой данных (SQLite). Для её создания есть консольная утилита (работает она очень просто). Есть словарный предсказатель, я его ещё не смотрел, но он вроде тупо по словарю ищет. Есть предсказатель на основе уже набранного текста. Короче, поле для экспериментов довольно широкое. :)
Название: Система предсказания текста
Отправлено: myst от ноября 2, 2010, 17:39
Да, предсказатели комбинируются.
Название: Система предсказания текста
Отправлено: Bhudh от ноября 3, 2010, 09:01
Цитата: mystработает с базой данных (SQLite)
А с Denver'ом состыковать мона? А то там SQL уже присуйтствует. (Сразу — и нуно ли?)
Название: Система предсказания текста
Отправлено: myst от ноября 3, 2010, 09:07
Что это?
Название: Система предсказания текста
Отправлено: Bhudh от ноября 3, 2010, 09:11
Да локальный сервер.
Просто там уже база есть, можь, новую не делать?
Название: Система предсказания текста
Отправлено: myst от ноября 3, 2010, 11:14
Цитата: Bhudh от ноября  3, 2010, 09:11
Просто там уже база есть, можь, новую не делать?
Какой смысл привязываться к совершенно посторонней программе и использовать её хранилище, рискуя огрести конфликты и дополнительные тормоза?
Название: Система предсказания текста
Отправлено: myst от ноября 3, 2010, 11:17
Но если хочешь, я тебе могу дать исходники — привязывай. ;)
Название: Система предсказания текста
Отправлено: Demetrius от ноября 3, 2010, 12:25
Bhudh, SQLite весит около трехсот килобайт и поддерживает некоторые вещи, которые не поддерживает громадная MySQL (а у Вас в Денвере именно она).
Название: Система предсказания текста
Отправлено: Demetrius от ноября 3, 2010, 12:29
Цитата: myst от ноября  3, 2010, 11:14
Цитата: Bhudh от ноября  3, 2010, 09:11
Просто там уже база есть, можь, новую не делать?
Какой смысл привязываться к совершенно посторонней программе и использовать её хранилище, рискуя огрести конфликты и дополнительные тормоза?
денвер = апач+пхп+майскъюэл без документации и всяких полезностей, чтобы в 10 мб влезло.

его использовать точно не надо
Название: Система предсказания текста
Отправлено: Bhudh от ноября 3, 2010, 20:48
Ну, обослил грязью и был таков!
Зато у меня ЛингвоВики благодаря ему есть!
Название: Система предсказания текста
Отправлено: Demetrius от ноября 3, 2010, 21:10
Я имел в виду не то, что денвер использовать не надо в принципе. Я имел в виду, что прикручивать стороннюю (не веб-) программу к денверу себе дороже. Как потом устанавливать её на чужом компьютере? Заставлять всех себе денвер ставить?
Название: Система предсказания текста
Отправлено: myst от ноября 3, 2010, 21:18
У меня SQLite статически слинкована. Тут без вариантов. Я подумал, Bhudh предлагает заюзать базу данных этого Denver'а, которая тоже SQLite.
Название: Система предсказания текста
Отправлено: Bhudh от ноября 3, 2010, 22:10
Не, ну это действительно было бы извращение...
А так — я просто не помнил, какая там склянка стоит :(.