Я таки скрестил Presage с текстовой службой. Сегодня попробовал русский язык. И что удивительно, работает. :)
Система предлагает дополнение для набираемого слова и целые слова после пробела.
Это макет, поэтому бинарники не дам. Но могу дать исходники тем, кто захочет допилить. ;)
Вот как это выглядит:
Интересно!
Только шрифт бы сменили с MS SansSerif на Tahoma...
Шрифт дефолтный.
Это и плохо, никто им не пользуется.
Цитата: Cirrus uncinus от октября 12, 2010, 17:43
Это и плохо, никто им не пользуется.
Это макет, а не продукт для конечного пользователя.
А сикоку весит и чо требуит?
Вау!
Залива требуит⁇. :what:
Цитата: Bhudh от октября 12, 2010, 22:27
А сикоку весит и чо требуит?
Сама текстовая служба ок. 3 мегабайт. Но это отладочная сборка, релиз должен быть поменьше. Правда, это ещё только макет. Надо конфиги добавить, кое-какие проблемы решить... Больше 5 всяко не будет. :)
Ну, а сами данные для предсказателей, это уж как захочешь.
Требует Windows >=2000, если я ничего не забыл. Я специально статическую сборку сделал, чтобы поменьше зависимостей было.
Цитата: myst от октября 12, 2010, 16:02
могу дать исходники тем, кто захочет допилить.
Я вряд ли буду допиливать, но очень интересно было бы посмотреть! Можно?
Кстати, насколько эффективным выходит такой метод для русского языка, где куча слов, отличающихся только одной или несколькими последними буквами?
Цитата: Тайльнемер от октября 13, 2010, 15:31
Я вряд ли буду допиливать, но очень интересно было бы посмотреть! Можно?
Конечно, можно. http://zalil.ru/29809067
Это переделанный пример из SDK, я его переписал под ATL. Код экспериментальный, чумазый.
Цитата: Тайльнемер от октября 13, 2010, 15:31
Кстати, насколько эффективным выходит такой метод для русского языка, где куча слов, отличающихся только одной или несколькими последними буквами?
Это я и хочу узнать. :) А ещё хочу попробовать такой ввод на скорость. Выбор должен ограничивать скорость, но вот насколько? На худой конец эту штуку можно приспособить для вставки длинных терминов. Хотя в плане словосочетаний есть вопросы...
Ничего не получится. Я так и не нашёл универсального решения. :(
Windows — груда костылей из говна. :wall:
В отчаянии посмотрел документацию Mac OS, погрыз локти от зависти...
Нужен сбалансированный корпус русских текстов для базы предсказателя.
Ну что, кто хочет попробовать? :)
С предсказанием словосочетаний облом. :(
Гугл свою делает: http://scribe.googlelabs.com/
Да-анила, это же новый тренд!
Cool, I have installed the extension and typing with it just now.
Русскаго нет, расширения для жирнолиса нет. :(
А расширение-то и по-русски пытается подсказывать. Правда, совершенно по-дурацки.
А еще интересно давать расширению самому писать тексты. Например, я ввел буквы «emp», а дальше, нажимая только цифры и клавиши курсора получил такой текст: «Emperor and his advisers have made it possible for the government to stay out of the way of the future.»
Presage фразы не умеет, а так заткнул бы любой Гугл. И с русским проблем нет...
Никто, что ли, не встречал готовые подборки русских текстов? :(
Ну не на фантастике же базу делать. :wall:
В Dasher'е есть специальный файл для статистического «натренировывания» русского языка.
У меня он есть, но это УГ. Нужен сбалансированный корпус.
В общем, нужен архив текстов: литература, публицистика, немного науки, чуть-чуть техники. Последние может быть даже отдельно.
Займитесь экспортом текстов статей из Википедии. На пару месяцев работы хватит :)
Издеваетесь, да? :'(
Для книгочиталок нет никаких подборок?
Цитата: mystНикто, что ли, не встречал готовые подборки русских текстов? :(
Ну не на фантастике же базу делать. :wall:
Ты чего это? Идёшь на торренты и выкачиваешь весь либрусек! Там что-то около ста гирь было, когда я последний раз заглядывал...
Цитата: myst от октября 31, 2010, 13:43
Издеваетесь, да? :'(
А почему «издеваетесь»? Экспорт текстов статей — это довольно просто. Рутинная автоматическая операция. Только потом нужно будет почистить текст от ссылок и прочей вики-разметки. Получится мегабайт пятьсот энциклопедического текста — в будущем наверняка пригодится.
Цитата: HellerickПолучится мегабайт пятьсот энциклопедического текста
http://download.wikimedia.org/ruwiki/20101023«All pages, current versions only: 1.2 GB»
Цитата: Bhudh от октября 31, 2010, 14:03
«All pages, current versions only: 1.2 GB»
Ну, я называл цифру наобум, и порядок угадал. :)
Осталось пройтись каким-нибудь SSED'ом, убрав XML и вики-разметку — и будет то, что нужно Myst'у, ね?
Только лучше, наверное, использовать это:
ЦитироватьArticles, templates, image descriptions, and primary meta-pages.
2010-10-24 09:21:41: ruwiki 1693975 pages (291.193/sec), 1693975 revs (291.193/sec), 92.9% prefetched, ETA 2010-10-24 10:24:17 [max 2787800]
This contains current versions of article content, and is the archive most mirror sites will probably want.
pages-articles.xml.bz2 1015.8 MB
Насчёт порядка не уверен — там сжатая в 7z база...
Цитата: Bhudh от октября 31, 2010, 13:46
Ты чего это? Идёшь на торренты и выкачиваешь весь либрусек! Там что-то около ста гирь было, когда я последний раз заглядывал...
Хоть бы ссылку дал. :(
Цитата: Hellerick от октября 31, 2010, 13:54
А почему «издеваетесь»? Экспорт текстов статей — это довольно просто. Рутинная автоматическая операция. Только потом нужно будет почистить текст от ссылок и прочей вики-разметки. Получится мегабайт пятьсот энциклопедического текста — в будущем наверняка пригодится.
Садист. :(
Цитата: myst от октября 31, 2010, 14:45
Садист. :(
Господи, да что ж вам надо-то? Вам лень скачать один файл, и убрать лишнюю разметку?
Цитата: myst от октября 31, 2010, 14:44
Цитата: Bhudh от октября 31, 2010, 13:46
Ты чего это? Идёшь на торренты и выкачиваешь весь либрусек! Там что-то около ста гирь было, когда я последний раз заглядывал...
Хоть бы ссылку дал. :(
http://rutracker.org/forum/viewtopic.php?t=1844961
Цитата: Hellerick от октября 31, 2010, 15:05
Господи, да что ж вам надо-то? Вам лень скачать один файл, и убрать лишнюю разметку?
Не просто лень, мне не нужна Википедия.
Цитата: Hellerick от октября 31, 2010, 15:05
http://rutracker.org/forum/viewtopic.php?t=1844961
О! А вот это вроде то, что нужно. Thank you very much! :)
Из современной публицистики кого лучше взять?
Скачал два гига макулатуры и думаю: а нужна ли она вся релевантных предсказаний, особенно классика? :???
Цитата: mystа нужна ли она вся релевантных предсказаний
Что за старославянщина?‥ :what:
Предлог для пропущен. Не видно, что ли?
А вообще я как-то сомневаюсь в пользе этой системы. В английском языке слова в основном и так короткие, а в русском суффиксы и окончания всё портят.
Лично мне она нужна для вставки словосочетаний (у меня по работе многословных терминов как грязи). Правда, она их не умеет, либо костыль надо лепить, либо переделывать библиотеку. Я ещё не решил, какой вариант предпочесть.
Цитата: Hellerick от ноября 2, 2010, 08:08
в русском суффиксы и окончания всё портят
А вот это выяснится во время испытаний.
100000 строк превращаются в 200 Мбайт, и предсказатель заметно тормозит на поиске в базе данных. :(
Окончания действительно обламывают, но можно сделать словарь слов без окончаний, а окончания дописывать. В принципе не так уж и плохо выходит.
Так никто и не хочет поэкспериментировать? Макет теперь более менее рабочий и доступен даже для простых смертных. :)
У меня Windows нет, чтобы экспериментировать. :о
Ну, я мог бы побаловаться.
А что, инсталляшка весит 200 мегабайт?
Цитата: Demetrius от ноября 2, 2010, 17:21
У меня Windows нет, чтобы экспериментировать. :о
В Linux'е эта штука искаропки есть. :)
Цитата: Hellerick от ноября 2, 2010, 17:24
А что, инсталляшка весит 200 мегабайт?
Никаких инсталляшек. Сама программа 1,5 Мбайта. Есть несколько предсказателей, для работы некоторых из них требуются исходные данные. n-gram'ный работает с базой данных (SQLite). Для её создания есть консольная утилита (работает она очень просто). Есть словарный предсказатель, я его ещё не смотрел, но он вроде тупо по словарю ищет. Есть предсказатель на основе уже набранного текста. Короче, поле для экспериментов довольно широкое. :)
Да, предсказатели комбинируются.
Цитата: mystработает с базой данных (SQLite)
А с Denver'ом состыковать мона? А то там SQL уже присуйтствует. (Сразу — и нуно ли?)
Что это?
Да локальный сервер.
Просто там уже база есть, можь, новую не делать?
Цитата: Bhudh от ноября 3, 2010, 09:11
Просто там уже база есть, можь, новую не делать?
Какой смысл привязываться к совершенно посторонней программе и использовать её хранилище, рискуя огрести конфликты и дополнительные тормоза?
Но если хочешь, я тебе могу дать исходники — привязывай. ;)
Bhudh, SQLite весит около трехсот килобайт и поддерживает некоторые вещи, которые не поддерживает громадная MySQL (а у Вас в Денвере именно она).
Цитата: myst от ноября 3, 2010, 11:14
Цитата: Bhudh от ноября 3, 2010, 09:11
Просто там уже база есть, можь, новую не делать?
Какой смысл привязываться к совершенно посторонней программе и использовать её хранилище, рискуя огрести конфликты и дополнительные тормоза?
денвер = апач+пхп+майскъюэл без документации и всяких полезностей, чтобы в 10 мб влезло.
его использовать точно не надо
Ну, обослил грязью и был таков!
Зато у меня ЛингвоВики благодаря ему есть!
Я имел в виду не то, что денвер использовать не надо в принципе. Я имел в виду, что прикручивать стороннюю (не веб-) программу к денверу себе дороже. Как потом устанавливать её на чужом компьютере? Заставлять всех себе денвер ставить?
У меня SQLite статически слинкована. Тут без вариантов. Я подумал, Bhudh предлагает заюзать базу данных этого Denver'а, которая тоже SQLite.
Не, ну это действительно было бы извращение...
А так — я просто не помнил, какая там склянка стоит :(.