Главное меню
Мы солидарны с Украиной. Узнайте здесь, как можно поддержать Украину.

Система предсказания текста

Автор myst, октября 12, 2010, 16:02

0 Пользователи и 1 гость просматривают эту тему.

myst

В общем, нужен архив текстов: литература, публицистика, немного науки, чуть-чуть техники. Последние может быть даже отдельно.

Hellerick

Займитесь экспортом текстов статей из Википедии. На пару месяцев работы хватит :)


myst


Bhudh

Цитата: mystНикто, что ли, не встречал готовые подборки русских текстов? :(
Ну не на фантастике же базу делать. :wall:
Ты чего это? Идёшь на торренты и выкачиваешь весь либрусек! Там что-то около ста гирь было, когда я последний раз заглядывал...
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Hellerick

Цитата: myst от октября 31, 2010, 13:43
Издеваетесь, да? :'(
А почему «издеваетесь»? Экспорт текстов статей — это довольно просто. Рутинная автоматическая операция. Только потом нужно будет почистить текст от ссылок и прочей вики-разметки. Получится мегабайт пятьсот энциклопедического текста — в будущем наверняка пригодится.

Bhudh

Цитата: HellerickПолучится мегабайт пятьсот энциклопедического текста
http://download.wikimedia.org/ruwiki/20101023

«All pages, current versions only: 1.2 GB»
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Hellerick

Цитата: Bhudh от октября 31, 2010, 14:03
«All pages, current versions only: 1.2 GB»
Ну, я называл цифру наобум, и порядок угадал. :)
Осталось пройтись каким-нибудь SSED'ом, убрав XML и вики-разметку — и будет то, что нужно Myst'у, ね?

Только лучше, наверное, использовать это:

ЦитироватьArticles, templates, image descriptions, and primary meta-pages.
2010-10-24 09:21:41: ruwiki 1693975 pages (291.193/sec), 1693975 revs (291.193/sec), 92.9% prefetched, ETA 2010-10-24 10:24:17 [max 2787800]
This contains current versions of article content, and is the archive most mirror sites will probably want.
pages-articles.xml.bz2 1015.8 MB

Bhudh

Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

myst

Цитата: Bhudh от октября 31, 2010, 13:46
Ты чего это? Идёшь на торренты и выкачиваешь весь либрусек! Там что-то около ста гирь было, когда я последний раз заглядывал...
Хоть бы ссылку дал. :(

myst

Цитата: Hellerick от октября 31, 2010, 13:54
А почему «издеваетесь»? Экспорт текстов статей — это довольно просто. Рутинная автоматическая операция. Только потом нужно будет почистить текст от ссылок и прочей вики-разметки. Получится мегабайт пятьсот энциклопедического текста — в будущем наверняка пригодится.
Садист. :(

Hellerick

Цитата: myst от октября 31, 2010, 14:45
Садист. :(
Господи, да что ж вам надо-то? Вам лень скачать один файл, и убрать лишнюю разметку?

Цитата: myst от октября 31, 2010, 14:44
Цитата: Bhudh от октября 31, 2010, 13:46
Ты чего это? Идёшь на торренты и выкачиваешь весь либрусек! Там что-то около ста гирь было, когда я последний раз заглядывал...
Хоть бы ссылку дал. :(

http://rutracker.org/forum/viewtopic.php?t=1844961

myst

Цитата: Hellerick от октября 31, 2010, 15:05
Господи, да что ж вам надо-то? Вам лень скачать один файл, и убрать лишнюю разметку?
Не просто лень, мне не нужна Википедия.

Цитата: Hellerick от октября 31, 2010, 15:05
http://rutracker.org/forum/viewtopic.php?t=1844961
О! А вот это вроде то, что нужно. Thank you very much! :)

myst


myst

Скачал два гига макулатуры и думаю: а нужна ли она вся релевантных предсказаний, особенно классика? :???

Bhudh

Цитата: mystа нужна ли она вся релевантных предсказаний
Что за старославянщина?‥ :what:
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

myst


Hellerick

А вообще я как-то сомневаюсь в пользе этой системы. В английском языке слова в основном и так короткие, а в русском суффиксы и окончания всё портят.

myst

Лично мне она нужна для вставки словосочетаний (у меня по работе многословных терминов как грязи). Правда, она их не умеет, либо костыль надо лепить, либо переделывать библиотеку. Я ещё не решил, какой вариант предпочесть.

Цитата: Hellerick от ноября  2, 2010, 08:08
в русском суффиксы и окончания всё портят
А вот это выяснится во время испытаний.

myst

100000 строк превращаются в 200 Мбайт, и предсказатель заметно тормозит на поиске в базе данных. :(

myst

Окончания действительно обламывают, но можно сделать словарь слов без окончаний, а окончания дописывать. В принципе не так уж и плохо выходит.

myst

Так никто и не хочет поэкспериментировать? Макет теперь более менее рабочий и доступен даже для простых смертных. :)

Demetrius


Hellerick

Ну, я мог бы побаловаться.
А что, инсталляшка весит 200 мегабайт?

myst

Цитата: Demetrius от ноября  2, 2010, 17:21
У меня Windows нет, чтобы экспериментировать. :о
В Linux'е эта штука искаропки есть. :)

Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр