Главное меню
Мы солидарны с Украиной. Узнайте здесь, как можно поддержать Украину.

Alpha Reloaded

Автор Алексей Гринь, января 9, 2011, 16:24

0 Пользователи и 1 гость просматривают эту тему.

Алексей Гринь

У меня есть Дворецкий в HTML на 23 МБ.

Все браузеры, кроме Google Chrome, виснут на нём. Да и Google Chrome сам, в принципе, не очень быстр при работе с этим чудовищным файлом.

Идея такая — сделать к нему GUI-мордашку в стиле знакомой и всеми любимой программы Alpha. Можно было бы и полноценно искать, и копировать. Какие-то языковые утилиты по спряжению и склонению автоматическому для выделенных слов сделать.

Можно будет потом каким-то образом запихать и Линделла-Скотта.

Можно постепенно подключать корпус — можно начать с греческой Библии.

К существующим проектам не отсылать — хочется сделать удобное под себя и в одном месте. Этакий эллинский комбайн.

Стало быть, хочется узнать, какую GUI-библиотеку выбрать, какой можете порекомендовать индексатор для поиска (Lucene и т.п.) и вообще что-нибудь полезное можете сказать :)
肏! Τίς πέπορδε;

Bhudh

А стоит так заморачиваться с GUI? Или ты хочешь и редактор, как в Альфе, и остальные прибамбасы?
А то можно разбить на страницы и сделать банальный chm (ну или не банальный, а со скриптами, индексом и прочими кошерными вещьми).
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Hellerick

Вы бы ссылочку дали, хотелось бы на сабж посмотреть — насколько он пригоден для автоматической обработки.

Алексей Гринь

Chm не позволит подключить потом какую-нибудь фишку, если таковая вдруг понадобится. Не, не вариант. Смотрим шире.

Да заморота-то не много вообще, имхо.
肏! Τίς πέπορδε;

Алексей Гринь

Цитата: Bhudh от января  9, 2011, 16:30
Или ты хочешь и редактор, как в Альфе, и остальные прибамбасы?
Было бы очень здорово иметь возможность там же печатать текст. Ибо скакать от SC Unipad к Alpha не очень круто... К тому же у SC Unipad очередное ограничение на длину текста в незарегистрированной версии.

Цитата: Hellerick от января  9, 2011, 16:31
Вы бы ссылочку дали, хотелось бы на сабж посмотреть — насколько он пригоден для автоматической обработки.
Ссылочка хозе.

Выглядит так:

<p><b>ὑῶν</b> <i>gen. pl.</i> <i>к</i> ὗς.</p>

Следующая строка:

<p><b>Φ,</b> <b>φ</b> (φῖ) τό фи (<i>21-я буква греч. алфавита, соотв.&nbsp;русск.</i> ф,<i> лат.</i> ph): φʹ = 500, ͵φ = 500000.</p>

И т.д.
肏! Τίς πέπορδε;

Hellerick


myst

Цитата: Алексей Гринь от января  9, 2011, 16:24
Идея такая — сделать к нему GUI-мордашку в стиле знакомой и всеми любимой программы Alpha. Можно было бы и полноценно искать, и копировать. Какие-то языковые утилиты по спряжению и склонению автоматическому для выделенных слов сделать.
Загони его в базу данных. И проще и эффективнее.

myst

Цитата: Алексей Гринь от января  9, 2011, 16:24
Можно постепенно подключать корпус — можно начать с греческой Библии.
Здесь можно полнотекстовый индекс замутить на Lucene, например.

myst

Цитата: Алексей Гринь от января  9, 2011, 16:24
Стало быть, хочется узнать, какую GUI-библиотеку выбрать, какой можете порекомендовать индексатор для поиска (Lucene и т.п.) и вообще что-нибудь полезное можете сказать :)
Так ты же дотНет вроде любишь? Lucene, правда, на жабе.

Алексей Гринь

Цитата: Hellerick от января  9, 2011, 16:41
А я думал, вы про латинский словарь говорите.
Цитата: Алексей Гринь от января  9, 2011, 16:24
Этакий эллинский комбайн.
:)

Цитата: myst от января  9, 2011, 16:42
Загони его в базу данных. И проще и эффективнее.
Я в реляционных базах данных вообще ни гу-гу. Объектную ещё можно какую-нибудь... Что-то вроде (wiki/ru) Lucene , мб, лучше будет?

ps.

Цитата: myst от января  9, 2011, 16:45
Так ты же дотНет вроде любишь? Lucene, правда, на жабе.
Есть порт //lucene.net.



Не, если у кого есть база получше, чем у меня — говорите.
肏! Τίς πέπορδε;


myst

Потребуется учёт морфологии для поиска. Иначе пичаль.

Bhudh

Ты себе представляешь учёт греческой морфологии⁈ :o
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

myst

Цитата: Алексей Гринь от января  9, 2011, 16:46
Я в реляционных базах данных вообще ни гу-гу. Объектную ещё можно какую-нибудь... Что-то вроде (wiki/ru) Lucene , мб, лучше будет?
Lucene — это же полнотекстовый поиск. А если обычный словарь (ключ — статья), то нафига полнотекстовый поиск?

myst

Цитата: Bhudh от января  9, 2011, 16:49
Ты себе представляешь учёт греческой морфологии⁈ :o
А в чём проблема? Нужен всего лишь преобразователь в основную форму. Хотя от него до полного инфлектора один шаг.

Алексей Гринь

Полнотекстовый поиск по внутреннему содержанию статей чем плох? Напр. в статьях даются некоторые полезные словосочетания. Я хочу искать и по ним.

Напр., в статье ψιλός мы может узнать, что ψιλός τὴν κεφαλήν это лысый. Я хочу иметь возможность находить и это.
肏! Τίς πέπορδε;

myst

Короче, я для русского зафигачил таблицу словоформ. Получилось около 3 млн. строк и 200 мегабайт (+120 мегабайт индексы) в SQLite.

Bhudh

Цитата: mystLucene — это же полнотекстовый поиск. А если обычный словарь (ключ — статья), то нафига полнотекстовый поиск?
Там куча отрывков текстов в примерах.
Да и сами тексты было бы полезно, чтобы примерами не ограничиваться.

Цитата: mystНужен всего лишь преобразователь в основную форму. Хотя от него до полного инфлектора один шаг.
В греческом «всего лишь» — это полноценный языковой анализатор...

Цитата: mystКороче, я для русского зафигачил таблицу словоформ.
Для греческого таблица будет больше (да ещё диалектные формы).
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

myst

Цитата: Алексей Гринь от января  9, 2011, 16:52
Полнотекстовый поиск по внутреннему содержанию статей чем плох?
Я не говорю, что он плох. Просто, классический словарный поиск тоже должен быть.

Алексей Гринь

Цитата: Bhudh от января  9, 2011, 16:49
Ты себе представляешь учёт греческой морфологии⁈ :o
Да она простая же. Другое дело что, всё-таки, текущий формат словаря заставит применить много хитрого парсинга, чтобы выудить информацию по морфологии.
肏! Τίς πέπορδε;

myst

Цитата: Bhudh от января  9, 2011, 16:52
Там куча отрывков текстов в примерах.
Да и сами тексты было бы полезно, чтобы примерами не ограничиваться.
Я считаю, что надо сразу отделить мух от котлет. А то получится помойка как в Lingvo. То есть транскрипция отдельно, примеры отдельно, лексические значения отдельно и т. д. Чтобы можно было гибко настраивать выборку. Вся словарная статья обычно не нужна. И вообще, нафига примеры, если у нас корпус будет?

myst

Цитата: Алексей Гринь от января  9, 2011, 16:56
Да она простая же. Другое дело что, всё-таки, текущий формат словаря заставит применить много хитрого парсинга, чтобы выудить информацию по морфологии.
Если найти аналог mystem для греческого, то всё сильно упростится.

Bhudh

Цитата: Алексей ГриньДа она простая же.
Цитата: πείθω (fut. πείσω, aor. 1 ἔπεισα, aor. 2 ἔπῐθον, pf. πέπεικα; эп. imper. aor. 2 πέπιθε; эп. opt. πεπίθοιμι; med.: aor. 2 ἐπιθόμην; pass.: fut. πεισθήσομαι, aor. ἐπείσθην, pf. πέπεισμαι, pf. 2 πέποιθα)
Простая, ага... :yes:
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Алексей Гринь

Цитата: myst от января  9, 2011, 16:52
Короче, я для русского зафигачил таблицу словоформ. Получилось около 3 млн. строк и 200 мегабайт (+120 мегабайт индексы) в SQLite.
Какой-то брутфорс.

Цитата: myst от января  9, 2011, 16:58
И вообще, нафига примеры, если у нас корпус будет?
В примерах задаётся художественный перевод, а в корпусе? Ну, если найдёте что-то такое... С подстрочником...

Цитата: Bhudh от января  9, 2011, 17:01
Простая, ага...
Ну так вот тут вся информация и выдана уже. По таблице заменяешь окончания — и делов.
肏! Τίς πέπορδε;


Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр