Лингвофорум

Общий раздел => Наука и техника => Компьютеры => Тема начата: Алексей Гринь от января 9, 2011, 16:24

Название: Alpha Reloaded
Отправлено: Алексей Гринь от января 9, 2011, 16:24
У меня есть Дворецкий в HTML на 23 МБ.

Все браузеры, кроме Google Chrome, виснут на нём. Да и Google Chrome сам, в принципе, не очень быстр при работе с этим чудовищным файлом.

Идея такая — сделать к нему GUI-мордашку в стиле знакомой и всеми любимой программы Alpha. Можно было бы и полноценно искать, и копировать. Какие-то языковые утилиты по спряжению и склонению автоматическому для выделенных слов сделать.

Можно будет потом каким-то образом запихать и Линделла-Скотта.

Можно постепенно подключать корпус — можно начать с греческой Библии.

К существующим проектам не отсылать — хочется сделать удобное под себя и в одном месте. Этакий эллинский комбайн.

Стало быть, хочется узнать, какую GUI-библиотеку выбрать, какой можете порекомендовать индексатор для поиска (Lucene и т.п.) и вообще что-нибудь полезное можете сказать :)
Название: Alpha Reloaded
Отправлено: Bhudh от января 9, 2011, 16:30
А стоит так заморачиваться с GUI? Или ты хочешь и редактор, как в Альфе, и остальные прибамбасы?
А то можно разбить на страницы и сделать банальный chm (ну или не банальный, а со скриптами, индексом и прочими кошерными вещьми).
Название: Alpha Reloaded
Отправлено: Hellerick от января 9, 2011, 16:31
Вы бы ссылочку дали, хотелось бы на сабж посмотреть — насколько он пригоден для автоматической обработки.
Название: Alpha Reloaded
Отправлено: Алексей Гринь от января 9, 2011, 16:32
Chm не позволит подключить потом какую-нибудь фишку, если таковая вдруг понадобится. Не, не вариант. Смотрим шире.

Да заморота-то не много вообще, имхо.
Название: Alpha Reloaded
Отправлено: Алексей Гринь от января 9, 2011, 16:36
Цитата: Bhudh от января  9, 2011, 16:30
Или ты хочешь и редактор, как в Альфе, и остальные прибамбасы?
Было бы очень здорово иметь возможность там же печатать текст. Ибо скакать от SC Unipad к Alpha не очень круто... К тому же у SC Unipad очередное ограничение на длину текста в незарегистрированной версии.

Цитата: Hellerick от января  9, 2011, 16:31
Вы бы ссылочку дали, хотелось бы на сабж посмотреть — насколько он пригоден для автоматической обработки.
Ссылочка хозе.

Выглядит так:

<p><b>ὑῶν</b> <i>gen. pl.</i> <i>к</i> ὗς.</p>

Следующая строка:

<p><b>Φ,</b> <b>φ</b> (φῖ) τό фи (<i>21-я буква греч. алфавита, соотв.&nbsp;русск.</i> ф,<i> лат.</i> ph): φʹ = 500, ͵φ = 500000.</p>

И т.д.
Название: Alpha Reloaded
Отправлено: Hellerick от января 9, 2011, 16:41
А я думал, вы про латинский словарь (http://www.medliter.ru/?page=get&id=012607) говорите.

Аплоуднуть жалко? :(
Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 16:42
Цитата: Алексей Гринь от января  9, 2011, 16:24
Идея такая — сделать к нему GUI-мордашку в стиле знакомой и всеми любимой программы Alpha. Можно было бы и полноценно искать, и копировать. Какие-то языковые утилиты по спряжению и склонению автоматическому для выделенных слов сделать.
Загони его в базу данных. И проще и эффективнее.
Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 16:43
Цитата: Алексей Гринь от января  9, 2011, 16:24
Можно постепенно подключать корпус — можно начать с греческой Библии.
Здесь можно полнотекстовый индекс замутить на Lucene, например.
Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 16:45
Цитата: Алексей Гринь от января  9, 2011, 16:24
Стало быть, хочется узнать, какую GUI-библиотеку выбрать, какой можете порекомендовать индексатор для поиска (Lucene и т.п.) и вообще что-нибудь полезное можете сказать :)
Так ты же дотНет вроде любишь? Lucene, правда, на жабе.
Название: Alpha Reloaded
Отправлено: Алексей Гринь от января 9, 2011, 16:46
Цитата: Hellerick от января  9, 2011, 16:41
А я думал, вы про латинский словарь говорите.
Цитата: Алексей Гринь от января  9, 2011, 16:24
Этакий эллинский комбайн.
:)

Цитата: myst от января  9, 2011, 16:42
Загони его в базу данных. И проще и эффективнее.
Я в реляционных базах данных вообще ни гу-гу. Объектную ещё можно какую-нибудь... Что-то вроде (wiki/ru) Lucene (http://ru.wikipedia.org/wiki/Lucene) , мб, лучше будет?

ps.

Цитата: myst от января  9, 2011, 16:45
Так ты же дотНет вроде любишь? Lucene, правда, на жабе.
Есть порт Lucene.NET.



Не, если у кого есть база получше, чем у меня — говорите.
Название: Alpha Reloaded
Отправлено: Алексей Гринь от января 9, 2011, 16:48
Цитата: Hellerick от января  9, 2011, 16:41
Аплоуднуть жалко
Куда?
Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 16:48
Потребуется учёт морфологии для поиска. Иначе пичаль.
Название: Alpha Reloaded
Отправлено: Bhudh от января 9, 2011, 16:49
Ты себе представляешь учёт греческой морфологии⁈ :o
Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 16:50
Цитата: Алексей Гринь от января  9, 2011, 16:46
Я в реляционных базах данных вообще ни гу-гу. Объектную ещё можно какую-нибудь... Что-то вроде (wiki/ru) Lucene , мб, лучше будет?
Lucene — это же полнотекстовый поиск. А если обычный словарь (ключ — статья), то нафига полнотекстовый поиск?
Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 16:50
Цитата: Bhudh от января  9, 2011, 16:49
Ты себе представляешь учёт греческой морфологии⁈ :o
А в чём проблема? Нужен всего лишь преобразователь в основную форму. Хотя от него до полного инфлектора один шаг.
Название: Alpha Reloaded
Отправлено: Алексей Гринь от января 9, 2011, 16:52
Полнотекстовый поиск по внутреннему содержанию статей чем плох? Напр. в статьях даются некоторые полезные словосочетания. Я хочу искать и по ним.

Напр., в статье ψιλός мы может узнать, что ψιλός τὴν κεφαλήν это лысый. Я хочу иметь возможность находить и это.
Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 16:52
Короче, я для русского зафигачил таблицу словоформ. Получилось около 3 млн. строк и 200 мегабайт (+120 мегабайт индексы) в SQLite.
Название: Alpha Reloaded
Отправлено: Bhudh от января 9, 2011, 16:52
Цитата: mystLucene — это же полнотекстовый поиск. А если обычный словарь (ключ — статья), то нафига полнотекстовый поиск?
Там куча отрывков текстов в примерах.
Да и сами тексты было бы полезно, чтобы примерами не ограничиваться.

Цитата: mystНужен всего лишь преобразователь в основную форму. Хотя от него до полного инфлектора один шаг.
В греческом «всего лишь» — это полноценный языковой анализатор...

Цитата: mystКороче, я для русского зафигачил таблицу словоформ.
Для греческого таблица будет больше (да ещё диалектные формы).
Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 16:54
Цитата: Алексей Гринь от января  9, 2011, 16:52
Полнотекстовый поиск по внутреннему содержанию статей чем плох?
Я не говорю, что он плох. Просто, классический словарный поиск тоже должен быть.
Название: Alpha Reloaded
Отправлено: Алексей Гринь от января 9, 2011, 16:56
Цитата: Bhudh от января  9, 2011, 16:49
Ты себе представляешь учёт греческой морфологии⁈ :o
Да она простая же. Другое дело что, всё-таки, текущий формат словаря заставит применить много хитрого парсинга, чтобы выудить информацию по морфологии.
Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 16:58
Цитата: Bhudh от января  9, 2011, 16:52
Там куча отрывков текстов в примерах.
Да и сами тексты было бы полезно, чтобы примерами не ограничиваться.
Я считаю, что надо сразу отделить мух от котлет. А то получится помойка как в Lingvo. То есть транскрипция отдельно, примеры отдельно, лексические значения отдельно и т. д. Чтобы можно было гибко настраивать выборку. Вся словарная статья обычно не нужна. И вообще, нафига примеры, если у нас корпус будет?
Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 17:00
Цитата: Алексей Гринь от января  9, 2011, 16:56
Да она простая же. Другое дело что, всё-таки, текущий формат словаря заставит применить много хитрого парсинга, чтобы выудить информацию по морфологии.
Если найти аналог mystem для греческого, то всё сильно упростится.
Название: Alpha Reloaded
Отправлено: Bhudh от января 9, 2011, 17:01
Цитата: Алексей ГриньДа она простая же.
Цитата: πείθω (fut. πείσω, aor. 1 ἔπεισα, aor. 2 ἔπῐθον, pf. πέπεικα; эп. imper. aor. 2 πέπιθε; эп. opt. πεπίθοιμι; med.: aor. 2 ἐπιθόμην; pass.: fut. πεισθήσομαι, aor. ἐπείσθην, pf. πέπεισμαι, pf. 2 πέποιθα)
Простая, ага... :yes:
Название: Alpha Reloaded
Отправлено: Алексей Гринь от января 9, 2011, 17:02
Цитата: myst от января  9, 2011, 16:52
Короче, я для русского зафигачил таблицу словоформ. Получилось около 3 млн. строк и 200 мегабайт (+120 мегабайт индексы) в SQLite.
Какой-то брутфорс.

Цитата: myst от января  9, 2011, 16:58
И вообще, нафига примеры, если у нас корпус будет?
В примерах задаётся художественный перевод, а в корпусе? Ну, если найдёте что-то такое... С подстрочником...

Цитата: Bhudh от января  9, 2011, 17:01
Простая, ага...
Ну так вот тут вся информация и выдана уже. По таблице заменяешь окончания — и делов.
Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 17:03
http://www.kalos-software.com/
Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 17:04
Цитата: Алексей Гринь от января  9, 2011, 17:02
В примерах задаётся художественный перевод, а в корпусе? Ну, если найдёте что-то такое... С подстрочником...
Да, действительно. :)
Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 17:05
WordNet — прикольная штука.
Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 17:07
Цитата: Алексей Гринь от января  9, 2011, 17:02
Какой-то брутфорс.
Генератор на основе правил только сложнее и геморнее.
Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 17:09
Главное — продумать внутреннюю структуру словаря, чтобы можно было из влекать только ту информацию, которая нужна. Словарная статья, в которую всё напихано абы как,— это прошлый век.
Название: Alpha Reloaded
Отправлено: Алексей Гринь от января 9, 2011, 17:11
Пишешь πείθω, он динамически определяет таблицу спряжения (при расширенном поиске) из словарной статьи, затем ищется для каждого случая вариант — в словаре или корпусе. Что здесь трудноосуществимого? Может быть, я чего-то не понимаю.
Название: Alpha Reloaded
Отправлено: Алексей Гринь от января 9, 2011, 17:12
Цитата: myst от января  9, 2011, 17:03
http://www.kalos-software.com/
Я же сказал, не отсылать ни куда.

ЦитироватьKalós is a free Classic Greek Dictionary, trilingual, with definitions in English, French and Spanish. It contains approximately 25,000 entries

В моём слваре 75 тыщ.

А таблицы у меня есть... В книжке.
Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 17:13
Цитата: Алексей Гринь от января  9, 2011, 17:11
Пишешь πείθω, он динамически определяет таблицу спряжения (при расширенном поиске) из словарной статьи, затем ищется для каждого случая вариант — в словаре или корпусе. Что здесь трудноосуществимого? Может быть, я чего-то не понимаю.
Я тебе предлагаю найти готовый лемматайзер или инфлектор и заюзать его. Свой с блекджеками пожет подождать.
Название: Alpha Reloaded
Отправлено: Алексей Гринь от января 9, 2011, 17:14
Цитата: myst от января  9, 2011, 17:07
Цитировать-то брутфорс.
Генератор на основе правил только сложнее и геморнее.
Зато не требует сотен мегабайт диска.

Цитата: myst от января  9, 2011, 17:13
Я тебе предлагаю найти готовый лемматайзер или инфлектор и заюзать его. Свой с блекджеками пожет подождать.
Который?
Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 17:14
Цитата: Алексей Гринь от января  9, 2011, 17:12
Я же сказал, не отсылать ни куда.
Ты хочешь всё делать из руды? Ну, смотри...
Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 17:14
Цитата: Алексей Гринь от января  9, 2011, 17:14
Зато не требует сотен мегабайт диска.
У тебя приступ экономии на скрепках? :)
Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 17:15
Цитата: Алексей Гринь от января  9, 2011, 17:14
Который?
Искать надо. :donno:
Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 17:16
Я просто предлагаю тебе стратегию не делать всё сразу с нуля, но взять по возможности готовые блоки и сделать из них прототип.
Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 17:17
Тему надо бы перенести в Компьютерную лингвистику.
Название: Alpha Reloaded
Отправлено: Алексей Гринь от января 9, 2011, 17:18
Цитата: myst от января  9, 2011, 17:14
У тебя приступ экономии на скрепках?
В любом случае придётся откуда-то программного извлекать данные для слова и строить таблицу. Не думаю, что есть готовые списки. Я не понимаю, зачем делать это одним проходом на весь словарь, сжирая сотни мегабайт, если можно делать по требованию для определённого слова?
Название: Alpha Reloaded
Отправлено: Алексей Гринь от января 9, 2011, 17:19
Цитата: myst от января  9, 2011, 17:16
Я просто предлагаю тебе стратегию не делать всё сразу с нуля, но взять по возможности готовые блоки и сделать из них прототип.
Ну так ты предложи готовую библиотеку, которую можно было бы подключить :) Я только знаю или веб-сервисы, или готовые программы.
Название: Alpha Reloaded
Отправлено: Bhudh от января 9, 2011, 17:20
Цитата: mystГлавное — продумать внутреннюю структуру словаря, чтобы можно было из влекать только ту информацию, которая нужна.
Синтаксис — ;up:.
Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 17:21
Короче, это всё мелочи. Оба случая примерно равносильны. Единственное, генератор можно научить эвристикам, а таблицу придётся ручками пополнять. Надо поискать библиотеку для греческой морфологии, а там видно будет.
Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 17:22
Цитата: Bhudh от января  9, 2011, 17:20
Синтаксис — ;up:.
Опять к моим опечаткам пристаешь? :(
Название: Alpha Reloaded
Отправлено: Bhudh от января 9, 2011, 17:23
А это опечатка⁈
Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 17:24
Цитата: Bhudh от января  9, 2011, 17:23
А это опечатка⁈
из влекать? А ты как думаешь? :)
Название: Alpha Reloaded
Отправлено: Bhudh от января 9, 2011, 17:25
«Выволакивать из». Я думал, ты прикололся.
Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 17:27
Ничо нипонил. :donno:
Название: Alpha Reloaded
Отправлено: Алексей Гринь от января 9, 2011, 17:30
Не засоряем тему, токарищи.
Название: Alpha Reloaded
Отправлено: Алексей Гринь от января 9, 2011, 17:33
А по сути, нафиг оно нужно на первых порах. Можно и просто искать так, как есть.
Вы меня путаете.
Название: Alpha Reloaded
Отправлено: Алексей Гринь от января 9, 2011, 17:38
Идите нафиг, пошёл писать морфологию для существительных :) Посмотрим, что выйдет.
А то я тут нашёл одну либу, так она например игнорирует акценты... Бред.
Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 17:40
Цитата: Алексей Гринь от января  9, 2011, 17:33
А по сути, нафиг оно нужно на первых порах. Можно и просто искать так, как есть.
Вы меня путаете.
Ну ты же собрался комбайн делать. Ведь инфлектор можно и как справочник юзать.
Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 17:41
Цитата: Алексей Гринь от января  9, 2011, 17:38
Идите нафиг, пошёл писать морфологию для существительных :) Посмотрим, что выйдет.
А то я тут нашёл одну либу, так она например игнорирует акценты... Бред.
Так бы сразу и признался, что на велосипеды потянуло. ;)
Название: Alpha Reloaded
Отправлено: Алексей Гринь от января 9, 2011, 17:44
Если бы это был велосипед, я бы уже что-то в сети нашёл.

К тому же, не в велосипедостроении дело. Если даже либа и есть, то у ней обязательно будут какие-то проблемы. Или она не в юникоде, а в каком-то странном шрифте и кодировки; или она игнорирует ударение; или у ней есть только существительные, а глаголы не доделаны и т.п. Я вот поискал немного и толлько такое нашёл.
Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 17:50
Цитата: Алексей Гринь от января  9, 2011, 17:44
Если бы это был велосипед, я бы уже что-то в сети нашёл.
Я по русской морфологии заколебался искать, а ты говоришь: «Сразу».
Название: Alpha Reloaded
Отправлено: Алексей Гринь от января 9, 2011, 18:01
Если ты русскую морфологию заколебался искать, то греческой и подавна нет.
Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 18:06
А ты по моей ссылке ходил? Там вроде есть морфология.
Название: Alpha Reloaded
Отправлено: Bhudh от января 9, 2011, 18:11
В виде библиотеки?
Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 18:17
Цитата: Bhudh от января  9, 2011, 18:11
В виде библиотеки?
Это жаба, детка. ;)
Название: Alpha Reloaded
Отправлено: Bhudh от января 9, 2011, 18:22
А, да.

А-а-а! Там расширение .koi! :uzhos:
Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 18:25
Цитата: Bhudh от января  9, 2011, 18:22
А-а-а! Там расширение .koi! :uzhos:
Это не то, что ты подумал.
Чой-то оно не особо быстрое, мяхка оворя. :(
Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 18:27
Фи, её пропустили через обфускатор. Фтопку! Хотя базу данных можно и упереть.
Название: Alpha Reloaded
Отправлено: Bhudh от января 9, 2011, 18:49
Цитата: mystЧой-то оно не особо быстрое, мяхка оворя.
Даже у тебя⁈ Тормознутое, да...
Название: Alpha Reloaded
Отправлено: Bhudh от января 9, 2011, 18:52
Цитата: mystФи, её пропустили через обфускатор.
Вообще, почему эта шара себя фрёй именует? Обнаглели совсем.
Название: Alpha Reloaded
Отправлено: Алексей Гринь от января 9, 2011, 19:50
Запрототипил определение типа ударения (периспоменон, оксютонон и т.п.) Пока на сегодня хватит :)
Название: Alpha Reloaded
Отправлено: Demetrius от января 15, 2011, 05:45
Как там успехи?

Кстати, кроме Lucene вроде есть Sphinx. Подробностей не вем.
Название: Alpha Reloaded
Отправлено: Алексей Гринь от февраля 25, 2011, 14:39
Короче, энтузиазма много, а сил и времени немного, поэтому Alpha Reloaded трансформируется в вики-проект «Древнегреческий язык». В данный момент я занимаюсь переливкой словаря Дворецкого в вики-формат.

Посмотрите тут: http://lingvowiki.info/w/Словарь_древнегреческого_языка (http://lingvowiki.info/w/%D0%A1%D0%BB%D0%BE%D0%B2%D0%B0%D1%80%D1%8C_%D0%B4%D1%80%D0%B5%D0%B2%D0%BD%D0%B5%D0%B3%D1%80%D0%B5%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B3%D0%BE_%D1%8F%D0%B7%D1%8B%D0%BA%D0%B0)

Посмотрите разметку, что можно изменить (пока я не залил все 141 части), есть ли ошибки конвертации.

И ещё некоторые замечания.

Во-первых, мне не нравится бхудхов шрифт в шаблоне lang-gr2 (палатино линотайп у меня выбирается, вроде), т.к. какой-то он плохо читаемый, если текста много. Особенно это видно, если заголовки статей тоже используют этот шрифт, получается ещё нечитаемее. Сам я привык к Lucida Sans Unicode или Arial Unicode MS. Давайте поменяем там приоритеты в списке.

Во-вторых, я сделал шаблон для заголовочных слов статей, называется он Шаблон:ДГ. Пока это рыба, но надеюсь потом можно будет найти для него применение (для какой-то индексации, может быть).
Название: Alpha Reloaded
Отправлено: Bhudh от февраля 25, 2011, 20:28
Сразу несколько вопросов.
Уже заведена директория Словарь/ (см. тестовые Словарь/zh/子 (http://lingvowiki.info/w/%D0%A1%D0%BB%D0%BE%D0%B2%D0%B0%D1%80%D1%8C/zh/%E5%AD%90) и Словарь/ukr/лайно (http://lingvowiki.info/w/%D0%A1%D0%BB%D0%BE%D0%B2%D0%B0%D1%80%D1%8C/ukr/%D0%BB%D0%B0%D0%B9%D0%BD%D0%BE)), почему не сделать Словарь/grc/слово для каждого слова? Муторно, понимаю, но не обязательно ж сразу⁈ (И, кстати, может, ты можешь написать бота под это дело?)
Второй: а чего это у заглавных букв диакритика не комбинированная? Ошибка конвертации? Кстати, откуда? Из Лингво, что ли? Я бы копипастил из Альфы... Там с этим порядок.
Далее... Так ли в заглавном слове нужны долготы над α ι υ? Может, вынести их в скобки, как в Альфе с диакритизированными сделано?
Далее. Что делать с глоссами Гесѵхия (http://el.wikisource.org/wiki/%CE%93%CE%BB%CF%8E%CF%83%CF%83%CE%B1%CE%B9)? Отдельной папкой в Источники или можно как-то в Словарь/grc?
Окромя Гесѵхия и ещё разные источники глосс есть. Вон, читаю Тронского, он приводит заимствования из сикульского, сунулся в Дворецкого — ан шиш!

Offtop
Цитата: Алексей Гриньмне не нравится бхудхов шрифт в шаблоне lang-gr2
Ну что поделать, не терплю я санс-серифа в эллинице...
А в латинице и кириллице наоборот.
Может, в lang-gr{2} класс всунуть и в личных стилях вид менять? (Отдельным параметром слишком муторно получится.)
Название: Alpha Reloaded
Отправлено: Алексей Гринь от февраля 25, 2011, 22:11
Цитата: Bhudh от февраля 25, 2011, 20:28
Муторно, понимаю, но не обязательно ж сразу⁈
Никто этим заниматься не будет, как главный энтузиаст говорю.

Цитата: Bhudh от февраля 25, 2011, 20:28
(И, кстати, может, ты можешь написать бота под это дело?)
Я вообще не знаю, как в вики устроены боты.

Цитата: Bhudh от февраля 25, 2011, 20:28
Второй: а чего это у заглавных букв диакритика не комбинированная?
Это так важно?

Цитата: Bhudh от февраля 25, 2011, 20:28
Ошибка конвертации? Кстати, откуда? Из Лингво, что ли?
Да хз, на диске валялся html-документ — то ли сам из Альфы конвертнул, то ли скачал, не помню. С помощью скриптика перевёл html в wiki (в принципе wiki-движок понимал html-представление и без изменений, но wiki-разметка занимает меньше места, плюс добавил шаблон {{gr2|}} для греч. текста (уменьшенная версия от {{lang-gr2}}, чтобы меньше места занимало)).

В оригинальном документе все греческие буквы были представлены в виде &#XXX; я их схлопнул в нормальное представление, о комбинации как-то не подумал.

Цитата: Bhudh от февраля 25, 2011, 20:28
Так ли в заглавном слове нужны долготы над α ι υ?
Например? Дай пример из существующей статьи на вики.

Цитата: Bhudh от февраля 25, 2011, 20:28
Может, вынести их в скобки, как в Альфе с диакритизированными сделано?
Можно, но я уже залил 43 страницы, поэтому только с помощью бота в Википедии in place, но я их не умею, как уже сказал.

Цитата: Bhudh от февраля 25, 2011, 20:28
Что делать с глоссами Гесѵхия? Отдельной папкой в Источники или можно как-то в Словарь/grc?
Я только на полпути сообразил, что лучше бы уточнить, т.е. назвать «Древнегреческо-русский словарь»... Или всё переименовать, чтобы не было недопонимания, или оставить как название подпроекта, а не имя конкретной реалии. Ведь Гесихий это вроде «Толковый словарь древнегреческого», получается.
В принципе если Гесихий не добавляет ничего нового, то в общий словарь незачем впихивать. Избыточно. Если же добавляет какое-то новое значение, то можно дописать.
А так, как сочинение вообще, лучше параллельно от греч.-рус. словника иметь.

Цитата: Bhudh от февраля 25, 2011, 20:28
Окромя Гесѵхия и ещё разные источники глосс есть. Вон, читаю Тронского, он приводит заимствования из сикульского, сунулся в Дворецкого — ан шиш!
То же самое — если в Дворецком нет, то можно смело добавлять, главное чтобы внешним видом было так же, а также бы правильно сделать специальную помету, что это supplementum, в онлайн-Liddel-Scott есть спецзначок типа крестика, посмотри.

Цитата: Bhudh от февраля 25, 2011, 20:28
Может, в lang-gr{2} класс всунуть и в личных стилях вид менять? (Отдельным параметром слишком муторно получится.)
ЛУчше не надо. Т.к. есть анонимы без стилей.

Цитата: Bhudh от февраля 25, 2011, 20:28
Ну что поделать, не терплю я санс-серифа в эллинице...
НУ реально палатино плохо читаем... Буквы слишком округлые и я вижу одни круги вместо букв. Хотя может это дело привычки.
Я в словаре проставил Arial Unicode MS. У него нет проблем с показом? А то Lucida Sans Unicode почему-то в википедии не отображал диакритику у меня, хотя на ЛФ всё ок. В эт их веб-делах не очень смыслю.
Название: Alpha Reloaded
Отправлено: Bhudh от февраля 25, 2011, 23:46
Цитата: Алексей ГриньЯ вообще не знаю, как в вики устроены боты.
(wiki/ru) Википедия:Бот
Там и под .NET вроде есть подвижки.

Цитата: Алексей ГриньЭто так важно?
Да просто нелогично: у строчных комбайн, а у прописных декомпоз...

Цитата: Алексей ГриньДай пример из существующей статьи на вики.
Цитата: http://wiki.lingvoforum.net/w/Словарь_древнегреческого_языка/8ἀμφι-λᾰχαίνω
Цитата: http://wiki.lingvoforum.net/w/Словарь_древнегреческого_языка/20ἀστῠ-βοώτης
Цитата: http://wiki.lingvoforum.net/w/Словарь_древнегреческого_языка/27γρᾱΐδιον
Страницы открыл наобум.
Последний особенно впечатляет.

Цитата: Алексей Гриньесли в Дворецком нет, то можно смело добавлять
А сейчас-то куда добавлять? Страницы-то нумерованные, а не по алфавиту...
Название: Alpha Reloaded
Отправлено: Алексей Гринь от февраля 26, 2011, 11:12
Цитата: Bhudh от февраля 25, 2011, 23:46
ЦитироватьЯ вообще не знаю, как в вики устроены боты.
(wiki/ru) Википедия:Бот
Там и под .NET вроде есть подвижки.
ОК, посмотрю.
Ура, оставшиеся 90 страниц можно залить ботом :)

Цитата: Bhudh от февраля 25, 2011, 23:46
Страницы открыл наобум.
Последний особенно впечатляет
В моей версии альфы так же.

Цитата: Bhudh от февраля 25, 2011, 23:46
ЦитироватьЭто так важно?
Да просто нелогично: у строчных комбайн, а у прописных декомпоз...
Логично-нелогично, но это важно только для ботов, для людей пофиг.

Цитата: Bhudh от февраля 25, 2011, 23:46
А сейчас-то куда добавлять? Страницы-то нумерованные, а не по алфавиту...
Эм...

Заходишь на http://lingvowiki.info/w/Словарь_древнегреческого_языка (http://lingvowiki.info/w/%D0%A1%D0%BB%D0%BE%D0%B2%D0%B0%D1%80%D1%8C_%D0%B4%D1%80%D0%B5%D0%B2%D0%BD%D0%B5%D0%B3%D1%80%D0%B5%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B3%D0%BE_%D1%8F%D0%B7%D1%8B%D0%BA%D0%B0) , выбираешь в содержании локацию слова, переходишь на нужную страницу, редактируешь. В чём проблема? Одну большую статью на целую букву я не могу делать, сервер пишет allocation failed, не осиливает. Щас, пока я не всё долил, выше буквы эпсилон не сможешь добавлять, c'est la vie.
Название: Alpha Reloaded
Отправлено: Алексей Гринь от февраля 26, 2011, 11:19
Если страница расползается слишком большой (около 350-400 кб), то подход как в бэйсике: напр., если у текущей страницы номер 121, то создаём новую страницу под числом: 121.0, и аккуратно впихиваем в категоризатор ссылку на неё между номерами 121 и 122. Потом если опять не влезет, то создаём 121.1, 121.2 и т.д.

По алфавиту не могу делать, так как словарь расширяющийся и тогда бы пришлось постоянно страницы переименовывать и всяко-разно тупить...

А тут ещё для бота сказка получается: он может пройтись по всему словарю, просто итерируя по числам.
Название: Alpha Reloaded
Отправлено: Bhudh от февраля 26, 2011, 12:00
А Α.001‥Α.002‥Α.122...Ω.024 кто мешает сделать?

Да, ещё... Может, сокращения авторов с латинских на русские заменить?
Название: Alpha Reloaded
Отправлено: Алексей Гринь от февраля 26, 2011, 12:30
Цитата: Bhudh от февраля 26, 2011, 12:00
А Α.001‥Α.002‥Α.122...Ω.024 кто мешает сделать?
Никто не мешает, но так неудобно мне.

Цитата: Bhudh от февраля 26, 2011, 12:00
Да, ещё... Может, сокращения авторов с латинских на русские заменить?
Не пойдёт. Там лат. представление вставлено, чтобы отличать русский текст от имени, ср. текущее:

Цитироватьκρᾰνο-ποιός ὁ мастер шлемов или доспехов Arph.

А будет как?

Цитироватьκρᾰνο-ποιός ὁ мастер шлемов или доспехов Арф.

Шлемов, доспехов и арф. ОК.
Название: Alpha Reloaded
Отправлено: Bhudh от февраля 26, 2011, 12:34
У программной альфы стили. Курсив и цвет рулят. А в вики можно ещё и шрифт. И скобки.

И разве Аристофан по-русски так сокращается?
Название: Alpha Reloaded
Отправлено: Bhudh от февраля 26, 2011, 12:44
О бот разошёлся!

А потом будет с этими страничками мучаться, SMW выставлять, стили, долготы убирать...

Кстати, шаблон оглавления надо будет сделать.
Название: Alpha Reloaded
Отправлено: Алексей Гринь от февраля 26, 2011, 12:49
Цитата: Bhudh от февраля 26, 2011, 12:34
У программной альфы стили. Курсив и цвет рулят.
Где ты в википедии видел такую разноцветную кашу? Это чисто приблуда альфы. Зачем её сюда переносить? В чём её польза? Только ради того, что тебе взбрело в голову перевести латинские сокращения в русские?

Цитата: Bhudh от февраля 26, 2011, 12:34
И разве Аристофан по-русски так сокращается?
А как отличить от Аристотеля иначе?

Цитата: Bhudh от февраля 26, 2011, 12:44
А потом будет с этими страничками мучаться
У тебя есть какие идеи как не «мучаться»?

Боту-то пофиг, сколько и чего. Единственно что на это уходит время.

Цитата: Bhudh от февраля 26, 2011, 12:44
SMW выставлять
Вот сначала придумай, что вставлять (а зачем), а уж потом будем это делать. Не могу ждать.

Цитата: Bhudh от февраля 26, 2011, 12:44
стили
Не нужно.

Цитата: Bhudh от февраля 26, 2011, 12:44
долготы убирать
Не нужно.
Название: Alpha Reloaded
Отправлено: Алексей Гринь от февраля 26, 2011, 13:37
Ну всё, дозалил наконец! Осталось оглавление сделать.

Только щас дошло, что имелось в виду под декомпозированными заглавными буквами.
Это судя по-всему ошибка OCR при оцифровании — оно посчитало буквы не за один знак, а за два. Я тут ни при чём, т.к. не я оцифровывал :)

А я-то сначала думал о другом...
Название: Alpha Reloaded
Отправлено: Алексей Гринь от февраля 26, 2011, 14:13
Всё, полностью залит.

http://lingvowiki.info/w/Словарь_древнегреческого_языка (http://lingvowiki.info/w/%D0%A1%D0%BB%D0%BE%D0%B2%D0%B0%D1%80%D1%8C_%D0%B4%D1%80%D0%B5%D0%B2%D0%BD%D0%B5%D0%B3%D1%80%D0%B5%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B3%D0%BE_%D1%8F%D0%B7%D1%8B%D0%BA%D0%B0)
Название: Alpha Reloaded
Отправлено: Bhudh от февраля 26, 2011, 15:34
Там небольшая непонятка с грекоцифрами.
Нижний NUMERAL SIGN правильно распознан — как &amp;#x0375; (&#x0375;), а верхний как MODIFIER LETTER PRIME (&amp;#x02B9; &#x02B9;), а не как &amp;#x0374; (&#x0374;).
Название: Alpha Reloaded
Отправлено: Алексей Гринь от февраля 26, 2011, 15:52
Ну это поручим боту поменять. Нужно щас собрать инфу, какую нужно боту, чтобы поменять в один прогон.

Сюда записывай: http://lingvowiki.info/w/Словарь_древнегреческого_языка/Задачи_боту (http://lingvowiki.info/w/%D0%A1%D0%BB%D0%BE%D0%B2%D0%B0%D1%80%D1%8C_%D0%B4%D1%80%D0%B5%D0%B2%D0%BD%D0%B5%D0%B3%D1%80%D0%B5%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B3%D0%BE_%D1%8F%D0%B7%D1%8B%D0%BA%D0%B0/%D0%97%D0%B0%D0%B4%D0%B0%D1%87%D0%B8_%D0%B1%D0%BE%D1%82%D1%83)
Название: Alpha Reloaded
Отправлено: Алексей Гринь от февраля 26, 2011, 15:57
Что делать с {{Gr2}}? Не избыточен ли он? Из-за него страница много весит, и сама редакция тормозит. Так ли он нужен? Т.е. разные браузеры могут показывать неправильно, если оставить текст голым? Что если для всего текста на странице поменять шрифт разом? Т.е. один большой {{gr2}} на страницу? Короче, я хочу облегчить страницы.
Название: Alpha Reloaded
Отправлено: Алексей Гринь от февраля 26, 2011, 16:45
Так, Bhudh, можно сделать так:

* переименовываем «Словарь древнегреческого языка»‎ в «Книги/Древнегреческо-русский словарь Дворецкого»
* оставляем его как нетронутый викифицированный источник, т.е. придётся Тронского опять убрать

Но, с другой стороны:
* плодим отдельные страницы на каждое слово в Словарь/grc/XXX, натравив бота на Дворецкого, и вот уже тут можем править содержание статей как хотим.
Название: Alpha Reloaded
Отправлено: Bhudh от февраля 26, 2011, 17:32
Цитата: Алексей Гринь* переименовываем «Словарь древнегреческого языка» в «Книги/Древнегреческо-русский словарь Дворецкого»
* оставляем его как нетронутый викифицированный источник
Смысл? Он нужен конкретно как книга?
Ты гляди, помимо Тронского (там-то мало...) у меня куча диалектных словариков в запасе... И фригийский с фракийским не знаю куда совать...
Название: Alpha Reloaded
Отправлено: Bhudh от февраля 26, 2011, 17:33
Цитата: Алексей ГриньЧто делать с {{Gr2}}? Не избыточен ли он? Из-за него страница много весит, и сама редакция тормозит. Так ли он нужен? Т.е. разные браузеры могут показывать неправильно, если оставить текст голым? Что если для всего текста на странице поменять шрифт разом? Т.е. один большой {{gr2}} на страницу?
А divʼом обделать каждую страницу, как в книгах?
Название: Alpha Reloaded
Отправлено: Алексей Гринь от февраля 26, 2011, 17:42
Цитата: Bhudh от февраля 26, 2011, 17:32
Ты гляди, помимо Тронского (там-то мало...) у меня куча диалектных словариков в запасе... И фригийский с фракийским не знаю куда совать...
Так я что предлагаю — мы храним отдельные словари (дворецкого, твои диалектные) как законченные произведения соответствующих авторов (т.е. как «источники»), а самую-пресамую полную компиляцию мы делаем уже в собственном словаре вида «Словарь/grc/X». Там уже хоть чё добавляй, хоть ПИЕ-праформу.
Название: Alpha Reloaded
Отправлено: Bhudh от февраля 26, 2011, 19:27
Ну диалектные-то не мои, а англовикские, но в общий их, конечно, стоит засунуть...

Чего-й-то ЛВ затормозила...
А у меня навигационный шаблон недоделанный висит...
Название: Alpha Reloaded
Отправлено: Алексей Гринь от февраля 26, 2011, 19:41
Зацени http://lingvowiki.info/w/Словарь_древнегреческого_языка/141 (http://lingvowiki.info/w/%D0%A1%D0%BB%D0%BE%D0%B2%D0%B0%D1%80%D1%8C_%D0%B4%D1%80%D0%B5%D0%B2%D0%BD%D0%B5%D0%B3%D1%80%D0%B5%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B3%D0%BE_%D1%8F%D0%B7%D1%8B%D0%BA%D0%B0/141)

Норм?

У меня готов скрипт для удаления gr-2 и замены на div. Жду только команды. Заодно могу вставить {{:Словарь древнегреческого языка/Шаблон:Навигация}}
Название: Alpha Reloaded
Отправлено: Bhudh от февраля 26, 2011, 20:20
Цитата: Алексей ГриньЗацени http://lingvowiki.info/w/Словарь_древнегреческого_языка/141

Цитата: Код http://lingvowiki.info/w/Словарь_древнегреческого_языка/141<div style="font-family:Arial Unicode MS;">'''{{ДГ|ὤφελον}}
<...>
{{ДГ|
<...>
{{ДГ|
<...>
{{ДГ|
<...>
Цитата: Код Шаблон:ДГ{{Gr2|{{{1}}}}}
Цитата: Код Шаблон:Gr2style="font-family:'Arial Unicode MS';"

Оригина-ально...


Цитата: Алексей ГриньЗаодно могу вставить {{:Словарь древнегреческого языка/Шаблон:Навигация}}
Пока не надо, он недоделанный.
С функциями парсера никак не разберусь.
Название: Alpha Reloaded
Отправлено: Алексей Гринь от февраля 26, 2011, 20:40
Цитата: Bhudh от февраля 26, 2011, 20:20
Оригина-ально...
Не успел подчистить.

Цитата: Bhudh от февраля 26, 2011, 20:20
Пока не надо, он недоделанный.
Потом опять мучать бота и сервер?
Название: Alpha Reloaded
Отправлено: Bhudh от февраля 26, 2011, 21:35
Всё, на первую (0) и последнюю (141) страницы поставил, а по всем остальным можешь бота прогонять, со стандартным шаблоном:


{{:Словарь древнегреческого языка/Шаблон:Навигация|№ страницы}}

     внизу страницы.
Название: Alpha Reloaded
Отправлено: Алексей Гринь от февраля 28, 2011, 13:49
Ссылка изменена, ежли что: http://lingvowiki.info/w/Книги/Древнегреческо-русский_словарь_Дворецкого (http://lingvowiki.info/w/%D0%9A%D0%BD%D0%B8%D0%B3%D0%B8/%D0%94%D1%80%D0%B5%D0%B2%D0%BD%D0%B5%D0%B3%D1%80%D0%B5%D1%87%D0%B5%D1%81%D0%BA%D0%BE-%D1%80%D1%83%D1%81%D1%81%D0%BA%D0%B8%D0%B9_%D1%81%D0%BB%D0%BE%D0%B2%D0%B0%D1%80%D1%8C_%D0%94%D0%B2%D0%BE%D1%80%D0%B5%D1%86%D0%BA%D0%BE%D0%B3%D0%BE)