Печать страницы

Название: Alpha Reloaded
Отправлено: Алексей Гринь от января 9, 2011, 16:24

У меня есть Дворецкий в HTML на 23 МБ.

Все браузеры, кроме Google Chrome, виснут на нём. Да и Google Chrome сам, в принципе, не очень быстр при работе с этим чудовищным файлом.

Идея такая — сделать к нему GUI-мордашку в стиле знакомой и всеми любимой программы Alpha. Можно было бы и полноценно искать, и копировать. Какие-то языковые утилиты по спряжению и склонению автоматическому для выделенных слов сделать.

Можно будет потом каким-то образом запихать и Линделла-Скотта.

Можно постепенно подключать корпус — можно начать с греческой Библии.

К существующим проектам не отсылать — хочется сделать удобное под себя и в одном месте. Этакий эллинский комбайн.

Стало быть, хочется узнать, какую GUI-библиотеку выбрать, какой можете порекомендовать индексатор для поиска (Lucene и т.п.) и вообще что-нибудь полезное можете сказать :)

Название: Alpha Reloaded
Отправлено: Bhudh от января 9, 2011, 16:30

А стоит так заморачиваться с GUI? Или ты хочешь и редактор, как в Альфе, и остальные прибамбасы?
А то можно разбить на страницы и сделать банальный chm (ну или не банальный, а со скриптами, индексом и прочими кошерными вещьми).

Название: Alpha Reloaded
Отправлено: Hellerick от января 9, 2011, 16:31

Вы бы ссылочку дали, хотелось бы на сабж посмотреть — насколько он пригоден для автоматической обработки.

Название: Alpha Reloaded
Отправлено: Алексей Гринь от января 9, 2011, 16:32

Chm не позволит подключить потом какую-нибудь фишку, если таковая вдруг понадобится. Не, не вариант. Смотрим шире.

Да заморота-то не много вообще, имхо.

Название: Alpha Reloaded
Отправлено: Алексей Гринь от января 9, 2011, 16:36

Цитата: Bhudh от января 9, 2011, 16:30
Или ты хочешь и редактор, как в Альфе, и остальные прибамбасы?

Было бы очень здорово иметь возможность там же печатать текст. Ибо скакать от SC Unipad к Alpha не очень круто... К тому же у SC Unipad очередное ограничение на длину текста в незарегистрированной версии.

Цитата: Hellerick от января 9, 2011, 16:31
Вы бы ссылочку дали, хотелось бы на сабж посмотреть — насколько он пригоден для автоматической обработки.

Ссылочка хозе.

Выглядит так:

ὑῶν gen. pl. к ὗς.

Следующая строка:

Φ, φ (φῖ) τό фи (21-я буква греч. алфавита, соотв. русск. ф, лат. ph): φʹ = 500, ͵φ = 500000.

И т.д.

Название: Alpha Reloaded
Отправлено: Hellerick от января 9, 2011, 16:41

А я думал, вы про латинский словарь (http://www.medliter.ru/?page=get&id=012607) говорите.

Аплоуднуть жалко? :(

Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 16:42

Цитата: Алексей Гринь от января 9, 2011, 16:24
Идея такая — сделать к нему GUI-мордашку в стиле знакомой и всеми любимой программы Alpha. Можно было бы и полноценно искать, и копировать. Какие-то языковые утилиты по спряжению и склонению автоматическому для выделенных слов сделать.

Загони его в базу данных. И проще и эффективнее.

Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 16:43

Цитата: Алексей Гринь от января 9, 2011, 16:24
Можно постепенно подключать корпус — можно начать с греческой Библии.

Здесь можно полнотекстовый индекс замутить на Lucene, например.

Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 16:45

Цитата: Алексей Гринь от января 9, 2011, 16:24
Стало быть, хочется узнать, какую GUI-библиотеку выбрать, какой можете порекомендовать индексатор для поиска (Lucene и т.п.) и вообще что-нибудь полезное можете сказать :)

Так ты же дотНет вроде любишь? Lucene, правда, на жабе.

Название: Alpha Reloaded
Отправлено: Алексей Гринь от января 9, 2011, 16:46

Цитата: Hellerick от января 9, 2011, 16:41
А я думал, вы про латинский словарь говорите.

Цитата: Алексей Гринь от января 9, 2011, 16:24
Этакий эллинский комбайн.

Цитата: myst от января 9, 2011, 16:42
Загони его в базу данных. И проще и эффективнее.

Я в реляционных базах данных вообще ни гу-гу. Объектную ещё можно какую-нибудь... Что-то вроде (wiki/ru) Lucene (http://ru.wikipedia.org/wiki/Lucene) , мб, лучше будет?

ps.

Цитата: myst от января 9, 2011, 16:45
Так ты же дотНет вроде любишь? Lucene, правда, на жабе.

Есть порт Lucene.NET.

Не, если у кого есть база получше, чем у меня — говорите.

Название: Alpha Reloaded
Отправлено: Алексей Гринь от января 9, 2011, 16:48

Цитата: Hellerick от января 9, 2011, 16:41
Аплоуднуть жалко

Куда?

Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 16:48

Потребуется учёт морфологии для поиска. Иначе пичаль.

Название: Alpha Reloaded
Отправлено: Bhudh от января 9, 2011, 16:49

Ты себе представляешь учёт греческой морфологии⁈ :o

Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 16:50

Цитата: Алексей Гринь от января 9, 2011, 16:46
Я в реляционных базах данных вообще ни гу-гу. Объектную ещё можно какую-нибудь... Что-то вроде (wiki/ru) Lucene , мб, лучше будет?

Lucene — это же полнотекстовый поиск. А если обычный словарь (ключ — статья), то нафига полнотекстовый поиск?

Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 16:50

Цитата: Bhudh от января 9, 2011, 16:49
Ты себе представляешь учёт греческой морфологии⁈ :o

А в чём проблема? Нужен всего лишь преобразователь в основную форму. Хотя от него до полного инфлектора один шаг.

Название: Alpha Reloaded
Отправлено: Алексей Гринь от января 9, 2011, 16:52

Полнотекстовый поиск по внутреннему содержанию статей чем плох? Напр. в статьях даются некоторые полезные словосочетания. Я хочу искать и по ним.

Напр., в статье ψιλός мы может узнать, что ψιλός τὴν κεφαλήν это лысый. Я хочу иметь возможность находить и это.

Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 16:52

Короче, я для русского зафигачил таблицу словоформ. Получилось около 3 млн. строк и 200 мегабайт (+120 мегабайт индексы) в SQLite.

Название: Alpha Reloaded
Отправлено: Bhudh от января 9, 2011, 16:52

Цитата: mystLucene — это же полнотекстовый поиск. А если обычный словарь (ключ — статья), то нафига полнотекстовый поиск?

Там куча отрывков текстов в примерах.
Да и сами тексты было бы полезно, чтобы примерами не ограничиваться.

Цитата: mystНужен всего лишь преобразователь в основную форму. Хотя от него до полного инфлектора один шаг.

В греческом «всего лишь» — это полноценный языковой анализатор...

Цитата: mystКороче, я для русского зафигачил таблицу словоформ.

Для греческого таблица будет больше (да ещё диалектные формы).

Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 16:54

Цитата: Алексей Гринь от января 9, 2011, 16:52
Полнотекстовый поиск по внутреннему содержанию статей чем плох?

Я не говорю, что он плох. Просто, классический словарный поиск тоже должен быть.

Название: Alpha Reloaded
Отправлено: Алексей Гринь от января 9, 2011, 16:56

Цитата: Bhudh от января 9, 2011, 16:49
Ты себе представляешь учёт греческой морфологии⁈ :o

Да она простая же. Другое дело что, всё-таки, текущий формат словаря заставит применить много хитрого парсинга, чтобы выудить информацию по морфологии.

Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 16:58

Цитата: Bhudh от января 9, 2011, 16:52
Там куча отрывков текстов в примерах.
Да и сами тексты было бы полезно, чтобы примерами не ограничиваться.

Я считаю, что надо сразу отделить мух от котлет. А то получится помойка как в Lingvo. То есть транскрипция отдельно, примеры отдельно, лексические значения отдельно и т. д. Чтобы можно было гибко настраивать выборку. Вся словарная статья обычно не нужна. И вообще, нафига примеры, если у нас корпус будет?

Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 17:00

Цитата: Алексей Гринь от января 9, 2011, 16:56
Да она простая же. Другое дело что, всё-таки, текущий формат словаря заставит применить много хитрого парсинга, чтобы выудить информацию по морфологии.

Если найти аналог mystem для греческого, то всё сильно упростится.

Название: Alpha Reloaded
Отправлено: Bhudh от января 9, 2011, 17:01

Цитата: Алексей ГриньДа она простая же.

Цитата: πείθω (fut. πείσω, aor. 1 ἔπεισα, aor. 2 ἔπῐθον, pf. πέπεικα; эп. imper. aor. 2 πέπιθε; эп. opt. πεπίθοιμι; med.: aor. 2 ἐπιθόμην; pass.: fut. πεισθήσομαι, aor. ἐπείσθην, pf. πέπεισμαι, pf. 2 πέποιθα)

Простая, ага... :yes:

Название: Alpha Reloaded
Отправлено: Алексей Гринь от января 9, 2011, 17:02

Цитата: myst от января 9, 2011, 16:52
Короче, я для русского зафигачил таблицу словоформ. Получилось около 3 млн. строк и 200 мегабайт (+120 мегабайт индексы) в SQLite.

Какой-то брутфорс.

Цитата: myst от января 9, 2011, 16:58
И вообще, нафига примеры, если у нас корпус будет?

В примерах задаётся художественный перевод, а в корпусе? Ну, если найдёте что-то такое... С подстрочником...

Цитата: Bhudh от января 9, 2011, 17:01
Простая, ага...

Ну так вот тут вся информация и выдана уже. По таблице заменяешь окончания — и делов.

Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 17:03

http://www.kalos-software.com/

Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 17:04

Цитата: Алексей Гринь от января 9, 2011, 17:02
В примерах задаётся художественный перевод, а в корпусе? Ну, если найдёте что-то такое... С подстрочником...

Да, действительно. :)

Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 17:05

WordNet — прикольная штука.

Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 17:07

Цитата: Алексей Гринь от января 9, 2011, 17:02
Какой-то брутфорс.

Генератор на основе правил только сложнее и геморнее.

Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 17:09

Главное — продумать внутреннюю структуру словаря, чтобы можно было из влекать только ту информацию, которая нужна. Словарная статья, в которую всё напихано абы как,— это прошлый век.

Название: Alpha Reloaded
Отправлено: Алексей Гринь от января 9, 2011, 17:11

Пишешь πείθω, он динамически определяет таблицу спряжения (при расширенном поиске) из словарной статьи, затем ищется для каждого случая вариант — в словаре или корпусе. Что здесь трудноосуществимого? Может быть, я чего-то не понимаю.

Название: Alpha Reloaded
Отправлено: Алексей Гринь от января 9, 2011, 17:12

Цитата: myst от января 9, 2011, 17:03
http://www.kalos-software.com/

Я же сказал, не отсылать ни куда.

ЦитироватьKalós is a free Classic Greek Dictionary, trilingual, with definitions in English, French and Spanish. It contains approximately 25,000 entries

В моём слваре 75 тыщ.

А таблицы у меня есть... В книжке.

Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 17:13

Цитата: Алексей Гринь от января 9, 2011, 17:11
Пишешь πείθω, он динамически определяет таблицу спряжения (при расширенном поиске) из словарной статьи, затем ищется для каждого случая вариант — в словаре или корпусе. Что здесь трудноосуществимого? Может быть, я чего-то не понимаю.

Я тебе предлагаю найти готовый лемматайзер или инфлектор и заюзать его. Свой с блекджеками пожет подождать.

Название: Alpha Reloaded
Отправлено: Алексей Гринь от января 9, 2011, 17:14

Цитата: myst от января 9, 2011, 17:07
Цитировать-то брутфорс.
Генератор на основе правил только сложнее и геморнее.

Зато не требует сотен мегабайт диска.

Цитата: myst от января 9, 2011, 17:13
Я тебе предлагаю найти готовый лемматайзер или инфлектор и заюзать его. Свой с блекджеками пожет подождать.

Который?

Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 17:14

Цитата: Алексей Гринь от января 9, 2011, 17:12
Я же сказал, не отсылать ни куда.

Ты хочешь всё делать из руды? Ну, смотри...

Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 17:14

Цитата: Алексей Гринь от января 9, 2011, 17:14
Зато не требует сотен мегабайт диска.

У тебя приступ экономии на скрепках? :)

Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 17:15

Цитата: Алексей Гринь от января 9, 2011, 17:14
Который?

Искать надо. :donno:

Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 17:16

Я просто предлагаю тебе стратегию не делать всё сразу с нуля, но взять по возможности готовые блоки и сделать из них прототип.

Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 17:17

Тему надо бы перенести в Компьютерную лингвистику.

Название: Alpha Reloaded
Отправлено: Алексей Гринь от января 9, 2011, 17:18

Цитата: myst от января 9, 2011, 17:14
У тебя приступ экономии на скрепках?

В любом случае придётся откуда-то программного извлекать данные для слова и строить таблицу. Не думаю, что есть готовые списки. Я не понимаю, зачем делать это одним проходом на весь словарь, сжирая сотни мегабайт, если можно делать по требованию для определённого слова?

Название: Alpha Reloaded
Отправлено: Алексей Гринь от января 9, 2011, 17:19

Цитата: myst от января 9, 2011, 17:16
Я просто предлагаю тебе стратегию не делать всё сразу с нуля, но взять по возможности готовые блоки и сделать из них прототип.

Ну так ты предложи готовую библиотеку, которую можно было бы подключить :) Я только знаю или веб-сервисы, или готовые программы.

Название: Alpha Reloaded
Отправлено: Bhudh от января 9, 2011, 17:20

Цитата: mystГлавное — продумать внутреннюю структуру словаря, чтобы можно было из влекать только ту информацию, которая нужна.

Синтаксис — ;up:.

Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 17:21

Короче, это всё мелочи. Оба случая примерно равносильны. Единственное, генератор можно научить эвристикам, а таблицу придётся ручками пополнять. Надо поискать библиотеку для греческой морфологии, а там видно будет.

Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 17:22

Цитата: Bhudh от января 9, 2011, 17:20
Синтаксис — ;up:.

Опять к моим опечаткам пристаешь? :(

Название: Alpha Reloaded
Отправлено: Bhudh от января 9, 2011, 17:23

А это опечатка⁈

Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 17:24

Цитата: Bhudh от января 9, 2011, 17:23
А это опечатка⁈

из влекать? А ты как думаешь? :)

Название: Alpha Reloaded
Отправлено: Bhudh от января 9, 2011, 17:25

«Выволакивать из». Я думал, ты прикололся.

Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 17:27

Ничо нипонил. :donno:

Название: Alpha Reloaded
Отправлено: Алексей Гринь от января 9, 2011, 17:30

Не засоряем тему, токарищи.

Название: Alpha Reloaded
Отправлено: Алексей Гринь от января 9, 2011, 17:33

А по сути, нафиг оно нужно на первых порах. Можно и просто искать так, как есть.
Вы меня путаете.

Название: Alpha Reloaded
Отправлено: Алексей Гринь от января 9, 2011, 17:38

Идите нафиг, пошёл писать морфологию для существительных :) Посмотрим, что выйдет.
А то я тут нашёл одну либу, так она например игнорирует акценты... Бред.

Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 17:40

Цитата: Алексей Гринь от января 9, 2011, 17:33
А по сути, нафиг оно нужно на первых порах. Можно и просто искать так, как есть.
Вы меня путаете.

Ну ты же собрался комбайн делать. Ведь инфлектор можно и как справочник юзать.

Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 17:41

Цитата: Алексей Гринь от января 9, 2011, 17:38
Идите нафиг, пошёл писать морфологию для существительных :) Посмотрим, что выйдет.
А то я тут нашёл одну либу, так она например игнорирует акценты... Бред.

Так бы сразу и признался, что на велосипеды потянуло. ;)

Название: Alpha Reloaded
Отправлено: Алексей Гринь от января 9, 2011, 17:44

Если бы это был велосипед, я бы уже что-то в сети нашёл.

К тому же, не в велосипедостроении дело. Если даже либа и есть, то у ней обязательно будут какие-то проблемы. Или она не в юникоде, а в каком-то странном шрифте и кодировки; или она игнорирует ударение; или у ней есть только существительные, а глаголы не доделаны и т.п. Я вот поискал немного и толлько такое нашёл.

Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 17:50

Цитата: Алексей Гринь от января 9, 2011, 17:44
Если бы это был велосипед, я бы уже что-то в сети нашёл.

Я по русской морфологии заколебался искать, а ты говоришь: «Сразу».

Название: Alpha Reloaded
Отправлено: Алексей Гринь от января 9, 2011, 18:01

Если ты русскую морфологию заколебался искать, то греческой и подавна нет.

Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 18:06

А ты по моей ссылке ходил? Там вроде есть морфология.

Название: Alpha Reloaded
Отправлено: Bhudh от января 9, 2011, 18:11

В виде библиотеки?

Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 18:17

Цитата: Bhudh от января 9, 2011, 18:11
В виде библиотеки?

Это жаба, детка. ;)

Название: Alpha Reloaded
Отправлено: Bhudh от января 9, 2011, 18:22

А, да.

А-а-а! Там расширение .koi! :uzhos:

Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 18:25

Цитата: Bhudh от января 9, 2011, 18:22
А-а-а! Там расширение .koi! :uzhos:

Это не то, что ты подумал.
Чой-то оно не особо быстрое, мяхка оворя. :(

Название: Alpha Reloaded
Отправлено: myst от января 9, 2011, 18:27

Фи, её пропустили через обфускатор. Фтопку! Хотя базу данных можно и упереть.

Название: Alpha Reloaded
Отправлено: Bhudh от января 9, 2011, 18:49

Цитата: mystЧой-то оно не особо быстрое, мяхка оворя.

Даже у тебя⁈ Тормознутое, да...

Название: Alpha Reloaded
Отправлено: Bhudh от января 9, 2011, 18:52

Цитата: mystФи, её пропустили через обфускатор.

Вообще, почему эта шара себя фрёй именует? Обнаглели совсем.

Название: Alpha Reloaded
Отправлено: Алексей Гринь от января 9, 2011, 19:50

Запрототипил определение типа ударения (периспоменон, оксютонон и т.п.) Пока на сегодня хватит :)

Название: Alpha Reloaded
Отправлено: Demetrius от января 15, 2011, 05:45

Как там успехи?

Кстати, кроме Lucene вроде есть Sphinx. Подробностей не вем.

Название: Alpha Reloaded
Отправлено: Алексей Гринь от февраля 25, 2011, 14:39

Короче, энтузиазма много, а сил и времени немного, поэтому Alpha Reloaded трансформируется в вики-проект «Древнегреческий язык». В данный момент я занимаюсь переливкой словаря Дворецкого в вики-формат.

Посмотрите тут: http://lingvowiki.info/w/Словарь_древнегреческого_языка (http://lingvowiki.info/w/%D0%A1%D0%BB%D0%BE%D0%B2%D0%B0%D1%80%D1%8C_%D0%B4%D1%80%D0%B5%D0%B2%D0%BD%D0%B5%D0%B3%D1%80%D0%B5%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B3%D0%BE_%D1%8F%D0%B7%D1%8B%D0%BA%D0%B0)

Посмотрите разметку, что можно изменить (пока я не залил все 141 части), есть ли ошибки конвертации.

И ещё некоторые замечания.

Во-первых, мне не нравится бхудхов шрифт в шаблоне lang-gr2 (палатино линотайп у меня выбирается, вроде), т.к. какой-то он плохо читаемый, если текста много. Особенно это видно, если заголовки статей тоже используют этот шрифт, получается ещё нечитаемее. Сам я привык к Lucida Sans Unicode или Arial Unicode MS. Давайте поменяем там приоритеты в списке.

Во-вторых, я сделал шаблон для заголовочных слов статей, называется он Шаблон:ДГ. Пока это рыба, но надеюсь потом можно будет найти для него применение (для какой-то индексации, может быть).

Название: Alpha Reloaded
Отправлено: Bhudh от февраля 25, 2011, 20:28

Сразу несколько вопросов.
Уже заведена директория Словарь/ (см. тестовые Словарь/zh/子 (http://lingvowiki.info/w/%D0%A1%D0%BB%D0%BE%D0%B2%D0%B0%D1%80%D1%8C/zh/%E5%AD%90) и Словарь/ukr/лайно (http://lingvowiki.info/w/%D0%A1%D0%BB%D0%BE%D0%B2%D0%B0%D1%80%D1%8C/ukr/%D0%BB%D0%B0%D0%B9%D0%BD%D0%BE)), почему не сделать Словарь/grc/слово для каждого слова? Муторно, понимаю, но не обязательно ж сразу⁈ (И, кстати, может, ты можешь написать бота под это дело?)
Второй: а чего это у заглавных букв диакритика не комбинированная? Ошибка конвертации? Кстати, откуда? Из Лингво, что ли? Я бы копипастил из Альфы... Там с этим порядок.
Далее... Так ли в заглавном слове нужны долготы над α ι υ? Может, вынести их в скобки, как в Альфе с диакритизированными сделано?
Далее. Что делать с глоссами Гесѵхия (http://el.wikisource.org/wiki/%CE%93%CE%BB%CF%8E%CF%83%CF%83%CE%B1%CE%B9)? Отдельной папкой в Источники или можно как-то в Словарь/grc?
Окромя Гесѵхия и ещё разные источники глосс есть. Вон, читаю Тронского, он приводит заимствования из сикульского, сунулся в Дворецкого — ан шиш!

Offtop

Цитата: Алексей Гриньмне не нравится бхудхов шрифт в шаблоне lang-gr2

Ну что поделать, не терплю я санс-серифа в эллинице...
А в латинице и кириллице наоборот.
Может, в lang-gr{2} класс всунуть и в личных стилях вид менять? (Отдельным параметром слишком муторно получится.)

Название: Alpha Reloaded
Отправлено: Алексей Гринь от февраля 25, 2011, 22:11

Цитата: Bhudh от февраля 25, 2011, 20:28
Муторно, понимаю, но не обязательно ж сразу⁈

Никто этим заниматься не будет, как главный энтузиаст говорю.

Цитата: Bhudh от февраля 25, 2011, 20:28
(И, кстати, может, ты можешь написать бота под это дело?)

Я вообще не знаю, как в вики устроены боты.

Цитата: Bhudh от февраля 25, 2011, 20:28
Второй: а чего это у заглавных букв диакритика не комбинированная?

Это так важно?

Цитата: Bhudh от февраля 25, 2011, 20:28
Ошибка конвертации? Кстати, откуда? Из Лингво, что ли?

Да хз, на диске валялся html-документ — то ли сам из Альфы конвертнул, то ли скачал, не помню. С помощью скриптика перевёл html в wiki (в принципе wiki-движок понимал html-представление и без изменений, но wiki-разметка занимает меньше места, плюс добавил шаблон {{gr2|}} для греч. текста (уменьшенная версия от {{lang-gr2}}, чтобы меньше места занимало)).

В оригинальном документе все греческие буквы были представлены в виде &#XXX; я их схлопнул в нормальное представление, о комбинации как-то не подумал.

Цитата: Bhudh от февраля 25, 2011, 20:28
Так ли в заглавном слове нужны долготы над α ι υ?

Например? Дай пример из существующей статьи на вики.

Цитата: Bhudh от февраля 25, 2011, 20:28
Может, вынести их в скобки, как в Альфе с диакритизированными сделано?

Можно, но я уже залил 43 страницы, поэтому только с помощью бота в Википедии in place, но я их не умею, как уже сказал.

Цитата: Bhudh от февраля 25, 2011, 20:28
Что делать с глоссами Гесѵхия? Отдельной папкой в Источники или можно как-то в Словарь/grc?

Я только на полпути сообразил, что лучше бы уточнить, т.е. назвать «Древнегреческо-русский словарь»... Или всё переименовать, чтобы не было недопонимания, или оставить как название подпроекта, а не имя конкретной реалии. Ведь Гесихий это вроде «Толковый словарь древнегреческого», получается.
В принципе если Гесихий не добавляет ничего нового, то в общий словарь незачем впихивать. Избыточно. Если же добавляет какое-то новое значение, то можно дописать.
А так, как сочинение вообще, лучше параллельно от греч.-рус. словника иметь.

Цитата: Bhudh от февраля 25, 2011, 20:28
Окромя Гесѵхия и ещё разные источники глосс есть. Вон, читаю Тронского, он приводит заимствования из сикульского, сунулся в Дворецкого — ан шиш!

То же самое — если в Дворецком нет, то можно смело добавлять, главное чтобы внешним видом было так же, а также бы правильно сделать специальную помету, что это supplementum, в онлайн-Liddel-Scott есть спецзначок типа крестика, посмотри.

Цитата: Bhudh от февраля 25, 2011, 20:28
Может, в lang-gr{2} класс всунуть и в личных стилях вид менять? (Отдельным параметром слишком муторно получится.)

ЛУчше не надо. Т.к. есть анонимы без стилей.

Цитата: Bhudh от февраля 25, 2011, 20:28
Ну что поделать, не терплю я санс-серифа в эллинице...

НУ реально палатино плохо читаем... Буквы слишком округлые и я вижу одни круги вместо букв. Хотя может это дело привычки.
Я в словаре проставил Arial Unicode MS. У него нет проблем с показом? А то Lucida Sans Unicode почему-то в википедии не отображал диакритику у меня, хотя на ЛФ всё ок. В эт их веб-делах не очень смыслю.

Название: Alpha Reloaded
Отправлено: Bhudh от февраля 25, 2011, 23:46

Цитата: Алексей ГриньЯ вообще не знаю, как в вики устроены боты.

(wiki/ru) Википедия:Бот
Там и под .NET вроде есть подвижки.

Цитата: Алексей ГриньЭто так важно?

Да просто нелогично: у строчных комбайн, а у прописных декомпоз...

Цитата: Алексей ГриньДай пример из существующей статьи на вики.

Цитата: http://wiki.lingvoforum.net/w/Словарь_древнегреческого_языка/8ἀμφι-λᾰχαίνω

Цитата: http://wiki.lingvoforum.net/w/Словарь_древнегреческого_языка/20ἀστῠ-βοώτης

Цитата: http://wiki.lingvoforum.net/w/Словарь_древнегреческого_языка/27γρᾱΐδιον

Страницы открыл наобум.
Последний особенно впечатляет.

Цитата: Алексей Гриньесли в Дворецком нет, то можно смело добавлять

А сейчас-то куда добавлять? Страницы-то нумерованные, а не по алфавиту...

Название: Alpha Reloaded
Отправлено: Алексей Гринь от февраля 26, 2011, 11:12

Цитата: Bhudh от февраля 25, 2011, 23:46
ЦитироватьЯ вообще не знаю, как в вики устроены боты.
(wiki/ru) Википедия:Бот
Там и под .NET вроде есть подвижки.

ОК, посмотрю.
Ура, оставшиеся 90 страниц можно залить ботом :)

Цитата: Bhudh от февраля 25, 2011, 23:46
Страницы открыл наобум.
Последний особенно впечатляет

В моей версии альфы так же.

Цитата: Bhudh от февраля 25, 2011, 23:46
ЦитироватьЭто так важно?
Да просто нелогично: у строчных комбайн, а у прописных декомпоз...

Логично-нелогично, но это важно только для ботов, для людей пофиг.

Цитата: Bhudh от февраля 25, 2011, 23:46
А сейчас-то куда добавлять? Страницы-то нумерованные, а не по алфавиту...

Эм...

Заходишь на http://lingvowiki.info/w/Словарь_древнегреческого_языка (http://lingvowiki.info/w/%D0%A1%D0%BB%D0%BE%D0%B2%D0%B0%D1%80%D1%8C_%D0%B4%D1%80%D0%B5%D0%B2%D0%BD%D0%B5%D0%B3%D1%80%D0%B5%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B3%D0%BE_%D1%8F%D0%B7%D1%8B%D0%BA%D0%B0) , выбираешь в содержании локацию слова, переходишь на нужную страницу, редактируешь. В чём проблема? Одну большую статью на целую букву я не могу делать, сервер пишет allocation failed, не осиливает. Щас, пока я не всё долил, выше буквы эпсилон не сможешь добавлять, c'est la vie.

Название: Alpha Reloaded
Отправлено: Алексей Гринь от февраля 26, 2011, 11:19

Если страница расползается слишком большой (около 350-400 кб), то подход как в бэйсике: напр., если у текущей страницы номер 121, то создаём новую страницу под числом: 121.0, и аккуратно впихиваем в категоризатор ссылку на неё между номерами 121 и 122. Потом если опять не влезет, то создаём 121.1, 121.2 и т.д.

По алфавиту не могу делать, так как словарь расширяющийся и тогда бы пришлось постоянно страницы переименовывать и всяко-разно тупить...

А тут ещё для бота сказка получается: он может пройтись по всему словарю, просто итерируя по числам.

Название: Alpha Reloaded
Отправлено: Bhudh от февраля 26, 2011, 12:00

А Α.001‥Α.002‥Α.122...Ω.024 кто мешает сделать?

Да, ещё... Может, сокращения авторов с латинских на русские заменить?

Название: Alpha Reloaded
Отправлено: Алексей Гринь от февраля 26, 2011, 12:30

Цитата: Bhudh от февраля 26, 2011, 12:00
А Α.001‥Α.002‥Α.122...Ω.024 кто мешает сделать?

Никто не мешает, но так неудобно мне.

Цитата: Bhudh от февраля 26, 2011, 12:00
Да, ещё... Может, сокращения авторов с латинских на русские заменить?

Не пойдёт. Там лат. представление вставлено, чтобы отличать русский текст от имени, ср. текущее:

Цитироватьκρᾰνο-ποιός ὁ мастер шлемов или доспехов Arph.

А будет как?

Цитироватьκρᾰνο-ποιός ὁ мастер шлемов или доспехов Арф.

Шлемов, доспехов и арф. ОК.

Название: Alpha Reloaded
Отправлено: Bhudh от февраля 26, 2011, 12:34

У программной альфы стили. Курсив и цвет рулят. А в вики можно ещё и шрифт. И скобки.

И разве Аристофан по-русски так сокращается?

Название: Alpha Reloaded
Отправлено: Bhudh от февраля 26, 2011, 12:44

О бот разошёлся!

А потом будет с этими страничками мучаться, SMW выставлять, стили, долготы убирать...

Кстати, шаблон оглавления надо будет сделать.

Название: Alpha Reloaded
Отправлено: Алексей Гринь от февраля 26, 2011, 12:49

Цитата: Bhudh от февраля 26, 2011, 12:34
У программной альфы стили. Курсив и цвет рулят.

Где ты в википедии видел такую разноцветную кашу? Это чисто приблуда альфы. Зачем её сюда переносить? В чём её польза? Только ради того, что тебе взбрело в голову перевести латинские сокращения в русские?

Цитата: Bhudh от февраля 26, 2011, 12:34
И разве Аристофан по-русски так сокращается?

А как отличить от Аристотеля иначе?

Цитата: Bhudh от февраля 26, 2011, 12:44
А потом будет с этими страничками мучаться

У тебя есть какие идеи как не «мучаться»?

Боту-то пофиг, сколько и чего. Единственно что на это уходит время.

Цитата: Bhudh от февраля 26, 2011, 12:44
SMW выставлять

Вот сначала придумай, что вставлять (а зачем), а уж потом будем это делать. Не могу ждать.

Цитата: Bhudh от февраля 26, 2011, 12:44
стили

Не нужно.

Цитата: Bhudh от февраля 26, 2011, 12:44
долготы убирать

Не нужно.

Название: Alpha Reloaded
Отправлено: Алексей Гринь от февраля 26, 2011, 13:37

Ну всё, дозалил наконец! Осталось оглавление сделать.

Только щас дошло, что имелось в виду под декомпозированными заглавными буквами.
Это судя по-всему ошибка OCR при оцифровании — оно посчитало буквы не за один знак, а за два. Я тут ни при чём, т.к. не я оцифровывал :)

А я-то сначала думал о другом...

Название: Alpha Reloaded
Отправлено: Алексей Гринь от февраля 26, 2011, 14:13

Всё, полностью залит.

http://lingvowiki.info/w/Словарь_древнегреческого_языка (http://lingvowiki.info/w/%D0%A1%D0%BB%D0%BE%D0%B2%D0%B0%D1%80%D1%8C_%D0%B4%D1%80%D0%B5%D0%B2%D0%BD%D0%B5%D0%B3%D1%80%D0%B5%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B3%D0%BE_%D1%8F%D0%B7%D1%8B%D0%BA%D0%B0)

Название: Alpha Reloaded
Отправлено: Bhudh от февраля 26, 2011, 15:34

Там небольшая непонятка с грекоцифрами.
Нижний NUMERAL SIGN правильно распознан — как &#x0375; (͵), а верхний как MODIFIER LETTER PRIME (&#x02B9; ʹ), а не как &#x0374; (ʹ).

Название: Alpha Reloaded
Отправлено: Алексей Гринь от февраля 26, 2011, 15:52

Ну это поручим боту поменять. Нужно щас собрать инфу, какую нужно боту, чтобы поменять в один прогон.

Сюда записывай: http://lingvowiki.info/w/Словарь_древнегреческого_языка/Задачи_боту (http://lingvowiki.info/w/%D0%A1%D0%BB%D0%BE%D0%B2%D0%B0%D1%80%D1%8C_%D0%B4%D1%80%D0%B5%D0%B2%D0%BD%D0%B5%D0%B3%D1%80%D0%B5%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B3%D0%BE_%D1%8F%D0%B7%D1%8B%D0%BA%D0%B0/%D0%97%D0%B0%D0%B4%D0%B0%D1%87%D0%B8_%D0%B1%D0%BE%D1%82%D1%83)

Название: Alpha Reloaded
Отправлено: Алексей Гринь от февраля 26, 2011, 15:57

Что делать с {{Gr2}}? Не избыточен ли он? Из-за него страница много весит, и сама редакция тормозит. Так ли он нужен? Т.е. разные браузеры могут показывать неправильно, если оставить текст голым? Что если для всего текста на странице поменять шрифт разом? Т.е. один большой {{gr2}} на страницу? Короче, я хочу облегчить страницы.

Название: Alpha Reloaded
Отправлено: Алексей Гринь от февраля 26, 2011, 16:45

Так, Bhudh, можно сделать так:

* переименовываем «Словарь древнегреческого языка»‎ в «Книги/Древнегреческо-русский словарь Дворецкого»
* оставляем его как нетронутый викифицированный источник, т.е. придётся Тронского опять убрать

Но, с другой стороны:
* плодим отдельные страницы на каждое слово в Словарь/grc/XXX, натравив бота на Дворецкого, и вот уже тут можем править содержание статей как хотим.

Название: Alpha Reloaded
Отправлено: Bhudh от февраля 26, 2011, 17:32

Цитата: Алексей Гринь* переименовываем «Словарь древнегреческого языка» в «Книги/Древнегреческо-русский словарь Дворецкого»
* оставляем его как нетронутый викифицированный источник

Смысл? Он нужен конкретно как книга?
Ты гляди, помимо Тронского (там-то мало...) у меня куча диалектных словариков в запасе... И фригийский с фракийским не знаю куда совать...

Название: Alpha Reloaded
Отправлено: Bhudh от февраля 26, 2011, 17:33

Цитата: Алексей ГриньЧто делать с {{Gr2}}? Не избыточен ли он? Из-за него страница много весит, и сама редакция тормозит. Так ли он нужен? Т.е. разные браузеры могут показывать неправильно, если оставить текст голым? Что если для всего текста на странице поменять шрифт разом? Т.е. один большой {{gr2}} на страницу?

А divʼом обделать каждую страницу, как в книгах?

Название: Alpha Reloaded
Отправлено: Алексей Гринь от февраля 26, 2011, 17:42

Цитата: Bhudh от февраля 26, 2011, 17:32
Ты гляди, помимо Тронского (там-то мало...) у меня куча диалектных словариков в запасе... И фригийский с фракийским не знаю куда совать...

Так я что предлагаю — мы храним отдельные словари (дворецкого, твои диалектные) как законченные произведения соответствующих авторов (т.е. как «источники»), а самую-пресамую полную компиляцию мы делаем уже в собственном словаре вида «Словарь/grc/X». Там уже хоть чё добавляй, хоть ПИЕ-праформу.

Название: Alpha Reloaded
Отправлено: Bhudh от февраля 26, 2011, 19:27

Ну диалектные-то не мои, а англовикские, но в общий их, конечно, стоит засунуть...

Чего-й-то ЛВ затормозила...
А у меня навигационный шаблон недоделанный висит...

Название: Alpha Reloaded
Отправлено: Алексей Гринь от февраля 26, 2011, 19:41

Зацени http://lingvowiki.info/w/Словарь_древнегреческого_языка/141 (http://lingvowiki.info/w/%D0%A1%D0%BB%D0%BE%D0%B2%D0%B0%D1%80%D1%8C_%D0%B4%D1%80%D0%B5%D0%B2%D0%BD%D0%B5%D0%B3%D1%80%D0%B5%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B3%D0%BE_%D1%8F%D0%B7%D1%8B%D0%BA%D0%B0/141)

Норм?

У меня готов скрипт для удаления gr-2 и замены на div. Жду только команды. Заодно могу вставить {{:Словарь древнегреческого языка/Шаблон:Навигация}}

Название: Alpha Reloaded
Отправлено: Bhudh от февраля 26, 2011, 20:20

Цитата: Алексей ГриньЗацени http://lingvowiki.info/w/Словарь_древнегреческого_языка/141

Цитата: Код http://lingvowiki.info/w/Словарь_древнегреческого_языка/141<div style="font-family:Arial Unicode MS;">'''{{ДГ|ὤφελον}}
<...>
{{ДГ|
<...>
{{ДГ|
<...>
{{ДГ|
<...>

Цитата: Код Шаблон:ДГ{{Gr2|{{{1}}}}}

Цитата: Код Шаблон:Gr2style="font-family:'Arial Unicode MS';"

Оригина-ально...

Цитата: Алексей ГриньЗаодно могу вставить {{:Словарь древнегреческого языка/Шаблон:Навигация}}

Пока не надо, он недоделанный.
С функциями парсера никак не разберусь.

Название: Alpha Reloaded
Отправлено: Алексей Гринь от февраля 26, 2011, 20:40

Цитата: Bhudh от февраля 26, 2011, 20:20
Оригина-ально...

Не успел подчистить.

Цитата: Bhudh от февраля 26, 2011, 20:20
Пока не надо, он недоделанный.

Потом опять мучать бота и сервер?

Название: Alpha Reloaded
Отправлено: Bhudh от февраля 26, 2011, 21:35

Всё, на первую (0) и последнюю (141) страницы поставил, а по всем остальным можешь бота прогонять, со стандартным шаблоном:

Код Выделить




{{:Словарь древнегреческого языка/Шаблон:Навигация|№ страницы}}

внизу страницы.

Название: Alpha Reloaded
Отправлено: Алексей Гринь от февраля 28, 2011, 13:49

Ссылка изменена, ежли что: http://lingvowiki.info/w/Книги/Древнегреческо-русский_словарь_Дворецкого (http://lingvowiki.info/w/%D0%9A%D0%BD%D0%B8%D0%B3%D0%B8/%D0%94%D1%80%D0%B5%D0%B2%D0%BD%D0%B5%D0%B3%D1%80%D0%B5%D1%87%D0%B5%D1%81%D0%BA%D0%BE-%D1%80%D1%83%D1%81%D1%81%D0%BA%D0%B8%D0%B9_%D1%81%D0%BB%D0%BE%D0%B2%D0%B0%D1%80%D1%8C_%D0%94%D0%B2%D0%BE%D1%80%D0%B5%D1%86%D0%BA%D0%BE%D0%B3%D0%BE)

Лингвофорум

Общий раздел => Наука и техника => Компьютеры => Тема начата: Алексей Гринь от января 9, 2011, 16:24