У меня есть Дворецкий в HTML на 23 МБ.
Все браузеры, кроме Google Chrome, виснут на нём. Да и Google Chrome сам, в принципе, не очень быстр при работе с этим чудовищным файлом.
Идея такая — сделать к нему GUI-мордашку в стиле знакомой и всеми любимой программы Alpha. Можно было бы и полноценно искать, и копировать. Какие-то языковые утилиты по спряжению и склонению автоматическому для выделенных слов сделать.
Можно будет потом каким-то образом запихать и Линделла-Скотта.
Можно постепенно подключать корпус — можно начать с греческой Библии.
К существующим проектам не отсылать — хочется сделать удобное под себя и в одном месте. Этакий эллинский комбайн.
Стало быть, хочется узнать, какую GUI-библиотеку выбрать, какой можете порекомендовать индексатор для поиска (Lucene и т.п.) и вообще что-нибудь полезное можете сказать :)
А стоит так заморачиваться с GUI? Или ты хочешь и редактор, как в Альфе, и остальные прибамбасы?
А то можно разбить на страницы и сделать банальный chm (ну или не банальный, а со скриптами, индексом и прочими кошерными вещьми).
Вы бы ссылочку дали, хотелось бы на сабж посмотреть — насколько он пригоден для автоматической обработки.
Chm не позволит подключить потом какую-нибудь фишку, если таковая вдруг понадобится. Не, не вариант. Смотрим шире.
Да заморота-то не много вообще, имхо.
Цитата: Bhudh от января 9, 2011, 16:30
Или ты хочешь и редактор, как в Альфе, и остальные прибамбасы?
Было бы очень здорово иметь возможность там же печатать текст. Ибо скакать от SC Unipad к Alpha не очень круто... К тому же у SC Unipad очередное ограничение на длину текста в незарегистрированной версии.
Цитата: Hellerick от января 9, 2011, 16:31
Вы бы ссылочку дали, хотелось бы на сабж посмотреть — насколько он пригоден для автоматической обработки.
Ссылочка хозе.
Выглядит так:
<p><b>ὑῶν</b> <i>gen. pl.</i> <i>к</i> ὗς.</p>
Следующая строка:
<p><b>Φ,</b> <b>φ</b> (φῖ) τό фи (<i>21-я буква греч. алфавита, соотв. русск.</i> ф,<i> лат.</i> ph): φʹ = 500, ͵φ = 500000.</p>
И т.д.
А я думал, вы про латинский словарь (http://www.medliter.ru/?page=get&id=012607) говорите.
Аплоуднуть жалко? :(
Цитата: Алексей Гринь от января 9, 2011, 16:24
Идея такая — сделать к нему GUI-мордашку в стиле знакомой и всеми любимой программы Alpha. Можно было бы и полноценно искать, и копировать. Какие-то языковые утилиты по спряжению и склонению автоматическому для выделенных слов сделать.
Загони его в базу данных. И проще и эффективнее.
Цитата: Алексей Гринь от января 9, 2011, 16:24
Можно постепенно подключать корпус — можно начать с греческой Библии.
Здесь можно полнотекстовый индекс замутить на Lucene, например.
Цитата: Алексей Гринь от января 9, 2011, 16:24
Стало быть, хочется узнать, какую GUI-библиотеку выбрать, какой можете порекомендовать индексатор для поиска (Lucene и т.п.) и вообще что-нибудь полезное можете сказать :)
Так ты же дотНет вроде любишь? Lucene, правда, на жабе.
Цитата: Hellerick от января 9, 2011, 16:41
А я думал, вы про латинский словарь говорите.
Цитата: Алексей Гринь от января 9, 2011, 16:24
Этакий эллинский комбайн.
:)
Цитата: myst от января 9, 2011, 16:42
Загони его в базу данных. И проще и эффективнее.
Я в реляционных базах данных вообще ни гу-гу. Объектную ещё можно какую-нибудь... Что-то вроде (wiki/ru) Lucene (http://ru.wikipedia.org/wiki/Lucene) , мб, лучше будет?
ps.
Цитата: myst от января 9, 2011, 16:45
Так ты же дотНет вроде любишь? Lucene, правда, на жабе.
Есть порт Lucene.NET.
Не, если у кого есть база получше, чем у меня — говорите.
Потребуется учёт морфологии для поиска. Иначе пичаль.
Ты себе представляешь учёт греческой морфологии⁈ :o
Цитата: Алексей Гринь от января 9, 2011, 16:46
Я в реляционных базах данных вообще ни гу-гу. Объектную ещё можно какую-нибудь... Что-то вроде (wiki/ru) Lucene , мб, лучше будет?
Lucene — это же полнотекстовый поиск. А если обычный словарь (ключ — статья), то нафига полнотекстовый поиск?
Цитата: Bhudh от января 9, 2011, 16:49
Ты себе представляешь учёт греческой морфологии⁈ :o
А в чём проблема? Нужен всего лишь преобразователь в основную форму. Хотя от него до полного инфлектора один шаг.
Полнотекстовый поиск по внутреннему содержанию статей чем плох? Напр. в статьях даются некоторые полезные словосочетания. Я хочу искать и по ним.
Напр., в статье ψιλός мы может узнать, что ψιλός τὴν κεφαλήν это лысый. Я хочу иметь возможность находить и это.
Короче, я для русского зафигачил таблицу словоформ. Получилось около 3 млн. строк и 200 мегабайт (+120 мегабайт индексы) в SQLite.
Цитата: mystLucene — это же полнотекстовый поиск. А если обычный словарь (ключ — статья), то нафига полнотекстовый поиск?
Там куча отрывков текстов в примерах.
Да и сами тексты было бы полезно, чтобы примерами не ограничиваться.
Цитата: mystНужен всего лишь преобразователь в основную форму. Хотя от него до полного инфлектора один шаг.
В греческом «всего лишь» — это полноценный языковой анализатор...
Цитата: mystКороче, я для русского зафигачил таблицу словоформ.
Для греческого таблица будет больше (да ещё диалектные формы).
Цитата: Алексей Гринь от января 9, 2011, 16:52
Полнотекстовый поиск по внутреннему содержанию статей чем плох?
Я не говорю, что он плох. Просто, классический словарный поиск тоже должен быть.
Цитата: Bhudh от января 9, 2011, 16:49
Ты себе представляешь учёт греческой морфологии⁈ :o
Да она простая же. Другое дело что, всё-таки, текущий формат словаря заставит применить много хитрого парсинга, чтобы выудить информацию по морфологии.
Цитата: Bhudh от января 9, 2011, 16:52
Там куча отрывков текстов в примерах.
Да и сами тексты было бы полезно, чтобы примерами не ограничиваться.
Я считаю, что надо сразу отделить мух от котлет. А то получится помойка как в Lingvo. То есть транскрипция отдельно, примеры отдельно, лексические значения отдельно и т. д. Чтобы можно было гибко настраивать выборку. Вся словарная статья обычно не нужна. И вообще, нафига примеры, если у нас корпус будет?
Цитата: Алексей Гринь от января 9, 2011, 16:56
Да она простая же. Другое дело что, всё-таки, текущий формат словаря заставит применить много хитрого парсинга, чтобы выудить информацию по морфологии.
Если найти аналог mystem для греческого, то всё сильно упростится.
Цитата: Алексей ГриньДа она простая же.
Цитата: πείθω (fut. πείσω, aor. 1 ἔπεισα, aor. 2 ἔπῐθον, pf. πέπεικα; эп. imper. aor. 2 πέπιθε; эп. opt. πεπίθοιμι; med.: aor. 2 ἐπιθόμην; pass.: fut. πεισθήσομαι, aor. ἐπείσθην, pf. πέπεισμαι, pf. 2 πέποιθα)
Простая, ага... :yes:
Цитата: myst от января 9, 2011, 16:52
Короче, я для русского зафигачил таблицу словоформ. Получилось около 3 млн. строк и 200 мегабайт (+120 мегабайт индексы) в SQLite.
Какой-то брутфорс.
Цитата: myst от января 9, 2011, 16:58
И вообще, нафига примеры, если у нас корпус будет?
В примерах задаётся художественный перевод, а в корпусе? Ну, если найдёте что-то такое... С подстрочником...
Цитата: Bhudh от января 9, 2011, 17:01
Простая, ага...
Ну так вот тут вся информация и выдана уже. По таблице заменяешь окончания — и делов.
http://www.kalos-software.com/
Цитата: Алексей Гринь от января 9, 2011, 17:02
В примерах задаётся художественный перевод, а в корпусе? Ну, если найдёте что-то такое... С подстрочником...
Да, действительно. :)
WordNet — прикольная штука.
Цитата: Алексей Гринь от января 9, 2011, 17:02
Какой-то брутфорс.
Генератор на основе правил только сложнее и геморнее.
Главное — продумать внутреннюю структуру словаря, чтобы можно было из влекать только ту информацию, которая нужна. Словарная статья, в которую всё напихано абы как,— это прошлый век.
Пишешь πείθω, он динамически определяет таблицу спряжения (при расширенном поиске) из словарной статьи, затем ищется для каждого случая вариант — в словаре или корпусе. Что здесь трудноосуществимого? Может быть, я чего-то не понимаю.
Цитата: myst от января 9, 2011, 17:03
http://www.kalos-software.com/
Я же сказал, не отсылать ни куда.
ЦитироватьKalós is a free Classic Greek Dictionary, trilingual, with definitions in English, French and Spanish. It contains approximately 25,000 entries
В моём слваре 75 тыщ.
А таблицы у меня есть... В книжке.
Цитата: Алексей Гринь от января 9, 2011, 17:11
Пишешь πείθω, он динамически определяет таблицу спряжения (при расширенном поиске) из словарной статьи, затем ищется для каждого случая вариант — в словаре или корпусе. Что здесь трудноосуществимого? Может быть, я чего-то не понимаю.
Я тебе предлагаю найти готовый лемматайзер или инфлектор и заюзать его. Свой с блекджеками пожет подождать.
Цитата: myst от января 9, 2011, 17:07
Цитировать-то брутфорс.
Генератор на основе правил только сложнее и геморнее.
Зато не требует сотен мегабайт диска.
Цитата: myst от января 9, 2011, 17:13
Я тебе предлагаю найти готовый лемматайзер или инфлектор и заюзать его. Свой с блекджеками пожет подождать.
Который?
Цитата: Алексей Гринь от января 9, 2011, 17:12
Я же сказал, не отсылать ни куда.
Ты хочешь всё делать из руды? Ну, смотри...
Цитата: Алексей Гринь от января 9, 2011, 17:14
Зато не требует сотен мегабайт диска.
У тебя приступ экономии на скрепках? :)
Я просто предлагаю тебе стратегию не делать всё сразу с нуля, но взять по возможности готовые блоки и сделать из них прототип.
Тему надо бы перенести в Компьютерную лингвистику.
Цитата: myst от января 9, 2011, 17:14
У тебя приступ экономии на скрепках?
В любом случае придётся откуда-то программного извлекать данные для слова и строить таблицу. Не думаю, что есть готовые списки. Я не понимаю, зачем делать это одним проходом на весь словарь, сжирая сотни мегабайт, если можно делать по требованию для определённого слова?
Цитата: myst от января 9, 2011, 17:16
Я просто предлагаю тебе стратегию не делать всё сразу с нуля, но взять по возможности готовые блоки и сделать из них прототип.
Ну так ты предложи готовую библиотеку, которую можно было бы подключить :) Я только знаю или веб-сервисы, или готовые программы.
Цитата: mystГлавное — продумать внутреннюю структуру словаря, чтобы можно было из влекать только ту информацию, которая нужна.
Синтаксис — ;up:.
Короче, это всё мелочи. Оба случая примерно равносильны. Единственное, генератор можно научить эвристикам, а таблицу придётся ручками пополнять. Надо поискать библиотеку для греческой морфологии, а там видно будет.
Цитата: Bhudh от января 9, 2011, 17:20
Синтаксис — ;up:.
Опять к моим опечаткам пристаешь? :(
А это опечатка⁈
Цитата: Bhudh от января 9, 2011, 17:23
А это опечатка⁈
из влекать? А ты как думаешь? :)
«Выволакивать из». Я думал, ты прикололся.
Ничо нипонил. :donno:
Не засоряем тему, токарищи.
А по сути, нафиг оно нужно на первых порах. Можно и просто искать так, как есть.
Вы меня путаете.
Идите нафиг, пошёл писать морфологию для существительных :) Посмотрим, что выйдет.
А то я тут нашёл одну либу, так она например игнорирует акценты... Бред.
Цитата: Алексей Гринь от января 9, 2011, 17:33
А по сути, нафиг оно нужно на первых порах. Можно и просто искать так, как есть.
Вы меня путаете.
Ну ты же собрался комбайн делать. Ведь инфлектор можно и как справочник юзать.
Цитата: Алексей Гринь от января 9, 2011, 17:38
Идите нафиг, пошёл писать морфологию для существительных :) Посмотрим, что выйдет.
А то я тут нашёл одну либу, так она например игнорирует акценты... Бред.
Так бы сразу и признался, что на велосипеды потянуло. ;)
Если бы это был велосипед, я бы уже что-то в сети нашёл.
К тому же, не в велосипедостроении дело. Если даже либа и есть, то у ней обязательно будут какие-то проблемы. Или она не в юникоде, а в каком-то странном шрифте и кодировки; или она игнорирует ударение; или у ней есть только существительные, а глаголы не доделаны и т.п. Я вот поискал немного и толлько такое нашёл.
Цитата: Алексей Гринь от января 9, 2011, 17:44
Если бы это был велосипед, я бы уже что-то в сети нашёл.
Я по русской морфологии заколебался искать, а ты говоришь: «Сразу».
Если ты русскую морфологию заколебался искать, то греческой и подавна нет.
А ты по моей ссылке ходил? Там вроде есть морфология.
В виде библиотеки?
А, да.
А-а-а! Там расширение .koi! :uzhos:
Цитата: Bhudh от января 9, 2011, 18:22
А-а-а! Там расширение .koi! :uzhos:
Это не то, что ты подумал.
Чой-то оно не особо быстрое, мяхка оворя. :(
Фи, её пропустили через обфускатор. Фтопку! Хотя базу данных можно и упереть.
Цитата: mystЧой-то оно не особо быстрое, мяхка оворя.
Даже у тебя⁈ Тормознутое, да...
Цитата: mystФи, её пропустили через обфускатор.
Вообще, почему эта шара себя фрёй именует? Обнаглели совсем.
Запрототипил определение типа ударения (периспоменон, оксютонон и т.п.) Пока на сегодня хватит :)
Как там успехи?
Кстати, кроме Lucene вроде есть Sphinx. Подробностей не вем.
Короче, энтузиазма много, а сил и времени немного, поэтому Alpha Reloaded трансформируется в вики-проект «Древнегреческий язык». В данный момент я занимаюсь переливкой словаря Дворецкого в вики-формат.
Посмотрите тут: http://lingvowiki.info/w/Словарь_древнегреческого_языка (http://lingvowiki.info/w/%D0%A1%D0%BB%D0%BE%D0%B2%D0%B0%D1%80%D1%8C_%D0%B4%D1%80%D0%B5%D0%B2%D0%BD%D0%B5%D0%B3%D1%80%D0%B5%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B3%D0%BE_%D1%8F%D0%B7%D1%8B%D0%BA%D0%B0)
Посмотрите разметку, что можно изменить (пока я не залил все 141 части), есть ли ошибки конвертации.
И ещё некоторые замечания.
Во-первых, мне не нравится бхудхов шрифт в шаблоне lang-gr2 (палатино линотайп у меня выбирается, вроде), т.к. какой-то он плохо читаемый, если текста много. Особенно это видно, если заголовки статей тоже используют этот шрифт, получается ещё нечитаемее. Сам я привык к Lucida Sans Unicode или Arial Unicode MS. Давайте поменяем там приоритеты в списке.
Во-вторых, я сделал шаблон для заголовочных слов статей, называется он Шаблон:ДГ. Пока это рыба, но надеюсь потом можно будет найти для него применение (для какой-то индексации, может быть).
Сразу несколько вопросов.
Уже заведена директория Словарь/ (см. тестовые Словарь/zh/子 (http://lingvowiki.info/w/%D0%A1%D0%BB%D0%BE%D0%B2%D0%B0%D1%80%D1%8C/zh/%E5%AD%90) и Словарь/ukr/лайно (http://lingvowiki.info/w/%D0%A1%D0%BB%D0%BE%D0%B2%D0%B0%D1%80%D1%8C/ukr/%D0%BB%D0%B0%D0%B9%D0%BD%D0%BE)), почему не сделать Словарь/grc/
слово для каждого слова? Муторно, понимаю, но не обязательно ж сразу⁈ (И, кстати, может, ты можешь написать бота под это дело?)
Второй: а чего это у заглавных букв диакритика не комбинированная? Ошибка конвертации? Кстати, откуда? Из Лингво, что ли? Я бы копипастил из Альфы... Там с этим порядок.
Далее... Так ли в заглавном слове нужны долготы над α ι υ? Может, вынести их в скобки, как в Альфе с диакритизированными сделано?
Далее. Что делать с глоссами Гесѵхия (http://el.wikisource.org/wiki/%CE%93%CE%BB%CF%8E%CF%83%CF%83%CE%B1%CE%B9)? Отдельной папкой в Источники или можно как-то в Словарь/grc?
Окромя Гесѵхия и ещё разные источники глосс есть. Вон, читаю Тронского, он приводит заимствования из сикульского, сунулся в Дворецкого — ан шиш!
Цитата: Алексей Гриньмне не нравится бхудхов шрифт в шаблоне lang-gr2
Ну что поделать, не терплю я санс-серифа в эллинице...
А в латинице и кириллице наоборот.
Может, в lang-gr{2} класс всунуть и в личных стилях вид менять? (Отдельным параметром слишком муторно получится.)
Цитата: Bhudh от февраля 25, 2011, 20:28
Муторно, понимаю, но не обязательно ж сразу⁈
Никто этим заниматься не будет, как главный энтузиаст говорю.
Цитата: Bhudh от февраля 25, 2011, 20:28
(И, кстати, может, ты можешь написать бота под это дело?)
Я вообще не знаю, как в вики устроены боты.
Цитата: Bhudh от февраля 25, 2011, 20:28
Второй: а чего это у заглавных букв диакритика не комбинированная?
Это так важно?
Цитата: Bhudh от февраля 25, 2011, 20:28
Ошибка конвертации? Кстати, откуда? Из Лингво, что ли?
Да хз, на диске валялся html-документ — то ли сам из Альфы конвертнул, то ли скачал, не помню. С помощью скриптика перевёл html в wiki (в принципе wiki-движок понимал html-представление и без изменений, но wiki-разметка занимает меньше места, плюс добавил шаблон {{gr2|}} для греч. текста (уменьшенная версия от {{lang-gr2}}, чтобы меньше места занимало)).
В оригинальном документе все греческие буквы были представлены в виде &#XXX; я их схлопнул в нормальное представление, о комбинации как-то не подумал.
Цитата: Bhudh от февраля 25, 2011, 20:28
Так ли в заглавном слове нужны долготы над α ι υ?
Например? Дай пример из существующей статьи на вики.
Цитата: Bhudh от февраля 25, 2011, 20:28
Может, вынести их в скобки, как в Альфе с диакритизированными сделано?
Можно, но я уже залил 43 страницы, поэтому только с помощью бота в Википедии in place, но я их не умею, как уже сказал.
Цитата: Bhudh от февраля 25, 2011, 20:28
Что делать с глоссами Гесѵхия? Отдельной папкой в Источники или можно как-то в Словарь/grc?
Я только на полпути сообразил, что лучше бы уточнить, т.е. назвать «Древнегреческо-русский словарь»... Или всё переименовать, чтобы не было недопонимания, или оставить как название подпроекта, а не имя конкретной реалии. Ведь Гесихий это вроде «Толковый словарь древнегреческого», получается.
В принципе если Гесихий не добавляет ничего нового, то в общий словарь незачем впихивать. Избыточно. Если же добавляет какое-то новое значение, то можно дописать.
А так, как сочинение вообще, лучше параллельно от греч.-рус. словника иметь.
Цитата: Bhudh от февраля 25, 2011, 20:28
Окромя Гесѵхия и ещё разные источники глосс есть. Вон, читаю Тронского, он приводит заимствования из сикульского, сунулся в Дворецкого — ан шиш!
То же самое — если в Дворецком нет, то можно смело добавлять, главное чтобы внешним видом было так же, а также бы правильно сделать специальную помету, что это supplementum, в онлайн-Liddel-Scott есть спецзначок типа крестика, посмотри.
Цитата: Bhudh от февраля 25, 2011, 20:28
Может, в lang-gr{2} класс всунуть и в личных стилях вид менять? (Отдельным параметром слишком муторно получится.)
ЛУчше не надо. Т.к. есть анонимы без стилей.
Цитата: Bhudh от февраля 25, 2011, 20:28
Ну что поделать, не терплю я санс-серифа в эллинице...
НУ реально палатино плохо читаем... Буквы слишком округлые и я вижу одни круги вместо букв. Хотя может это дело привычки.
Я в словаре проставил Arial Unicode MS. У него нет проблем с показом? А то Lucida Sans Unicode почему-то в википедии не отображал диакритику у меня, хотя на ЛФ всё ок. В эт их веб-делах не очень смыслю.
Цитата: Алексей ГриньЯ вообще не знаю, как в вики устроены боты.
(wiki/ru) Википедия:БотТам и под .NET вроде есть подвижки.
Цитата: Алексей ГриньЭто так важно?
Да просто нелогично: у строчных комбайн, а у прописных декомпоз...
Цитата: Алексей ГриньДай пример из существующей статьи на вики.
Цитата: http://wiki.lingvoforum.net/w/Словарь_древнегреческого_языка/8ἀμφι-λᾰχαίνω
Цитата: http://wiki.lingvoforum.net/w/Словарь_древнегреческого_языка/20ἀστῠ-βοώτης
Цитата: http://wiki.lingvoforum.net/w/Словарь_древнегреческого_языка/27γρᾱΐδιον
Страницы открыл наобум.
Последний особенно впечатляет.
Цитата: Алексей Гриньесли в Дворецком нет, то можно смело добавлять
А сейчас-то куда добавлять? Страницы-то нумерованные, а не по алфавиту...
Цитата: Bhudh от февраля 25, 2011, 23:46
ЦитироватьЯ вообще не знаю, как в вики устроены боты.
(wiki/ru) Википедия:Бот
Там и под .NET вроде есть подвижки.
ОК, посмотрю.
Ура, оставшиеся 90 страниц можно залить ботом :)
Цитата: Bhudh от февраля 25, 2011, 23:46
Страницы открыл наобум.
Последний особенно впечатляет
В моей версии альфы так же.
Цитата: Bhudh от февраля 25, 2011, 23:46
ЦитироватьЭто так важно?
Да просто нелогично: у строчных комбайн, а у прописных декомпоз...
Логично-нелогично, но это важно только для ботов, для людей пофиг.
Цитата: Bhudh от февраля 25, 2011, 23:46
А сейчас-то куда добавлять? Страницы-то нумерованные, а не по алфавиту...
Эм...
Заходишь на http://lingvowiki.info/w/Словарь_древнегреческого_языка (http://lingvowiki.info/w/%D0%A1%D0%BB%D0%BE%D0%B2%D0%B0%D1%80%D1%8C_%D0%B4%D1%80%D0%B5%D0%B2%D0%BD%D0%B5%D0%B3%D1%80%D0%B5%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B3%D0%BE_%D1%8F%D0%B7%D1%8B%D0%BA%D0%B0) , выбираешь в содержании локацию слова, переходишь на нужную страницу, редактируешь. В чём проблема? Одну большую статью на целую букву я не могу делать, сервер пишет allocation failed, не осиливает. Щас, пока я не всё долил, выше буквы эпсилон не сможешь добавлять, c'est la vie.
Если страница расползается слишком большой (около 350-400 кб), то подход как в бэйсике: напр., если у текущей страницы номер 121, то создаём новую страницу под числом: 121.0, и аккуратно впихиваем в категоризатор ссылку на неё между номерами 121 и 122. Потом если опять не влезет, то создаём 121.1, 121.2 и т.д.
По алфавиту не могу делать, так как словарь расширяющийся и тогда бы пришлось постоянно страницы переименовывать и всяко-разно тупить...
А тут ещё для бота сказка получается: он может пройтись по всему словарю, просто итерируя по числам.
А Α.001‥Α.002‥Α.122...Ω.024 кто мешает сделать?
Да, ещё... Может, сокращения авторов с латинских на русские заменить?
Цитата: Bhudh от февраля 26, 2011, 12:00
А Α.001‥Α.002‥Α.122...Ω.024 кто мешает сделать?
Никто не мешает, но так неудобно мне.
Цитата: Bhudh от февраля 26, 2011, 12:00
Да, ещё... Может, сокращения авторов с латинских на русские заменить?
Не пойдёт. Там лат. представление вставлено, чтобы отличать русский текст от имени, ср. текущее:
Цитироватьκρᾰνο-ποιός ὁ мастер шлемов или доспехов Arph.
А будет как?
Цитироватьκρᾰνο-ποιός ὁ мастер шлемов или доспехов Арф.
Шлемов, доспехов и арф. ОК.
У программной альфы стили. Курсив и цвет рулят. А в вики можно ещё и шрифт. И скобки.
И разве Аристофан по-русски так сокращается?
О бот разошёлся!
А потом будет с этими страничками мучаться, SMW выставлять, стили, долготы убирать...
Кстати, шаблон оглавления надо будет сделать.
Цитата: Bhudh от февраля 26, 2011, 12:34
У программной альфы стили. Курсив и цвет рулят.
Где ты в википедии видел такую разноцветную кашу? Это чисто приблуда альфы. Зачем её сюда переносить? В чём её польза? Только ради того, что тебе взбрело в голову перевести латинские сокращения в русские?
Цитата: Bhudh от февраля 26, 2011, 12:34
И разве Аристофан по-русски так сокращается?
А как отличить от Аристотеля иначе?
Цитата: Bhudh от февраля 26, 2011, 12:44
А потом будет с этими страничками мучаться
У тебя есть какие идеи как не «мучаться»?
Боту-то пофиг, сколько и чего. Единственно что на это уходит время.
Цитата: Bhudh от февраля 26, 2011, 12:44
SMW выставлять
Вот сначала придумай, что вставлять (а зачем), а уж потом будем это делать. Не могу ждать.
Цитата: Bhudh от февраля 26, 2011, 12:44
стили
Не нужно.
Цитата: Bhudh от февраля 26, 2011, 12:44
долготы убирать
Не нужно.
Ну всё, дозалил наконец! Осталось оглавление сделать.
Только щас дошло, что имелось в виду под декомпозированными заглавными буквами.
Это судя по-всему ошибка OCR при оцифровании — оно посчитало буквы не за один знак, а за два. Я тут ни при чём, т.к. не я оцифровывал :)
А я-то сначала думал о другом...
Всё, полностью залит.
http://lingvowiki.info/w/Словарь_древнегреческого_языка (http://lingvowiki.info/w/%D0%A1%D0%BB%D0%BE%D0%B2%D0%B0%D1%80%D1%8C_%D0%B4%D1%80%D0%B5%D0%B2%D0%BD%D0%B5%D0%B3%D1%80%D0%B5%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B3%D0%BE_%D1%8F%D0%B7%D1%8B%D0%BA%D0%B0)
Там небольшая непонятка с грекоцифрами.
Нижний NUMERAL SIGN правильно распознан — как &#x0375; (͵), а верхний как MODIFIER LETTER PRIME (&#x02B9; ʹ), а не как &#x0374; (ʹ).
Ну это поручим боту поменять. Нужно щас собрать инфу, какую нужно боту, чтобы поменять в один прогон.
Сюда записывай: http://lingvowiki.info/w/Словарь_древнегреческого_языка/Задачи_боту (http://lingvowiki.info/w/%D0%A1%D0%BB%D0%BE%D0%B2%D0%B0%D1%80%D1%8C_%D0%B4%D1%80%D0%B5%D0%B2%D0%BD%D0%B5%D0%B3%D1%80%D0%B5%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B3%D0%BE_%D1%8F%D0%B7%D1%8B%D0%BA%D0%B0/%D0%97%D0%B0%D0%B4%D0%B0%D1%87%D0%B8_%D0%B1%D0%BE%D1%82%D1%83)
Что делать с {{Gr2}}? Не избыточен ли он? Из-за него страница много весит, и сама редакция тормозит. Так ли он нужен? Т.е. разные браузеры могут показывать неправильно, если оставить текст голым? Что если для всего текста на странице поменять шрифт разом? Т.е. один большой {{gr2}} на страницу? Короче, я хочу облегчить страницы.
Так, Bhudh, можно сделать так:
* переименовываем «Словарь древнегреческого языка» в «Книги/Древнегреческо-русский словарь Дворецкого»
* оставляем его как нетронутый викифицированный источник, т.е. придётся Тронского опять убрать
Но, с другой стороны:
* плодим отдельные страницы на каждое слово в Словарь/grc/XXX, натравив бота на Дворецкого, и вот уже тут можем править содержание статей как хотим.
Цитата: Алексей Гринь* переименовываем «Словарь древнегреческого языка» в «Книги/Древнегреческо-русский словарь Дворецкого»
* оставляем его как нетронутый викифицированный источник
Смысл? Он нужен конкретно как книга?
Ты гляди, помимо Тронского (там-то мало...) у меня куча диалектных словариков в запасе... И фригийский с фракийским не знаю куда совать...
Цитата: Алексей ГриньЧто делать с {{Gr2}}? Не избыточен ли он? Из-за него страница много весит, и сама редакция тормозит. Так ли он нужен? Т.е. разные браузеры могут показывать неправильно, если оставить текст голым? Что если для всего текста на странице поменять шрифт разом? Т.е. один большой {{gr2}} на страницу?
А divʼом обделать каждую страницу, как в книгах?
Цитата: Bhudh от февраля 26, 2011, 17:32
Ты гляди, помимо Тронского (там-то мало...) у меня куча диалектных словариков в запасе... И фригийский с фракийским не знаю куда совать...
Так я что предлагаю — мы храним отдельные словари (дворецкого, твои диалектные) как законченные произведения соответствующих авторов (т.е. как «источники»), а самую-пресамую полную компиляцию мы делаем уже в собственном словаре вида «Словарь/grc/X». Там уже хоть чё добавляй, хоть ПИЕ-праформу.
Ну диалектные-то не мои, а англовикские, но в общий их, конечно, стоит засунуть...
Чего-й-то ЛВ затормозила...
А у меня навигационный шаблон недоделанный висит...
Зацени http://lingvowiki.info/w/Словарь_древнегреческого_языка/141 (http://lingvowiki.info/w/%D0%A1%D0%BB%D0%BE%D0%B2%D0%B0%D1%80%D1%8C_%D0%B4%D1%80%D0%B5%D0%B2%D0%BD%D0%B5%D0%B3%D1%80%D0%B5%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B3%D0%BE_%D1%8F%D0%B7%D1%8B%D0%BA%D0%B0/141)
Норм?
У меня готов скрипт для удаления gr-2 и замены на div. Жду только команды. Заодно могу вставить {{:Словарь древнегреческого языка/Шаблон:Навигация}}
Цитата: Алексей ГриньЗацени http://lingvowiki.info/w/Словарь_древнегреческого_языка/141
Цитата: Код http://lingvowiki.info/w/Словарь_древнегреческого_языка/141<div style="font-family:Arial Unicode MS;">'''{{ДГ|ὤφελον}}
<...>
{{ДГ|
<...>
{{ДГ|
<...>
{{ДГ|
<...>
Цитата: Код Шаблон:ДГ{{Gr2|{{{1}}}}}
Цитата: Код Шаблон:Gr2style="font-family:'Arial Unicode MS';"
Оригина-ально...
Цитата: Алексей ГриньЗаодно могу вставить {{:Словарь древнегреческого языка/Шаблон:Навигация}}
Пока не надо, он недоделанный.
С функциями парсера никак не разберусь.
Цитата: Bhudh от февраля 26, 2011, 20:20
Оригина-ально...
Не успел подчистить.
Цитата: Bhudh от февраля 26, 2011, 20:20
Пока не надо, он недоделанный.
Потом опять мучать бота и сервер?
Всё, на первую (0) и последнюю (141) страницы поставил, а по всем остальным можешь бота прогонять, со стандартным шаблоном:
{{:Словарь древнегреческого языка/Шаблон:Навигация|№ страницы}}
внизу страницы.
Ссылка изменена, ежли что: http://lingvowiki.info/w/Книги/Древнегреческо-русский_словарь_Дворецкого (http://lingvowiki.info/w/%D0%9A%D0%BD%D0%B8%D0%B3%D0%B8/%D0%94%D1%80%D0%B5%D0%B2%D0%BD%D0%B5%D0%B3%D1%80%D0%B5%D1%87%D0%B5%D1%81%D0%BA%D0%BE-%D1%80%D1%83%D1%81%D1%81%D0%BA%D0%B8%D0%B9_%D1%81%D0%BB%D0%BE%D0%B2%D0%B0%D1%80%D1%8C_%D0%94%D0%B2%D0%BE%D1%80%D0%B5%D1%86%D0%BA%D0%BE%D0%B3%D0%BE)