(В первую очередь, я думал только над словарями для конлангов, хотя это ограничение класса языков не обязательно.)
Хочу создать формат для описания словарей приемлемой сложности (чтобы не было лишних вещей, но всё необходимое для качественного словаря было. К примеру, пометки, транскрипция по желанию), т. к. встречал только излишне большие и неподъёмные. Или с неестественной семантикой.
После того, как то, что нужно сделать в формате для словаря, мы обговорим до конца, будет программа для редактирования (хотя недавняя тема Deme. подняла во мне мысль о человекозаписываемом формате), которая будет экспортировать словари в
(при помощи советов Кваса), HTML и прочее по желанию. Техническое: если надо, можно сделать экспорт во что угожно, для чего пользователь написал библиотеку. Или же сделать экспортёры, с учётом открытости формата, прямо из текста словаря, а не из внутреннего представления.
Но меня сейчас интересует структура словаря. Что надо и что не надо. С точки зрения описания в файле. Синтаксис продумаем потом или вместе с.
Помогите! :)
Берём любимые бумажный, электронный словарь и конланг — и в путь!
Средствами Лингвовики можно сделать так, чтобы строчки кода вида
;девочка {{сущ.}} {{ж.р.}} {{ФТ|де́въчкъ}}: girl; lass
отображались бы как
Цитировать
девочка сущ. ж.р. [де́въчкъ]
girl; lass
Или вам нужно что-то более серьезное?
Да, чтобы было немного больше возможностей без их описания текстом. Например, омонимы описывались бы без повторения заглавного слова, можно было бы вставлять, к примеру, примеры употребления и идиомы, указывать неправильно образуемые грам. формы и прочая, прочая; просто это надо сделать как-то естественно, а не так, как в XDXF с кучей не очень-то и нужных в простых, но удобных словарях. К тому же, экспорт в разные форматы или с разным оформлением (что-то показывать, что-то не показывать или сделать, к примеру, список слов, или разделить их как-нибудь на группы по смыслу) остаётся важным.
Самое абстрактное, словарь состоит из какой-то информации о языках оригинала и перевода (а можно в одном содержать два связанных словаря туда и обратно, чтобы ссылки были синхронные), прочего и словарных статей. Статья состоит из списка омонимов, статья об омониме состоит из отдельных кусков схожего значения, примеров и т. п.. Транскрипцию надо, наверно, цеплять к омонимам, а не ниже. Грамматические показатели тоже, наверно, к омонимам. (Всё это дело изменяемое. Это описание того, что я надумал месяцев несколько назад, а потом бросил.)
Мне вот именно детали нужны, потому что хочется, чтобы можно было удобным способом представлять словари. Я изх мало видел, совершенно не представляю, что может понадобиться, а о чём и заикаться не стоит.
Цитата: arseniiv от Транскрипцию надо, наверно, цеплять к омонимам, а не ниже.
Омонимы же не обязательно омофоны.
Или у тебя это значит омограф+омофон?
Вообще-то, наверно, омографы. Я в последнее время запутался, но почему тогда в словарях пишут «омонимы»? Или не пишут?‥
Ну вот тебе словарь (http://lingvopro.abbyyonline.com/ru/Search/en-ru/live).
Вот спасибо, не мог бы ты пояснить мне разницу между а)-б)-... и 1)-2)-..., и как это называется?
О, у них ошибка страшная при показе примеров к переводу. Ткни на яркий.
Не очень понятны все случаи, в которых могут употребляться скобочки (для всех мест).
Где ошибка?
Цитата: arseniiv от не мог бы ты пояснить мне разницу между а)-б)-... и 1)-2)-...
1) Одно из значений
а) Одна нюансина значения;
б) Другая нюансина значения;
2) Другое из значений...
Разве нет?
"You must
live with the memory," she told [me] repeatedly in her heavy German accent.
– Ты обязана хранить память [о нем], – говорила она со своим
ярко выраженным немецким акцентом.
Сравни, какое слово является переводом какого. Я повыделял для простоты отделения. Они ищут неправильно, в общем корпусе, невзирая на такие ляпы!
Мало того, там ещё и
ярко — наречие.
Цитата: Bhudh от декабря 26, 2011, 19:48
1) Одно из значений
а) Одна нюансина значения;
б) Другая нюансина значения;
2) Другое из значений...
Разве нет?
Как надо писать словарь, чтобы это было правильно с таким делением? Не очень ясно, как отделить значения от нюансин. Расскажи, я не знаю секрет! :???
А-а-а! Да, на соответствие всего отрывка внянья не обрал... Каю ся.
Да не тебя надо каять, а... ну их.
Погляди, я там доответил.
Цитата: arseniiv от Как надо писать словарь, чтобы это было правильно с таким делением? Не очень ясно, как отделить значения от нюансин.
В идеале на каждый случай стоит дать простой сочетательный пример-два (с пометой
iPod и под.).
И там уже смотреть, какие досочётные слова могут быть омножены...
Вы с Вадимием постепенно уходите куда-то beyound. Даже я так не писал, честное слово! Не понял смысл высказываний из-за некоторых таинственных элементов. Можно ещё разочек?
В идеале на каждый случай стоит дать простой пример-два на сочетание с теми словами, с которыми в этом значении он может быть сочитаем (с пометой
и под.).
И потом уже смотреть, какие слова, добавленные к сабжу, могут быть объединены в одно множество по смыслу, и означить варианты с ними буквами (второй уровень вложенности, если он нужен, конечно)...
Цитата: arseniiv от Даже я так не писал, честное слово!
Да ладно тебе прибедняться, у меня все
ходы тома записаны! :negozhe:
А мне кажется, словари нельзя подогнать к общему знаменателю. Может быть, стоит взять за основу совершенно конкретный словарь?
Лингво теперь онлайн? Что они с этого имеют?
Цитата: Alone Coder от декабря 26, 2011, 21:04
Лингво теперь онлайн? Что они с этого имеют?
Теперь?
(http://lingvoforum.net/avs/avatar_26721.png) ≈ (http://i043.radikal.ru/1111/91/5b94db50bb00.png) дэсу.
А если я подумаю и решу обидеться?
А чей аватар справа?
/me — Не разводите оффтоп! И ты тоже.
Цитата: arseniiv от Что это значит?
Так мало философских книжок читал?
И под(обные (случаи)).
Цитата: Alone Coder от А если я подумаю и решу обидеться?
Prīmō. ≈ ≠ =.
Sēcūndō. Почему один рисунок должен обижаться на другой?
Цитата: Bhudh от декабря 26, 2011, 21:22
Так мало философских книжок читал?
Не так мало, а 0. :eat: Моя философия вся изнутри!
А чей справа аватар?
Цитата: arseniiv от Ну-ка-ну-ка?
Цитироватьтом I, 1::1-10
том II «Meta», 1::1-4
«Преданея Оффинной Полаты», том Палкапалка, 1000009::7-11
том V «Maniæ», 10::34
том VI, 83::21-27
том VI, 89::31
том XVII «Cjdtns yfxbyf.obv ljvj[jpzqrfv», 2::9
том XLVII, 911::34
том XLIX, 1::201-205
том XLIX, 19::203
том LII «Сказание мудрых», 10::28
том LIII «Кафе "Скверъ"», 13::21-23
Том LIX (восстановленный), 108::301-303
том LXIV, 14::21–22
том LXIV (14:27-34)
том LXIV, 21::1
том LXIX «Pesni i plaski #34452», 9351012
том XCIV «17 wer 96 yg 34 qia», 89::344
том XCIV «17 wer 96 yg 34 qia», 90::2-9
том XCVII «Тайны», 2::14-21
том XCVII «Тайны», 38
том ХССУ11 «D. J. V. U. weraqria», 128::4::51
том СI «Декламировать трагически», 103
том CV «Нобый шлеиф/выд творцества в отвеш»
том CDXXXIX, 89::404
том CDXCVIII, 31::45
том DXLII «Пенсиопеня», 31(::1-12)
том CMLXXXI «☒ Исправлять ДВе ПРописные буквы в начале слова», 92
том MDCVII, 31498
том MMMDCCXII «Бритвы & кфящкы», 931
том MMMDCCCLXXXVIII «Книга, предназначенная для гаданий», 318::14-19
обрывок №28
Это всё опубликованное или я что-то пропустил?
Определённо.
Но я имел в виду список непонятного, предназначенного для понимания как нецитату, относящуюся прямой ниткой к дискуссионной косе.
Цитата: arseniiv от А чей справа аватар?
Не помню.
На форуме нет поиска по аватарам... :'(
Цитата: Bhudh от декабря 26, 2011, 21:29
Определённо да или определённо нет?
Слава богам, от меня ещё не отшибло чутьё языка! :=
Я забыл, пока писал.
Ладно, вообще-то мне кажется, я
писал переписал больше.
Цитата: arseniiv от
вообще-то мне кажется, <...> больше.
Ну, там ещё «Пенсиопеня» тебе на пальцы падал и ты от этого какие-то невестьволюмные обрывки цитировал...
Но я предпочёл конкретику.
Но давай лучше про словарь. А то тему сочтут слишком мокрой (flood там и сям) и уйдут все сушиться.
Достал
записку пухлый томик Мюллера.
Построение словарной статьи.
Простейший пример:
- заглавное слово [træn′skrɪpʃn] грам._помета перево́д
Усложняющие дополнения:
- лексические омонимы отмечены римскими цифрами:
- арабские цифры с точкой выделяют части речи в одной строке:
- 1. a африка́нский 2. n африка́нец; африка́нка
- арабские цифры со скобкой разделяют значения слова:
- a 1) пе́пельный 2) бле́дный
- буква со скобкой разделяет оттенки значния слова или выражения:
- а) заверну́ть за́ угол; б) вы́йти из тру́дного положе́ния; в) благополу́чно перенести́ кри́зис (болезни); г) воен. жарг. дезерти́ровать
Это что касательно цифер и буков. Имеется также куча помет грамматического, семантического и фразеологического характера, кои, думаю, тебе да будут известны.
Мне интересны критерии выделения скобковой конструкции курсивом. Всегда ли? И где она может стоять, а где не может — может, это можно целиком семантизировать, исключив синтаксические скобки в тексте статьи!
И всё же я жажду как можно более полных перечислений. Однако, спасибо тебе большущее!
А транскрипция там везде только у заглавного слова, не глубже?
В англо-русских словарях транскрипция может быть и глубже: perfect [ˈpəːfɪkt]... [pəˈfekt].
В начале словарей бывают указания к использованию, там объясняется, что какими цифрами выделяется.
À propos, словарь как бы для конланга?
Цитата: arseniiv от А транскрипция там везде только у заглавного слова, не глубже?
Гетерофоны чаще всего даются с римскими цифрами и считаются отдельными словарными статьями, в т. ч. такие случаи, как
live и
read.
В приведённом Квасом примере (спасибо!) транскрипция идёт после арабских цифр с точкой, подстатьи которых, кстати, всегда даются отдельными абзацами (так что про «отдельную строку»: это недосмотр составителей):
- 1. a [′pɜ:fɪkt]
- 2. n [′pɜ:fɪkt]
- 3. v [pə′fekt]
Цитата: Квас от декабря 26, 2011, 22:50
À propos, словарь как бы для конланга?
Хочется удовлетворить наибольшее из возможных число желающих словарить. Я знаю, что это нереально...
И как мне разделять те два варианта растранскрипчивания слов, можно ли выбрать один? (Голова уже начинает тормозить.)
По сути, транскрипцию можно сделать необязательным параметром значения любого уровня вложенности. (И обязательным — первого.) Пропущенный параметр автоматически приравнивается последнему непропущенному.
Разделения при это не потребуется вовсе.
Цитата: Bhudh от декабря 26, 2011, 23:48
(И обязательным — первого.)
И тут тоже не-. Если язык французского вида (видел французский словарь!) — можно по правилам читать почти все слова кроме мааленького числа матерных.
Цитата: Bhudh от декабря 26, 2011, 23:48
значения любого уровня вложенности.
Но вот не слишком ли это сложно ляжет на реализацию?‥
Потому и скобки. Подразумелся английский.
Французский я тоже видел. Даже научился читать и поразился, насколько чтение логичнее английского, несмотря на мозгодробительную орфографию.
Цитата: arseniiv от Но вот не слишком ли это сложно ляжет на реализацию?‥
А что сложного-то⁈ Если всякий тип текста будет выделяться чем--то подобным тэгам, то сложного не вижу...
Цитата: arseniiv от декабря 26, 2011, 23:04
Цитата: Квас от декабря 26, 2011, 22:50À propos, словарь как бы для конланга?
Хочется удовлетворить наибольшее из возможных число желающих словарить. Я знаю, что это нереально...
Мой вопрос к тому, что для конланга имело бы смысл ориентироваться на хорошие словари классических языков.
А удовлетворить всех действительно невозможно, да и вряд ли нужно к этому стремиться.
И как с классическими?
От так:
Ога, примеров побольше.
Оксфордский устроен так. Основные значения разделены жирными арабскими. Подзначения (одно и то же значение в разных контекстах) разделены жирными буквами, причём буква a присутствует только в том случае, когда все значения примерно равноправны. После каждой цифры идёт много примеров без перевода и со спорадическими комментариями; эти примеры разбиты по буквам-подзначениям.
А ещё Форчеллини люблю, хотя его метода, наверно, устарела. Чтобы описать, надо собраться с силами.
А чем вас викисловарь не устраивает?
Громоздкостью.
Цитата: Квас от декабря 27, 2011, 01:51
После каждой цифры идёт много примеров без перевода и со спорадическими комментариями; эти примеры разбиты по буквам-подзначениям.
Т. е. «
1 а значения;
б значения; ...
а примеры;
б примеры»?
Цитата: arseniiv от декабря 27, 2011, 08:31
Цитата: Квас от декабря 27, 2011, 01:51После каждой цифры идёт много примеров без перевода и со спорадическими комментариями; эти примеры разбиты по буквам-подзначениям.
Т. е. «1 а значения; б значения; ... а примеры; б примеры»?
Ага, только буквы латинские. Или:
1 значения;
б значения; ... примеры;
б примеры
Мои соображения:
а) делать общий формат бессмысленно, так как он будет тяжеловесным; лучше придумывать для каждого словаря свой формат;
б) ценность формата—в сделанных на нём словарях; просто формат без словарей не нужен.
Цитата: Квас от декабря 26, 2011, 21:01
А мне кажется, словари нельзя подогнать к общему знаменателю. Может быть, стоит взять за основу совершенно конкретный словарь?
:+1:
Например, мне нравится формат словаря CEDICT:
традиционноеНаписание упрощённоеНаписание [пиньинь] /перевод/перевод/Дополнительные вещи оформляются как переводы в спецформате; например, счётные слова пишутся так:
трад упр [пиньинь] /перевод/CL: трад|упр[транскр]/Цитата: arseniiv от декабря 26, 2011, 23:04
Хочется удовлетворить наибольшее из возможных число желающих словарить. Я знаю, что это нереально...
Ну так опросите своих желающих и уже тогда делайте с учётом того, что им надо. А если желающих нет, то с чего Вы взяли, что это вообще кому-то нужно?
Цитата: Alone Coder от декабря 27, 2011, 07:46
А чем вас викисловарь не устраивает?
Викисловарь неудобен и для редактирования (шаблоны сложно освоить), и для использования (экспортировать его в нормальный формат сложно; приходится читать на сайте, где минимум информации размазан на 3000 пикселей).
А всё потому, что МедиаВики не для словарей.
Скорее бы sysko доделал yadict...
Цитата: Alone Coder от декабря 26, 2011, 21:04
Лингво теперь онлайн? Что они с этого имеют?
Рекламу своих продуктов.
Цитата: Alone Coder от декабря 26, 2011, 21:17
А если я подумаю и решу обидеться?
Слоупоки сначала ме-е-е-едленно думают, а потом обижаются, когда все уже забыли, на что они обиделись. ;D
Цитата: Demetrius от декабря 27, 2011, 10:19
а) делать общий формат бессмысленно, так как он будет тяжеловесным; лучше придумывать для каждого словаря свой формат
А я буду подобен создателям Lua. Потому и спрашиваю. Если я выкину всё, то будет неудобно пользоваться, вот хочу как-то сбалансировать.
Цитата: Demetrius от декабря 27, 2011, 10:19
б) ценность формата—в сделанных на нём словарях; просто формат без словарей не нужен
Конечно. Собственно, я задумываюсь о формате только из-за того, что боюсь, что ожидаемый конланг завянет тихо без лексики. И так случается...
Может, можно как-то обобщить много видов словарей так, чтобы легко можно было писать по-разному?‥
Цитата: arseniiv от декабря 27, 2011, 13:47
Цитата: Demetrius от декабря 27, 2011, 10:19а) делать общий формат бессмысленно, так как он будет тяжеловесным; лучше придумывать для каждого словаря свой формат
А я буду подобен создателям Lua. Потому и спрашиваю. Если я выкину всё, то будет неудобно пользоваться, вот хочу как-то сбалансировать.
Вот и ответ. Пиши на Lua. :)
Цитата: arseniiv от декабря 27, 2011, 13:47
Собственно, я задумываюсь о формате только из-за того, что боюсь, что ожидаемый конланг завянет тихо без лексики. И так случается...
Может, сделать толковый словарь типа Oxford Advanced Learner's Dictionary?
А что его отличает от других?
В общем, в одном из главных мне помогли: пометки в скобках и курсивом могут находиться в любом месте, и не надо извращаться с семантичностью для них.
Цитата: arseniiv от декабря 27, 2011, 13:58
А что его отличает от других?
Через базовую лексику (около трёх тысяч слов) объясняются все остальные.
Так и конланг обкатается. ;)
Надо сначала базовую лексику соорудить. :)
Тфу, совсем разленился. Вот чего я жду? Я жду, что кто-то за меня по полученной информации напишет спецификацию формата. Самое интересное уже готов отдать! :-\ Хотя нет, я просто семплы весь день искал и слушал.
Цитата: Квас от декабря 27, 2011, 21:45
Через базовую лексику (около трёх тысяч слов) объясняются все остальные.
Так и конланг обкатается
Сначала для русского такой надо составить.
A. C., только не заоффтопливайте тему плановым русским.
:D
Не умею я темы без оффтопа создавать.
Проба.
word
- слово
: long word - длинное слово
:: word word word word - сломя голову бежать вредно
-- фраза
- :филос: изречение :(в метафизическом смысле):
homonym/1
...
:syn synonym
:ant antonymm, antonymmmm
homonym/2
...
worrrd
= :past от: homonym/2
Угадайте смысл и придумайте, куда прицепить остальное. И покритикуйте синтаксис.
Нифига не понятно. В чем отличиее - слов, : длинных слов и -- фраз?
: для помет очень, очень плохо. Ведь : может встречаться в словарной статье. Придётся придумывать сложные правила, когда оно что значит, и в них всё равно люди будут путаться.
Встрѣчал слѣши в какствѣ скоб.
Где транскрипция? Где этимология? Где тип склонения/спряжения? Где переводы на языки мира? Когда добавите, будет то же, что в Викисловаре. Идите сразу в Викисловарь.
Цитата: Alone Coder от декабря 30, 2011, 10:14
Где транскрипция? Где этимология? Где тип склонения/спряжения? Где переводы на языки мира? Когда добавите, будет то же, что в Викисловаре. Идите сразу в Викисловарь.
Нет, сделать
такой фейл, как в Викисловаре, не так-то просто.
Для того, чтобы сделать формат Викисловарь, надо:
а) сделать совместимость с громоздким языком разметки, который позволяет включать в себя возможность ещё один язык, который ещё сложнее распарсить: пусть пользователи будут иметь возможность сделать что-то <b>неправильно</b>, тогда работа редакторов будет '''заметна''';
б) сделать всю функциональность через механизм шаблонов для обхода этих недостатков, причём всё с таким же {{идиотским|{{{синтаксисом}}}}}: пусть пользователи запомнят с десяток {{слов|которые={{нужны|для=минимального редактирования}}}}.
Ну и банально ужасно неудобный интерфейс:
а) все языки в одном месте,
б) все переводы в одном месте.
А всё потому, что МедиаВики банально не предназначена для создания словарей.
Не говоря о том, что у Викисловаря есть вещи помимо формата, которые могут помешать: а) копилефтная лицензия, б) туда вообще конланги пускают?
Цитата: Demetrius от декабря 30, 2011, 11:29
Ну и банально ужасно неудобный интерфейс:
а) все языки в одном месте,
б) все переводы в одном месте.
Это как раз удобно. Я как двуязычный словарь использую. А интервики - вообще ня.
Цитата: Demetrius от декабря 30, 2011, 11:29
туда вообще конланги пускают?
Интерлингву и эсперанто и пускают.
Цитата: Alone Coder от декабря 30, 2011, 11:34
Это как раз удобно. Я как двуязычный словарь использую. А интервики - вообще ня.
Интервики-то ня, не спорю, но для толкований. А вот то, что в каждом языковом куча информации дублируется и никак не синхронизируется—это совсем не ня.
Цитата: Alone Coder от декабря 30, 2011, 11:34Интерлингву и эсперанто и пускают.
Ну, это крупные, established конланги, со своими кодами.
А Арсений свой формат ориентирует в первую очередь на маленькие конланги одного человека, насколько я понял.
Цитата: Demetrius от декабря 30, 2011, 11:45
А вот то, что в каждом языковом куча информации дублируется
Какая? Этимологии все в шаблонах.
Я имею в виду переводы одного и того же слова в разных языковых разделах.
Я потом перепишу всё сначала, только не знаю как.
Хм, создав-таки формат, он оказался очень похожим на мои предыдущие наброски на этой странице... Феноменально!
[На самом деле, если точно считать схожесть, получится вполне такая случайная 50/50.]