Лингвофорум

Лингвоблоги => Личные блоги => arseniiv => Topic started by: arseniiv on December 26, 2011, 15:59

Title: Словарь
Post by: arseniiv on December 26, 2011, 15:59
(В первую очередь, я думал только над словарями для конлангов, хотя это ограничение класса языков не обязательно.)

Хочу создать формат для описания словарей приемлемой сложности (чтобы не было лишних вещей, но всё необходимое для качественного словаря было. К примеру, пометки, транскрипция по желанию), т. к. встречал только излишне большие и неподъёмные. Или с неестественной семантикой.

После того, как то, что нужно сделать в формате для словаря, мы обговорим до конца, будет программа для редактирования (хотя недавняя тема Deme. подняла во мне мысль о человекозаписываемом формате), которая будет экспортировать словари в [tex]\text{\TeX}[/tex] (при помощи советов Кваса), HTML и прочее по желанию. Техническое: если надо, можно сделать экспорт во что угожно, для чего пользователь написал библиотеку. Или же сделать экспортёры, с учётом открытости формата, прямо из текста словаря, а не из внутреннего представления.

Но меня сейчас интересует структура словаря. Что надо и что не надо. С точки зрения описания в файле. Синтаксис продумаем потом или вместе с.

Помогите! :)
Title: Словарь лингвофорумчанина
Post by: arseniiv on December 26, 2011, 16:21
Берём любимые бумажный, электронный словарь и конланг — и в путь!
Title: Словарь лингвофорумчанина
Post by: Hellerick on December 26, 2011, 16:40
Средствами Лингвовики можно сделать так, чтобы строчки кода вида

Code: [Select]
;девочка {{сущ.}} {{ж.р.}} {{ФТ|де́въчкъ}}: girl; lass
отображались бы как

Quote
девочка сущ. ж.р. [де́въчкъ]
        girl; lass

Или вам нужно что-то более серьезное?
Title: Словарь лингвофорумчанина
Post by: arseniiv on December 26, 2011, 16:56
Да, чтобы было немного больше возможностей без их описания текстом. Например, омонимы описывались бы без повторения заглавного слова, можно было бы вставлять, к примеру, примеры употребления и идиомы, указывать неправильно образуемые грам. формы и прочая, прочая; просто это надо сделать как-то естественно, а не так, как в XDXF с кучей не очень-то и нужных в простых, но удобных словарях. К тому же, экспорт в разные форматы или с разным оформлением (что-то показывать, что-то не показывать или сделать, к примеру, список слов, или разделить их как-нибудь на группы по смыслу) остаётся важным.

Самое абстрактное, словарь состоит из какой-то информации о языках оригинала и перевода (а можно в одном содержать два связанных словаря туда и обратно, чтобы ссылки были синхронные), прочего и словарных статей. Статья состоит из списка омонимов, статья об омониме состоит из отдельных кусков схожего значения, примеров и т. п.. Транскрипцию надо, наверно, цеплять к омонимам, а не ниже. Грамматические показатели тоже, наверно, к омонимам. (Всё это дело изменяемое. Это описание того, что я надумал месяцев несколько назад, а потом бросил.)

Мне вот именно детали нужны, потому что хочется, чтобы можно было удобным способом представлять словари. Я изх мало видел, совершенно не представляю, что может понадобиться, а о чём и заикаться не стоит.
Title: Словарь лингвофорумчанина
Post by: Bhudh on December 26, 2011, 21:25
Транскрипцию надо, наверно, цеплять к омонимам, а не ниже.
Омонимы же не обязательно омофоны.
Или у тебя это значит омограф+омофон?
Title: Словарь лингвофорумчанина
Post by: arseniiv on December 26, 2011, 21:30
Вообще-то, наверно, омографы. Я в последнее время запутался, но почему тогда в словарях пишут «омонимы»? Или не пишут?‥
Title: Словарь лингвофорумчанина
Post by: Bhudh on December 26, 2011, 21:32
Ну вот тебе словарь (http://lingvopro.abbyyonline.com/ru/Search/en-ru/live).
Title: Словарь лингвофорумчанина
Post by: arseniiv on December 26, 2011, 21:37
Вот спасибо, не мог бы ты пояснить мне разницу между а)-б)-… и 1)-2)-…, и как это называется?

О, у них ошибка страшная при показе примеров к переводу. Ткни на яркий.

Не очень понятны все случаи, в которых могут употребляться скобочки (для всех мест).
Title: Словарь лингвофорумчанина
Post by: Bhudh on December 26, 2011, 21:46
Где ошибка?
Title: Словарь лингвофорумчанина
Post by: Bhudh on December 26, 2011, 21:48
не мог бы ты пояснить мне разницу между а)-б)-… и 1)-2)-…
1) Одно из значений
      а) Одна нюансина значения;
      б) Другая нюансина значения;
2) Другое из значений…

Разве нет?
Title: Словарь лингвофорумчанина
Post by: arseniiv on December 26, 2011, 21:52
"You must live with the memory," she told [me] repeatedly in her heavy German accent.
– Ты обязана хранить память [о нем], – говорила она со своим ярко выраженным немецким акцентом.

Сравни, какое слово является переводом какого. Я повыделял для простоты отделения. Они ищут неправильно, в общем корпусе, невзирая на такие ляпы!

Мало того, там ещё и ярко — наречие.

1) Одно из значений
      а) Одна нюансина значения;
      б) Другая нюансина значения;
2) Другое из значений…

Разве нет?
Как надо писать словарь, чтобы это было правильно с таким делением? Не очень ясно, как отделить значения от нюансин. Расскажи, я не знаю секрет! :???
Title: Словарь лингвофорумчанина
Post by: Bhudh on December 26, 2011, 21:55
А-а-а! Да, на соответствие всего отрывка внянья не обрал… Каю ся.
Title: Словарь лингвофорумчанина
Post by: arseniiv on December 26, 2011, 21:56
Да не тебя надо каять, а… ну их.

Погляди, я там доответил.
Title: Словарь лингвофорумчанина
Post by: Bhudh on December 26, 2011, 22:03
Как надо писать словарь, чтобы это было правильно с таким делением? Не очень ясно, как отделить значения от нюансин.
В идеале на каждый случай стоит дать простой сочетательный пример-два (с пометой iPod и под.).
И там уже смотреть, какие досочётные слова могут быть омножены…
Title: Словарь лингвофорумчанина
Post by: arseniiv on December 26, 2011, 22:22
Вы с Вадимием постепенно уходите куда-то beyound. Даже я так не писал, честное слово! Не понял смысл высказываний из-за некоторых таинственных элементов. Можно ещё разочек?
Title: Словарь лингвофорумчанина
Post by: Bhudh on December 26, 2011, 23:01
В идеале на каждый случай стоит дать простой пример-два на сочетание с теми словами, с которыми в этом значении он может быть сочитаем (с пометой и под.).
И потом уже смотреть, какие слова, добавленные к сабжу, могут быть объединены в одно множество по смыслу, и означить варианты с ними буквами (второй уровень вложенности, если он нужен, конечно)…

Даже я так не писал, честное слово!
Да ладно тебе прибедняться, у меня все ходы тома записаны! :negozhe:
Title: Словарь лингвофорумчанина
Post by: Квас on December 26, 2011, 23:01
А мне кажется, словари нельзя подогнать к общему знаменателю. Может быть, стоит взять за основу совершенно конкретный словарь?
Title: Словарь лингвофорумчанина
Post by: Alone Coder on December 26, 2011, 23:04
Лингво теперь онлайн? Что они с этого имеют?
Title: Словарь лингвофорумчанина
Post by: O on December 26, 2011, 23:09
Лингво теперь онлайн? Что они с этого имеют?
Теперь?
Title: Словарь лингвофорумчанина
Post by: Bhudh on December 26, 2011, 23:16
(http://lingvoforum.net/avs/avatar_26721.png) (http://i043.radikal.ru/1111/91/5b94db50bb00.png) дэсу.
Title: Словарь лингвофорумчанина
Post by: arseniiv on December 26, 2011, 23:17
Offtop
Да ладно тебе прибедняться, у меня все ходы тома записаны! :negozhe:
Ну-ка-ну-ка? :) (Мне интересно, что ты из всего того выбрал бы.)

и под.
Что это значит?
Title: Словарь лингвофорумчанина
Post by: Alone Coder on December 26, 2011, 23:17
А если я подумаю и решу обидеться?
Title: Словарь лингвофорумчанина
Post by: arseniiv on December 26, 2011, 23:18
А чей аватар справа?

/me — Не разводите оффтоп! И ты тоже.
Title: Словарь лингвофорумчанина
Post by: Bhudh on December 26, 2011, 23:22
Что это значит?
Так мало философских книжок читал? И под(обные (случаи)).

А если я подумаю и решу обидеться?
Prīmō. ≈ ≠ =.
Sēcūndō. Почему один рисунок должен обижаться на другой?
Title: Словарь лингвофорумчанина
Post by: arseniiv on December 26, 2011, 23:25
Так мало философских книжок читал?
Не так мало, а 0. :eat: Моя философия вся изнутри!

А чей справа аватар?
Title: Словарь лингвофорумчанина
Post by: Bhudh on December 26, 2011, 23:26
Offtop
Ну-ка-ну-ка?
Quote
Это всё опубликованное или я что-то пропустил?
Title: Словарь лингвофорумчанина
Post by: arseniiv on December 26, 2011, 23:27
Offtop
Определённо.

Но я имел в виду список непонятного, предназначенного для понимания как нецитату, относящуюся прямой ниткой к дискуссионной косе.
Title: Словарь лингвофорумчанина
Post by: Bhudh on December 26, 2011, 23:29
А чей справа аватар?
Не помню.
На форуме нет поиска по аватарам… :'(

Offtop
Определённо.
Определённо да или определённо нет?
Title: Словарь лингвофорумчанина
Post by: arseniiv on December 26, 2011, 23:31
Offtop
Определённо да или определённо нет?

Я забыл, пока писал.

Ладно, вообще-то мне кажется, я писал переписал больше.
Title: Словарь лингвофорумчанина
Post by: Bhudh on December 26, 2011, 23:43
Offtop
вообще-то мне кажется, <…> больше.
Ну, там ещё «Пенсиопеня» тебе на пальцы падал и ты от этого какие-то невестьволюмные обрывки цитировал…
Но я предпочёл конкретику.
Title: Словарь лингвофорумчанина
Post by: arseniiv on December 26, 2011, 23:45
Offtop
Но я имел в виду список непонятного, предназначенного для понимания как нецитату, относящуюся прямой ниткой к дискуссионной косе.

Но давай лучше про словарь. А то тему сочтут слишком мокрой (flood там и сям) и уйдут все сушиться.
Title: Словарь лингвофорумчанина
Post by: Bhudh on December 27, 2011, 00:11
Достал записку пухлый томик Мюллера.
Построение словарной статьи.
Простейший пример:Усложняющие дополнения:
Это что касательно цифер и буков. Имеется также куча помет грамматического, семантического и фразеологического характера, кои, думаю, тебе да будут известны.
Title: Словарь лингвофорумчанина
Post by: arseniiv on December 27, 2011, 00:40
Мне интересны критерии выделения скобковой конструкции курсивом. Всегда ли? И где она может стоять, а где не может — может, это можно целиком семантизировать, исключив синтаксические скобки в тексте статьи!

И всё же я жажду как можно более полных перечислений. Однако, спасибо тебе большущее!

А транскрипция там везде только у заглавного слова, не глубже?
Title: Словарь лингвофорумчанина
Post by: Квас on December 27, 2011, 00:48
В англо-русских словарях транскрипция может быть и глубже: perfect [ˈpəːfɪkt]… [pəˈfekt].

В начале словарей бывают указания к использованию, там объясняется, что какими цифрами выделяется.
Title: Словарь лингвофорумчанина
Post by: Квас on December 27, 2011, 00:50
À propos, словарь как бы для конланга?
Title: Словарь лингвофорумчанина
Post by: Bhudh on December 27, 2011, 00:55
А транскрипция там везде только у заглавного слова, не глубже?
Гетерофоны чаще всего даются с римскими цифрами и считаются отдельными словарными статьями, в т. ч. такие случаи, как live и read.

В приведённом Квасом примере (спасибо!) транскрипция идёт после арабских цифр с точкой, подстатьи которых, кстати, всегда даются отдельными абзацами (так что про «отдельную строку»: это недосмотр составителей):
Title: Словарь лингвофорумчанина
Post by: arseniiv on December 27, 2011, 01:04
À propos, словарь как бы для конланга?
Хочется удовлетворить наибольшее из возможных число желающих словарить. Я знаю, что это нереально…

И как мне разделять те два варианта растранскрипчивания слов, можно ли выбрать один? (Голова уже начинает тормозить.)
Title: Словарь лингвофорумчанина
Post by: Bhudh on December 27, 2011, 01:48
По сути, транскрипцию можно сделать необязательным параметром значения любого уровня вложенности. (И обязательным — первого.) Пропущенный параметр автоматически приравнивается последнему непропущенному.
Разделения при это не потребуется вовсе.
Title: Словарь лингвофорумчанина
Post by: arseniiv on December 27, 2011, 01:58
(И обязательным — первого.)
И тут тоже не-. Если язык французского вида (видел французский словарь!) — можно по правилам читать почти все слова кроме мааленького числа матерных.

значения любого уровня вложенности.
Но вот не слишком ли это сложно ляжет на реализацию?‥
Title: Словарь лингвофорумчанина
Post by: Bhudh on December 27, 2011, 02:00
Потому и скобки. Подразумелся английский.
Французский я тоже видел. Даже научился читать и поразился, насколько чтение логичнее английского, несмотря на мозгодробительную орфографию.
Title: Словарь лингвофорумчанина
Post by: Bhudh on December 27, 2011, 02:02
Но вот не слишком ли это сложно ляжет на реализацию?‥
А что сложного-то⁈ Если всякий тип текста будет выделяться чем--то подобным тэгам, то сложного не вижу…
Title: Словарь лингвофорумчанина
Post by: Квас on December 27, 2011, 02:23
À propos, словарь как бы для конланга?
Хочется удовлетворить наибольшее из возможных число желающих словарить. Я знаю, что это нереально…

Мой вопрос к тому, что для конланга имело бы смысл ориентироваться на хорошие словари классических языков.

А удовлетворить всех действительно невозможно, да и вряд ли нужно к этому стремиться.
Title: Словарь лингвофорумчанина
Post by: arseniiv on December 27, 2011, 03:16
И как с классическими?
Title: Словарь лингвофорумчанина
Post by: Bhudh on December 27, 2011, 03:38
От так:
Title: Словарь лингвофорумчанина
Post by: Квас on December 27, 2011, 03:51
Ога, примеров побольше.

Оксфордский устроен так. Основные значения разделены жирными арабскими. Подзначения (одно и то же значение в разных контекстах) разделены жирными буквами, причём буква a присутствует только в том случае, когда все значения примерно равноправны. После каждой цифры идёт много примеров без перевода и со спорадическими комментариями; эти примеры разбиты по буквам-подзначениям.

А ещё Форчеллини люблю, хотя его метода, наверно, устарела. Чтобы описать, надо собраться с силами.
Title: Словарь лингвофорумчанина
Post by: Alone Coder on December 27, 2011, 09:46
А чем вас викисловарь не устраивает?
Title: Словарь лингвофорумчанина
Post by: arseniiv on December 27, 2011, 09:53
Громоздкостью.
Title: Словарь лингвофорумчанина
Post by: arseniiv on December 27, 2011, 10:31
После каждой цифры идёт много примеров без перевода и со спорадическими комментариями; эти примеры разбиты по буквам-подзначениям.
Т. е. «1 а значения; б значения; … а примеры; б примеры»?
Title: Словарь лингвофорумчанина
Post by: Квас on December 27, 2011, 12:09
После каждой цифры идёт много примеров без перевода и со спорадическими комментариями; эти примеры разбиты по буквам-подзначениям.
Т. е. «1 а значения; б значения; … а примеры; б примеры»?

Ага, только буквы латинские. Или: 1 значения; б значения; … примеры; б примеры
Title: Словарь лингвофорумчанина
Post by: Demetrius on December 27, 2011, 12:19
Мои соображения:
а) делать общий формат бессмысленно, так как он будет тяжеловесным; лучше придумывать для каждого словаря свой формат;
б) ценность формата—в сделанных на нём словарях; просто формат без словарей не нужен.

А мне кажется, словари нельзя подогнать к общему знаменателю. Может быть, стоит взять за основу совершенно конкретный словарь?
:+1:
Например, мне нравится формат словаря CEDICT:
традиционноеНаписание упрощённоеНаписание [пиньинь] /перевод/перевод/

Дополнительные вещи оформляются как переводы в спецформате; например, счётные слова пишутся так:
трад упр [пиньинь] /перевод/CL: трад|упр[транскр]/

Хочется удовлетворить наибольшее из возможных число желающих словарить. Я знаю, что это нереально…
Ну так опросите своих желающих и уже тогда делайте с учётом того, что им надо. А если желающих нет, то с чего Вы взяли, что это вообще кому-то нужно?

А чем вас викисловарь не устраивает?
Викисловарь неудобен и для редактирования (шаблоны сложно освоить), и для использования (экспортировать его в нормальный формат сложно; приходится читать на сайте, где минимум информации размазан на 3000 пикселей).

А всё потому, что МедиаВики не для словарей.

Скорее бы sysko доделал yadict...

Лингво теперь онлайн? Что они с этого имеют?
Рекламу своих продуктов.

А если я подумаю и решу обидеться?
Слоупоки сначала ме-е-е-едленно думают, а потом обижаются, когда все уже забыли, на что они обиделись. ;D
Title: Словарь лингвофорумчанина
Post by: arseniiv on December 27, 2011, 15:47
а) делать общий формат бессмысленно, так как он будет тяжеловесным; лучше придумывать для каждого словаря свой формат
А я буду подобен создателям Lua. Потому и спрашиваю. Если я выкину всё, то будет неудобно пользоваться, вот хочу как-то сбалансировать.

б) ценность формата—в сделанных на нём словарях; просто формат без словарей не нужен
Конечно. Собственно, я задумываюсь о формате только из-за того, что боюсь, что ожидаемый конланг завянет тихо без лексики. И так случается…

Может, можно как-то обобщить много видов словарей так, чтобы легко можно было писать по-разному?‥
Title: Словарь лингвофорумчанина
Post by: Квас on December 27, 2011, 15:50
а) делать общий формат бессмысленно, так как он будет тяжеловесным; лучше придумывать для каждого словаря свой формат
А я буду подобен создателям Lua. Потому и спрашиваю. Если я выкину всё, то будет неудобно пользоваться, вот хочу как-то сбалансировать.

Вот и ответ. Пиши на Lua. :)

Offtop
Собственно, я задумываюсь о формате только из-за того, что боюсь, что ожидаемый конланг завянет тихо без лексики. И так случается…

Может, сделать толковый словарь типа Oxford Advanced Learner’s Dictionary?
Title: Словарь лингвофорумчанина
Post by: arseniiv on December 27, 2011, 15:58
А что его отличает от других?

В общем, в одном из главных мне помогли: пометки в скобках и курсивом могут находиться в любом месте, и не надо извращаться с семантичностью для них.
Title: Словарь лингвофорумчанина
Post by: Квас on December 27, 2011, 23:45
А что его отличает от других?

Через базовую лексику (около трёх тысяч слов) объясняются все остальные.

Так и конланг обкатается. ;)
Title: Словарь лингвофорумчанина
Post by: arseniiv on December 28, 2011, 00:27
Надо сначала базовую лексику соорудить. :)

Тфу, совсем разленился. Вот чего я жду? Я жду, что кто-то за меня по полученной информации напишет спецификацию формата. Самое интересное уже готов отдать! :-\ Хотя нет, я просто семплы весь день искал и слушал.
Title: Словарь лингвофорумчанина
Post by: Alone Coder on December 28, 2011, 12:21
Через базовую лексику (около трёх тысяч слов) объясняются все остальные.

Так и конланг обкатается
Сначала для русского такой надо составить.
Title: Словарь лингвофорумчанина
Post by: arseniiv on December 28, 2011, 17:16
A. C., только не заоффтопливайте тему плановым русским.
Title: Словарь лингвофорумчанина
Post by: I. G. on December 28, 2011, 19:07
Словарь лингвофорумчанина
Ожегов!
Title: Словарь лингвофорумчанина
Post by: arseniiv on December 28, 2011, 19:13
Offtop
:D

Не умею я темы без оффтопа создавать.
Title: Словарь лингвофорумчанина
Post by: arseniiv on December 30, 2011, 01:07
Проба.

word
- слово
: long word - длинное слово
:: word word word word - сломя голову бежать вредно
-- фраза
- :филос: изречение :(в метафизическом смысле):

homonym/1
...
:syn synonym
:ant antonymm, antonymmmm

homonym/2
...

worrrd
= :past от: homonym/2


Угадайте смысл и придумайте, куда прицепить остальное. И покритикуйте синтаксис.
Title: Словарь лингвофорумчанина
Post by: Demetrius on December 30, 2011, 01:45
Нифига не понятно. В чем отличиее - слов, : длинных слов и -- фраз?
Title: Словарь лингвофорумчанина
Post by: Demetrius on December 30, 2011, 01:52
: для помет очень, очень плохо. Ведь : может встречаться в словарной статье. Придётся придумывать сложные правила, когда оно что значит, и в них всё равно люди будут путаться.
Title: Словарь лингвофорумчанина
Post by: Bhudh on December 30, 2011, 02:02
Встрѣчал слѣши в какствѣ скоб.
Title: Словарь лингвофорумчанина
Post by: Alone Coder on December 30, 2011, 12:14
Где транскрипция? Где этимология? Где тип склонения/спряжения? Где переводы на языки мира? Когда добавите, будет то же, что в Викисловаре. Идите сразу в Викисловарь.
Title: Словарь лингвофорумчанина
Post by: Demetrius on December 30, 2011, 13:29
Где транскрипция? Где этимология? Где тип склонения/спряжения? Где переводы на языки мира? Когда добавите, будет то же, что в Викисловаре. Идите сразу в Викисловарь.
Нет, сделать такой фейл, как в Викисловаре, не так-то просто.

Для того, чтобы сделать формат Викисловарь, надо:
а) сделать совместимость с громоздким языком разметки, который позволяет включать в себя возможность ещё один язык, который ещё сложнее распарсить: пусть пользователи будут иметь возможность сделать что-то <b>неправильно</b>, тогда работа редакторов будет '''заметна''';
б) сделать всю функциональность через механизм шаблонов для обхода этих недостатков, причём всё с таким же {{идиотским|{{{синтаксисом}}}}}: пусть пользователи запомнят с десяток {{слов|которые={{нужны|для=минимального редактирования}}}}.

Ну и банально ужасно неудобный интерфейс:
а) все языки в одном месте,
б) все переводы в одном месте.

А всё потому, что МедиаВики банально не предназначена для создания словарей.

Не говоря о том, что у Викисловаря есть вещи помимо формата, которые могут помешать: а) копилефтная лицензия, б) туда вообще конланги пускают?
Title: Словарь лингвофорумчанина
Post by: Alone Coder on December 30, 2011, 13:34
Ну и банально ужасно неудобный интерфейс:
а) все языки в одном месте,
б) все переводы в одном месте.
Это как раз удобно. Я как двуязычный словарь использую. А интервики - вообще ня.

туда вообще конланги пускают?
Интерлингву и эсперанто и пускают.
Title: Словарь лингвофорумчанина
Post by: Demetrius on December 30, 2011, 13:45
Это как раз удобно. Я как двуязычный словарь использую. А интервики - вообще ня.
Интервики-то ня, не спорю, но для толкований. А вот то, что в каждом языковом куча информации дублируется и никак не синхронизируется&mdash;это совсем не ня.

Интерлингву и эсперанто и пускают.
Ну, это крупные, established конланги, со своими кодами.

А Арсений свой формат ориентирует в первую очередь на маленькие конланги одного человека, насколько я понял.
Title: Словарь лингвофорумчанина
Post by: Alone Coder on December 30, 2011, 13:47
А вот то, что в каждом языковом куча информации дублируется
Какая? Этимологии все в шаблонах.
Title: Словарь лингвофорумчанина
Post by: Demetrius on December 30, 2011, 13:56
Я имею в виду переводы одного и того же слова в разных языковых разделах.
Title: Словарь лингвофорумчанина
Post by: arseniiv on January 2, 2012, 18:06
Я потом перепишу всё сначала, только не знаю как.
Title: Словарь лингвофорумчанина
Post by: arseniiv on September 1, 2012, 23:58
Хм, создав-таки формат, он оказался очень похожим на мои предыдущие наброски на этой странице… Феноменально!

[На самом деле, если точно считать схожесть, получится вполне такая случайная 50/50.]