Главное меню
Мы солидарны с Украиной. Узнайте здесь, как можно поддержать Украину.

Словообразование и закон Ципфа.

Автор Солохин, февраля 23, 2013, 07:15

0 Пользователи и 1 гость просматривают эту тему.

Солохин

Цитата: svarog от февраля 16, 2018, 23:17
А можно какую-нибудь ссылку на этот закон с корнем?
Беда в том, что я немного не в теме. Последние несколько лет я занимался почти исключительно историей и политикой. И начал забывать детали тех теорий, которые занимали моё внимание раньше. Надо будет освежить в памяти и заново поискать информацию...
Sinjoro Jesuo Kristo purigu min.


Вне форума.

Alone Coder

Цитата: svarog от февраля 16, 2018, 23:17
тогда статистически это ничем не отличается от слова
Отличается. Слово - это между пробелами. А словосочетание аналогично последовательности знаков, рандомно вырванной из текста.

Mona

В китайском нет пробелов, а слова есть. Кроме того, там очень нечеткая граница между сложным словом и словосочетанием.

az-mnogogreshny

Цитата: Mona от февраля 16, 2018, 21:02
Так очевидно же, что любой человеческий язык использует простейший прием: любое самое сложное понятие при желании можно обозначить одним знаком, пусть и не совсем первородным. Так русское "президент" обозначает главу-1 государства-2 как-3 правило-3 обладающего-4 республиканской-5 формой-6 правления-7 (список при этом открытый: республика в составе федерации или сама по себе, объем полномочий может отличаться и т.п.). При этом некоторые "цифири" можно "разлагать" дальше и глубже. Что такое государство, республиканский и т.п. Но понятие "президент" примерно одинаково воспринимается людьми из государств, где роль президента существенно разнится.

В случае с токи-поной приходится продолжать нанизывать слова из базы во фразеологизмы (французский тоже любит это дело, но все же знает меру), когда нормальные языки просто берут новое слово в словарь. Это один из фундаментальных "ходов" человеческого языка и при этом наиболее естественный, экономичный и разумный. Если некое сложное понятие приходится выражать слишком часто, то почему бы не обозвать его одним словом. При этом Ципф остается ципфом, по-моему, т.е. к этому "трюку" никакого отношения по сути не имеет. Слово "президент" прекрасно ляжет потом во вполне справедливый закон Ципфа.

Где я тут неправ?

В случае с токипоной нет необходимости "нанизывать слова". Мы же говорим "ехал на машине". И как-то мысли не возникает: "А вдруг слушатель подумаем, что я ехал верхом на посудомоечной машине". В большинстве случаев из контекста всё понятно. А в тех редких случаях когда не понятно, можно и уточнить. Но один раз за весь текст.
В примере с "президентом" в подавляющем большинстве случаев хватит и "jan lawa" (человек-голова). И даже это будет избыточным. Достаточно сказать просто "голова". А если мы на каждый случай будем создавать новое слово, то мы будем только забивать мусором память. Тем более, что слово "президент" тоже будет нуждаться в толковании. Президент чего? шахматной федерации? президент России? Может на каждый из этих случаев тоже слово придумаем? Кроме того, президент может быть почётно-формальным, а может быть с диктаторскими полномочиями. Сотни и тысячи значений. То есть, слово "президент" не намного лучше слова "голова". Польза этого слова слишком маленькая, чтобы вводить его в конланг.

az-mnogogreshny

А что касается Ципфа, то очень значительная часть слов в любом тексте это имена собственные. Имена, фамилии, прозвища, географические названия, бренды. Плюс к этому нечто, что не совсем имя собственное, но очень к этому близко. Название музыкальных стилей, направлений в моде, блюд и прочее в том же духе. Они постоянно появляются и исчезают в огромных количествах. Эти слова чаще всего международные и в переводе не нуждаются. Придумывать для них специальные слова в конланге нет никакой необходимости. И именно эти слова и создадут хвост в ципфовских графиках.

Солохин

Offtop
Цитата: az-mnogogreshny от февраля 23, 2018, 13:25
"jan lawa" (человек-голова)
Не в тему, просто хочется уточнить.
Я говорю на токипоне, и мне хочется немного "защитить" этот забавный язычок.
У людей остается неприятное впечатление от токипоны, когда слова в словосочетаниях этого языка переводятся на русский язык в своем "главном" значении, независимо от контекста.

Но ведь на самом деле слова токипоны очень многозначны.

lawa - это не "голова", это целая смысловая концепция, в общем семантически близкая к русскому КОРНЮ "глав/голов", но не к русскому слову "голова", которое гораздо уже по смыслу.
Ведь "глав" - это не только "голова", но и "глава", и "главный", и даже "главк", если на то пошло.

jan - это не "человек", а одновременно "персона" и что-то вроде "гуманоид" (то есть, имеющий человеческий облик).

Итого jan lawa - это не голова-человек, а главная персона, буквально.

Sinjoro Jesuo Kristo purigu min.


Вне форума.

yurifromspb

Цитата: Солохин от февраля 16, 2018, 20:15
Цитата: svarog от февраля 16, 2018, 19:26Скромно напомню, что у закона Ципфа есть критика.
На мой взгляд, эта критика неубедительна. Ясно, что закон Ципфа - это всего лишь статистика. Но почему именно такая статистика?
Предлагаемый вывод закона Ципфа из случайного набора букв мне знаком. Кстати, я сейчас осознал, что он глубоко связан с той моделью, которую предложил выше yurifromspb.
По сути, это одна и та же модель.
В самом деле, допустим, у нас есть некий плановый язык, в алфавите которого есть всего лишь две буквы и знак пробела. Каждая следующая буква слова уточняет смысл этого слова. Далее или знак пробела (конец слова), или новое уточнение. По сути, это то же самое, что деление отрезка пополам. Вот и получается тот же самый Ципф.
Всё же, такой же Ципф, но не тот же. Случайный текст это только один из способов получить "дерево", к тому же для естественного языка этот способ явно не подходит (если отрубить у слова хвост, оставшееся начало редко когда вообще будет словом, не то что более частотным, а длинных слов почти не  бывает, там хвост распределения очень быстро сходит на нет). В случае естественного текста скорее можно подозревать какое-то иерархическое разбиение реальности. Тут вспоминаются аристотелевские роды и виды (az-mnogogreshny, кстати, заметил, что редковстречающиеся слова это, в основном, имена собственные).

Offtop
А если говорить о естественной модели, которая мне представилась, когда я понял, что дерево даёт exp(-log(x)) = 1/x, то она была вообще не языковая, я представил такую "игру": есть иерархически организованное множество индивидуумов и каждый время от времени выкрикивает некое слово, либо каждый своё, либо то, которое выкрикнул начальник. Тогда, если все индивидуумы выкрикивают своё слово с одинаковой частотой, то все слова распределены по Ципфу (точнее, как на приведенных мой графиках).
Дяденька, я ведь не настоящий лингвист, а этимологический словарь я в интернете нашёл.

Свобода у каждого своя, как и очевидность, посмотри, не тьма ли твой свет.

Bāb-lišānī lapit-ma, lū awīlāta! // from "Lamentations of Urišapibim".

Солохин

Цитата: yurifromspb от февраля 23, 2018, 16:06
В случае естественного текста скорее можно подозревать какое-то иерархическое разбиение реальности. Тут вспоминаются аристотелевские роды и виды
Да, я это и имел в виду, когда говорил о "словах", в которых каждая следующая буква уточняет смысл.

Представьте себе пословный перевод с такого языка на обычный человеческий язык. Или наоборот, пословный перевод с обычного языка на вот такой "семантический код".
Sinjoro Jesuo Kristo purigu min.


Вне форума.

yurifromspb

Цитата: Солохин от февраля 23, 2018, 17:45
Цитата: yurifromspb от февраля 23, 2018, 16:06
В случае естественного текста скорее можно подозревать какое-то иерархическое разбиение реальности. Тут вспоминаются аристотелевские роды и виды
Да, я это и имел в виду, когда говорил о "словах", в которых каждая следующая буква уточняет смысл.

Представьте себе пословный перевод с такого языка на обычный человеческий язык. Или наоборот, пословный перевод с обычного языка на вот такой "семантический код".
Понятно, извиняюсь, невнимательно прочитал, "зависнув" на "модели случайного текста".
Дяденька, я ведь не настоящий лингвист, а этимологический словарь я в интернете нашёл.

Свобода у каждого своя, как и очевидность, посмотри, не тьма ли твой свет.

Bāb-lišānī lapit-ma, lū awīlāta! // from "Lamentations of Urišapibim".

Alone Coder

Какой математический критерий для "соответствует Ципфу"? Реальная статистика же не лежит на гиперболе и не может, и коэффициент на приближении к ней разный.

А то так можно сказать, что текст из рандомных символов с пробелами даёт словарь, "соответствующий Ципфу".

yurifromspb

Цитата: Alone Coder от февраля 24, 2018, 10:53
Какой математический критерий для "соответствует Ципфу"? Реальная статистика же не лежит на гиперболе и не может, и коэффициент на приближении к ней разный.
"Коэффициент детерминации"? Не уверен, что правильно понял, чего вы хотите. Возможно, вам нужны какие-то статистические критерии типа критерия согласия Колмогорова.
Цитата: Alone Coder от февраля 24, 2018, 10:53
А то так можно сказать, что текст из рандомных символов с пробелами даёт словарь, "соответствующий Ципфу".
Ну так даёт, вроде как.
Дяденька, я ведь не настоящий лингвист, а этимологический словарь я в интернете нашёл.

Свобода у каждого своя, как и очевидность, посмотри, не тьма ли твой свет.

Bāb-lišānī lapit-ma, lū awīlāta! // from "Lamentations of Urišapibim".

Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр