Главное меню
Мы солидарны с Украиной. Узнайте здесь, как можно поддержать Украину.

Словообразование и закон Ципфа.

Автор Солохин, февраля 23, 2013, 07:15

0 Пользователи и 1 гость просматривают эту тему.

Солохин

Очень важная мысль и очень дельная тема, оказавшаяся незаслуженно забытой.
Sinjoro Jesuo Kristo purigu min.


Вне форума.

yurifromspb

Цитата: Солохин от февраля 23, 2013, 07:15
Это страшная вещь, которая означает, что число слов, необходимых для заучивания, чтобы иметь возможность полноценно выражать свои мысли, в любом языке одно и то же.

Почему же одно и то же? Оно медленно растёт с ростом словаря.

Некоторое рассуждение о распределении Ципфа:
Вот, думается, что ж ученые так любят бесконечности? Понятно, что бесконечности проще, но в мире-то их всё-таки нет. И словарь любого языка конечен в любой момент времени. Мне подумалось по этому поводу, почему бы не поискать конечные порождающие конструкции конечного ципфовского распределения, и я кое-что нашёл.
Поскольку при иерархическом делении целого размер части падает как a^(-n) от числа разбиений, а число частей растёт так же (т.е. число разбиений это примерно соответствующий логарифм от среднего индекса i части из разбиения в полном (т.е. с промежуточными разбиениями, включая целое) упорядоченном наборе всех разбиений), то вот вам и 1/i.

Иллюстрация и проверка: возьмём число (1000.0) и будем строить бинарное дерево так: выберем случайное число от нуля до этого числа, и, разделим число на пару соответствующих частей, если какая-то из частей меньше порога (1.0), прекратим деление, а если меньше, то продолжим рекурсивно. Отсортируем все получившиеся числа, построим график в двойных логарифмических координатах.

Как-то так.
Так что, конечное иерархическое деление порождает распределение Ципфа.
Не претендую, конечно, на объяснение, конкретно, распределения слов, но направление поиска кажется перспективным.

Кстати, если деревце интерпретировать понятно как, и сказать, что сумма узла это влиятельность, то получим, что влиятельность внутри понятно какого деревца распределена по Ципфу. :)

----
Spoiler: код (варварский, наверное, но какой есть) на racket для построения дерева и получения сортированного списка узлов ⇓⇓⇓
Дяденька, я ведь не настоящий лингвист, а этимологический словарь я в интернете нашёл.

Свобода у каждого своя, как и очевидность, посмотри, не тьма ли твой свет.

Bāb-lišānī lapit-ma, lū awīlāta! // from "Lamentations of Urišapibim".

Солохин

ОЧЕНЬ интересное рассуждение!

Спасибо, есть о чём поразмыслить.
Sinjoro Jesuo Kristo purigu min.


Вне форума.

Alone Coder

Уау! Это действительно интересная модель.

Кстати, я сейчас придумываю, как скрестить Лисп с Фортом: http://pastebin.ru/sHWPlI73

Mona

Очень интересная ветка, жаль, что под эсперанто. Мне с самого начала в рубрике "интерлингвистика и..." не нравился набор подкатегорий.

>полноценно выражать свои мысли

Не знаю, добавлю ли я хоть толику мысли, но хочется заметить, что язык в целом хоть и открытая система, но при этом в нем присутствуют закрытые или почти закрытые подсистемы (например, числительные, местоимения). Почти, т.к. всегда есть некий исторический хвост, но и с ним можно считать, что закрытые.

Второй момент: слово, составленное из двух и более слов, может быть по смыслу не равно "сумме" составляющих, но тем не менее быть в определенной степени понятным носителям в акте общения.

И да, последнее, мы исходим из того, что некоторая группа народов в своей деятельности способна формулировать примерно одинаковые мысли, одного порядка, в силу сходного образа жизни. Но можно себе представить и другой народ, либо отдельного индивида данного народа, которому этого будет мало, и он сделает с языком то, что поколения до него не смогли сделать (Пушкин?). Т.е. для полноценного общения с условным пушкиным может не хватить того же числа слов, которого хватает для общения с его современниками.

Я интуитивно могу предположить, что что-то из этого может повлиять на графики Ципфа по конкретным языкам.

Hellerick

Цитата: yurifromspb от февраля 14, 2018, 22:04
Поскольку при иерархическом делении целого размер части падает как a^(-n) от числа разбиений, а число частей растёт так же (т.е. число разбиений это примерно соответствующий логарифм от среднего индекса i части из разбиения в полном (т.е. с промежуточными разбиениями, включая целое) упорядоченном наборе всех разбиений), то вот вам и 1/i.

Десять раз перечитал, ничего не понял.

Цитата: yurifromspb от февраля 14, 2018, 22:04
Иллюстрация и проверка: возьмём число (1000.0) и будем строить бинарное дерево так: выберем случайное число от нуля до этого числа, и, разделим число на пару соответствующих частей, если какая-то из частей меньше порога (1.0), прекратим деление, а если меньше, то продолжим рекурсивно. Отсортируем все получившиеся числа, построим график в двойных логарифмических координатах.

У вас должны получиться сплошные единицы, разве не так?

Солохин

Sinjoro Jesuo Kristo purigu min.


Вне форума.

Hellerick


yurifromspb

Цитата: Hellerick от февраля 16, 2018, 09:23
Цитата: yurifromspb от февраля 14, 2018, 22:04
Поскольку при иерархическом делении целого размер части падает как a^(-n) от числа разбиений, а число частей растёт так же (т.е. число разбиений это примерно соответствующий логарифм от среднего индекса i части из разбиения в полном (т.е. с промежуточными разбиениями, включая целое) упорядоченном наборе всех разбиений), то вот вам и 1/i.

Десять раз перечитал, ничего не понял.
Ну, может быть, непонятно написал (и не совсем точно).
Но, вот, например, простой пример:
Построим дихототомическое дерево:
(16: (8: (4: (2: (1: _ _)(1: _ _))(2: (1: _ _)(1: _ _)))(4: (2: (1: _ _)(1: _ _))(2: (1: _ _)(1: _ _))))(8: (4: (2: (1: _ _)(1: _ _))(2: (1: _ _)(1: _ _)))(4: (2: (1: _ _)(1: _ _))(2: (1: _ _)(1: _ _)))))
извиняюсь  :)
Выпишем числа всех узлов по порядку:
16 8 8 4 4 4 4 2 2 2 2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
Сравним с функцией 16/i:
  1 2 3 4 5 6 7 8 ...
16 8 _ 4 _ _ _ 2 _ _ _ _ _ _ _ _ 1
Это так потому, что число разбиений растёт с той же скоростью, что падает их размер.

График для большого дерева (изображены линии x0/i и 2*x0/i).
(tree1024.png почему-то полную картинку не вставить, так что посмотрите во вложении)

А если делить не ровно,ступеньки сглаживаются.
(randomtree1024.png)

Можно скачать отсюда пакет для программирования на racket и поиграться: http://racket-lang.org/
Код для построения деревьев и рисования графиков во вложении.
Дяденька, я ведь не настоящий лингвист, а этимологический словарь я в интернете нашёл.

Свобода у каждого своя, как и очевидность, посмотри, не тьма ли твой свет.

Bāb-lišānī lapit-ma, lū awīlāta! // from "Lamentations of Urišapibim".

Солохин

Дорогой yurifromspb!

Нет сомнения, что Вы "напали на след". Нащупали такую же глубокую смысловую связь, какую в свое время нащупал Гейзенберг, когда, пытаясь найти математическую модель для дискретности энергетических уровней атома, взял "собственные числа" некоей матрицы.

Беда лишь в том, что надо быть Гейзенбергом, чтобы умудриться сделать следующий шаг и найти в теории место для собственных векторов этой матрицы, ввести ещё пару матриц для импульса и координаты, а потом связать все эти матрицы уравнением.

Без этого всего Ваша догадка остается лишь догадкой и не превращается в теорию :(

Это как если бы кто-то придумал ствол пушки, не зная пороха. Можно изготовить модель пушки. Стрелять она не будет, но поразит до глубины души всех археологов, которые её раскопают через тысячу лет. Откуда они знали? А они не знали - лишь смутно догадывались.
Sinjoro Jesuo Kristo purigu min.


Вне форума.

Солохин

Слово/словосочетание во фразе несет в себе информацию лишь в том случае, если оно может быть заменено на другое слово/словосочетание - а фраза при этом останется правильно построенной и осмысленной.

То есть, информацию несет сам по себе факт, что мы использовали именно это слово /словосочетание, а не другое. Количество информации равно минус логарифму вероятности того, что в данной позиции будет употреблено именно это слово/словосочетание. Если ничто другое было и невозможно, то количество информации равна нулю (логарифм единицы равен нулю).

Может быть, отсюда и появляется "деление на две части"? То есть, каждая из двух частей обозначает один из двух вариантов. А размер части - частоту употребления данного варианта.

....

Вроде хорошая идея, но неверная все-таки, кажется.
Потому что словосочетания разпределены не по закону Ципфа. Этот факт меня поражает так же сильно, как и сам закон Ципфа. Для словосочетаний работает другой закон - частота обратно пропорциональна корню из n, а не самому n.

Кстати, а вот такой закон - единица на корень из n - Вы можете получить каким-нибудь образом?
Sinjoro Jesuo Kristo purigu min.


Вне форума.

Ömer

Цитата: Солохин от февраля 16, 2018, 18:40
Этот факт меня поражает так же сильно, как и сам закон Ципфа.
Скромно напомню, что у закона Ципфа есть критика.
(wiki/ru) Закон_Ципфа#%D0%9A%D1%80%D0%B8%D1%82%D0%B8%D0%BA%D0%B0

ЦитироватьЭто страшная вещь, которая означает, что число слов, необходимых для заучивания, чтобы иметь возможность полноценно выражать свои мысли, в любом языке одно и то же.
Как и другие ответившие вам, я тоже не понимаю, причём тут закон Ципфа, и что тут поразительного. В конце концов, все мы люди, мыслим примерно одинаково, сооветствие между образами и словами в разных языках тоже примерное одинаковое, значит, чтобы выразить мысль (=набор образов), нужен примерно одинаковый набор слов. Всё! Зачем Ципф?

Насчёт словообразования эсперанто. Он не единственный такой уникальный: например, в арабском 1) развитое словообразование, 2) мало заимствований.

Например:
ma- -- место
kataba - писать; работать с бумагами, maktab -- офис
darasa - учиться, madrasa - школа
la3aba - играть, mal3ab - игровая площадка
sajada - припадать к земле при молитве, masjid - место для моления; мечеть

удвоение второй согласной -- каузатив
kataba - писать, kattaba - заставлять писать
darasa - учиться, darrasa - обучать
nazala - спускаться, nazzala - спускать

и куча-куча других моделей. Вот Зализняк (царство небесное) про них рассказывает: https://www.youtube.com/watch?v=IIwD6okw1ng

Можно ли в арабском, как и в эсперантно, обходиться небольшим числом корней? Не знаю, нужно искать статистику; но в направлении к положительному ответу на этот вопрос можно привести такую цифру, что во всём Коране, который считается вершиной арабской словесности, используется "всего лишь" 1700 корней (https://www.mail-archive.com/comp-quran@comp.leeds.ac.uk/msg00223.html , при общем количестве слов 77.000).

Конечно, есть одно важное отличие от эсперанто. Арабский нерегулярный. Не любую модель можно применить к любому слову, и не всегда они применяются регулярно.

ya herro, ya merro

Солохин

Цитата: svarog от февраля 16, 2018, 19:26Скромно напомню, что у закона Ципфа есть критика.
На мой взгляд, эта критика неубедительна. Ясно, что закон Ципфа - это всего лишь статистика. Но почему именно такая статистика?
Предлагаемый вывод закона Ципфа из случайного набора букв мне знаком. Кстати, я сейчас осознал, что он глубоко связан с той моделью, которую предложил выше yurifromspb.
По сути, это одна и та же модель.
В самом деле, допустим, у нас есть некий плановый язык, в алфавите которого есть всего лишь две буквы и знак пробела. Каждая следующая буква слова уточняет смысл этого слова. Далее или знак пробела (конец слова), или новое уточнение. По сути, это то же самое, что деление отрезка пополам. Вот и получается тот же самый Ципф.

Цитата: svarog от февраля 16, 2018, 19:26я тоже не понимаю, причём тут закон Ципфа, и что тут поразительного. В конце концов, все мы люди, мыслим примерно одинаково, соответствие между образами и словами в разных языках тоже примерное одинаковое, значит, чтобы выразить мысль (=набор образов), нужен примерно одинаковый набор слов
Нет, это не совсем так. Если закон Ципфа верен, то чем более длинный текст мы собираемся составить, тем больше нам нужно будет слов.
Но я понимаю, что Вы хотите сказать.

Что важного и нового дает закон Ципфа? Он налагает некий фундаментальный запрет на лексический минимализм.

Можно было бы представить какой-то язык, хитро сконструированный таким образом, чтобы можно было обойтись небольшим набором слов, ну типа как в токипоне. Ну, пусть этих слов будет не сто (как в токипоне), а двести ли триста. Я говорю на токипоне, и по опыту знаю, что при помощи этого скромного словаря можно выразить гораздо больше, чем кажется с первого взгляда. Если бы не закон Ципфа, я мог при предположить, что при помощи хорошо продуманного минимального набора можно выразить все, что угодно.
Так вот, это не так. Нельзя при помощи ограниченного набора слов выразить все, что угодно. Это запрещено законом Ципфа. По-видимому, идиомы в токипоне должны играть роль слов. Да это и видно прямо с первого шага. Типа jan pona - друг, kama sona - учиться  и так далее.
Видимо, идиомы - это "слова" в информационном смысле. Действительно, ведь в идиоме не заменишь одно слово на другое, там все слова семантически слиты в одно целое. Нельзя "головную боль" ( смысле "проблемы") заменить на "спинную боль" или "головную неприятность". Смысл просто исчезает, а не транформируется.
Sinjoro Jesuo Kristo purigu min.


Вне форума.

Солохин

Цитата: svarog от февраля 16, 2018, 19:26Насчёт словообразования эсперанто. Он не единственный такой уникальный: например, в арабском 1) развитое словообразование, 2) мало заимствований.

Так ведь и русском все наши слова состоят из сравнительно небольшого числа морфем. Везде одно и те же приставки, корни, суффиксы. Я думаю, первые несколько сот самых частых морфем покрывают почти 100% потока русской разговорной речи (98% или 99%).
Это понятно.
Английский язык, в котором словообразование такое слабое, что почти каждое новое слово - это новый корень - это скорее исключение из правила. Думаю, это потому, что он весь построен на сплошных заимствованиях - что вполне понятно для языка страны, которая за две тысячи лет своей истории была петь или шесть раз завоевана и ни разу не освободилась от захватчиков.
В нормальных языках и нормальных странах ситуация со словообразованием принципиально иная.

Вопрос тут именно в регулярности этого словообразования. В эсперанто каждая морфема имеет достаточно ясный и однозначный смысл, так что смысл слова действительно складывается из смыслов составляющих его морфем, а не выскакивает из неведомых глубин этимологии как из ящика Пандоры, как это мы видим в национальных языках на каждом шагу.
Sinjoro Jesuo Kristo purigu min.


Вне форума.

yurifromspb

Цитата: Солохин от февраля 16, 2018, 18:40
Вроде хорошая идея, но неверная все-таки, кажется.
Потому что словосочетания разпределены не по закону Ципфа. Этот факт меня поражает так же сильно, как и сам закон Ципфа. Для словосочетаний работает другой закон - частота обратно пропорциональна корню из n, а не самому n.

Кстати, а вот такой закон - единица на корень из n - Вы можете получить каким-нибудь образом?

Надо подумать. Но, подчеркну, что на объяснение я не претендовал, просто попробовал поискать простую модель.
Кстати, не подскажите, нельзя ли где посмотреть сводные статистики по разным языкам со словарями разного размера?

Цитата: svarog от февраля 16, 2018, 19:26
Конечно, есть одно важное отличие от эсперанто. Арабский нерегулярный. Не любую модель можно применить к любому слову, и не всегда они применяются регулярно.
А в эсперанто можно от любого слова делать любые образования? Семантические трудности и устоявшееся словоупотребление, кажется, должны мешать этому и в эсперанто.
Дяденька, я ведь не настоящий лингвист, а этимологический словарь я в интернете нашёл.

Свобода у каждого своя, как и очевидность, посмотри, не тьма ли твой свет.

Bāb-lišānī lapit-ma, lū awīlāta! // from "Lamentations of Urišapibim".

Mona

Так очевидно же, что любой человеческий язык использует простейший прием: любое самое сложное понятие при желании можно обозначить одним знаком, пусть и не совсем первородным. Так русское "президент" обозначает главу-1 государства-2 как-3 правило-3 обладающего-4 республиканской-5 формой-6 правления-7 (список при этом открытый: республика в составе федерации или сама по себе, объем полномочий может отличаться и т.п.). При этом некоторые "цифири" можно "разлагать" дальше и глубже. Что такое государство, республиканский и т.п. Но понятие "президент" примерно одинаково воспринимается людьми из государств, где роль президента существенно разнится.

В случае с токи-поной приходится продолжать нанизывать слова из базы во фразеологизмы (французский тоже любит это дело, но все же знает меру), когда нормальные языки просто берут новое слово в словарь. Это один из фундаментальных "ходов" человеческого языка и при этом наиболее естественный, экономичный и разумный. Если некое сложное понятие приходится выражать слишком часто, то почему бы не обозвать его одним словом. При этом Ципф остается ципфом, по-моему, т.е. к этому "трюку" никакого отношения по сути не имеет. Слово "президент" прекрасно ляжет потом во вполне справедливый закон Ципфа.

Где я тут неправ?

Солохин

Цитата: Mona от февраля 16, 2018, 21:02
Если некое сложное понятие приходится выражать слишком часто, то почему бы не обозвать его одним словом. При этом Ципф остается ципфом, по-моему, т.е. к этому "трюку" никакого отношения по сути не имеет. Слово "президент" прекрасно ляжет потом во вполне справедливый закон Ципфа.
Где я тут неправ?

Вы тут правы. Действительно, так все и делают.
О том и речь, что оказывается невозможным ограничить словарь. Гони природу в дверь - она войдет в окно. Если запретить расширение словаря слов, то начнет расти словарь идиом.
Sinjoro Jesuo Kristo purigu min.


Вне форума.

Mona

Так и ограничивать словарь - так же неестественно для языка, что национального, что планового. И по факту словарь того же эсператно никто не в силах ограничить.

Формулирую закон Mona :-) : Человеческий язык, любой, примерно одинаково сложен для изучения. Однако, если речь идет о плановых языках, мы, планировщики, можем отчасти повлиять лишь на _кривую_ его изучабельности. Сделать язык более простым на начальном уровне, т.к. на конечном уровне он будет все равно таким же сложным, как сложны отношения в сообществе, его использующем.

Ömer

Цитата: Солохин от февраля 16, 2018, 20:15
Кстати, я сейчас осознал, что он глубоко связан с той моделью, которую предложил выше yurifromspb.
По сути, это одна и та же модель.
Да, мне тоже так показалось.

ЦитироватьЕсли закон Ципфа верен, то чем более длинный текст мы собираемся составить, тем больше нам нужно будет слов.
С этим я не согласен. Смотрите, вы утверждаете, что

Утверждение. Если корпус какого-то языка подчиняется закону Ципфа, то в этом языке больше чем 2000 слов.

Цифра 2000 взята просто потому, что её приводят, как количество слов, необходимое для уровня B1 по системе CEFR. Подправьте её на другую цифру, если я ошибся.

Опровержение
Есть контрпример -- Токи Пона. Её корпус подчиняется закону Ципфа, но в ней всего 120 слов.

Если вас смущают образовавшиеся в Токи Поне устойчивые сочетания, просто выкиньте из корпуса все тексты, где они встречаются. Оставшийся корпус всё равно будет подчиняться закону Ципфа.

И кстати, почему они должны вас смущать? В естественных языках тоже хватает устойчивых сочетаний, тем не менее закон Ципфа они не рушат.
ya herro, ya merro

Ömer

Мне всё видится гораздо проще. Слов в языке много, потому что предметов и понятий вокруг нас, которые нам выгодно разграничивать для эффективного существования -- много.

Кстати, пришло в голову, что понятие "слово" можно определить статистически. Если какой-то набор букв (или фонем в речи) встречается значимо чаще, чем ему положено при равномерном распределении; при этом если захватить соседние буквы (фонемы), то это уже неверно -- то это слово.

Это несколько отличается от обыденного понятия "слово": в него войдут и слова в обычном смысле, и устойчивые сочетания; зато для доказательства статических законов удобно.
ya herro, ya merro

yurifromspb

Цитата: Солохин от февраля 16, 2018, 18:40
... словосочетания разпределены не по закону Ципфа. Этот факт меня поражает так же сильно, как и сам закон Ципфа. Для словосочетаний работает другой закон - частота обратно пропорциональна корню из n, а не самому n.
Сейчас выдалась возможность немного подумать, да, и правда, удивительно!
А насколько точно выполняется этот закон?
Дяденька, я ведь не настоящий лингвист, а этимологический словарь я в интернете нашёл.

Свобода у каждого своя, как и очевидность, посмотри, не тьма ли твой свет.

Bāb-lišānī lapit-ma, lū awīlāta! // from "Lamentations of Urišapibim".

Alone Coder


Солохин

Цитата: Alone Coder от февраля 16, 2018, 23:13
Что такое словосочетание?
В данном случае я использовал это слово для обозначения последовательности из нескольких слов.
Sinjoro Jesuo Kristo purigu min.


Вне форума.

Солохин

Цитата: yurifromspb от февраля 16, 2018, 23:05
А насколько точно выполняется этот закон?
Так же, как и закон Ципфа, и любой статистический закон - с точностью до естественных флуктуаций.
Sinjoro Jesuo Kristo purigu min.


Вне форума.

Ömer

Цитата: Солохин от февраля 16, 2018, 23:16
Цитата: Alone Coder от февраля 16, 2018, 23:13
Что такое словосочетание?
В данном случае я использовал это слово для обозначения последовательности из нескольких слов.
Если вы под этим понимаете устойчивое сочетание, то тогда статистически это ничем не отличается от слова, и для них должен выполняться обычный Ципф.

А можно какую-нибудь ссылку на этот закон с корнем?
ya herro, ya merro

Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр