Главное меню
Мы солидарны с Украиной. Узнайте здесь, как можно поддержать Украину.

Словообразование и закон Ципфа.

Автор Солохин, февраля 23, 2013, 07:15

0 Пользователи и 1 гость просматривают эту тему.

Солохин

Почему-то в любом живом языке работает закон Ципфа.
Почему - никто еще не обяъснил. Это просто факт.
Это страшная вещь, которая означает, что число слов, необходимых для заучивания, чтобы иметь возможность полноценно выражать свои мысли, в любом языке одно и то же.

Эсперанто обходит эту штуку так: слова распределены по закону Ципфа. В то же время а корни, из которых составлены слова, распределены по более "крутому" графику.

Потому ты можешь начинать уверенно говорить, выучив всего лишь 800 корней. А зная 1200 вообще чувствуешь себя не хуже денаскуля.

Если в каком-то языке закон Ципфа не работает, значит, этот язык пока не обкатали толком.

Когда же обкатают - либо получится все тот же Ципф для слов, либо слова де-факто сольются в устойчивые фразеологизмы, для которых закон таки будет работать.

Но в последнем случае в языке сама собою де-факто появится дополнительная структура (фразеологизмы), которую автор языка не предполагал вводить.

А это не есть хорошо.
Sinjoro Jesuo Kristo purigu min.


Вне форума.

Солохин

Де-факто, единственная возможность сократить словарь, не сокращая семантики языка - это использовать словосложение.

Данная тема - об этом.
Sinjoro Jesuo Kristo purigu min.


Вне форума.

Hellerick

Непонятно, зачем вы старика Ципфа сюда приплетаете. К утверждению, что «число слов, необходимых для заучивания, чтобы иметь возможность полноценно выражать свои мысли, в любом языке одно и то же» он не имеет совершенно никакого отношения.

Солохин

Позвольте уточнить Вашу мысль.
Вы, наверное, хотели сказать, что Вы пока не видите связи между утверждением, что "число слов, необходимых для заучивания, чтобы иметь возможность полноценно выражать свои мысли, в любом языке одно и то же" и стариком Ципфом.
Я прав?
Sinjoro Jesuo Kristo purigu min.


Вне форума.

Hellerick

Я об том, что можно представить себе язык, в котором для повседневного общения достаточно 200 слов, а можно — в котором понадобятся 20000 слов, и при этом в обоих будет соблюдаться закон Ципфа. Короче, Ципф тут не при чем. Примерное число необходимых для жизни терминов задает сама жизнь.

иванов егор

"если все слова языка (или просто достаточно длинного текста) упорядочить по убыванию частоты их использования, то частота n-го слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру"
:donno:
Всамделе - "а при чем сдесь слон"?

Alone Coder

Приблизительно обратно пропорциональной она может быть при любом коэффициенте этой пропорциональности.

Солохин

Цитата: Hellerick от февраля 23, 2013, 13:08можно представить себе язык, в котором для повседневного общения достаточно 200 слов, а можно — в котором понадобятся 20000 слов, и при этом в обоих будет соблюдаться закон Ципфа
Нет, здесь Вы ошибаетесь.
Дело в том, что закон Ципфа дает расходящийся ряд.
То есть, если сложить, сколько раз встретились в тексте слова от первого слова (которое встретилось, допустим, F раз) до последнего с номером n (которое встретилось F/n раз), мы получим (грубо)

F*ln(n).

Однако этот результат должен быть равен суммарному количеству слов N в данном тексте, не так ли?

F*ln(n)=N

Что отсюда вытекает?
Чем длиннее текст, тем (пропорционально) чаще должно встречаться в нем каждое слово. Однако частота последнего, самого редкого слова F/n не может быть больше единицы. Значит, при достаточно длинном тексте должно расти n, что и наблюдается.
Чем больше текст - тем больше в нем используется слов.
То есть, в любом реально живущем языке (на котором пишут романы или даже циклы) число слов должно быть практически неограниченным, потенциально бесконечным.
Что и наблюдается.
Если слов мало - как в токипоне - то либо тексты коротенькие, либо начинают появляться фразеологизмы.

Рассуждая более общё: если исходить из того, что последнее слово встречается ровно 1 раз, количество употреблений первого слова (если бы все было строго по Ципфу) должно быть всегда равно n, то есть, размеру словаря.
Тогда общее число слов в тексте оказывается

n*ln(n)=N

Эта красивая формула, обо многом напоминающая тем, кто изучал термодинамику или теорию информации, ясно показывает, что число слов, использованных в тексте, должно расти с размером текста.
Sinjoro Jesuo Kristo purigu min.


Вне форума.

Солохин

Небольшое следствие: верхний естественный предел длины текстов на токипоне с её сотней слов оказывается порядка 500 слов.

Если текст (значительно) более длинный - закон Ципфа соблюдаться в токипоне НЕ МОЖЕТ.
Sinjoro Jesuo Kristo purigu min.


Вне форума.

okruzhor

 > если исходить из того, что последнее слово встречается ровно 1 раз

Почему (или зачем) нужно (или можно) исходить из этого странного предположения ? Пусть самое редкое слово в словаре встречается в некоем тексте 1000 раз ; тогда размер этого текста будет в 1000 раз больше "естественного предела" . Что здесь плохого ?

> верхний естественный предел длины текстов на токипоне с её сотней слов оказывается порядка 500 слов.

В чём предельность этого "естественного предела" ?

Тайльнемер

Солохин, по-моему, вы ставите всё с ног на голову.
Вы держите зЦ за аксиому и пытаетесь из этого выводить какие-то факты о текстах и языках. Но ведь зЦ — это приближение реального распределения слов, и на концах диапазона реальное распределение отходит от зЦ.
Цитата: Hellerick от февраля 23, 2013, 13:08
Я об том, что можно представить себе язык, в котором для повседневного общения достаточно 200 слов, а можно — в котором понадобятся 20000 слов, и при этом в обоих будет соблюдаться закон Ципфа.
+1

Солохин

Мне не так-то легко отстаивать свою позицию, друзья.
Я уже несколько раз делал попытки здесь, на Лингвофоруме, говорить о Ципфе, но каждый раз сталкиваюсь с одной и той же проблемой.
В то время, когда я занимался физикой, у меня выработалась некоторая специфическая интуиция, которая в той или иной мере есть у всякого физика. Физика - по самому большому счету - это искусство применять математику для описания реальной жизни.
Для меня естественно применить эту интуицию, когда я сталкиваюсь с такой удивительной, нетривиальной вещью, как закон Ципфа.
Для меня очевидно, что рано или поздно эта закономерность будет осмыслена наукой и ляжет в основу строгого математического описания такого явления реальности как язык.

Когда я пытаюсь сделать шаг в этом направлении, я обнаруживаю, что это не мой уровень. Тут нужен Ньютон или Эйнштейн.

Я кое-что могу сделать. Но здесь возникает другая проблема: когда я рассказываю о моих скромных результатах здесь, на Лингвофоруме, меня просто не понимают. Вот когда я физикам рассказываю - они понимают.
Sinjoro Jesuo Kristo purigu min.


Вне форума.

Солохин

Цитата: okruzhor от февраля 23, 2013, 23:10
> если исходить из того, что последнее слово встречается ровно 1 раз

Почему (или зачем) нужно (или можно) исходить из этого странного предположения ? Пусть самое редкое слово в словаре встречается в некоем тексте 1000 раз ; тогда размер этого текста будет в 1000 раз больше "естественного предела" . Что здесь плохого ?
Так просто не бывает в природе, Okruxhor!

Это противоречит интуиции.
Не может быть, что сначала идет график 1/n, а потом резкий обрыв и сразу ноль.
Должен быть какой-то переход.
Sinjoro Jesuo Kristo purigu min.


Вне форума.

Солохин

Цитата: Тайльнемер от февраля 24, 2013, 05:38Вы держите зЦ за аксиому и пытаетесь из этого выводить какие-то факты о текстах и языках. Но ведь зЦ — это приближение реального распределения слов, и на концах диапазона реальное распределение отходит от зЦ.
Закон обратных квадратов, который открыл Ньютон, тоже не описывает движение различных  тел вокруг Земли.
Ньютон открыл свой закон, наблюдая движение Луны и движение яблока, которое упало с дерева.
Он увидел, что то и другое движение суть одно, и то и другое охватывается одним и тем же дифференциальным уравнением.
Но если бы он доложил этот свой результат здесь, на Лингвофоруме, ему тут же возразили бы:

А вот перышко, к примеру, падает совсем по другому закону.
Да и Юпитер не подчиняется закону обратных квадратов.
Так что твой закон, товарищ Ньютон, неточно описывает реальную природу.

Но на самом деле Ньютон прекрасно описывает природу. Просто кроме притяжения Земли есть иные факторы, влияющие на полет разных объектов: сопротивление воздуха, притяжение Солнца.

Так же и здесь: Ципф точно описывает какой-то фактор.
Но язык - штука сложная, и там есть много других факторов.
Sinjoro Jesuo Kristo purigu min.


Вне форума.

okruzhor

 > Не может быть, что сначала идет график 1/n, а потом резкий обрыв и сразу ноль.

Во-1-х -- всякое бывает . Например почитайте теорию Сергея Павлова о рейтинг-системе в Го . Экспериментальная асимптотика вероятности победы (в зависимости от разницы уровня игроков) оказалась (с достаточной точностью) гиперболой и упирается в константу=1 . Т.е. там излом , хотя и не разрыв .

Во 2-х , моя интуиция говорит вообще иное : расстояние от нуля до 1 принципиально такое же , как до 1000 ; чем больше текст , тем больше в нём этот естественный разрыв между 0 и асимптотическим значением . Почему бы не взять в качестве "естественного предела" , например , 1/10 от Вашего , чтобы уменьшить антиинтуитивный разрыв ?

Солохин

Цитата: okruzhor от февраля 25, 2013, 15:25
> Не может быть, что сначала идет график 1/n, а потом резкий обрыв и сразу ноль.

Во-1-х -- всякое бывает . Например почитайте теорию Сергея Павлова о рейтинг-системе в Го . Экспериментальная асимптотика вероятности победы (в зависимости от разницы уровня игроков) оказалась (с достаточной точностью) гиперболой и упирается в константу=1 . Т.е. там излом , хотя и не разрыв .
Конечно, всякое бывает. И излом бы меня не напугал. Излом чаще всего означает, что есть два фактора А и В, каждый из которых подчинен своей закономерности, а результат получается сложением этих двух (А+В). При этом справа от точки излома можно считать, что А>>B, а слева А<<В. Поэтому можно считать, что справа просто А, а слева просто В. В физике такое встречается сплошь и рядом.
В реальности, конечно, излома не будет, а будет некая промежуточная область, где А и В примерно равны. Но эта область может быть совсем небольшой сравнительно с двумя другими. Это бывает нередко.
А вот разрыв трудно бывает объяснить при помощи каких-то более-менее естественных соображений.
Разрыв означает, что один фактор внезапно вообще прекращает действовать. И тут же вступает в силу другой, со своим законом. Это странно и дико: почему эти две вещи происходят одновременно? Если факторы действительно разные, они должны действовать или прекращать действие независимо друг о друга. Может быть, есть какая-то разумная сила, которая вырубает один и тут же врубает другой? Никакого другого объяснения на ум не приходит.
В случае токипоны можно представить себе, что в качестве разумной силы выступает Соня Киса. Запрет на использование слов, выходящих за пределы словаря. Начиная со слова №126 (кажись) частота ровно ноль! ибо слов более нет.
Но во-первых, запрет это нестрогий. Все равно проскакивают несловарные слова, ну хотя бы имена собственные или слова из других языков. Так что даже в токипоне скачка быть не должно. Ну, а во-вторых, стихия есть стихия.
Нет никакой силы, которая заставляла бы людей соблюдать закон Ципфа. И все-таки мы его соблюдаем, совершенно добровольно и без принуждения. И во всех языках. Значит, есть какая-то причина тому. И причина эта должна действовать и в токипоне, хотим мы того или нет.
Можно придумать плановый язык, в котором бы (по идее создателя) закон Ципфа не соблюдался. Но это приведет лишь к тому, что люди будут говорить не по правилам.

ЦитироватьВо 2-х , моя интуиция говорит вообще иное : расстояние от нуля до 1 принципиально такое же , как до 1000 ; чем больше текст , тем больше в нём этот естественный разрыв между 0 и асимптотическим значением . Почему бы не взять в качестве "естественного предела" , например , 1/10 от Вашего , чтобы уменьшить антиинтуитивный разрыв ?
Слова должны встречаться целое число раз: один, два, три... но не 1/2 или 1/10 раза.
Если взять "корпус английского языка", который чаще всего используют для всяких статистических исследований, то видно, что как бы далеко по списку мы ни заходили, всегда находятся какие-то редкие слова, значения которых, наверное, и сами англичане не знают.
3   miev
3   miffin
3   miffy
3   migel
3   migente
3   migg
3   mightest
3   migliavacca
3   miglior
3   mignolet
3   migook
Эти слова встретились по 3 раза среди более чем 20 000 000 словоупотреблений. У меня нет самого конца списка, так как он наиболее длинный: таким сочетаний букв, которые встретились по одному разу тоже очень много, а мой список содержит только 500 000 слов.
Но я уверен, что ни в английском, ни в каком другом реально употребимом языке нет и не может быть резкого обрыва от 3 до нуля, не говоря уже об обрыве от 100 или 1000 до нуля и т.п.
Потому я исхожу из того, что последнее слово в списке имеет именно частоту 1.
Sinjoro Jesuo Kristo purigu min.


Вне форума.

Hellerick

Неестественным является сам факт четко ограниченного числа слов в языке. Из-за введения этого противоестественного факта и Ципф дает противоестественные обрывы.

Солохин

Цитата: Hellerick от февраля 26, 2013, 17:51Неестественным является сам факт четко ограниченного числа слов в языке.
Согласен!
Собственно, закон Ципфа (точнее, расходимость ряда 1/n) просто-напросто выражает эту интуитивно ясную для Вас мысль (о неестественности четко ограниченного числа слов) в отчетливой математической форме.
Но дает еще больше.
Он дает связь между длиной текста (N слов) и объемом словаря (n слов), который использован в этом тексте. См. выше:
n*ln(n)=N
Этого мало! Он дает еще и точную оценку, сколько слов m надо выучить, чтобы понимать столько-то (скажем, p) процентов текста:
p/100 = ln(m)/ln(n)
или иначе n**(p/100) слов покрывают p процентов текста.
Например, если знаешь sort(n)=n**(1/2) слов, то поймешь 50% текста.
Если знаешь n**(1/4), то поймешь 25%
Если знаешь n**(3/4), то поймешь 75%
и так далее.
ЦитироватьИз-за введения этого противоестественного факта и Ципф дает противоестественные обрывы.
А вот здесь я не совсем согласен. Если бы токипона стала достаточно широко использоваться, то Ципф непременно взял бы верх над Соней Кисой.
То есть, "противоестественность" тут просто от того, что язык пока недостаточно обкатан. Ведь закон Ципфа - для живых языков.

И, кстати, там нет обрыва!
Я делал исследование по частотности в токипоне.
Там прекрасный Ципф от 1-го слова до примерно 70-го, а потом не обрыв, а какая-то другая кривая, плавно идущая к нулю.
Эти 70 слов, кстати - именно те, которые реально и используются в токипоне. Историческое развития языка уже выявило некоторую избыточность её словаря.
Первые 70 слов там - очень удачные, я считаю (кроме, пожалуй pakala и ike - тут явно избыточность).
Но это к слову.
Речь вообще-то не конкретно о токи поне, а об общем принципе. Как можно и можно ли сократить необходимый для изучения словарь, не жертвуя естественной статистической структурой, которая спонтанно возникает и наблюдается в любом языке.
Sinjoro Jesuo Kristo purigu min.


Вне форума.

tempuser

Цитата: Солохин от февраля 26, 2013, 20:08
Цитата: Hellerick от февраля 26, 2013, 17:51Неестественным является сам факт четко ограниченного числа слов в языке.
Согласен!
Собственно, закон Ципфа (точнее, расходимость ряда 1/n) просто-напросто выражает эту интуитивно ясную для Вас мысль (о неестественности четко ограниченного числа слов) в отчетливой математической форме.
Но дает еще больше.
Он дает связь между длиной текста (N слов) и объемом словаря (n слов), который использован в этом тексте. См. выше:
n*ln(n)=N
Этого мало! Он дает еще и точную оценку, сколько слов m надо выучить, чтобы понимать столько-то (скажем, p) процентов текста:
p/100 = ln(m)/ln(n)
или иначе n**(p/100) слов покрывают p процентов текста.
Например, если знаешь sort(n)=n**(1/2) слов, то поймешь 50% текста.
Если знаешь n**(1/4), то поймешь 25%
Если знаешь n**(3/4), то поймешь 75%
и так далее.
ЦитироватьИз-за введения этого противоестественного факта и Ципф дает противоестественные обрывы.
А вот здесь я не совсем согласен. Если бы токипона стала достаточно широко использоваться, то Ципф непременно взял бы верх над Соней Кисой.
То есть, "противоестественность" тут просто от того, что язык пока недостаточно обкатан. Ведь закон Ципфа - для живых языков.

И, кстати, там нет обрыва!
Я делал исследование по частотности в токипоне.
Там прекрасный Ципф от 1-го слова до примерно 70-го, а потом не обрыв, а какая-то другая кривая, плавно идущая к нулю.
Эти 70 слов, кстати - именно те, которые реально и используются в токипоне. Историческое развития языка уже выявило некоторую избыточность её словаря.
Первые 70 слов там - очень удачные, я считаю (кроме, пожалуй pakala и ike - тут явно избыточность).
Но это к слову.
Речь вообще-то не конкретно о токи поне, а об общем принципе. Как можно и можно ли сократить необходимый для изучения словарь, не жертвуя естественной статистической структурой, которая спонтанно возникает и наблюдается в любом языке.

Любопытно, что в последней версии NSM Вежбицкой 64 слова. 64 и 70. Округлённо одно и то же число. Совпадение?
do co'e i ko cu'e mo (непереводимо с ложбана)
Общий аккаунт ложбанистов.
"Ученые сейчас не исключают, что вся европейская цивилизация произошла от человекоподобных грузин, которые со временем расселились с гор. (Комсомольская правда)"
ob aičnaţwiub âriţw üokwattâr üotratt - Зелёные бесцветные идеи яростно спят (на ифкуиле).

Солохин

Sinjoro Jesuo Kristo purigu min.


Вне форума.

tempuser

Цитата: tempuser от февраля 27, 2013, 07:28
Цитата: Солохин от февраля 26, 2013, 20:08
Цитата: Hellerick от февраля 26, 2013, 17:51Неестественным является сам факт четко ограниченного числа слов в языке.
Согласен!
Собственно, закон Ципфа (точнее, расходимость ряда 1/n) просто-напросто выражает эту интуитивно ясную для Вас мысль (о неестественности четко ограниченного числа слов) в отчетливой математической форме.
Но дает еще больше.
Он дает связь между длиной текста (N слов) и объемом словаря (n слов), который использован в этом тексте. См. выше:
n*ln(n)=N
Этого мало! Он дает еще и точную оценку, сколько слов m надо выучить, чтобы понимать столько-то (скажем, p) процентов текста:
p/100 = ln(m)/ln(n)
или иначе n**(p/100) слов покрывают p процентов текста.
Например, если знаешь sort(n)=n**(1/2) слов, то поймешь 50% текста.
Если знаешь n**(1/4), то поймешь 25%
Если знаешь n**(3/4), то поймешь 75%
и так далее.
ЦитироватьИз-за введения этого противоестественного факта и Ципф дает противоестественные обрывы.
А вот здесь я не совсем согласен. Если бы токипона стала достаточно широко использоваться, то Ципф непременно взял бы верх над Соней Кисой.
То есть, "противоестественность" тут просто от того, что язык пока недостаточно обкатан. Ведь закон Ципфа - для живых языков.

И, кстати, там нет обрыва!
Я делал исследование по частотности в токипоне.
Там прекрасный Ципф от 1-го слова до примерно 70-го, а потом не обрыв, а какая-то другая кривая, плавно идущая к нулю.
Эти 70 слов, кстати - именно те, которые реально и используются в токипоне. Историческое развития языка уже выявило некоторую избыточность её словаря.
Первые 70 слов там - очень удачные, я считаю (кроме, пожалуй pakala и ike - тут явно избыточность).
Но это к слову.
Речь вообще-то не конкретно о токи поне, а об общем принципе. Как можно и можно ли сократить необходимый для изучения словарь, не жертвуя естественной статистической структурой, которая спонтанно возникает и наблюдается в любом языке.

Любопытно, что в последней версии NSM Вежбицкой 64 слова. 64 и 70. Округлённо одно и то же число. Совпадение?

Если ещё добавить к 64 словам Вежбицкой 4 слова, формирующих синтаксис: li, e, pi, la, а из словаря токипоны выбросить те самые pakala и ike, то получится даже точное совпадение на 68 словах.
do co'e i ko cu'e mo (непереводимо с ложбана)
Общий аккаунт ложбанистов.
"Ученые сейчас не исключают, что вся европейская цивилизация произошла от человекоподобных грузин, которые со временем расселились с гор. (Комсомольская правда)"
ob aičnaţwiub âriţw üokwattâr üotratt - Зелёные бесцветные идеи яростно спят (на ифкуиле).

Солохин

Ого. Но все-таки моя оценка "70 слов" - приближенная. Потому даже точное совпадение тут было бы все-таки, вероятно, случайностью.
Sinjoro Jesuo Kristo purigu min.


Вне форума.

tempuser

Цитата: Солохин от февраля 27, 2013, 13:31
Ого. Но все-таки моя оценка "70 слов" - приближенная. Потому даже точное совпадение тут было бы все-таки, вероятно, случайностью.

Разумеется. Достаточно вспомнить синтактическую универсалию "предлог". Даже если в токипоне она выражается либо через li, либо через нулль-слово, то это не отменяет существование этой реалии.
Можно с уверенностью предположить о лимите в 100 слов.
do co'e i ko cu'e mo (непереводимо с ложбана)
Общий аккаунт ложбанистов.
"Ученые сейчас не исключают, что вся европейская цивилизация произошла от человекоподобных грузин, которые со временем расселились с гор. (Комсомольская правда)"
ob aičnaţwiub âriţw üokwattâr üotratt - Зелёные бесцветные идеи яростно спят (на ифкуиле).

Солохин

Цитата: tempuser от февраля 27, 2013, 13:44о лимите в 100 слов.
Всё-таки не "слов".
Смысл того, что я хочу высказать в этой теме, заключается в том, что слов в любом живом языке примерно одно и то же количество.

Вполне вероятно, что рано или поздно удастся выделить 100 каких-то семантических элементов, которых будет достаточно для того, чтобы строить новые и новые слова.
Но использовать  сами эти элементы в качестве слов не получится: они начнут сливаться и получатся слова, которые будет столько же, сколько и в любом нормальном языке (грубо говоря, бесконечно много) - всё те те же 8 000 для повседневного общения.
Sinjoro Jesuo Kristo purigu min.


Вне форума.

tempuser

Цитата: Солохин от февраля 27, 2013, 18:54
Цитата: tempuser от февраля 27, 2013, 13:44о лимите в 100 слов.
Всё-таки не "слов".
Смысл того, что я хочу высказать в этой теме, заключается в том, что слов в любом живом языке примерно одно и то же количество.

Вполне вероятно, что рано или поздно удастся выделить 100 каких-то семантических элементов, которых будет достаточно для того, чтобы строить новые и новые слова.
Но использовать  сами эти элементы в качестве слов не получится: они начнут сливаться и получатся слова, которые будет столько же, сколько и в любом нормальном языке (грубо говоря, бесконечно много) - всё те те же 8 000 для повседневного общения.

да, не слов. Но и не семантических элементов.
"предлог" - семантический элемент.
e,li - несемантические элементы.
do co'e i ko cu'e mo (непереводимо с ложбана)
Общий аккаунт ложбанистов.
"Ученые сейчас не исключают, что вся европейская цивилизация произошла от человекоподобных грузин, которые со временем расселились с гор. (Комсомольская правда)"
ob aičnaţwiub âriţw üokwattâr üotratt - Зелёные бесцветные идеи яростно спят (на ифкуиле).

Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр