Главное меню
Мы солидарны с Украиной. Узнайте здесь, как можно поддержать Украину.

Частотность словосочетаний и закон Ципфа

Автор Солохин, июля 7, 2012, 21:31

0 Пользователи и 1 гость просматривают эту тему.

Солохин

Вот фрагменты из списка:
(частота)  (тройка) (номер тройки в списке) (произведение квадрата частоты на номер в списке)
Sinjoro Jesuo Kristo purigu min.


Вне форума.

Солохин

Меня как физика поражает в этом, почему распределение для ПАР слов и для ТРОЕК слов подчинено одному и тому же закону?!

Не означает ли это, что обнаруженный мною квадратный Ципф - это универсальное статистическое распределение для словосочетаний любого ранга?

Если так, то почему словосочетания подчинены иному закону, чем слова? Не одного ли порядка эти явления?
Sinjoro Jesuo Kristo purigu min.


Вне форума.

maristo

По моему это уже делают. Вот сравнительный анализ некоторых евроязыков и Эсперанто.

Заключение интересное.

«Toute discussion theorique est vaine: l'Esperanto fonctionne» Antoine Mеillet

Hellerick

По-моим прикидкам получилось, что для пар слов их частотность нужно возводить в степень 1,69, а для троек — в 1,76. Действительно, неожиданно близко.

Цитата: maristo от июля  8, 2012, 08:42
По моему это уже делают. Вот сравнительный анализ некоторых евроязыков и Эсперанто.

Заключение интересное.

А как иначе-то могло быть? Слова суть слова. На что их не меняй, какой грамматике не переподчиняй, статистика будет та же. Сравнение с Си выглядит бредом.

maristo

Цитата: Hellerick от июля  8, 2012, 09:50
По-моим прикидкам получилось, что для пар слов их частотность нужно возводить в степень 1,69, а для троек — в 1,76. Действительно, неожиданно близко.

Цитата: maristo от июля  8, 2012, 08:42
По моему это уже делают. Вот сравнительный анализ некоторых евроязыков и Эсперанто.

Заключение интересное.

А как иначе-то могло быть? Слова суть слова. На что их не меняй, какой грамматике не переподчиняй, статистика будет та же. Сравнение с Си выглядит бредом.

Я тут читал такой же анализ уличного шума и музыкальных произведений... там тоже закон соблюдается.  :o
«Toute discussion theorique est vaine: l'Esperanto fonctionne» Antoine Mеillet

Hellerick

Цитата: maristo от июля  8, 2012, 10:26
Я тут читал такой же анализ уличного шума и музыкальных произведений... там тоже закон соблюдается.  :o

Кстати, вот вам задание на дом: придумайте язык, в котором бы подобная статистика не соблюдалась.

maristo

Цитата: Hellerick от июля  8, 2012, 10:30
Цитата: maristo от июля  8, 2012, 10:26
Я тут читал такой же анализ уличного шума и музыкальных произведений... там тоже закон соблюдается.  :o

Кстати, вот вам задание на дом: придумайте язык, в котором бы подобная статистика не соблюдалась.

Ну, Си, формально - язык. Что тут такого? На нём не соблюдается. Тут даже важно не то что язык, а просто множество знаков. Я не спец, но у меня ощущение, что любители Ципфа заблудились в трёх соснах статистики.
«Toute discussion theorique est vaine: l'Esperanto fonctionne» Antoine Mеillet

Hellerick

Цитата: maristo от июля  8, 2012, 10:41
Си, формально - язык.

Формально следовало бы сравнивать переводы одного и того же текста.

Солохин

Ага, вот умные люди проводили исследования в том же направлении.

http://aclweb.org/anthology-new/O/O03/O03-4004.pdf

Но до квадрата они не дошли.
Увы, чересчур большие вычислительные мощности расслабляюще действуют на моск.

Они долго считали и пришли к тому, что степень где-то 0.59

Но в природе не бывает 0.59
В природе либо 0, либо 1, либо 1/2, либо еще что-то красивое. "Пи" там или "е".

Природа устроена красиво.
Я думаю, там просто 0.5 - а остальное - погрешность эксперимента.
Sinjoro Jesuo Kristo purigu min.


Вне форума.

Hellerick

Цитата: Солохин от июля  8, 2012, 15:17
Природа устроена красиво.

А эвристические законы, описывающие сложные системы — нет.

Солохин

Закон Ньютона - красив. Уравнения Эйнштейна - ослепительно красивы. Потому что они больше, чем эвристические законы, выведенные из опыта.
Физика на самом деле не выводится из опыта.
Если бы закон всемирного тяготения выдумывали сегодняшние ребята, вооруженные суперкомпьютерами, но небогатые научной интуицией, они бы бесконечно спорили о том, какая там степень в законе всемирного тяготения - 1,92 или 1, 96.
И наука на этом бы остановилась.

Нужен был Ньютон, чтобы сказать: ребята, не майтесь дурью. Там ровно 2 (закон обратных квадратов), а все остальное - от неточности эксперимента и от приливных сил Солнца, Юпитера и проч.

Ципф был мужик умный. Он сказал то, что видно каждому невооруженным глазом: 1/r
Потом пришли ребята не столь умные и сказали: нет, там 1/r^x, где х мы будем уточнять пока нам платят гранты, то есть, всю жизнь.
Это не наука, а наукообразие.
Настоящая наука смела; она не боится чуть-чуть не соответствовать эксперименту, потому что любой реальный эксперимент бывает "грязным", в нем действует множество второстепенных факторов, которые учесть невозможно.
Нужна смелость, чтобы сказать: там просто 0.5
Я говорю это и уверен, что не прогадаю.
Sinjoro Jesuo Kristo purigu min.


Вне форума.

maristo

Хоть и не согласен с Солохиным по мировоззренческим вопросам - соглашусь; излишняя точность подкашивает принципиальность, а всё фундаментальное - принципиально. В вышеприведённом примере точность ухудшает ситуацию. :(
«Toute discussion theorique est vaine: l'Esperanto fonctionne» Antoine Mеillet

Солохин

Вот что странно.
Почему все-таки СЛОВА распределены по одному закону, а СЛОВОСОЧЕТАНИЯ - по другому?
Я понимаю, что слова - это нечто особенное, предел синтаксиса, терминальные символы. В то время как словосочетания могут включать в себя другие словосочетания и так до бесконечности (в принципе).
То есть, это разного порядка явления.
Типа как бозоны и фермионы в физике. В одном состоянии не может быть два фермиона, но может быть сколько угодно бозонов.
Слова - типа фермионы, а словосочетания - типа бозоны.
Потому и статистика разная.

Но все-таки как-то странно это и противоречит интуиции....
Sinjoro Jesuo Kristo purigu min.


Вне форума.

Alone Coder

Цитата: Солохин от июля  8, 2012, 16:00
Ципф был мужик умный. Он сказал то, что видно каждому невооруженным глазом: 1/r
Каждому видно невооружённым глазом, что сумма всех 1/r равна бесконечности. Поэтому Ципф - это даже не наукообразие, а лженаука.

okruzhor

> сумма всех 1/r равна бесконечности.

Чем это плохо в заведомо конечных множествах ?

Alone Coder

Тем, что текст конечен, а по Ципфу сумма вхождений бесконечна.

okruzhor

Цитата: Alone Coder от июля 12, 2012, 12:10
Тем, что текст конечен, а по Ципфу сумма вхождений бесконечна.
Почему сумма конечного числа конечных слагаемых бесконечна ?

fujhi

Цитата: Alone Coder от июля 12, 2012, 12:10
Тем, что текст конечен, а по Ципфу сумма вхождений бесконечна.
Кодер-Кодер, Вы даже язык и речь не различаете.
Этот аккаунт официально заброшен. Связаться со мной можно по всё тому же адресу, [email]dmymd@yandex.ru[/email]. Всем пока!

Alone Coder

Цитата: okruzhor от июля 12, 2012, 12:13
Почему сумма конечного числа конечных слагаемых бесконечна ?
Конечное число - это сколько? И где этот параметр в формуле?

Цитата: fujhi от июля 12, 2012, 13:18
Кодер-Кодер, Вы даже язык и речь не различаете.
Чего спорить с гуманитариями, они даже ряды не проходили.

fujhi

Цитата: Alone Coder от июля 12, 2012, 20:26
Цитата: okruzhor от июля 12, 2012, 12:13
Почему сумма конечного числа конечных слагаемых бесконечна ?
Конечное число - это сколько? И где этот параметр в формуле?
Число вхождений слов в рассматриваемом словаре, построенном по конкретному конечному тексту. Это если рассматривать случай конечного текста.

Цитата: Alone Coder от июля 12, 2012, 20:26
Чего спорить с гуманитариями, они даже ряды не проходили.
А что, в России ряды не проходят в школе?
Этот аккаунт официально заброшен. Связаться со мной можно по всё тому же адресу, [email]dmymd@yandex.ru[/email]. Всем пока!

Alone Coder

Цитата: fujhi от июля 12, 2012, 21:01
Число вхождений слов в рассматриваемом словаре, построенном по конкретному конечному тексту. Это если рассматривать случай конечного текста.
Ципф не работает на конечном тексте, это предельное соотношение.

Солохин

Любой фундаментальный закон природы является предельным случаем, не более того.
Например, ни один закон Ньютона заведомо не может соблюдаться со всей точностью, так как не существует "материальных точек". Любой материальный объект имеет какие-то конечные размеры.
Sinjoro Jesuo Kristo purigu min.


Вне форума.

Солохин

Так же и лингвистика, если она хочет стать точной наукой, должна в какой-то момент начать рассматривать идеализированные объекты, "идеальные языки", как физика рассматривает идеальный газ или сферически симметричные поля.

Идеальный язык должен идеально соответствовать закону Ципфа 1/r без всяких там дробных степеней.
А реальные языки не точно соответствуют, так как помимо Ципфа есть и какие-то другие факторы, которые надо учитывать отдельно.

Мухи отдельно, котлеты отдельно - вот основная методология точной науки.
Sinjoro Jesuo Kristo purigu min.


Вне форума.

Солохин

Цитата: Солохин от июля 13, 2012, 13:47Идеальный язык должен идеально соответствовать закону Ципфа 1/r без всяких там дробных степеней.
Отсюда, вероятно, вытекает, что в идеальном языке должно быть бесконечно много слов.
Если так, то конечность словаря реальных языков - это осложнение, которое должно быть учитываемо на втором этапе построения теории.
Закон Ципфа для реальных языков соблюдается приблизительно в силу их неидеальности, конечности.
Но поскольку число слов в реальном языке все-таки достаточно велико, постольку закон Ципфа все-таки наблюдается, хотя и приближенно.
Sinjoro Jesuo Kristo purigu min.


Вне форума.

RawonaM

Цитата: Солохин от июля 13, 2012, 13:47
Так же и лингвистика, если она хочет стать точной наукой, должна в какой-то момент начать рассматривать идеализированные объекты, "идеальные языки", как физика рассматривает идеальный газ или сферически симметричные поля.
(wiki/en) Langue_and_parole

Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр