Author Topic: Частотность словосочетаний и закон Ципфа  (Read 10757 times)

0 Members and 1 Guest are viewing this topic.

Offline Солохин

  • Posts: 17347
Вот фрагменты из списка:
(частота)  (тройка) (номер тройки в списке) (произведение квадрата частоты на номер в списке)
Sinjoro Jesuo Kristo purigu min.


Вне форума.

Меня как физика поражает в этом, почему распределение для ПАР слов и для ТРОЕК слов подчинено одному и тому же закону?!

Не означает ли это, что обнаруженный мною квадратный Ципф - это универсальное статистическое распределение для словосочетаний любого ранга?

Если так, то почему словосочетания подчинены иному закону, чем слова? Не одного ли порядка эти явления?
Sinjoro Jesuo Kristo purigu min.


Вне форума.

Online maristo

  • Posts: 10049
По моему это уже делают. Вот сравнительный анализ некоторых евроязыков и Эсперанто.

Заключение интересное.

«Toute discussion theorique est vaine: l'Esperanto fonctionne» Antoine Mеillet

Offline Hellerick

  • Posts: 24328
По-моим прикидкам получилось, что для пар слов их частотность нужно возводить в степень 1,69, а для троек — в 1,76. Действительно, неожиданно близко.

По моему это уже делают. Вот сравнительный анализ некоторых евроязыков и Эсперанто.

Заключение интересное.

А как иначе-то могло быть? Слова суть слова. На что их не меняй, какой грамматике не переподчиняй, статистика будет та же. Сравнение с Си выглядит бредом.

Online maristo

  • Posts: 10049
По-моим прикидкам получилось, что для пар слов их частотность нужно возводить в степень 1,69, а для троек — в 1,76. Действительно, неожиданно близко.

По моему это уже делают. Вот сравнительный анализ некоторых евроязыков и Эсперанто.

Заключение интересное.

А как иначе-то могло быть? Слова суть слова. На что их не меняй, какой грамматике не переподчиняй, статистика будет та же. Сравнение с Си выглядит бредом.

Я тут читал такой же анализ уличного шума и музыкальных произведений... там тоже закон соблюдается.  :o
«Toute discussion theorique est vaine: l'Esperanto fonctionne» Antoine Mеillet

Offline Hellerick

  • Posts: 24328
Я тут читал такой же анализ уличного шума и музыкальных произведений... там тоже закон соблюдается.  :o

Кстати, вот вам задание на дом: придумайте язык, в котором бы подобная статистика не соблюдалась.

Online maristo

  • Posts: 10049
Я тут читал такой же анализ уличного шума и музыкальных произведений... там тоже закон соблюдается.  :o

Кстати, вот вам задание на дом: придумайте язык, в котором бы подобная статистика не соблюдалась.

Ну, Си, формально - язык. Что тут такого? На нём не соблюдается. Тут даже важно не то что язык, а просто множество знаков. Я не спец, но у меня ощущение, что любители Ципфа заблудились в трёх соснах статистики.
«Toute discussion theorique est vaine: l'Esperanto fonctionne» Antoine Mеillet

Offline Hellerick

  • Posts: 24328
Си, формально - язык.

Формально следовало бы сравнивать переводы одного и того же текста.

Offline Солохин

  • Posts: 17347
Ага, вот умные люди проводили исследования в том же направлении.

http://aclweb.org/anthology-new/O/O03/O03-4004.pdf

Но до квадрата они не дошли.
Увы, чересчур большие вычислительные мощности расслабляюще действуют на моск.

Они долго считали и пришли к тому, что степень где-то 0.59

Но в природе не бывает 0.59
В природе либо 0, либо 1, либо 1/2, либо еще что-то красивое. "Пи" там или "е".

Природа устроена красиво.
Я думаю, там просто 0.5 - а остальное - погрешность эксперимента.
Sinjoro Jesuo Kristo purigu min.


Вне форума.

Offline Hellerick

  • Posts: 24328
Природа устроена красиво.

А эвристические законы, описывающие сложные системы — нет.

Offline Солохин

  • Posts: 17347
Закон Ньютона - красив. Уравнения Эйнштейна - ослепительно красивы. Потому что они больше, чем эвристические законы, выведенные из опыта.
Физика на самом деле не выводится из опыта.
Если бы закон всемирного тяготения выдумывали сегодняшние ребята, вооруженные суперкомпьютерами, но небогатые научной интуицией, они бы бесконечно спорили о том, какая там степень в законе всемирного тяготения - 1,92 или 1, 96.
И наука на этом бы остановилась.

Нужен был Ньютон, чтобы сказать: ребята, не майтесь дурью. Там ровно 2 (закон обратных квадратов), а все остальное - от неточности эксперимента и от приливных сил Солнца, Юпитера и проч.

Ципф был мужик умный. Он сказал то, что видно каждому невооруженным глазом: 1/r
Потом пришли ребята не столь умные и сказали: нет, там 1/r^x, где х мы будем уточнять пока нам платят гранты, то есть, всю жизнь.
Это не наука, а наукообразие.
Настоящая наука смела; она не боится чуть-чуть не соответствовать эксперименту, потому что любой реальный эксперимент бывает "грязным", в нем действует множество второстепенных факторов, которые учесть невозможно.
Нужна смелость, чтобы сказать: там просто 0.5
Я говорю это и уверен, что не прогадаю.
Sinjoro Jesuo Kristo purigu min.


Вне форума.

Online maristo

  • Posts: 10049
Хоть и не согласен с Солохиным по мировоззренческим вопросам - соглашусь; излишняя точность подкашивает принципиальность, а всё фундаментальное - принципиально. В вышеприведённом примере точность ухудшает ситуацию. :(
«Toute discussion theorique est vaine: l'Esperanto fonctionne» Antoine Mеillet

Offline Солохин

  • Posts: 17347
Вот что странно.
Почему все-таки СЛОВА распределены по одному закону, а СЛОВОСОЧЕТАНИЯ - по другому?
Я понимаю, что слова - это нечто особенное, предел синтаксиса, терминальные символы. В то время как словосочетания могут включать в себя другие словосочетания и так до бесконечности (в принципе).
То есть, это разного порядка явления.
Типа как бозоны и фермионы в физике. В одном состоянии не может быть два фермиона, но может быть сколько угодно бозонов.
Слова - типа фермионы, а словосочетания - типа бозоны.
Потому и статистика разная.

Но все-таки как-то странно это и противоречит интуиции....
Sinjoro Jesuo Kristo purigu min.


Вне форума.

Offline Alone Coder

  • Posts: 22481
    • Орфовики
Ципф был мужик умный. Он сказал то, что видно каждому невооруженным глазом: 1/r
Каждому видно невооружённым глазом, что сумма всех 1/r равна бесконечности. Поэтому Ципф - это даже не наукообразие, а лженаука.

Offline okruzhor

  • Posts: 1572
  • Форум по игре Го forum.kido.com.ru
> сумма всех 1/r равна бесконечности.

Чем это плохо в заведомо конечных множествах ?

Offline Alone Coder

  • Posts: 22481
    • Орфовики
Тем, что текст конечен, а по Ципфу сумма вхождений бесконечна.

Offline okruzhor

  • Posts: 1572
  • Форум по игре Го forum.kido.com.ru
Тем, что текст конечен, а по Ципфу сумма вхождений бесконечна.
Почему сумма конечного числа конечных слагаемых бесконечна ?

Offline fujhi

  • Posts: 866
Тем, что текст конечен, а по Ципфу сумма вхождений бесконечна.
Кодер-Кодер, Вы даже язык и речь не различаете.
Этот аккаунт официально заброшен. Связаться со мной можно по всё тому же адресу, dmymd@yandex.ru. Всем пока!

Offline Alone Coder

  • Posts: 22481
    • Орфовики
Почему сумма конечного числа конечных слагаемых бесконечна ?
Конечное число - это сколько? И где этот параметр в формуле?

Кодер-Кодер, Вы даже язык и речь не различаете.
Чего спорить с гуманитариями, они даже ряды не проходили.

Offline fujhi

  • Posts: 866
Почему сумма конечного числа конечных слагаемых бесконечна ?
Конечное число - это сколько? И где этот параметр в формуле?
Число вхождений слов в рассматриваемом словаре, построенном по конкретному конечному тексту. Это если рассматривать случай конечного текста.

Чего спорить с гуманитариями, они даже ряды не проходили.
А что, в России ряды не проходят в школе?
Этот аккаунт официально заброшен. Связаться со мной можно по всё тому же адресу, dmymd@yandex.ru. Всем пока!

Offline Alone Coder

  • Posts: 22481
    • Орфовики
Число вхождений слов в рассматриваемом словаре, построенном по конкретному конечному тексту. Это если рассматривать случай конечного текста.
Ципф не работает на конечном тексте, это предельное соотношение.

Offline Солохин

  • Posts: 17347
Любой фундаментальный закон природы является предельным случаем, не более того.
Например, ни один закон Ньютона заведомо не может соблюдаться со всей точностью, так как не существует "материальных точек". Любой материальный объект имеет какие-то конечные размеры.
Sinjoro Jesuo Kristo purigu min.


Вне форума.

Так же и лингвистика, если она хочет стать точной наукой, должна в какой-то момент начать рассматривать идеализированные объекты, "идеальные языки", как физика рассматривает идеальный газ или сферически симметричные поля.

Идеальный язык должен идеально соответствовать закону Ципфа 1/r без всяких там дробных степеней.
А реальные языки не точно соответствуют, так как помимо Ципфа есть и какие-то другие факторы, которые надо учитывать отдельно.

Мухи отдельно, котлеты отдельно - вот основная методология точной науки.
Sinjoro Jesuo Kristo purigu min.


Вне форума.

Идеальный язык должен идеально соответствовать закону Ципфа 1/r без всяких там дробных степеней.
Отсюда, вероятно, вытекает, что в идеальном языке должно быть бесконечно много слов.
Если так, то конечность словаря реальных языков - это осложнение, которое должно быть учитываемо на втором этапе построения теории.
Закон Ципфа для реальных языков соблюдается приблизительно в силу их неидеальности, конечности.
Но поскольку число слов в реальном языке все-таки достаточно велико, постольку закон Ципфа все-таки наблюдается, хотя и приближенно.
Sinjoro Jesuo Kristo purigu min.


Вне форума.

Offline RawonaM

  • Posts: 42040
Так же и лингвистика, если она хочет стать точной наукой, должна в какой-то момент начать рассматривать идеализированные объекты, "идеальные языки", как физика рассматривает идеальный газ или сферически симметричные поля.
(wiki/en) Langue_and_parole

 

With Quick-Reply you can write a post when viewing a topic without loading a new page. You can still use bulletin board code and smileys as you would in a normal post.

Note: this post will not display until it's been approved by a moderator.
Name: Email:
Verification:
Type the letters shown in the picture
Listen to the letters / Request another image
Type the letters shown in the picture:
√49 Напишите ответ строчными буквами:
«Сто одёжек, все без застёжек» — что это?: