Главное меню
Мы солидарны с Украиной. Узнайте здесь, как можно поддержать Украину.

Закон Бенфорда

Автор Солохин, июня 20, 2016, 14:49

0 Пользователи и 1 гость просматривают эту тему.

Солохин

Предлагаю упражнение для интеллекта.  :yes:

Возьмём таблицу с населением стран мира и отсортируем её в необычном порядке. Вначале у нас будут идти все страны, количества населения которых выражается числом, начинающимся с цифры 1, затем все страны, население которых начинается с цифры 2 и так далее.



Sinjoro Jesuo Kristo purigu min.


Вне форума.

Солохин

Сразу стало видно, что в этой таблице аж 57 стран, население которых выражается числом, начинающимся на 1.



И всего лишь 6 стран, количество населения которых начинается на 9 !


Вопрос: как это совместить с теорией вероятности?
Sinjoro Jesuo Kristo purigu min.


Вне форума.

TestamentumTartarum

 :eat:
А не закон ли это нормального распределения чисел (Ципфра, вроде бы)!?
P.S. Мнение опубликовано. ГКК.
P.P.S. Осторожно, ругаюсь бронетанками!

Bhudh

В таком списке велик тренд перехода из одной части в другую. Прибавилось 5‒10 тысяч населения — и вот уже его не 897000, а 902000.
А как это контролировать, если в списке наверняка данные не свеженькие только из Левада-центра, а по данным переписи 5, а то и 20 лет назад?
Как считать иммигрантов-эмигрантов и узнавать их число?
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

_Swetlana

В Тувалу ровно 10 тысяч человек народилось. Не 10 тыщ и 1, не 9999, а ровнёхонько 10000.
Какова вероятность числа лишь с одной отличной от нуля цифрой?
🐇

Bhudh

Цитата: //ru.wikipedia.org/wiki/ТувалуНаселение
• Оценка (2011)
11 206 чел. (226-е)
Оценка, мать её, на 2011!!!
Который пять лет как прошёл.
Вопрос: на какой год данные привёл Солохин? :fp:
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Bhudh

Короче, вот оценочные данные на июль 2015 (9 стран — на 2014, 2 страны — на 2013) по таблице ЦРУ:
Spoiler: Таблица ⇓⇓⇓

Распределение:
Первое число
Количество стран
1
  74
2
  32
3
  32‒33
4
  16‒17
5
  30‒31
6
  14‒16
7
  14‒15
8
  13
9
  12


Для сравнения — в 2010 году ситуация была такая:


Красные столбцы — реальные данные, чёрные точки — закон Бенфорда.
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

лад

Закон Бенфорда просто выражение того факта, что, с увеличением числа, вероятность его появления обратно пропорционально самому числу.
То есть плотность вероятности определяется как [tex]p(x)= \frac{1}{x}[/tex].
Тогда для диапазона определения в интервале [1..c] вероятность появления X определяется как
[tex]P(1 \leqslant a  \leqslant X < b \leqslant c) = \frac{\int_{a}^{b}\frac{dx}{x}{}}{\int_{1}^{c}\frac{dx}{x}} = \frac{\ln b - \ln a}{\ln c} = \log_c \frac{b}{a}[/tex],
где с - основание счисления - 1, a - цифра для которой вычисляется вероятность, b = a + 1 - так как набор чисел лежит в диапазоне [a0...0 .. a9...9].





_Swetlana

Цитироватьгде с - основание счисления - 1
унарный код?  :)

Да, любопытный факт, не знала.
В википедии ссылка на доклад Арнольда.
🐇

Солохин

Цитата: лад от июня 20, 2016, 18:50
Закон Бенфорда просто выражение того факта, что, с увеличением числа, вероятность его появления обратно пропорционально самому числу.

Не очень хорошее объяснение. На самом деле распределения могут быть самые разные, но они при этом будут давать все тот же закон Бенфорда.

И я могут объяснить, почему! :)
Sinjoro Jesuo Kristo purigu min.


Вне форума.

Солохин

Цитата: Bhudh от июня 20, 2016, 17:35
на какой год данные привёл Солохин?
Это абсолютно неважно.
Можно взять данные за любой год.
Можно взять не население стран, а их площади. Или валовый доход. Или взять длины рек. Или вообще все, что угодно. Можно также брать вперемешку числа из разных списков.
Результат будет один и тот же.
Цифра 1 на первом месте встречается в несколько раз чаще, чем цифра 9!
Такая картина наблюдается в любом справочнике!
Sinjoro Jesuo Kristo purigu min.


Вне форума.

лад

Цитата: Солохин от июня 20, 2016, 21:40
На самом деле распределения могут быть самые разные, но они при этом будут давать все тот же закон Бенфорда.
И что с того? К Нормальному распределению тоже сходится куча распределений, но это никак не отменяет его объяснения.

Волод

Может так:
      1<9
    1*<9*
  1**<9**
1***<9***
..................


Итого: ≈15/95

Bhudh

Цитата: Волод от июня 21, 2016, 15:34Может так:
      1<9
    1*<9*
  1**<9**
1***<9***
..................
Почему не так:
      1*>9
    1**>9*
  1***>9**
1****>9***
       ?
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

_Swetlana

🐇

Bhudh

Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Toman

Цитата: Солохин от июня 20, 2016, 21:44
Цифра 1 на первом месте встречается в несколько раз чаще, чем цифра 9!
Такая картина наблюдается в любом справочнике!
Если предположить, что разброс величин более-менее ровный в логарифмической шкале и охватывает несколько порядков, то всё интуитивно понятно: шаг от 1,0 до 1,(9), например, в десятичных логарифмах очень близок к 0,3. От 2,0 до 2,(9) - уже менее 0,2. От 4,0 до 4,(9) - очень близко к 0,1. А о 9,0 до 9,(9) - близко к 0,05.

Цитата: Солохин от июня 20, 2016, 21:40
На самом деле распределения могут быть самые разные, но они при этом будут давать все тот же закон Бенфорда.
Однако же если разброс охватывает в основной своей массе менее одного порядка - то тут уже как повезёт, на какие именно цифры он попадёт, в зависимости от выбранных единиц измерения. Допустим, если взять распределение людей по скорости пешей ходьбы в км/ч - цифра 1 окажется где-то в глубокой дыре, т.к. попадёт только на совсем крайние, редко встречающиеся, значения.

Для структур, напоминающих  фракталы, вроде какой-нибудь речной сети, с охватом нескольких порядков всё хорошо, равно как и с подобием по масштабам (что подразумевает именно логарифмические соотношения по масштабам связанных друг с другом объектов), и закон должен выполняться весьма точно.
Во́зле до́ма хо́лм с куля́ми - вы́йду на́ холм, ку́ль поставлю.
В славном городе Miami тётки мерялись ногтями, тик иң озын завсегда у Фиделя борода!

Волод

Цитата: Bhudh от июня 21, 2016, 18:55
Цитата: Волод от июня 21, 2016, 15:34Может так:
      1<9
    1*<9*
  1**<9**
1***<9***
..................
Почему не так:
      1*>9
    1**>9*
  1***>9**
1****>9***
       ?
1<9<1*<9*<1**<9**<1***<9***<....
Когда цепочка достаточно длинная то даже отбрасывание единицы слева на общий результат серьёзно не повлияет ведь ведь 9<19 всего в два с .. раза, а в то время как  1***...<9***... в шесть с ... раз.

Солохин

Цитата: Toman от июня 22, 2016, 02:31с охватом нескольких порядков всё хорошо
Да, так.
И похоже, что закон Бенфорда намекает нам на естественность логарифмической меры.

Я давно думаю об этом (о её естественности)

Вот неслучайно ведь человеческие глаз и ухо воспринимает всё именно логарифмически. Поэтому громкость звука меряют в децибелах, а яркость источников - в звездных величинах. То и другое - логарифмические шкалы, хотя звездные величины были выдуманы в незапамятные времена, когда люди и логарифмов-то ещё не знали.

Кстати, количество денег тоже надо оценивать в логарифмической шкале.
2 000 000 рублей отличаются от 1 000 000 так же, как 2 000 от 1 000, и как 200 от 100.
Sinjoro Jesuo Kristo purigu min.


Вне форума.

лад

Цитата: Солохин от июня 22, 2016, 15:00
И похоже, что закон Бенфорда намекает нам на естественность логарифмической меры.

Я давно думаю об этом (о её естественности)
А это было известно еще с середины прошлого века. Это всё еще Шеннон установил. Шенонова информация измеряется в логарифмах от обратной вероятности.

Солохин

Цитата: лад от июня 22, 2016, 19:23
с середины прошлого века
А звездные-то величины - с Античности. Вот оно как!
Sinjoro Jesuo Kristo purigu min.


Вне форума.

Hellerick

Среди множества всех чисел от нуля до бесконечности (при условии равномерного распределения по их логарифмам), доля, начинающихся на на цифру N будет пропорциональна ln((N+1)/N).

Соответственно, имеем:

1 — 30,1%
2 — 17,6%
3 — 12,5%
4 — 9,7%
5 — 7,9%
6 — 6,7%
7 — 5,8%
8 — 5,1%
9 — 4,6%

Солохин

Sinjoro Jesuo Kristo purigu min.


Вне форума.

Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр