Предлагаю упражнение для интеллекта. :yes:
Возьмём таблицу с населением стран мира и отсортируем её в необычном порядке. Вначале у нас будут идти все страны, количества населения которых выражается числом, начинающимся с цифры 1, затем все страны, население которых начинается с цифры 2 и так далее.
192 Тувалу 10000
180 Кирибати 100000
84 Венгрия 10014000
83 Боливия 10031000
82 Гаити 10188000
81 Доминиканская Республика 10225000
80 Руанда 10277000
79 Гвинея 10324000
178 Гренада 104000
179 Тонга 104000
78 Чехия 10512000
77 Тунис 10533000
76 Португалия 10637000
75 Бельгия 10827000
11 Мексика 108396000
177 Сент-Винсент и Гренадины 109000
176 Федеративные штаты Микронезии 111000
74 Куба 11204000
73 Чад 11274000
72 Греция 11306000
151 Восточный Тимор 1171000
2 Индия 1187550000
150 Свазиленд 1202000
71 Зимбабве 12644000
10 Япония 127390000
70 Сенегал 12861000
149 Маврикий 1297000
69 Замбия 13257000
1 Китай 1339450000
68 Камбоджа 13396000
148 Эстония 1340000
147 Тринидад и Тобаго 1344000
191 Науру 14000
67 Эквадор 14246000
9 Россия 143300000
66 Гватемала 14377000
65 Мали 14895000
146 Габон 1501000
64 Малави 15692000
8 Нигерия 158259000
63 Нигер 15891000
62 Казахстан 16197000
61 Буркина Фасо 16287000
7 Бангладеш 164425000
145 Гвинея-Бисау 1647000
175 Сан-Томе и Принсипи 165000
60 Нидерланды 16614000
144 Катар 1697000
6 Пакистан 170532000
59 Чили 17129000
174 Сент-Люсия 174000
143 Гамбия 1751000
173 Самоа 179000
58 Ангола 18993000
5 Бразилия 193467000
142 Ботсвана 1978000
57 Камерун 19958000
190 Палау 20000
56 Мадагаскар 20146000
55 Шри-Ланка 20410000
141 Македония 2055000
140 Словения 2064000
139 Лесото 2084000
54 Саудовская Аравия 21137000
53 Румыния 21466000
52 Кот-д'Ивуар 21571000
138 Намибия 2212000
137 Латвия 2237000
51 Австралия 22450000
50 Сирия 22505000
49 Мозамбик 23406000
4 Индонезия 237556000
48 Северная Корея 23991000
47 Йемен 24256000
46 Гана 24333000
172 Вануату 246000
171 Барбадос 257000
136 Ямайка 2730000
135 Монголия 2773000
45 Узбекистан 27794000
44 Малайзия 28900000
43 Венесуэла 28926000
134 Оман 2905000
42 Афганистан 29117000
41 Перу 29462000
40 Непал 29853000
133 Кувейт 3051000
3 Соединенные Штаты Америки 310241000
170 Мальдивы 314000
39 Ирак 31467000
189 Сан-Марино 31800
169 Исландия 318000
38 Марокко 31921000
132 Албания 3195000
168 Белиз 322000
131 Армения 3238000
188 Монако 33000
130 Панама 3323000
129 Литва 3329000
128 Мавритания 3366000
127 Уругвай 3372000
37 Уганда 33796000
36 Канада 34242000
167 Багамы 346000
35 Алжир 35423000
126 Молдавия 3564000
187 Лихтенштейн 35900
125 Либерия 3665000
124 Конго, республика 3759000
123 Босния и Герцеговина 3760000
34 Польша 38167000
33 Кения 39649000
32 Аргентина 40519000
166 Бруней 407000
31 Судан 40850000
165 Мальта 416000
122 Ливан 4255000
121 Новая Зеландия 4389000
120 Хорватия 4433000
119 Грузия 4436000
30 Танзания 45040000
118 Центрально-Африканская Республика 4506000
117 Ирландия 4515000
29 Колумбия 45618000
28 Украина 45872000
27 Испания 46073000
116 Коста-Рика 4640000
115 Объединенные Арабские Эмираты 4707000
114 Норвегия 4902000
26 Южная Корея 49773000
25 Южно-Африканская Республика 49991000
164 Люксембург 503000
24 Мьянма 50496000
113 Сингапур 5077000
163 Кабо-Верде 513000
112 Туркмения 5177000
186 Сент-Китс и Невис 52000
111 Эритрея 5224000
162 Суринам 524000
161 Соломоновы Острова 536000
110 Финляндия 5368000
109 Словакия 5430000
108 Дания 5544000
107 Киргизия 5550000
106 Никарагуа 5822000
105 Сьерра-Леоне 5836000
23 Италия 60402000
104 Сальвадор 6194000
22 Великобритания 62008000
160 Черногория 626000
185 Маршалловы Острова 63000
103 Лаос 6436000
102 Парагвай 6460000
101 Иордания 6472000
21 Франция 65447000
100 Ливия 6546000
184 Доминика 67000
20 Таиланд 67470000
99 Того 6780000
19 Конго, демократическая республика 67827000
98 Папуа - Новая Гвинея 6888000
159 Коморы 691000
158 Экваториальная Гвинея 693000
97 Таджикистан 7075000
157 Бутан 708000
18 Турция 72561000
17 Иран 75078000
96 Болгария 7577000
156 Гайана 761000
95 Гондурас 7616000
94 Израиль 7628000
93 Швейцария 7783000
16 Египет 79020000
193 Ватикан 800
155 Кипр 802000
154 Бахрейн 807000
15 Германия 81802000
92 Австрия 8373000
183 Андорра 84080
14 Эфиопия 84390000
182 Сейшелы 85000
91 Бурунди 8519000
153 Фиджи 854000
13 Вьетнам 85847000
152 Джибути 879000
181 Антигуа и Барбуда 89000
90 Азербайджан 8997400
89 Бенин 9212000
88 Сомали 9359000
87 Швеция 9380000
12 Филиппины 94013000
86 Беларусь 9468000
85 Сербия 9856000
Сразу стало видно, что в этой таблице аж 57 стран, население которых выражается числом, начинающимся на 1.
192 Тувалу 10000
180 Кирибати 100000
84 Венгрия 10014000
83 Боливия 10031000
82 Гаити 10188000
81 Доминиканская Республика 10225000
80 Руанда 10277000
79 Гвинея 10324000
178 Гренада 104000
179 Тонга 104000
78 Чехия 10512000
77 Тунис 10533000
76 Португалия 10637000
75 Бельгия 10827000
11 Мексика 108396000
177 Сент-Винсент и Гренадины 109000
176 Федеративные штаты Микронезии 111000
74 Куба 11204000
73 Чад 11274000
72 Греция 11306000
151 Восточный Тимор 1171000
2 Индия 1187550000
150 Свазиленд 1202000
71 Зимбабве 12644000
10 Япония 127390000
70 Сенегал 12861000
149 Маврикий 1297000
69 Замбия 13257000
1 Китай 1339450000
68 Камбоджа 13396000
148 Эстония 1340000
147 Тринидад и Тобаго 1344000
191 Науру 14000
67 Эквадор 14246000
9 Россия 143300000
66 Гватемала 14377000
65 Мали 14895000
146 Габон 1501000
64 Малави 15692000
8 Нигерия 158259000
63 Нигер 15891000
62 Казахстан 16197000
61 Буркина Фасо 16287000
7 Бангладеш 164425000
145 Гвинея-Бисау 1647000
175 Сан-Томе и Принсипи 165000
60 Нидерланды 16614000
144 Катар 1697000
6 Пакистан 170532000
59 Чили 17129000
174 Сент-Люсия 174000
143 Гамбия 1751000
173 Самоа 179000
58 Ангола 18993000
5 Бразилия 193467000
142 Ботсвана 1978000
57 Камерун 19958000
И всего лишь 6 стран, количество населения которых начинается на 9 !
89 Бенин 9212000
88 Сомали 9359000
87 Швеция 9380000
12 Филиппины 94013000
86 Беларусь 9468000
85 Сербия 9856000
Вопрос: как это совместить с теорией вероятности?
:eat:
А не закон ли это нормального распределения чисел (Ципфра, вроде бы)!?
В таком списке велик тренд перехода из одной части в другую. Прибавилось 5‒10 тысяч населения — и вот уже его не 897000, а 902000.
А как это контролировать, если в списке наверняка данные не свеженькие только из Левада-центра, а по данным переписи 5, а то и 20 лет назад?
Как считать иммигрантов-эмигрантов и узнавать их число?
В Тувалу ровно 10 тысяч человек народилось. Не 10 тыщ и 1, не 9999, а ровнёхонько 10000.
Какова вероятность числа лишь с одной отличной от нуля цифрой?
Цитата: //ru.wikipedia.org/wiki/ТувалуНаселение
• Оценка (2011)
11 206 чел. (226-е)
Оценка, мать её, на 2011!!!
Который пять лет как прошёл.
Вопрос: на какой год данные привёл Солохин? :fp:
Короче, вот оценочные данные на июль 2015 (9 стран — на 2014, 2 страны — на 2013) по таблице ЦРУ (https://www.cia.gov/library/publications/the-world-factbook/rankorder/2119rank.html):
| Philippines | 100998376 |
| Haiti | 10110019 |
| Saint Vincent and the Grenadines | 102627 |
| Virgin Islands | 103574 |
| Benin | 10448647 |
| Dominican Republic | 10478756 |
| Micronesia, Federated States of | 105216 |
| Kiribati | 105711 |
| Somalia | 10616380 |
| Czech Republic | 10644842 |
| Tonga | 106501 |
| Burundi | 10742276 |
| Greece | 10775643 |
| Bolivia | 10800882 |
| Portugal | 10825309 |
| Tuvalu | 10869 |
| Cuba | 11031433 |
| Tunisia | 11037225 |
| Grenada | 110694 |
| Aruba | 112162 |
| Belgium | 11323973 |
| Chad | 11631456 |
| Guinea | 11780162 |
| Cyprus | 1189197 |
| Niue | 1190 |
| South Sudan | 12042910 |
| Mexico | 121736809 |
| Trinidad and Tobago | 1222363 |
| Timor-Leste | 1231116 |
| India | 1251695584 |
| Estonia | 1265420 |
| Rwanda | 12661733 |
| Japan | 126919659 |
| Tokelau | 1337 |
| Mauritius | 1339827 |
| Bahrain | 1346613 |
| China | 1367485388 |
| Senegal | 13975834 |
| Zimbabwe | 14229541 |
| Russia | 142423773 |
| Swaziland | 1435613 |
| Curacao | 146836 |
| Guatemala | 14918999 |
| Zambia | 15066266 |
| Christmas Island | 1530 |
| Wallis and Futuna | 15613 |
| Cambodia | 15708756 |
| Ecuador | 15868396 |
| Guam | 161785 |
| Saint Lucia | 163922 |
| Anguilla | 16418 |
| Bangladesh | 168957745 |
| Netherlands | 16947904 |
| Mali | 16955536 |
| Gabon | 1705336 |
| Syria | 17064854 |
| Guinea-Bissau | 1726170 |
| Chile | 17508260 |
| Malawi | 17964697 |
| Niger | 18045729 |
| Nigeria | 181562056 |
| Kazakhstan | 18157122 |
| Gaza Strip | 1869055 |
| Kosovo | 1870981 |
| Svalbard | 1872 |
| Burkina Faso | 18931686 |
| Sao Tome and Principe | 194006 |
| Lesotho | 1947701 |
| Angola | 19625353 |
| Gambia, The | 1967709 |
| Samoa | 197773 |
| Slovenia | 1983412 |
| Latvia | 1986705 |
| Pakistan | 199085847 |
| Brazil | 204259812 |
| Macedonia | 2096015 |
| Palau | 21265 |
| Romania | 21666350 |
| Botswana | 2182719 |
| Qatar | 2194817 |
| Sri Lanka | 22053488 |
| Norfolk Island | 2210 |
| Namibia | 2212307 |
| Australia | 22751014 |
| Cote d'Ivoire | 23295302 |
| Taiwan | 23415126 |
| Cameroon | 23739218 |
| Madagascar | 23812681 |
| Korea, North | 24983205 |
| Mozambique | 25303113 |
| Indonesia | 255993674 |
| Ghana | 26327649 |
| Yemen | 26737317 |
| New Caledonia | 271615 |
| Vanuatu | 272264 |
| Saudi Arabia | 27752316 |
| West Bank | 2785366 |
| Kuwait | 2788534 |
| French Polynesia | 282703 |
| Lithuania | 2884433 |
| Barbados | 290604 |
| Uzbekistan | 29199942 |
| Gibraltar | 29258 |
| Venezuela | 29275460 |
| Jamaica | 2950210 |
| Mongolia | 2992908 |
| Albania | 3029278 |
| Peru | 30444999 |
| Malaysia | 30513848 |
| Monaco | 30535 |
| Armenia | 3056382 |
| Nepal | 31551305 |
| Saint Martin | 31754 |
| United States | 321368864 |
| Bahamas, The | 324597 |
| Afghanistan | 32564342 |
| Oman | 3286936 |
| San Marino | 33020 |
| Iceland | 331918 |
| Morocco | 33322699 |
| Uruguay | 3341893 |
| British Virgin Islands | 33454 |
| Falkland Islands (Islas Malvinas) | 3361 |
| Belize | 347369 |
| Canada | 35099836 |
| Moldova | 3546847 |
| Mauritania | 3596702 |
| Puerto Rico | 3598357 |
| Sudan | 36108853 |
| Panama | 3657024 |
| Iraq | 37056169 |
| Uganda | 37101745 |
| Liechtenstein | 37624 |
| Poland | 38562189 |
| Bosnia and Herzegovina | 3867055 |
| Maldives | 393253 |
| Algeria | 39542166 |
| Sint Maarten | 39689 |
| Malta | 413965 |
| Liberia | 4195666 |
| Brunei | 429646 |
| Argentina | 43431886 |
| New Zealand | 4438393 |
| Ukraine | 44429471 |
| Croatia | 4464844 |
| Kenya | 45925301 |
| Colombia | 46736728 |
| Congo, Republic of the | 4755097 |
| Pitcairn Islands | 48 |
| Costa Rica | 4814144 |
| Spain | 48146134 |
| Ireland | 4892305 |
| Korea, South | 49115196 |
| Georgia | 4931226 |
| Faroe Islands | 50196 |
| Turks and Caicos Islands | 50280 |
| Tanzania | 51045882 |
| European Union | 513949445 |
| Saint Kitts and Nevis | 51936 |
| Norway | 5207689 |
| Turkmenistan | 5231422 |
| Northern Mariana Islands | 52344 |
| Montserrat | 5241 |
| South Africa | 53675563 |
| Central African Republic | 5391539 |
| American Samoa | 54343 |
| Slovakia | 5445027 |
| Cabo Verde | 545993 |
| Finland | 5476922 |
| Denmark | 5581503 |
| Cayman Islands | 56092 |
| Burma | 56320206 |
| Saint Pierre and Miquelon | 5657 |
| Kyrgyzstan | 5664939 |
| Singapore | 5674472 |
| Luxembourg | 570252 |
| Western Sahara | 570866 |
| Greenland | 57733 |
| United Arab Emirates | 5779760 |
| Suriname | 579633 |
| Sierra Leone | 5879098 |
| Nicaragua | 5907881 |
| Macau | 592731 |
| Cocos (Keeling) Islands | 596 |
| El Salvador | 6141350 |
| Lebanon | 6184701 |
| Italy | 61855120 |
| Solomon Islands | 622469 |
| United Kingdom | 64088222 |
| Libya | 6411776 |
| Montenegro | 647073 |
| Eritrea | 6527689 |
| Guernsey | 66080 |
| France | 66553766 |
| Papua New Guinea | 6672429 |
| Paraguay | 6783272 |
| Thailand | 67976405 |
| Laos | 6911544 |
| Bermuda | 70196 |
| Hong Kong | 7141106 |
| Serbia | 7176794 |
| Bulgaria | 7186893 |
| Marshall Islands | 72191 |
| Saint Barthelemy | 7237 |
| Guyana | 735222 |
| Dominica | 73607 |
| Equatorial Guinea | 740743 |
| Bhutan | 741919 |
| Togo | 7552318 |
| Saint Helena, Ascension, and Tristan da Cunha | 7795 |
| Comoros | 780971 |
| Congo, Democratic Republic of the | 79375136 |
| Turkey | 79414269 |
| Israel | 8049314 |
| Germany | 80854408 |
| Jordan | 8117564 |
| Switzerland | 8121830 |
| Iran | 81824270 |
| Tajikistan | 8191958 |
| Djibouti | 828324 |
| Holy See (Vatican City) | 842 |
| Andorra | 85580 |
| Austria | 8665550 |
| Honduras | 8746673 |
| Isle of Man | 87545 |
| Egypt | 88487396 |
| Fiji | 909389 |
| Seychelles | 92430 |
| Antigua and Barbuda | 92436 |
| Vietnam | 94348835 |
| Nauru | 9540 |
| Belarus | 9589689 |
| Jersey | 97294 |
| Azerbaijan | 9780780 |
| Sweden | 9801616 |
| Cook Islands | 9838 |
| Hungary | 9897541 |
| Ethiopia | 99465819 |
Распределение:
Первое число | Количество стран |
1 | 74 |
2 | 32 |
3 | 32‒33 |
4 | 16‒17 |
5 | 30‒31 |
6 | 14‒16 |
7 | 14‒15 |
8 | 13 |
9 | 12 |
Для сравнения — в 2010 году ситуация была такая:
(https://upload.wikimedia.org/wikipedia/commons/0/0b/Benfords_law_illustrated_by_world's_countries_population.png)
Красные столбцы — реальные данные, чёрные точки — закон Бенфорда.
Закон Бенфорда просто выражение того факта, что, с увеличением числа, вероятность его появления обратно пропорционально самому числу.
То есть плотность вероятности определяется как
![p(x)= \frac{1}{x} [tex]p(x)= \frac{1}{x}[/tex]](https://latex.codecogs.com/png.latex?p(x)= \frac{1}{x})
.
Тогда для диапазона определения в интервале [1..c] вероятность появления X определяется как
![P(1 \leqslant a \leqslant X < b \leqslant c) = \frac{\int_{a}^{b}\frac{dx}{x}{}}{\int_{1}^{c}\frac{dx}{x}} = \frac{\ln b - \ln a}{\ln c} = \log_c \frac{b}{a} [tex]P(1 \leqslant a \leqslant X < b \leqslant c) = \frac{\int_{a}^{b}\frac{dx}{x}{}}{\int_{1}^{c}\frac{dx}{x}} = \frac{\ln b - \ln a}{\ln c} = \log_c \frac{b}{a}[/tex]](https://latex.codecogs.com/png.latex?P(1 \leqslant a \leqslant X < b \leqslant c) = \frac{\int_{a}^{b}\frac{dx}{x}{}}{\int_{1}^{c}\frac{dx}{x}} = \frac{\ln b - \ln a}{\ln c} = \log_c \frac{b}{a})
,
где с - основание счисления - 1, a - цифра для которой вычисляется вероятность, b = a + 1 - так как набор чисел лежит в диапазоне [a0...0 .. a9...9].
Цитироватьгде с - основание счисления - 1
унарный код? :)
Да, любопытный факт, не знала.
В википедии ссылка на доклад Арнольда.
Цитата: лад от июня 20, 2016, 18:50
Закон Бенфорда просто выражение того факта, что, с увеличением числа, вероятность его появления обратно пропорционально самому числу.
Не очень хорошее объяснение. На самом деле распределения могут быть самые разные, но они при этом будут давать все тот же закон Бенфорда.
И я могут объяснить, почему! :)
Цитата: Bhudh от июня 20, 2016, 17:35
на какой год данные привёл Солохин?
Это абсолютно неважно.
Можно взять данные за любой год.
Можно взять не население стран, а их площади. Или валовый доход. Или взять длины рек. Или вообще все, что угодно. Можно также брать вперемешку числа из разных списков.
Результат будет один и тот же.
Цифра 1 на первом месте встречается в несколько раз чаще, чем цифра 9!
Такая картина наблюдается в любом справочнике!
Цитата: Солохин от июня 20, 2016, 21:40
На самом деле распределения могут быть самые разные, но они при этом будут давать все тот же закон Бенфорда.
И что с того? К Нормальному распределению тоже сходится куча распределений, но это никак не отменяет его объяснения.
Может так:
1<9
1*<9*
1**<9**
1***<9***
..................
Итого: ≈15/95
Цитата: Волод от июня 21, 2016, 15:34Может так:
1<9
1*<9*
1**<9**
1***<9***
..................
Почему не так:
1*>9
1**>9*
1***>9**
1****>9***
?
У него ДР послезавтра, кстати.
Цитата: Солохин от июня 20, 2016, 21:44
Цифра 1 на первом месте встречается в несколько раз чаще, чем цифра 9!
Такая картина наблюдается в любом справочнике!
Если предположить, что разброс величин более-менее ровный в логарифмической шкале и охватывает несколько порядков, то всё интуитивно понятно: шаг от 1,0 до 1,(9), например, в десятичных логарифмах очень близок к 0,3. От 2,0 до 2,(9) - уже менее 0,2. От 4,0 до 4,(9) - очень близко к 0,1. А о 9,0 до 9,(9) - близко к 0,05.
Цитата: Солохин от июня 20, 2016, 21:40
На самом деле распределения могут быть самые разные, но они при этом будут давать все тот же закон Бенфорда.
Однако же если разброс охватывает в основной своей массе менее одного порядка - то тут уже как повезёт, на какие именно цифры он попадёт, в зависимости от выбранных единиц измерения. Допустим, если взять распределение людей по скорости пешей ходьбы в км/ч - цифра 1 окажется где-то в глубокой дыре, т.к. попадёт только на совсем крайние, редко встречающиеся, значения.
Для структур, напоминающих фракталы, вроде какой-нибудь речной сети, с охватом нескольких порядков всё хорошо, равно как и с подобием по масштабам (что подразумевает именно логарифмические соотношения по масштабам связанных друг с другом объектов), и закон должен выполняться весьма точно.
Цитата: Bhudh от июня 21, 2016, 18:55
Цитата: Волод от июня 21, 2016, 15:34Может так:
1<9
1*<9*
1**<9**
1***<9***
..................
Почему не так:
1*>9
1**>9*
1***>9**
1****>9***
?
1<9<1*<9*<1**<9**<1***<9***<....
Когда цепочка достаточно длинная то даже отбрасывание единицы слева на общий результат серьёзно не повлияет ведь ведь 9<19 всего в два с .. раза, а в то время как 1***...<9***... в шесть с ... раз.
Цитата: Toman от июня 22, 2016, 02:31с охватом нескольких порядков всё хорошо
Да, так.
И похоже, что закон Бенфорда намекает нам на
естественность логарифмической меры.
Я давно думаю об этом (о её естественности)
Вот неслучайно ведь человеческие глаз и ухо воспринимает всё именно логарифмически. Поэтому громкость звука меряют в децибелах, а яркость источников - в звездных величинах. То и другое - логарифмические шкалы, хотя звездные величины были выдуманы в незапамятные времена, когда люди и логарифмов-то ещё не знали.
Кстати, количество денег тоже надо оценивать в логарифмической шкале.
2 000 000 рублей отличаются от 1 000 000 так же, как 2 000 от 1 000, и как 200 от 100.
Цитата: Солохин от июня 22, 2016, 15:00
И похоже, что закон Бенфорда намекает нам на естественность логарифмической меры.
Я давно думаю об этом (о её естественности)
А это было известно еще с середины прошлого века. Это всё еще Шеннон установил. Шенонова информация измеряется в логарифмах от обратной вероятности.
Цитата: лад от июня 22, 2016, 19:23
с середины прошлого века
А звездные-то величины -
с Античности. Вот оно как!
Среди множества всех чисел от нуля до бесконечности (при условии равномерного распределения по их логарифмам), доля, начинающихся на на цифру N будет пропорциональна ln((N+1)/N).
Соответственно, имеем:
1 — 30,1%
2 — 17,6%
3 — 12,5%
4 — 9,7%
5 — 7,9%
6 — 6,7%
7 — 5,8%
8 — 5,1%
9 — 4,6%
Ну да, это он и есть, закон Бенфорда.