Мне тут дали ссылку на сайт, где имеется Библия на глосе. Не вся, но несколько книг.
Я сразу же проверил тексты глосы на соответствие закону Ципфа (Zipf).
И соответствие оказалось очень плохим, просто из рук вон.
Вот несколько фрагментов частотного словаря Библии на глосе:
(слово - частота - номер в списке - произведение номера на частоту)
По закону Ципфа последнее число в каждой строке должно быть одинаковым (ну, по статистике)
И вот что видим:
e -1605 1 -1605
An -1444 2 -2888
dice -1296 3 -3888
a -1264 4 -5056
de -1263 5 -6315
es -1083 6 -6498
mu -960 7 -6720
tem -949 8 -7592
u -936 9 -8424
Po -850 10 -8500
Mi -813 11 -8943
gene -774 12 -9288
plu -765 13 -9945
Qi -738 14 -10332
pa -686 15 -10290
vi -629 16 -10064
ki -613 17 -10421
fu -610 18 -10980
in -544 19 -10336
..................
Ну, первые слова частотного списка в любом языке аномальные, но вот что далее
multi -5 726 -3630
no-facili -5 727 -3635
nona -5 728 -3640
nu-tem -5 729 -3645
O -5 730 -3650
ovis -5 731 -3655
Pamfilia -5 732 -3660
polica-pe -5 733 -3665
presa -5 734 -3670
proba -5 735 -3675
proto-pe -5 736 -3680
pulve -5 737 -3685
reali -5 738 -3690
sibi -5 739 -3695
Simeon -5 740 -3700
skizo -5 741 -3705
Stefano -5 742 -3710
sud -5 743 -3715
sui -5 744 -3720
Tarso -5 745 -3725
tasa -5 746 -3730
tekno -5 747 -3735
tem-dona -5 748 -3740
tensio -5 749 -3745
vaku -5 750 -3750
verifi -5 751 -3755
..............................
proto-kron -3 1007 -3021
publika -3 1008 -3024
pulsa -3 1009 -3027
puri-ritu -3 1010 -3030
qo-te -3 1011 -3033
racia -3 1012 -3036
radi -3 1013 -3039
respekto -3 1014 -3042
Samuel -3 1015 -3045
semani -3 1016 -3048
serpenti -3 1017 -3051
sexu -3 1018 -3054
Sinai -3 1019 -3057
sto-vora -3 1020 -3060
stora -3 1021 -3063
ta -3 1022 -3066
taxo -3 1023 -3069
tempestu -3 1024 -3072
textili -3 1025 -3075
textu -3 1026 -3078
trance -3 1027 -3081
trans -3 1028 -3084
tribu -3 1029 -3087
tunika -3 1030 -3090
Tyro -3 1031 -3093
.........................
kura-ergo -1 1914 -1914
kuspi -1 1915 -1915
Lameh -1 1916 -1916
lamenta -1 1917 -1917
lance -1 1918 -1918
lance-soldata -1 1919 -1919
land -1 1920 -1920
Lasaia -1 1921 -1921
Latino -1 1922 -1922
latri-pe -1 1923 -1923
latri-Teo-pe -1 1924 -1924
lega-doci-pe -1 1925 -1925
lega-fa -1 1926 -1926
lega-korta -1 1927 -1927
lega-tekno-pe -1 1928 -1928
lepido -1 1929 -1929
Lepidoptera -1 1930 -1930
leuko -1 1931 -1931
levia -1 1932 -1932
Libia -1 1933 -1933
Licia -1 1934 -1934
liga-me -1 1935 -1935
liga-ra -1 1936 -1936
Lilia-flori -1 1937 -1937
lipo -1 1938 -1938
Lisani -1 1939 -1939
lisi-ru -1 1940 -1940
livra -1 1941 -1941
Итак, видно, что наиболее частые слова в глосе аномально часты, а наиболее редкие - аномально редки.
С точки зрения изучения языка, это безусловно хорошо.
Однако тревожно, что закон Ципфа так плохо выполняется.
Это вообще-то некай мера гармонии, естественности языка....
Ну, я понимаю, что распределение отдельных корней аномальное
e -1608 1 -1608
An -1505 2 -3010
pe -1444 3 -4332
dice -1379 4 -5516
a -1297 5 -6485
u -1285 6 -7710
de -1266 7 -8862
es -1085 8 -8680
tem -1007 9 -9063
Mu -960 10 -9600
Po -877 11 -9647
Mi -813 12 -9756
plu -812 13 -10556
gene -781 14 -10934
qi -738 15 -11070
ki -707 16 -11312
pa -687 17 -11679
in -669 18 -12042
panto -637 19 -12103
vi -630 20 -12600
fu -627 21 -13167
ne -517 22 -11374
na -516 23 -11868
ko -513 24 -12312
tu -499 25 -12475
...............
Sidon -5 649 -3245
Simeon -5 650 -3250
Stefano -5 651 -3255
sui -5 652 -3260
Tarso -5 653 -3265
tasa -5 654 -3270
taxo -5 655 -3275
tekto -5 656 -3280
Tensio -5 657 -3285
Tesalonika -5 658 -3290
tro -5 659 -3295
Ultima -5 660 -3300
verifi -5 661 -3305
'Akti -4 662 -2648
'No -4 663 -2652
agno -4 664 -2656
.....................
okasio -2 987 -1974
orna -2 988 -1976
Pafo -2 989 -1978
parenta -2 990 -1980
Paseri -2 991 -1982
pastora -2 992 -1984
Pisidia -2 993 -1986
Ponto -2 994 -1988
Poplio -2 995 -1990
..............
vermi -1 1542 -1542
vexa -1 1543 -1543
vinagra -1 1544 -1544
vini -1 1545 -1545
Vipera -1 1546 -1546
viti -1 1547 -1547
Vitis -1 1548 -1548
volumi -1 1549 -1549
vota -1 1550 -1550
www -1 1551 -1551
Zebedai -1 1552 -1552
Zerubabel -1 1553 -1553
Корни и не должны быть по Ципфу, они же не являются самостоятельными единицами смысла, вне слов.
Но слова - слова-то почему?
Или в глосе говорят словосочетаниями?
Хотя, конечно, это здорово, когда 1044 корня покрывают 99% всех встречных слов!
А всего 497 корней покрывают 95% встречных слов.
А первые 300 покрывают 90%
А самые частые 100 слов покрывают 73% Библейского текста.
И слова все уже и так знакомые, греческие, международная научная лексика.
Выучить такой язык - легко, совсем легко.
Но не кот ли это в мешке?
Цитата: Солохин от апреля 30, 2010, 15:30
По закону Ципфа последнее число в каждой строке должно быть одинаковым (ну, по статистике)
И вот что видим:
e -1605 1 -1605
An -1444 2 -2888
dice -1296 3 -3888
a -1264 4 -5056
de -1263 5 -6315
es -1083 6 -6498
Кто все эти цифры вообще? Последнее похоже на накопленную абсолютную частоту, но это не оно (простая сумма показывает)...
Цитата: Солохин от апреля 30, 2010, 15:30
Итак, видно, что наиболее частые слова в глосе аномально часты, а наиболее редкие - аномально редки.
С точки зрения изучения языка, это безусловно хорошо.
Однако тревожно, что закон Ципфа так плохо выполняется.
Это вообще-то некай мера гармонии, естественности языка....
Это и есть закон Ципфа: частые часты, редкие редки. Просто, если я не ошибаюсь, в законе Ципфа были какие-то константы, зависящие от языка. Может, у Вас просто в программе эти константы выставлены неверно?
Цитата: Demetrius от апреля 30, 2010, 15:54
Кто все эти цифры вообще? Последнее похоже на накопленную абсолютную частоту, но это не оно (простая сумма показывает)...
Посленяя цифра - это произведение номера слова в списке на его частоту.
По Ципфу, это постоянное число - для каждого текста свое, но внутри данного текста для всех слов одно и то же.
Отсюда частота равна единице, деленной на номер слова в списке (это и есть Ципф).
Цитата: Demetrius от апреля 30, 2010, 15:54Просто, если я не ошибаюсь, в законе Ципфа были какие-то константы, зависящие от языка. Может, у Вас просто в программе эти константы выставлены неверно?
Нет, зависит от текста. Для всех языков одно и то же, но зависит от размера текста.
Цитата: Demetrius от апреля 30, 2010, 15:54
Это и есть закон Ципфа: частые часты, редкие редки
Нет, не так просто.
Суть в том, что сотое слово встречается ровно в десять раз реже, чем десятое, а тысячное слово - в десять раз реже сотого.
В естественных языках он выполняется с удивительным постоянством и с неплохой точностью (ну, есть и еще более точные аппроксимации, но они гораздо сложнее, а точность увеличивают на чуть)
В естественных языках он не выполняется (см. график: (wiki/en) File:Wikipedia-n-zipf.png (http://en.wikipedia.org/wiki/File:Wikipedia-n-zipf.png) ). По одной простой причине - натуральный ряд расходится.
Цитата: Alone Coder от сентября 1, 2010, 01:30
В естественных языках он не выполняется (см. график: (wiki/en) File:Wikipedia-n-zipf.png (http://en.wikipedia.org/wiki/File:Wikipedia-n-zipf.png) ). По одной простой причине - натуральный ряд расходится.
Вероятно, Вы знаете, что в квантовой теории поля расходящиеся ряды - это обычное дело. В конце рассчета две бесконечности вычитаются друг из друга, и получаются разумные числа.
Речь идет о том, что любой реальный язык является лишь ласточкой из иной реальности, лишь проекцией на реальный мир откуда-то из области идей, где закон Ципфа действительно имеет место.
Ну, а что ни один язык ему не соответствует ТОЧНО - это вообще ерунда. Ни один камень не падает ТОЧНО по законам Ньютона, ибо они - тоже ласточка из мира идей.