Печать страницы - Что-то не так с Глосой

Название: Что-то не так с Глосой
Отправлено: Солохин от апреля 30, 2010, 15:30

Мне тут дали ссылку на сайт, где имеется Библия на глосе. Не вся, но несколько книг.
Я сразу же проверил тексты глосы на соответствие закону Ципфа (Zipf).
И соответствие оказалось очень плохим, просто из рук вон.
Вот несколько фрагментов частотного словаря Библии на глосе:
(слово - частота - номер в списке - произведение номера на частоту)
По закону Ципфа последнее число в каждой строке должно быть одинаковым (ну, по статистике)
И вот что видим:
e   -1605   1   -1605
An   -1444   2   -2888
dice   -1296   3   -3888
a   -1264   4   -5056
de   -1263   5   -6315
es   -1083   6   -6498
mu   -960   7   -6720
tem   -949   8   -7592
u   -936   9   -8424
Po   -850   10   -8500
Mi   -813   11   -8943
gene   -774   12   -9288
plu   -765   13   -9945
Qi   -738   14   -10332
pa   -686   15   -10290
vi   -629   16   -10064
ki   -613   17   -10421
fu   -610   18   -10980
in   -544   19   -10336
..................
Ну, первые слова частотного списка в любом языке аномальные, но вот что далее

multi   -5   726   -3630
no-facili   -5   727   -3635
nona   -5   728   -3640
nu-tem   -5   729   -3645
O   -5   730   -3650
ovis   -5   731   -3655
Pamfilia   -5   732   -3660
polica-pe   -5   733   -3665
presa   -5   734   -3670
proba   -5   735   -3675
proto-pe   -5   736   -3680
pulve   -5   737   -3685
reali   -5   738   -3690
sibi   -5   739   -3695
Simeon   -5   740   -3700
skizo   -5   741   -3705
Stefano   -5   742   -3710
sud   -5   743   -3715
sui   -5   744   -3720
Tarso   -5   745   -3725
tasa   -5   746   -3730
tekno   -5   747   -3735
tem-dona   -5   748   -3740
tensio   -5   749   -3745
vaku   -5   750   -3750
verifi   -5   751   -3755
..............................

proto-kron   -3   1007   -3021
publika   -3   1008   -3024
pulsa   -3   1009   -3027
puri-ritu   -3   1010   -3030
qo-te   -3   1011   -3033
racia   -3   1012   -3036
radi   -3   1013   -3039
respekto   -3   1014   -3042
Samuel   -3   1015   -3045
semani   -3   1016   -3048
serpenti   -3   1017   -3051
sexu   -3   1018   -3054
Sinai   -3   1019   -3057
sto-vora   -3   1020   -3060
stora   -3   1021   -3063
ta   -3   1022   -3066
taxo   -3   1023   -3069
tempestu   -3   1024   -3072
textili   -3   1025   -3075
textu   -3   1026   -3078
trance   -3   1027   -3081
trans   -3   1028   -3084
tribu   -3   1029   -3087
tunika   -3   1030   -3090
Tyro   -3   1031   -3093
.........................
kura-ergo   -1   1914   -1914
kuspi   -1   1915   -1915
Lameh   -1   1916   -1916
lamenta   -1   1917   -1917
lance   -1   1918   -1918
lance-soldata   -1   1919   -1919
land   -1   1920   -1920
Lasaia   -1   1921   -1921
Latino   -1   1922   -1922
latri-pe   -1   1923   -1923
latri-Teo-pe   -1   1924   -1924
lega-doci-pe   -1   1925   -1925
lega-fa   -1   1926   -1926
lega-korta   -1   1927   -1927
lega-tekno-pe   -1   1928   -1928
lepido   -1   1929   -1929
Lepidoptera   -1   1930   -1930
leuko   -1   1931   -1931
levia   -1   1932   -1932
Libia   -1   1933   -1933
Licia   -1   1934   -1934
liga-me   -1   1935   -1935
liga-ra   -1   1936   -1936
Lilia-flori   -1   1937   -1937
lipo   -1   1938   -1938
Lisani   -1   1939   -1939
lisi-ru   -1   1940   -1940
livra   -1   1941   -1941

Итак, видно, что наиболее частые слова в глосе аномально часты, а наиболее редкие - аномально редки.
С точки зрения изучения языка, это безусловно хорошо.

Однако тревожно, что закон Ципфа так плохо выполняется.
Это вообще-то некай мера гармонии, естественности языка....

Название: Что-то не так с Глосой
Отправлено: Солохин от апреля 30, 2010, 15:41

Ну, я понимаю, что распределение отдельных корней аномальное

e   -1608   1   -1608
An   -1505   2   -3010
pe   -1444   3   -4332
dice   -1379   4   -5516
a   -1297   5   -6485
u   -1285   6   -7710
de   -1266   7   -8862
es   -1085   8   -8680
tem   -1007   9   -9063
Mu   -960   10   -9600
Po   -877   11   -9647
Mi   -813   12   -9756
plu   -812   13   -10556
gene   -781   14   -10934
qi   -738   15   -11070
ki   -707   16   -11312
pa   -687   17   -11679
in   -669   18   -12042
panto   -637   19   -12103
vi   -630   20   -12600
fu   -627   21   -13167
ne   -517   22   -11374
na   -516   23   -11868
ko   -513   24   -12312
tu   -499   25   -12475
...............
Sidon   -5   649   -3245
Simeon   -5   650   -3250
Stefano   -5   651   -3255
sui   -5   652   -3260
Tarso   -5   653   -3265
tasa   -5   654   -3270
taxo   -5   655   -3275
tekto   -5   656   -3280
Tensio   -5   657   -3285
Tesalonika   -5   658   -3290
tro   -5   659   -3295
Ultima   -5   660   -3300
verifi   -5   661   -3305
'Akti   -4   662   -2648
'No   -4   663   -2652
agno   -4   664   -2656
.....................
okasio   -2   987   -1974
orna   -2   988   -1976
Pafo   -2   989   -1978
parenta   -2   990   -1980
Paseri   -2   991   -1982
pastora   -2   992   -1984
Pisidia   -2   993   -1986
Ponto   -2   994   -1988
Poplio   -2   995   -1990
..............
vermi   -1   1542   -1542
vexa   -1   1543   -1543
vinagra   -1   1544   -1544
vini   -1   1545   -1545
Vipera   -1   1546   -1546
viti   -1   1547   -1547
Vitis   -1   1548   -1548
volumi   -1   1549   -1549
vota   -1   1550   -1550
www   -1   1551   -1551
Zebedai   -1   1552   -1552
Zerubabel   -1   1553   -1553

Корни и не должны быть по Ципфу, они же не являются самостоятельными единицами смысла, вне слов.

Но слова - слова-то почему?
Или в глосе говорят словосочетаниями?

Название: Что-то не так с Глосой
Отправлено: Солохин от апреля 30, 2010, 15:52

Хотя, конечно, это здорово, когда 1044 корня покрывают 99% всех встречных слов!
А всего 497 корней покрывают 95% встречных слов.
А первые 300 покрывают 90%
А самые частые 100 слов покрывают 73% Библейского текста.

И слова все уже и так знакомые, греческие, международная научная лексика.

Выучить такой язык - легко, совсем легко.
Но не кот ли это в мешке?

Название: Что-то не так с Глосой
Отправлено: Demetrius от апреля 30, 2010, 15:54

Цитата: Солохин от апреля 30, 2010, 15:30
По закону Ципфа последнее число в каждой строке должно быть одинаковым (ну, по статистике)
И вот что видим:
e -1605 1 -1605
An -1444 2 -2888
dice -1296 3 -3888
a -1264 4 -5056
de -1263 5 -6315
es -1083 6 -6498

Кто все эти цифры вообще? Последнее похоже на накопленную абсолютную частоту, но это не оно (простая сумма показывает)...

Цитата: Солохин от апреля 30, 2010, 15:30
Итак, видно, что наиболее частые слова в глосе аномально часты, а наиболее редкие - аномально редки.
С точки зрения изучения языка, это безусловно хорошо.

Однако тревожно, что закон Ципфа так плохо выполняется.
Это вообще-то некай мера гармонии, естественности языка....

Это и есть закон Ципфа: частые часты, редкие редки. Просто, если я не ошибаюсь, в законе Ципфа были какие-то константы, зависящие от языка. Может, у Вас просто в программе эти константы выставлены неверно?

Название: Что-то не так с Глосой
Отправлено: Солохин от апреля 30, 2010, 16:04

Цитата: Demetrius от апреля 30, 2010, 15:54
Кто все эти цифры вообще? Последнее похоже на накопленную абсолютную частоту, но это не оно (простая сумма показывает)...

Посленяя цифра - это произведение номера слова в списке на его частоту.
По Ципфу, это постоянное число - для каждого текста свое, но внутри данного текста для всех слов одно и то же.
Отсюда частота равна единице, деленной на номер слова в списке (это и есть Ципф).

Цитата: Demetrius от апреля 30, 2010, 15:54Просто, если я не ошибаюсь, в законе Ципфа были какие-то константы, зависящие от языка. Может, у Вас просто в программе эти константы выставлены неверно?

Нет, зависит от текста. Для всех языков одно и то же, но зависит от размера текста.

Название: Что-то не так с Глосой
Отправлено: Солохин от апреля 30, 2010, 16:08

Цитата: Demetrius от апреля 30, 2010, 15:54
Это и есть закон Ципфа: частые часты, редкие редки

Нет, не так просто.
Суть в том, что сотое слово встречается ровно в десять раз реже, чем десятое, а тысячное слово - в десять раз реже сотого.
В естественных языках он выполняется с удивительным постоянством и с неплохой точностью (ну, есть и еще более точные аппроксимации, но они гораздо сложнее, а точность увеличивают на чуть)

Название: Что-то не так с Глосой
Отправлено: Alone Coder от сентября 1, 2010, 01:30

В естественных языках он не выполняется (см. график: (wiki/en) File:Wikipedia-n-zipf.png (http://en.wikipedia.org/wiki/File:Wikipedia-n-zipf.png) ). По одной простой причине - натуральный ряд расходится.

Название: Что-то не так с Глосой
Отправлено: Солохин от сентября 1, 2010, 16:17

Цитата: Alone Coder от сентября 1, 2010, 01:30
В естественных языках он не выполняется (см. график: (wiki/en) File:Wikipedia-n-zipf.png (http://en.wikipedia.org/wiki/File:Wikipedia-n-zipf.png) ). По одной простой причине - натуральный ряд расходится.

Вероятно, Вы знаете, что в квантовой теории поля расходящиеся ряды - это обычное дело. В конце рассчета две бесконечности вычитаются друг из друга, и получаются разумные числа.
Речь идет о том, что любой реальный язык является лишь ласточкой из иной реальности, лишь проекцией на реальный мир откуда-то из области идей, где закон Ципфа действительно имеет место.

Ну, а что ни один язык ему не соответствует ТОЧНО - это вообще ерунда. Ни один камень не падает ТОЧНО по законам Ньютона, ибо они - тоже ласточка из мира идей.

Лингвофорум

Теоретический раздел => Прикладная лингвистика => Компьютерная лингвистика => Тема начата: Солохин от апреля 30, 2010, 15:30