Взявшись изучать английский язык, я с немалым удивлением обнаружил наличие отсутствия
частотного словаря словосочетаний для этого наиболее изученного из всех языков.
Из чего я сделал предварительный вывод, что частотного словаря словосочетаний не найти, вероятно, ни для какого языка. Если уж нет для английского...
Я решился проделать эту небольшую научную работу самостоятельно и быстро понял, почему никто до меня этим делом всерьез не занимался. Прежде всего, для составления такого словаря необходима программа, способная осуществлять синтаксический анализ текста - то есть, выделять эти самые словосочетания. Такие программы либо дорого стоят, либо вообще засекречены - по-видимому, потому, что это напрямую связано с проблемой машинного перевода, где крутятся сейчас большие бабки.
Но все-таки я нашел бесплатную программу - синатксический анализатор для русского и английского языков, причем весьма неплохую по тактико-техническим характеристкам - как ни странно, русского производства. Мы таки в этом оказались почему-то впереди планеты всей.
ООО «Когнитивные технологии»
Россия, Москва, 117312, Проспект 60-летия Октября, 9, офис 709.
Тел. +7(495)135-5510
Факс +7(495)135-5088
e-mail info@cognitive.ru
WWW http://www.cognitive.ru
Условия пользования очень разумные:
a. Получатель может без взимания оплаты в любой форме распространять копии Программы в неизмененной форме всем, кто согласен с условиями этого лицензионного соглашения.
b. Получатель может распространять результаты, полученные с помощью Программы, третьим лицам без взимания оплаты в любой форме. С третьими лицами Получатель должен заключить лицензионное соглашение о не использовании этих результатов для коммерческих целей. Соглашение с третьими лицами должно содержать сроки и условия, по крайней мере, столь же защищающие права и интересы Изготовителя, как это Соглашение...
ДЛЯ ИСПОЛЬЗОВАНИЯ ПРОГРАММЫ В НЕКОММЕРЧЕСКИХ ЦЕЛЯХ В ОБРАЗОВАТЕЛЬНЫХ УЧРЕЖДЕНИЯХ И ИССЛЕДОВАТЕЛЬСКИХ ЦЕНТРАХ СОГЛАШЕНИЕ ДОПОЛНЯЕТСЯ ПЕРЕЧИСЛЕННЫМИ НИЖЕ ПУНКТАМИ.
1. Права Получателя. Получатель, его студенты, или члены исследовательской группы могут использовать Программу для обучения и исследований.
2. Ограничения Получателя. Получатель, его студенты или члены исследовательской группы не должны никоим образом использовать Программу для любых коммерческих целей. Получатель полностью ответственен за любое запрещенное использование Программы им самим, его студентами или членами исследовательской группы. Получатель обязуется не предоставлять данные тестирования Программы для публикации без разрешения Изготовителя.
Недостаток - не совсем удобный для моей конкретной цели формат выдачи результатов анализа. Мне пришлось обрабатывать сравнительно небольшой объем текста, так как в противном случая я увязал в огромных выходных файлах, не имея сил и средств их обработать.
Итак, я взял сравнительно небольшой текст на хорошем английском языке: 20 000 слов, 100 000 знаков.
И обработал его.
Вот что я получил.
Данный текст содержит 3170
различных слов. Программа выявила в нем 10 000 различных словосочетаний, из которых только 1400 словосочетаний встречаются 2 и более раз.
Я отбросил "хвост" из словосочетаний, которые встречаются лишь один раз и получил следующую картину:
номер | словосочетание | частота | квадрат частоты | произведение номера на квадрат частоты
1 | i + have | 79 | 6241 | 6241
2 | do + you | 64 | 4096 | 8192
3 | i + do | 41 | 1681 | 5043
4 | have + be | 39 | 1521 | 6084
5 | i + would | 39 | 1521 | 7605
6 | to + be | 39 | 1521 | 9126
7 | i + be | 38 | 1444 | 10108
8 | will + be | 34 | 1156 | 9248
9 | would + like | 32 | 1024 | 9216
10 | i + can | 31 | 961 | 9610
11 | i + like | 31 | 961 | 10571
12 | be + you | 30 | 900 | 10800
13 | be + not | 28 | 784 | 10192
14 | you + be | 28 | 784 | 10976
15 | but + be | 27 | 729 | 10935
16 | there + be | 26 | 676 | 10816
17 | go + to | 25 | 625 | 10625
18 | i + could | 25 | 625 | 11250
19 | he + be | 24 | 576 | 10944
20 | but + do | 23 | 529 | 10580
21 | it + be | 22 | 484 | 10164
22 | kind + of | 22 | 484 | 10648
23 | do + not | 20 | 400 | 9200
24 | have + you | 20 | 400 | 9600
25 | we + have | 20 | 400 | 10000
26 | what + be | 20 | 400 | 10400
27 | be + in | 19 | 361 | 9747
28 | do + have | 19 | 361 | 10108
29 | do + know | 19 | 361 | 10469
30 | we + will | 19 | 361 | 10830
31 | if + be | 18 | 324 | 10044
32 | we + can | 18 | 324 | 10368
33 | do + like | 17 | 289 | 9537
34 | to + get | 17 | 289 | 9826
35 | you + have | 17 | 289 | 10115
36 | i + think | 16 | 256 | 9216
37 | i + want | 16 | 256 | 9472
38 | we + could | 16 | 256 | 9728
39 | be + able | 15 | 225 | 8775
40 | i + need | 15 | 225 | 9000
41 | i + will | 15 | 225 | 9225
42 | to + go | 15 | 225 | 9450
43 | to + make | 15 | 225 | 9675
44 | would + be | 15 | 225 | 9900
45 | you + will | 15 | 225 | 10125
46 | do + want | 14 | 196 | 9016
47 | i + know | 14 | 196 | 9212
48 | we + would | 14 | 196 | 9408
49 | would + you | 14 | 196 | 9604
50 | you + can | 14 | 196 | 9800
51 | you + could | 14 | 196 | 9996
52 | because + be | 13 | 169 | 8788
53 | but + have | 13 | 169 | 8957
54 | how + do | 13 | 169 | 9126
55 | she + be | 13 | 169 | 9295
56 | they + be | 13 | 169 | 9464
57 | a + couple | 12 | 144 | 8208
58 | be + there | 12 | 144 | 8352
59 | have + see | 12 | 144 | 8496
60 | she + have | 12 | 144 | 8640
61 | to + see | 12 | 144 | 8784
62 | we + do | 12 | 144 | 8928
63 | when + be | 12 | 144 | 9072
64 | he + have | 11 | 121 | 7744
65 | if + do | 11 | 121 | 7865
66 | we + be | 11 | 121 | 7986
67 | will + you | 11 | 121 | 8107
68 | would + have | 11 | 121 | 8228
69 | be + do | 10 | 100 | 6900
70 | for + i | 10 | 100 | 7000
71 | for + you | 10 | 100 | 7100
72 | give + i | 10 | 100 | 7200
73 | i'm + not | 10 | 100 | 7300
74 | i + feel | 10 | 100 | 7400
75 | to + take | 10 | 100 | 7500
76 | you + would | 10 | 100 | 7600
77 | be + that | 9 | 81 | 6237
78 | couple + of | 9 | 81 | 6318
79 | do + think | 9 | 81 | 6399
80 | if + have | 9 | 81 | 6480
81 | tell + i | 9 | 81 | 6561
82 | to + have | 9 | 81 | 6642
83 | with + you | 9 | 81 | 6723
84 | you + do | 9 | 81 | 6804
85 | because + have | 8 | 64 | 5440
86 | be + good | 8 | 64 | 5504
87 | can + be | 8 | 64 | 5568
88 | go + out | 8 | 64 | 5632
89 | i + get | 8 | 64 | 5696
90 | i + hate | 8 | 64 | 5760
91 | the + baby | 8 | 64 | 5824
92 | the + meeting | 8 | 64 | 5888
93 | they + have | 8 | 64 | 5952
94 | why + do | 8 | 64 | 6016
95 | right | 8 | 64 | 6080
96 | you + want | 8 | 64 | 6144
97 | and + be | 7 | 49 | 4753
98 | be + go | 7 | 49 | 4802
99 | be + it | 7 | 49 | 4851
100 | be + make | 7 | 49 | 4900
101 | be + try | 7 | 49 | 4949
102 | but + can | 7 | 49 | 4998
103 | could + have | 7 | 49 | 5047
104 | do + go | 7 | 49 | 5096
105 | how + have | 7 | 49 | 5145
106 | i'd + like | 7 | 49 | 5194
107 | in + country | 7 | 49 | 5243
108 | it + will | 7 | 49 | 5292
109 | of + people | 7 | 49 | 5341
110 | of + time | 7 | 49 | 5390
111 | put + on | 7 | 49 | 5439
112 | say + that | 7 | 49 | 5488
113 | the + book | 7 | 49 | 5537
114 | the + city | 7 | 49 | 5586
115 | the + day | 7 | 49 | 5635
116 | the + kid | 7 | 49 | 5684
117 | the + movie | 7 | 49 | 5733
118 | the + store | 7 | 49 | 5782
119 | the + world | 7 | 49 | 5831
120 | to + come | 7 | 49 | 5880
121 | to + i | 7 | 49 | 5929
122 | to + use | 7 | 49 | 5978
123 | what + do | 7 | 49 | 6027
124 | all + day | 6 | 36 | 4464
125 | a + day | 6 | 36 | 4500
126 | but + know | 6 | 36 | 4536
127 | but + will | 6 | 36 | 4572
128 | figure + out | 6 | 36 | 4608
129 | find + out | 6 | 36 | 4644
130 | give + you | 6 | 36 | 4680
131 | have + a lot | 6 | 36 | 4716
132 | have + have | 6 | 36 | 4752
133 | have + of | 6 | 36 | 4788
134 | if + would | 6 | 36 | 4824
135 | in + day | 6 | 36 | 4860
136 | in + life | 6 | 36 | 4896
137 | it's + not | 6 | 36 | 4932
138 | it + have | 6 | 36 | 4968
139 | i + see | 6 | 36 | 5004
140 | i + start | 6 | 36 | 5040
141 | make + i | 6 | 36 | 5076
142 | may + be | 6 | 36 | 5112
143 | meet + at | 6 | 36 | 5148
144 | or + be | 6 | 36 | 5184
145 | she + do | 6 | 36 | 5220
146 | should + be | 6 | 36 | 5256
147 | show + up | 6 | 36 | 5292
148 | that + be | 6 | 36 | 5328
149 | the + job | 6 | 36 | 5364
150 | to + find | 6 | 36 | 5400
151 | to + store | 6 | 36 | 5436
152 | where + be | 6 | 36 | 5472
153 | will + need | 6 | 36 | 5508
154 | your + house | 6 | 36 | 5544
155 | you + should | 6 | 36 | 5580
156 | after + have | 5 | 25 | 3900
157 | before + go | 5 | 25 | 3925
158 | be + allow | 5 | 25 | 3950
159 | be + get | 5 | 25 | 3975
160 | be + he | 5 | 25 | 4000
161 | be + mistake | 5 | 25 | 4025
162 | be + on | 5 | 25 | 4050
163 | be + use | 5 | 25 | 4075
164 | but + would | 5 | 25 | 4100
165 | can + get | 5 | 25 | 4125
166 | can + you | 5 | 25 | 4150
167 | come + in | 5 | 25 | 4175
168 | come + to | 5 | 25 | 4200
169 | consider + be | 5 | 25 | 4225
170 | could + be | 5 | 25 | 4250
171 | do + get | 5 | 25 | 4275
172 | do + it | 5 | 25 | 4300
173 | do + make | 5 | 25 | 4325
174 | each + other | 5 | 25 | 4350
175 | every + day | 5 | 25 | 4375
176 | have + time | 5 | 25 | 4400
177 | he + would | 5 | 25 | 4425
178 | if + could | 5 | 25 | 4450
179 | in + case | 5 | 25 | 4475
180 | i + go | 5 | 25 | 4500
181 | i + hope | 5 | 25 | 4525
182 | i + meet | 5 | 25 | 4550
183 | i + wish | 5 | 25 | 4575
184 | like + drink | 5 | 25 | 4600
185 | like + it | 5 | 25 | 4625
186 | live + in | 5 | 25 | 4650
187 | make + of | 5 | 25 | 4675
188 | may + i | 5 | 25 | 4700
189 | my + car | 5 | 25 | 4725
190 | my + life | 5 | 25 | 4750
191 | my + mother | 5 | 25 | 4775
192 | on + it | 5 | 25 | 4800
193 | or + do | 5 | 25 | 4825
194 | plenty + of | 5 | 25 | 4850
195 | so + be | 5 | 25 | 4875
196 | so + have | 5 | 25 | 4900
197 | so + much | 5 | 25 | 4925
198 | talk + to | 5 | 25 | 4950
199 | the + answer | 5 | 25 | 4975
200 | the + building | 5 | 25 | 5000
201 | the + good | 5 | 25 | 5025
202 | the + house | 5 | 25 | 5050
203 | the + industry | 5 | 25 | 5075
204 | the + month | 5 | 25 | 5100
205 | the + party | 5 | 25 | 5125
206 | the + play | 5 | 25 | 5150
207 | the + subject | 5 | 25 | 5175
208 | think + that | 5 | 25 | 5200
209 | this + be | 5 | 25 | 5225
210 | this + day | 5 | 25 | 5250
211 | to + attend | 5 | 25 | 5275
212 | to + buy | 5 | 25 | 5300
213 | to + carry | 5 | 25 | 5325
214 | to + do | 5 | 25 | 5350
215 | to + drink | 5 | 25 | 5375
216 | to + eat | 5 | 25 | 5400
217 | to + give | 5 | 25 | 5425
218 | to + help | 5 | 25 | 5450
219 | to + put | 5 | 25 | 5475
220 | to + you | 5 | 25 | 5500
221 | we'll + have | 5 | 25 | 5525
222 | we + go | 5 | 25 | 5550
223 | who + be | 5 | 25 | 5575
224 | will + have | 5 | 25 | 5600
225 | would + want | 5 | 25 | 5625
226 | you + may | 5 | 25 | 5650
227 | act + like | 4 | 16 | 3632
228 | all + kind | 4 | 16 | 3648
229 | always + have | 4 | 16 | 3664
230 | and + get | 4 | 16 | 3680
231 | ask + question | 4 | 16 | 3696
232 | a + boy | 4 | 16 | 3712
233 | a + life | 4 | 16 | 3728
234 | be + bad | 4 | 16 | 3744
235 | be + change | 4 | 16 | 3760
236 | be + day | 4 | 16 | 3776
237 | be + enough | 4 | 16 | 3792
238 | be + great | 4 | 16 | 3808
239 | be + i | 4 | 16 | 3824
240 | be + important | 4 | 16 | 3840
241 | be + interested | 4 | 16 | 3856
242 | be + she | 4 | 16 | 3872
243 | be + take | 4 | 16 | 3888
244 | be + to | 4 | 16 | 3904
245 | but + could | 4 | 16 | 3920
246 | but + i'm | 4 | 16 | 3936
247 | but + it's | 4 | 16 | 3952
248 | but + need | 4 | 16 | 3968
249 | can + go | 4 | 16 | 3984
250 | can + seem | 4 | 16 | 4000
251 | can + tell | 4 | 16 | 4016
252 | come + from | 4 | 16 | 4032
253 | could + get | 4 | 16 | 4048
254 | could + see | 4 | 16 | 4064
255 | do + consider | 4 | 16 | 4080
256 | do + mean | 4 | 16 | 4096
257 | do + need | 4 | 16 | 4112
258 | do + we | 4 | 16 | 4128
259 | ever + see | 4 | 16 | 4144
260 | explain + why | 4 | 16 | 4160
261 | go + with | 4 | 16 | 4176
262 | he + do | 4 | 16 | 4192
263 | he + will | 4 | 16 | 4208
264 | i'm + sorry | 4 | 16 | 4224
265 | ice + cream | 4 | 16 | 4240
266 | if + can | 4 | 16 | 4256
267 | indicate + that | 4 | 16 | 4272
268 | interested + in | 4 | 16 | 4288
269 | in + area | 4 | 16 | 4304
270 | in + be | 4 | 16 | 4320
271 | in + car | 4 | 16 | 4336
272 | in + city | 4 | 16 | 4352
273 | in + morning | 4 | 16 | 4368
274 | in + part | 4 | 16 | 4384
275 | in + school | 4 | 16 | 4400
276 | in + time | 4 | 16 | 4416
277 | it + do | 4 | 16 | 4432
278 | it + would | 4 | 16 | 4448
279 | i + adore | 4 | 16 | 4464
280 | i + give | 4 | 16 | 4480
281 | i + look | 4 | 16 | 4496
282 | i + love | 4 | 16 | 4512
283 | i + make | 4 | 16 | 4528
284 | i + understand | 4 | 16 | 4544
285 | i + use | 4 | 16 | 4560
286 | i + wonder | 4 | 16 | 4576
287 | know + that | 4 | 16 | 4592
288 | let + i | 4 | 16 | 4608
289 | look + at | 4 | 16 | 4624
290 | make + noise | 4 | 16 | 4640
291 | many + people | 4 | 16 | 4656
292 | may + have | 4 | 16 | 4672
293 | month + of | 4 | 16 | 4688
294 | mother + be | 4 | 16 | 4704
295 | must + be | 4 | 16 | 4720
296 | my + grandmother | 4 | 16 | 4736
297 | my + hair | 4 | 16 | 4752
298 | never + see | 4 | 16 | 4768
299 | of + town | 4 | 16 | 4784
300 | of + water | 4 | 16 | 4800
301 | of + year | 4 | 16 | 4816
302 | on + time | 4 | 16 | 4832
303 | pick + up | 4 | 16 | 4848
304 | s | 4 | 16 | 4864
305 | seem + be | 4 | 16 | 4880
306 | see + he | 4 | 16 | 4896
307 | since + be | 4 | 16 | 4912
308 | some + kind | 4 | 16 | 4928
309 | so + could | 4 | 16 | 4944
310 | so + far | 4 | 16 | 4960
311 | start + with | 4 | 16 | 4976
312 | take + it | 4 | 16 | 4992
313 | tell + you | 4 | 16 | 5008
314 | that + do | 4 | 16 | 5024
315 | that + kind | 4 | 16 | 5040
316 | that + problem | 4 | 16 | 5056
317 | the + air | 4 | 16 | 5072
318 | the + area | 4 | 16 | 5088
319 | the + car | 4 | 16 | 5104
320 | the + cat | 4 | 16 | 5120
321 | the + ceremony | 4 | 16 | 5136
322 | the + child | 4 | 16 | 5152
323 | the + company | 4 | 16 | 5168
324 | the + country | 4 | 16 | 5184
325 | the + doctor | 4 | 16 | 5200
326 | the + end | 4 | 16 | 5216
327 | the + morning | 4 | 16 | 5232
328 | the + paper | 4 | 16 | 5248
329 | the + people | 4 | 16 | 5264
330 | the + person | 4 | 16 | 5280
331 | the + president | 4 | 16 | 5296
332 | the + room | 4 | 16 | 5312
333 | the + street | 4 | 16 | 5328
334 | the + time | 4 | 16 | 5344
335 | the + war | 4 | 16 | 5360
336 | they + do | 4 | 16 | 5376
337 | think + about | 4 | 16 | 5392
338 | this + area | 4 | 16 | 5408
339 | to + continue | 4 | 16 | 5424
340 | to + keep | 4 | 16 | 5440
341 | to + pay | 4 | 16 | 5456
342 | to + speak | 4 | 16 | 5472
343 | to + understand | 4 | 16 | 5488
344 | to + walk | 4 | 16 | 5504
345 | to + we | 4 | 16 | 5520
346 | want + you | 4 | 16 | 5536
347 | we + must | 4 | 16 | 5552
348 | we + should | 4 | 16 | 5568
349 | what + kind | 4 | 16 | 5584
350 | when + will | 4 | 16 | 5600
351 | will + take | 4 | 16 | 5616
352 | with + he | 4 | 16 | 5632
353 | work + on | 4 | 16 | 5648
354 | your + mother | 4 | 16 | 5664
355 | you + go | 4 | 16 | 5680
356 | you + make | 4 | 16 | 5696
357 | about + it | 3 | 9 | 3213
358 | accompany + to | 3 | 9 | 3222
359 | all + people | 3 | 9 | 3231
360 | and + can | 3 | 9 | 3240
361 | and + do | 3 | 9 | 3249
362 | and + go | 3 | 9 | 3258
363 | and + have | 3 | 9 | 3267
364 | and + know | 3 | 9 | 3276
365 | answer + to | 3 | 9 | 3285
366 | ask + you | 3 | 9 | 3294
367 | attention + to | 3 | 9 | 3303
368 | at + meeting | 3 | 9 | 3312
369 | at + party | 3 | 9 | 3321
370 | at + time | 3 | 9 | 3330
371 | a + car | 3 | 9 | 3339
372 | a + girl | 3 | 9 | 3348
373 | a + member | 3 | 9 | 3357
374 | a + minute | 3 | 9 | 3366
375 | a + time | 3 | 9 | 3375
376 | because + it's | 3 | 9 | 3384
377 | be + be | 3 | 9 | 3393
378 | be + cold | 3 | 9 | 3402
379 | be + correct | 3 | 9 | 3411
380 | be + different | 3 | 9 | 3420
381 | be + feel | 3 | 9 | 3429
382 | be + happy | 3 | 9 | 3438
383 | be + man | 3 | 9 | 3447
384 | be + month | 3 | 9 | 3456
385 | be + nice | 3 | 9 | 3465
386 | be + put | 3 | 9 | 3474
387 | be + something | 3 | 9 | 3483
388 | be + this | 3 | 9 | 3492
389 | be + time | 3 | 9 | 3501
390 | be + tired | 3 | 9 | 3510
391 | be + year | 3 | 9 | 3519
392 | bunch + of | 3 | 9 | 3528
393 | but + i've | 3 | 9 | 3537
394 | can + do | 3 | 9 | 3546
395 | can + make | 3 | 9 | 3555
396 | carry + it | 3 | 9 | 3564
397 | child + be | 3 | 9 | 3573
398 | coffee + in | 3 | 9 | 3582
399 | come + with | 3 | 9 | 3591
400 | could + continue | 3 | 9 | 3600
401 | could + not | 3 | 9 | 3609
402 | could + you | 3 | 9 | 3618
403 | die + in | 3 | 9 | 3627
404 | do + allow | 3 | 9 | 3636
405 | do + be | 3 | 9 | 3645
406 | do + come | 3 | 9 | 3654
407 | do + for | 3 | 9 | 3663
408 | do + he | 3 | 9 | 3672
409 | do + i | 3 | 9 | 3681
410 | do + so | 3 | 9 | 3690
411 | drink + coffee | 3 | 9 | 3699
412 | excuse + i | 3 | 9 | 3708
413 | feeling + of | 3 | 9 | 3717
414 | feel + good | 3 | 9 | 3726
415 | field + of | 3 | 9 | 3735
416 | find + that | 3 | 9 | 3744
417 | for + health | 3 | 9 | 3753
418 | for + her | 3 | 9 | 3762
419 | for + week | 3 | 9 | 3771
420 | for + year | 3 | 9 | 3780
421 | four + hour | 3 | 9 | 3789
422 | from + country | 3 | 9 | 3798
423 | get + he | 3 | 9 | 3807
424 | get + in | 3 | 9 | 3816
425 | get + job | 3 | 9 | 3825
426 | get + message | 3 | 9 | 3834
427 | get + up | 3 | 9 | 3843
428 | give + to | 3 | 9 | 3852
429 | go + along with | 3 | 9 | 3861
430 | go + around | 3 | 9 | 3870
431 | go + do | 3 | 9 | 3879
432 | go + down | 3 | 9 | 3888
433 | go + get | 3 | 9 | 3897
434 | go + home | 3 | 9 | 3906
435 | have + chance | 3 | 9 | 3915
436 | have + complete | 3 | 9 | 3924
437 | have + day | 3 | 9 | 3933
438 | have + do | 3 | 9 | 3942
439 | have + go | 3 | 9 | 3951
440 | have + i | 3 | 9 | 3960
441 | have + idea | 3 | 9 | 3969
442 | have + plan | 3 | 9 | 3978
443 | have + take | 3 | 9 | 3987
444 | hear + that | 3 | 9 | 3996
445 | help + you | 3 | 9 | 4005
446 | her + mother | 3 | 9 | 4014
447 | he + act | 3 | 9 | 4023
448 | he + can | 3 | 9 | 4032
449 | he + come | 3 | 9 | 4041
450 | he + look | 3 | 9 | 4050
451 | he + need | 3 | 9 | 4059
452 | he + say | 3 | 9 | 4068
453 | hire + you | 3 | 9 | 4077
454 | how + be | 3 | 9 | 4086
455 | how + much | 3 | 9 | 4095
456 | how + will | 3 | 9 | 4104
457 | i'm + go | 3 | 9 | 4113
458 | i'm + sure | 3 | 9 | 4122
459 | if + want | 3 | 9 | 4131
460 | in + africa | 3 | 9 | 4140
461 | in + air | 3 | 9 | 4149
462 | in + a while | 3 | 9 | 4158
463 | in + class | 3 | 9 | 4167
464 | in + have | 3 | 9 | 4176
465 | in + public | 3 | 9 | 4185
466 | in + war | 3 | 9 | 4194
467 | it + could | 3 | 9 | 4203
468 | it + should | 3 | 9 | 4212
469 | i + hear | 3 | 9 | 4221
470 | i + may | 3 | 9 | 4230
471 | i + must | 3 | 9 | 4239
472 | i + should | 3 | 9 | 4248
473 | i + stay | 3 | 9 | 4257
474 | know + about | 3 | 9 | 4266
475 | last + year | 3 | 9 | 4275
476 | let's + go | 3 | 9 | 4284
477 | like + i | 3 | 9 | 4293
478 | like + you | 3 | 9 | 4302
479 | listen + to | 3 | 9 | 4311
480 | look + like | 3 | 9 | 4320
481 | make + up | 3 | 9 | 4329
482 | maybe + could | 3 | 9 | 4338
483 | mean + that | 3 | 9 | 4347
484 | member + of | 3 | 9 | 4356
485 | mr | 3 | 9 | 4365
486 | mrs | 3 | 9 | 4374
487 | my + child | 3 | 9 | 4383
488 | my + husband | 3 | 9 | 4392
489 | my + mail | 3 | 9 | 4401
490 | my + mom | 3 | 9 | 4410
491 | need + be | 3 | 9 | 4419
492 | never + be | 3 | 9 | 4428
493 | now + have | 3 | 9 | 4437
494 | of + bird | 3 | 9 | 4446
495 | of + food | 3 | 9 | 4455
496 | of + state | 3 | 9 | 4464
497 | of + we | 3 | 9 | 4473
498 | of + world | 3 | 9 | 4482
499 | one + be | 3 | 9 | 4491
500 | on + how | 3 | 9 | 4500
501 | on + subject | 3 | 9 | 4509
502 | or + get | 3 | 9 | 4518
503 | our + company | 3 | 9 | 4527
504 | our + group | 3 | 9 | 4536
505 | over + here | 3 | 9 | 4545
506 | over + there | 3 | 9 | 4554
507 | part + of | 3 | 9 | 4563
508 | pay + attention | 3 | 9 | 4572
509 | people + be | 3 | 9 | 4581
510 | piece + of | 3 | 9 | 4590
511 | plan + for | 3 | 9 | 4599
512 | play + with | 3 | 9 | 4608
513 | problem + be | 3 | 9 | 4617
514 | read + book | 3 | 9 | 4626
515 | rest + of | 3 | 9 | 4635
516 | see + you | 3 | 9 | 4644
517 | she + go | 3 | 9 | 4653
518 | she + want | 3 | 9 | 4662
519 | should + i | 3 | 9 | 4671
520 | should + we | 3 | 9 | 4680
521 | take + up | 3 | 9 | 4689
522 | tax + on | 3 | 9 | 4698
523 | that + country | 3 | 9 | 4707
524 | that + day | 3 | 9 | 4716
525 | that + guy | 3 | 9 | 4725
526 | that + lady | 3 | 9 | 4734
527 | that + people | 3 | 9 | 4743
528 | that + subject | 3 | 9 | 4752
529 | the + army | 3 | 9 | 4761
530 | the + boy | 3 | 9 | 4770
531 | the + branch | 3 | 9 | 4779
532 | the + cause | 3 | 9 | 4788
533 | the + character | 3 | 9 | 4797
534 | the + computer | 3 | 9 | 4806
535 | the + corner | 3 | 9 | 4815
536 | the + cost | 3 | 9 | 4824
537 | the + dish | 3 | 9 | 4833
538 | the + dog | 3 | 9 | 4842
539 | the + door | 3 | 9 | 4851
540 | the + feeling | 3 | 9 | 4860
541 | the + government | 3 | 9 | 4869
542 | the + ground | 3 | 9 | 4878
543 | the + group | 3 | 9 | 4887
544 | the + information | 3 | 9 | 4896
545 | the + kind | 3 | 9 | 4905
546 | the + language | 3 | 9 | 4914
547 | the + library | 3 | 9 | 4923
548 | the + market | 3 | 9 | 4932
549 | the + office | 3 | 9 | 4941
550 | the + one | 3 | 9 | 4950
551 | the + organization | 3 | 9 | 4959
552 | the + part | 3 | 9 | 4968
553 | the + question | 3 | 9 | 4977
554 | the + report | 3 | 9 | 4986
555 | the + rest | 3 | 9 | 4995
556 | the + road | 3 | 9 | 5004
557 | the + smell | 3 | 9 | 5013
558 | the + state | 3 | 9 | 5022
559 | the + sun | 3 | 9 | 5031
560 | the + thing | 3 | 9 | 5040
561 | the + value | 3 | 9 | 5049
562 | the + wall | 3 | 9 | 5058
563 | the + water | 3 | 9 | 5067
564 | the + way | 3 | 9 | 5076
565 | the + weather | 3 | 9 | 5085
566 | the + witness | 3 | 9 | 5094
567 | this + place | 3 | 9 | 5103
568 | this + project | 3 | 9 | 5112
569 | this + room | 3 | 9 | 5121
570 | to + clean | 3 | 9 | 5130
571 | to + create | 3 | 9 | 5139
572 | to + determine | 3 | 9 | 5148
573 | to + finish | 3 | 9 | 5157
574 | to + leave | 3 | 9 | 5166
575 | to + movie | 3 | 9 | 5175
576 | to + participate | 3 | 9 | 5184
577 | to + party | 3 | 9 | 5193
578 | to + people | 3 | 9 | 5202
579 | to + play | 3 | 9 | 5211
580 | to + restaurant | 3 | 9 | 5220
581 | to + school | 3 | 9 | 5229
582 | to + sleep | 3 | 9 | 5238
583 | to + start | 3 | 9 | 5247
584 | to + stop | 3 | 9 | 5256
585 | to + study | 3 | 9 | 5265
586 | to + support | 3 | 9 | 5274
587 | to + work | 3 | 9 | 5283
588 | use + it | 3 | 9 | 5292
589 | very + good | 3 | 9 | 5301
590 | very + well | 3 | 9 | 5310
591 | want + be | 3 | 9 | 5319
592 | we + need | 3 | 9 | 5328
593 | we + visit | 3 | 9 | 5337
594 | when + get | 3 | 9 | 5346
595 | who + have | 3 | 9 | 5355
596 | will + find | 3 | 9 | 5364
597 | will + meet | 3 | 9 | 5373
598 | work + for | 3 | 9 | 5382
599 | would + not | 3 | 9 | 5391
600 | + people | 3 | 9 | 5400
601 | young + man | 3 | 9 | 5409
602 | your + opinion | 3 | 9 | 5418
603 | your + premise | 3 | 9 | 5427
604 | you + call | 3 | 9 | 5436
605 | you + know | 3 | 9 | 5445
606 | you + might | 3 | 9 | 5454
607 | you + must | 3 | 9 | 5463
608 | you + say | 3 | 9 | 5472
609 | able + keep | 2 | 4 | 2436
610 | about + skill | 2 | 4 | 2440
611 | about + subject | 2 | 4 | 2444
612 | above + head | 2 | 4 | 2448
613 | accompany + you | 2 | 4 | 2452
614 | after + accident | 2 | 4 | 2456
615 | after + be | 2 | 4 | 2460
616 | after + come | 2 | 4 | 2464
617 | after + find | 2 | 4 | 2468
618 | agricultural + product | 2 | 4 | 2472
619 | allow + drive | 2 | 4 | 2476
620 | all of + sudden | 2 | 4 | 2480
621 | all of + we | 2 | 4 | 2484
622 | all + law | 2 | 4 | 2488
623 | all + time | 2 | 4 | 2492
624 | always + be | 2 | 4 | 2496
625 | and + break | 2 | 4 | 2500
626 | and + i'll | 2 | 4 | 2504
627 | and + now | 2 | 4 | 2508
628 | and + tell | 2 | 4 | 2512
629 | and + we'll | 2 | 4 | 2516
630 | an + affidavit | 2 | 4 | 2520
631 | an + complaint | 2 | 4 | 2524
632 | an + day | 2 | 4 | 2528
633 | an + example | 2 | 4 | 2532
634 | an + opinion | 2 | 4 | 2536
635 | appreciation + for | 2 | 4 | 2540
636 | area + of | 2 | 4 | 2544
637 | ask + i | 2 | 4 | 2548
638 | as + will | 2 | 4 | 2552
639 | attend + meeting | 2 | 4 | 2556
640 | attend + school | 2 | 4 | 2560
641 | at + airport | 2 | 4 | 2564
642 | at + all | 2 | 4 | 2568
643 | at + beginning | 2 | 4 | 2572
644 | at + end | 2 | 4 | 2576
645 | at + her | 2 | 4 | 2580
646 | at + home | 2 | 4 | 2584
647 | at + library | 2 | 4 | 2588
648 | a + actress | 2 | 4 | 2592
649 | a + backache | 2 | 4 | 2596
650 | a + bag | 2 | 4 | 2600
651 | a + bird | 2 | 4 | 2604
652 | a + bunch | 2 | 4 | 2608
653 | a + chance | 2 | 4 | 2612
654 | a + class | 2 | 4 | 2616
655 | a + column | 2 | 4 | 2620
656 | a + fire | 2 | 4 | 2624
657 | a + friend | 2 | 4 | 2628
658 | a + gallon | 2 | 4 | 2632
659 | a + gardener | 2 | 4 | 2636
660 | a + glass | 2 | 4 | 2640
661 | a + hat | 2 | 4 | 2644
662 | a + horse | 2 | 4 | 2648
663 | a + house | 2 | 4 | 2652
664 | a + idea | 2 | 4 | 2656
665 | a + job | 2 | 4 | 2660
666 | a + law | 2 | 4 | 2664
667 | a + leader | 2 | 4 | 2668
668 | a + lunch | 2 | 4 | 2672
669 | a + man | 2 | 4 | 2676
670 | a + mistake | 2 | 4 | 2680
671 | a + nap | 2 | 4 | 2684
672 | a + noise | 2 | 4 | 2688
673 | a + number | 2 | 4 | 2692
674 | a + picture | 2 | 4 | 2696
675 | a + ride | 2 | 4 | 2700
676 | a + spot | 2 | 4 | 2704
677 | a + store | 2 | 4 | 2708
678 | a + stroke | 2 | 4 | 2712
679 | a + sudden | 2 | 4 | 2716
680 | a + walk | 2 | 4 | 2720
681 | back + in | 2 | 4 | 2724
682 | bad + for | 2 | 4 | 2728
683 | bear + in | 2 | 4 | 2732
684 | because + could | 2 | 4 | 2736
685 | because + like | 2 | 4 | 2740
686 | before + can | 2 | 4 | 2744
687 | before + have | 2 | 4 | 2748
688 | beginning + of | 2 | 4 | 2752
689 | belong + to | 2 | 4 | 2756
690 | be + act | 2 | 4 | 2760
691 | be + always | 2 | 4 | 2764
692 | be + animal | 2 | 4 | 2768
693 | be + ask | 2 | 4 | 2772
694 | be + assign | 2 | 4 | 2776
695 | be + attack | 2 | 4 | 2780
696 | be + available | 2 | 4 | 2784
697 | be + bear | 2 | 4 | 2788
698 | be + beautiful | 2 | 4 | 2792
699 | be + careful | 2 | 4 | 2796
700 | be + carry | 2 | 4 | 2800
701 | be + certainly | 2 | 4 | 2804
702 | be + clear | 2 | 4 | 2808
703 | be + close to | 2 | 4 | 2812
704 | be + come | 2 | 4 | 2816
705 | be + consider | 2 | 4 | 2820
706 | be + cover | 2 | 4 | 2824
707 | be + cute | 2 | 4 | 2828
708 | be + dependent | 2 | 4 | 2832
709 | be + difficult | 2 | 4 | 2836
710 | be + distance | 2 | 4 | 2840
711 | be + example | 2 | 4 | 2844
712 | be + expect | 2 | 4 | 2848
713 | be + firm | 2 | 4 | 2852
714 | be + food | 2 | 4 | 2856
715 | be + for | 2 | 4 | 2860
716 | be + girl | 2 | 4 | 2864
717 | be + give | 2 | 4 | 2868
718 | be + green | 2 | 4 | 2872
719 | be + hard | 2 | 4 | 2876
720 | be + have | 2 | 4 | 2880
721 | be + height | 2 | 4 | 2884
722 | be + hungry | 2 | 4 | 2888
723 | be + idea | 2 | 4 | 2892
724 | be + leave | 2 | 4 | 2896
725 | be + lovely | 2 | 4 | 2900
726 | be + musician | 2 | 4 | 2904
727 | be + name | 2 | 4 | 2908
728 | be + necessary | 2 | 4 | 2912
729 | be + need | 2 | 4 | 2916
730 | be + nothing | 2 | 4 | 2920
731 | be + old | 2 | 4 | 2924
732 | be + pale | 2 | 4 | 2928
733 | be + place | 2 | 4 | 2932
734 | be + say | 2 | 4 | 2936
735 | be + sick | 2 | 4 | 2940
736 | be + suppose | 2 | 4 | 2944
737 | be + sure | 2 | 4 | 2948
738 | be + tall | 2 | 4 | 2952
739 | be + they | 2 | 4 | 2956
740 | be + think | 2 | 4 | 2960
741 | be + turn | 2 | 4 | 2964
742 | be + unhappy | 2 | 4 | 2968
743 | be + willing | 2 | 4 | 2972
744 | be + write | 2 | 4 | 2976
745 | be + young | 2 | 4 | 2980
746 | bird + with | 2 | 4 | 2984
747 | book + be | 2 | 4 | 2988
748 | book + of | 2 | 4 | 2992
749 | building + be | 2 | 4 | 2996
750 | but + get | 2 | 4 | 3000
751 | but + he's | 2 | 4 | 3004
752 | but + i'd | 2 | 4 | 3008
753 | but + i'll | 2 | 4 | 3012
754 | but + think | 2 | 4 | 3016
755 | but + want | 2 | 4 | 3020
756 | but + wonder | 2 | 4 | 3024
757 | buy + some | 2 | 4 | 3028
758 | by + people | 2 | 4 | 3032
759 | call + he | 2 | 4 | 3036
760 | call + in | 2 | 4 | 3040
761 | can + come | 2 | 4 | 3044
762 | can + eat | 2 | 4 | 3048
763 | can + find | 2 | 4 | 3052
764 | can + help | 2 | 4 | 3056
765 | can + see | 2 | 4 | 3060
766 | can + start | 2 | 4 | 3064
767 | can + take | 2 | 4 | 3068
768 | can + walk | 2 | 4 | 3072
769 | capital + of | 2 | 4 | 3076
770 | carry + out | 2 | 4 | 3080
771 | car + be | 2 | 4 | 3084
772 | cause + of | 2 | 4 | 3088
773 | champion + of | 2 | 4 | 3092
774 | character + be | 2 | 4 | 3096
775 | charitable + foundation | 2 | 4 | 3100
776 | chocolate + cake | 2 | 4 | 3104
777 | class + in | 2 | 4 | 3108
778 | clau + be | 2 | 4 | 3112
779 | coat + of | 2 | 4 | 3116
780 | color + of | 2 | 4 | 3120
781 | come + out of | 2 | 4 | 3124
782 | complain + to | 2 | 4 | 3128
783 | consider + you | 2 | 4 | 3132
784 | continue + work | 2 | 4 | 3136
785 | could + go | 2 | 4 | 3140
786 | could + handle | 2 | 4 | 3144
787 | could + make | 2 | 4 | 3148
788 | could + say | 2 | 4 | 3152
789 | could + tell | 2 | 4 | 3156
790 | could + turn | 2 | 4 | 3160
791 | count + on | 2 | 4 | 3164
792 | cover + by | 2 | 4 | 3168
793 | day + in | 2 | 4 | 3172
794 | deal + with | 2 | 4 | 3176
795 | different + color | 2 | 4 | 3180
796 | different + state | 2 | 4 | 3184
797 | different + way | 2 | 4 | 3188
798 | do + act | 2 | 4 | 3192
799 | do + at | 2 | 4 | 3196
800 | do + country | 2 | 4 | 3200
801 | do + dish | 2 | 4 | 3204
802 | do + hear | 2 | 4 | 3208
803 | do + in | 2 | 4 | 3212
804 | do + job | 2 | 4 | 3216
805 | do + learn | 2 | 4 | 3220
806 | do + look | 2 | 4 | 3224
807 | do + match | 2 | 4 | 3228
808 | do + one | 2 | 4 | 3232
809 | do + pay | 2 | 4 | 3236
810 | do + play | 2 | 4 | 3240
811 | do + show | 2 | 4 | 3244
812 | do + something | 2 | 4 | 3248
813 | do + stop | 2 | 4 | 3252
814 | do + take | 2 | 4 | 3256
815 | do + tell | 2 | 4 | 3260
816 | do + that | 2 | 4 | 3264
817 | do + try | 2 | 4 | 3268
818 | do + use | 2 | 4 | 3272
819 | draw + picture | 2 | 4 | 3276
820 | duke + of | 2 | 4 | 3280
821 | eat + in | 2 | 4 | 3284
822 | effect + of | 2 | 4 | 3288
823 | end + of | 2 | 4 | 3292
824 | engineer + engineer | 2 | 4 | 3296
825 | enter + room | 2 | 4 | 3300
826 | even + know | 2 | 4 | 3304
827 | ever + go | 2 | 4 | 3308
828 | everyone + would | 2 | 4 | 3312
829 | every + night | 2 | 4 | 3316
830 | evidence + be | 2 | 4 | 3320
831 | evidence + indicate | 2 | 4 | 3324
832 | example + of | 2 | 4 | 3328
833 | explain + reason | 2 | 4 | 3332
834 | external + to | 2 | 4 | 3336
835 | fall + break | 2 | 4 | 3340
836 | feel + like | 2 | 4 | 3344
837 | find + it | 2 | 4 | 3348
838 | finish + write | 2 | 4 | 3352
839 | for + birthday | 2 | 4 | 3356
840 | for + convenience | 2 | 4 | 3360
841 | for + day | 2 | 4 | 3364
842 | for + hour | 2 | 4 | 3368
843 | for + job | 2 | 4 | 3372
844 | for + myself | 2 | 4 | 3376
845 | for + office | 2 | 4 | 3380
846 | for + project | 2 | 4 | 3384
847 | for + want | 2 | 4 | 3388
848 | fried + chicken | 2 | 4 | 3392
849 | from + college | 2 | 4 | 3396
850 | from + history | 2 | 4 | 3400
851 | from + state | 2 | 4 | 3404
852 | gallon + of | 2 | 4 | 3408
853 | get + backache | 2 | 4 | 3412
854 | get + married | 2 | 4 | 3416
855 | get + there | 2 | 4 | 3420
856 | get + you | 2 | 4 | 3424
857 | give + necklace | 2 | 4 | 3428
858 | give + present | 2 | 4 | 3432
859 | give + speech | 2 | 4 | 3436
860 | glass + of | 2 | 4 | 3440
861 | good + for | 2 | 4 | 3444
862 | good + idea | 2 | 4 | 3448
863 | government + should | 2 | 4 | 3452
864 | go + buy | 2 | 4 | 3456
865 | go + over | 2 | 4 | 3460
866 | go + see | 2 | 4 | 3464
867 | go + sleep | 2 | 4 | 3468
868 | go + up | 2 | 4 | 3472
869 | grocery + store | 2 | 4 | 3476
870 | ground + be | 2 | 4 | 3480
871 | grow + into | 2 | 4 | 3484
872 | hard + time | 2 | 4 | 3488
873 | have + ability | 2 | 4 | 3492
874 | have + ache | 2 | 4 | 3496
875 | have + begin | 2 | 4 | 3500
876 | have + carry | 2 | 4 | 3504
877 | have + color | 2 | 4 | 3508
878 | have + come | 2 | 4 | 3512
879 | have + degree | 2 | 4 | 3516
880 | have + die | 2 | 4 | 3520
881 | have + drink | 2 | 4 | 3524
882 | have + eat | 2 | 4 | 3528
883 | have + figure | 2 | 4 | 3532
884 | have + finish | 2 | 4 | 3536
885 | have + form | 2 | 4 | 3540
886 | have + help | 2 | 4 | 3544
887 | have + in | 2 | 4 | 3548
888 | have + interest | 2 | 4 | 3552
889 | have + it | 2 | 4 | 3556
890 | have + leg | 2 | 4 | 3560
891 | have + meet | 2 | 4 | 3564
892 | have + not | 2 | 4 | 3568
893 | have + number | 2 | 4 | 3572
894 | have + plenty | 2 | 4 | 3576
895 | have + put | 2 | 4 | 3580
896 | have + quit | 2 | 4 | 3584
897 | have + stroke | 2 | 4 | 3588
898 | have + urge | 2 | 4 | 3592
899 | have + walk | 2 | 4 | 3596
900 | have + want | 2 | 4 | 3600
901 | have + win | 2 | 4 | 3604
902 | he'll + be | 2 | 4 | 3608
903 | he's + in | 2 | 4 | 3612
904 | heavy + cream | 2 | 4 | 3616
905 | help + i | 2 | 4 | 3620
906 | help + with | 2 | 4 | 3624
907 | her + head | 2 | 4 | 3628
908 | high + school | 2 | 4 | 3632
909 | his + head | 2 | 4 | 3636
910 | his + manner | 2 | 4 | 3640
911 | his + word | 2 | 4 | 3644
912 | homeless + person | 2 | 4 | 3648
913 | house + be | 2 | 4 | 3652
914 | house + with | 2 | 4 | 3656
915 | how + make | 2 | 4 | 3660
916 | how + often | 2 | 4 | 3664
917 | human + right | 2 | 4 | 3668
918 | i'd + prefer | 2 | 4 | 3672
919 | i'll + do | 2 | 4 | 3676
920 | i'm + able | 2 | 4 | 3680
921 | i'm + member | 2 | 4 | 3684
922 | i've + learn | 2 | 4 | 3688
923 | i've + see | 2 | 4 | 3692
924 | if + call | 2 | 4 | 3696
925 | if + know | 2 | 4 | 3700
926 | if + make | 2 | 4 | 3704
927 | if + will | 2 | 4 | 3708
928 | if + you'd | 2 | 4 | 3712
929 | interest + in | 2 | 4 | 3716
930 | invite + to | 2 | 4 | 3720
931 | in + book | 2 | 4 | 3724
932 | in + common | 2 | 4 | 3728
933 | in + contest | 2 | 4 | 3732
934 | in + do | 2 | 4 | 3736
935 | in + england | 2 | 4 | 3740
936 | in + field | 2 | 4 | 3744
937 | in + he's | 2 | 4 | 3748
938 | in + kitchen | 2 | 4 | 3752
939 | in + learn | 2 | 4 | 3756
940 | in + meeting | 2 | 4 | 3760
941 | in + middle | 2 | 4 | 3764
942 | in + place | 2 | 4 | 3768
943 | in + politics | 2 | 4 | 3772
944 | in + russia | 2 | 4 | 3776
945 | in + touch | 2 | 4 | 3780
946 | in + village | 2 | 4 | 3784
947 | in + way | 2 | 4 | 3788
948 | in + winter | 2 | 4 | 3792
949 | it's + hard | 2 | 4 | 3796
950 | it + make | 2 | 4 | 3800
951 | it + may | 2 | 4 | 3804
952 | i + admire | 2 | 4 | 3808
953 | i + ask | 2 | 4 | 3812
954 | i + buy | 2 | 4 | 3816
955 | i + declare | 2 | 4 | 3820
956 | i + eat | 2 | 4 | 3824
957 | i + enjoy | 2 | 4 | 3828
958 | i + find | 2 | 4 | 3832
959 | i + happen | 2 | 4 | 3836
960 | i + keep | 2 | 4 | 3840
961 | i + mail | 2 | 4 | 3844
962 | i + might | 2 | 4 | 3848
963 | i + plan | 2 | 4 | 3852
964 | i + promise | 2 | 4 | 3856
965 | i + realize | 2 | 4 | 3860
966 | i + say | 2 | 4 | 3864
967 | i + try | 2 | 4 | 3868
968 | i + turn | 2 | 4 | 3872
969 | just + be | 2 | 4 | 3876
970 | just + do | 2 | 4 | 3880
971 | keep + they | 2 | 4 | 3884
972 | kid + be | 2 | 4 | 3888
973 | kind + be | 2 | 4 | 3892
974 | know + personally | 2 | 4 | 3896
975 | know + what | 2 | 4 | 3900
976 | know + why | 2 | 4 | 3904
977 | land + value | 2 | 4 | 3908
978 | last + long | 2 | 4 | 3912
979 | let's + start | 2 | 4 | 3916
980 | let + go | 2 | 4 | 3920
981 | let + it | 2 | 4 | 3924
982 | let + you | 2 | 4 | 3928
983 | light + on | 2 | 4 | 3932
984 | like + a lot | 2 | 4 | 3936
985 | like + buy | 2 | 4 | 3940
986 | like + collect | 2 | 4 | 3944
987 | like + go | 2 | 4 | 3948
988 | like + have | 2 | 4 | 3952
989 | like + he | 2 | 4 | 3956
990 | like + hire | 2 | 4 | 3960
991 | like + manner | 2 | 4 | 3964
992 | like + put | 2 | 4 | 3968
993 | like + something | 2 | 4 | 3972
994 | like + use | 2 | 4 | 3976
995 | like + visit | 2 | 4 | 3980
996 | little + girl | 2 | 4 | 3984
997 | look + over | 2 | 4 | 3988
998 | look + up | 2 | 4 | 3992
999 | love + go | 2 | 4 | 3996
1000 | make + cake | 2 | 4 | 4000
1001 | make + cream | 2 | 4 | 4004
1002 | make + curtain | 2 | 4 | 4008
1003 | make + feel | 2 | 4 | 4012
1004 | make + in | 2 | 4 | 4016
1005 | make + mistake | 2 | 4 | 4020
1006 | make + myself | 2 | 4 | 4024
1007 | make + progress | 2 | 4 | 4028
1008 | many + country | 2 | 4 | 4032
1009 | many + time | 2 | 4 | 4036
1010 | mary + be | 2 | 4 | 4040
1011 | maybe + should | 2 | 4 | 4044
1012 | may + go | 2 | 4 | 4048
1013 | may + need | 2 | 4 | 4052
1014 | may + we | 2 | 4 | 4056
1015 | meet + he | 2 | 4 | 4060
1016 | might + be | 2 | 4 | 4064
1017 | minister + of | 2 | 4 | 4068
1018 | money + in | 2 | 4 | 4072
1019 | most + important | 2 | 4 | 4076
1020 | most + people | 2 | 4 | 4080
1021 | move + to | 2 | 4 | 4084
1022 | movie + be | 2 | 4 | 4088
1023 | movie + in | 2 | 4 | 4092
1024 | ms | 2 | 4 | 4096
1025 | much + good | 2 | 4 | 4100
1026 | must + have | 2 | 4 | 4104
1027 | must + look | 2 | 4 | 4108
1028 | my + absence | 2 | 4 | 4112
1029 | my + computer | 2 | 4 | 4116
1030 | my + country | 2 | 4 | 4120
1031 | my + father | 2 | 4 | 4124
1032 | my + finger | 2 | 4 | 4128
1033 | my + foot | 2 | 4 | 4132
1034 | my + friend | 2 | 4 | 4136
1035 | my + grandfather | 2 | 4 | 4140
1036 | my + heart | 2 | 4 | 4144
1037 | my + house | 2 | 4 | 4148
1038 | my + job | 2 | 4 | 4152
1039 | my + lawn | 2 | 4 | 4156
1040 | my + office | 2 | 4 | 4160
1041 | my + parent | 2 | 4 | 4164
1042 | my + party | 2 | 4 | 4168
1043 | my + point | 2 | 4 | 4172
1044 | my + sister | 2 | 4 | 4176
1045 | my + wife | 2 | 4 | 4180
1046 | my + work | 2 | 4 | 4184
1047 | need + make | 2 | 4 | 4188
1048 | need + pick | 2 | 4 | 4192
1049 | never + go | 2 | 4 | 4196
1050 | never + have | 2 | 4 | 4200
1051 | never + learn | 2 | 4 | 4204
1052 | new + house | 2 | 4 | 4208
1053 | not + get | 2 | 4 | 4212
1054 | not + have | 2 | 4 | 4216
1055 | not + take | 2 | 4 | 4220
1056 | no one + could | 2 | 4 | 4224
1057 | no one + may | 2 | 4 | 4228
1058 | number + of | 2 | 4 | 4232
1059 | official + complaint | 2 | 4 | 4236
1060 | of + animal | 2 | 4 | 4240
1061 | of + approach | 2 | 4 | 4244
1062 | of + april | 2 | 4 | 4248
1063 | of + being | 2 | 4 | 4252
1064 | of + bread | 2 | 4 | 4256
1065 | of + day | 2 | 4 | 4260
1066 | of + dog | 2 | 4 | 4264
1067 | of + furniture | 2 | 4 | 4268
1068 | of + heart | 2 | 4 | 4272
1069 | of + home | 2 | 4 | 4276
1070 | of + land | 2 | 4 | 4280
1071 | of + money | 2 | 4 | 4284
1072 | of + newspaper | 2 | 4 | 4288
1073 | of + organization | 2 | 4 | 4292
1074 | of + paint | 2 | 4 | 4296
1075 | of + president | 2 | 4 | 4300
1076 | of + you | 2 | 4 | 4304
1077 | one + place | 2 | 4 | 4308
1078 | on + car | 2 | 4 | 4312
1079 | on + computer | 2 | 4 | 4316
1080 | on + floor | 2 | 4 | 4320
1081 | on + issue | 2 | 4 | 4324
1082 | on + job | 2 | 4 | 4328
1083 | on + market | 2 | 4 | 4332
1084 | on + paper | 2 | 4 | 4336
1085 | on + project | 2 | 4 | 4340
1086 | on + ship | 2 | 4 | 4344
1087 | opinion + on | 2 | 4 | 4348
1088 | order + it | 2 | 4 | 4352
1089 | or + could | 2 | 4 | 4356
1090 | or + something | 2 | 4 | 4360
1091 | or + will | 2 | 4 | 4364
1092 | other + kind | 2 | 4 | 4368
1093 | other + plan | 2 | 4 | 4372
1094 | other + side | 2 | 4 | 4376
1095 | our + anniversary | 2 | 4 | 4380
1096 | own + land | 2 | 4 | 4384
1097 | pack + up | 2 | 4 | 4388
1098 | part + be | 2 | 4 | 4392
1099 | patient + be | 2 | 4 | 4396
1100 | pay + for | 2 | 4 | 4400
1101 | people + believe | 2 | 4 | 4404
1102 | people + do | 2 | 4 | 4408
1103 | people + go | 2 | 4 | 4412
1104 | people + think | 2 | 4 | 4416
1105 | percentage + of | 2 | 4 | 4420
1106 | pick + mail | 2 | 4 | 4424
1107 | please + do | 2 | 4 | 4428
1108 | please + give | 2 | 4 | 4432
1109 | possible + achieve | 2 | 4 | 4436
1110 | prefer + go | 2 | 4 | 4440
1111 | president + of | 2 | 4 | 4444
1112 | prevent + from | 2 | 4 | 4448
1113 | put + finger | 2 | 4 | 4452
1114 | put + it | 2 | 4 | 4456
1115 | put + together | 2 | 4 | 4460
1116 | really + need | 2 | 4 | 4464
1117 | reason + for | 2 | 4 | 4468
1118 | return + for | 2 | 4 | 4472
1119 | ride + with | 2 | 4 | 4476
1120 | santa + clau | 2 | 4 | 4480
1121 | seem + finish | 2 | 4 | 4484
1122 | seem + like | 2 | 4 | 4488
1123 | see + again | 2 | 4 | 4492
1124 | see + couple | 2 | 4 | 4496
1125 | see + in | 2 | 4 | 4500
1126 | see + it | 2 | 4 | 4504
1127 | see + picture | 2 | 4 | 4508
1128 | she + could | 2 | 4 | 4512
1129 | she + need | 2 | 4 | 4516
1130 | she + seem | 2 | 4 | 4520
1131 | should + give | 2 | 4 | 4524
1132 | should + make | 2 | 4 | 4528
1133 | side + of | 2 | 4 | 4532
1134 | sit + in | 2 | 4 | 4536
1135 | smell + of | 2 | 4 | 4540
1136 | social + issue | 2 | 4 | 4544
1137 | solve + problem | 2 | 4 | 4548
1138 | somewhere + else | 2 | 4 | 4552
1139 | some + people | 2 | 4 | 4556
1140 | soup + be | 2 | 4 | 4560
1141 | so that + can | 2 | 4 | 4564
1142 | so + cold | 2 | 4 | 4568
1143 | so + do | 2 | 4 | 4572
1144 | so + hungry | 2 | 4 | 4576
1145 | so + will | 2 | 4 | 4580
1146 | so + would | 2 | 4 | 4584
1147 | spank + you | 2 | 4 | 4588
1148 | stack + of | 2 | 4 | 4592
1149 | start + use | 2 | 4 | 4596
1150 | store + for | 2 | 4 | 4600
1151 | subject + of | 2 | 4 | 4604
1152 | take + class | 2 | 4 | 4608
1153 | take + nap | 2 | 4 | 4612
1154 | take + on | 2 | 4 | 4616
1155 | take + out | 2 | 4 | 4620
1156 | take + see | 2 | 4 | 4624
1157 | take + to | 2 | 4 | 4628
1158 | talk + about | 2 | 4 | 4632
1159 | talk + with | 2 | 4 | 4636
1160 | tell + about | 2 | 4 | 4640
1161 | tell + he | 2 | 4 | 4644
1162 | tell + that | 2 | 4 | 4648
1163 | temperature + be | 2 | 4 | 4652
1164 | than + can | 2 | 4 | 4656
1165 | that's + i | 2 | 4 | 4660
1166 | that's + why | 2 | 4 | 4664
1167 | that + article | 2 | 4 | 4668
1168 | that + candidate | 2 | 4 | 4672
1169 | that + dress | 2 | 4 | 4676
1170 | that + have | 2 | 4 | 4680
1171 | that + liquid | 2 | 4 | 4684
1172 | that + man | 2 | 4 | 4688
1173 | that + noise | 2 | 4 | 4692
1174 | that + politician | 2 | 4 | 4696
1175 | that + show | 2 | 4 | 4700
1176 | that + way | 2 | 4 | 4704
1177 | their + product | 2 | 4 | 4708
1178 | then + say | 2 | 4 | 4712
1179 | there + will | 2 | 4 | 4716
1180 | the + accident | 2 | 4 | 4720
1181 | the + airport | 2 | 4 | 4724
1182 | the + ambassador | 2 | 4 | 4728
1183 | the + angel | 2 | 4 | 4732
1184 | the + ball | 2 | 4 | 4736
1185 | the + basis | 2 | 4 | 4740
1186 | the + beach | 2 | 4 | 4744
1187 | the + beginning | 2 | 4 | 4748
1188 | the + bill | 2 | 4 | 4752
1189 | the + bird | 2 | 4 | 4756
1190 | the + bus | 2 | 4 | 4760
1191 | the + campaign | 2 | 4 | 4764
1192 | the + case | 2 | 4 | 4768
1193 | the + champion | 2 | 4 | 4772
1194 | the + chimney | 2 | 4 | 4776
1195 | the + church | 2 | 4 | 4780
1196 | the + circus | 2 | 4 | 4784
1197 | the + club | 2 | 4 | 4788
1198 | the + color | 2 | 4 | 4792
1199 | the + community | 2 | 4 | 4796
1200 | the + concept | 2 | 4 | 4800
1201 | the + constitution | 2 | 4 | 4804
1202 | the + costume | 2 | 4 | 4808
1203 | the + cricket | 2 | 4 | 4812
1204 | the + criminal | 2 | 4 | 4816
1205 | the + curtain | 2 | 4 | 4820
1206 | the + dictionary | 2 | 4 | 4824
1207 | the + discussion | 2 | 4 | 4828
1208 | the + distance | 2 | 4 | 4832
1209 | the + earth | 2 | 4 | 4836
1210 | the + effect | 2 | 4 | 4840
1211 | the + elevator | 2 | 4 | 4844
1212 | the + family | 2 | 4 | 4848
1213 | the + field | 2 | 4 | 4852
1214 | the + food | 2 | 4 | 4856
1215 | the + formula | 2 | 4 | 4860
1216 | the + frog | 2 | 4 | 4864
1217 | the + front | 2 | 4 | 4868
1218 | the + game | 2 | 4 | 4872
1219 | the + garbage | 2 | 4 | 4876
1220 | the + gentleman | 2 | 4 | 4880
1221 | the + grade | 2 | 4 | 4884
1222 | the + grass | 2 | 4 | 4888
1223 | the + highway | 2 | 4 | 4892
1224 | the + homeless | 2 | 4 | 4896
1225 | the + hour | 2 | 4 | 4900
1226 | the + inhabitant | 2 | 4 | 4904
1227 | the + instructions | 2 | 4 | 4908
1228 | the + issue | 2 | 4 | 4912
1229 | the + judge | 2 | 4 | 4916
1230 | the + law | 2 | 4 | 4920
1231 | the + line | 2 | 4 | 4924
1232 | the + matter | 2 | 4 | 4928
1233 | the + measles | 2 | 4 | 4932
1234 | the + measure | 2 | 4 | 4936
1235 | the + message | 2 | 4 | 4940
1236 | the + middle | 2 | 4 | 4944
1237 | the + mother | 2 | 4 | 4948
1238 | the + mouse | 2 | 4 | 4952
1239 | the + museum | 2 | 4 | 4956
1240 | the + number | 2 | 4 | 4960
1241 | the + nurse | 2 | 4 | 4964
1242 | the + picture | 2 | 4 | 4968
1243 | the + place | 2 | 4 | 4972
1244 | the + plane | 2 | 4 | 4976
1245 | the + problem | 2 | 4 | 4980
1246 | the + project | 2 | 4 | 4984
1247 | the + refrigerator | 2 | 4 | 4988
1248 | the + restaurant | 2 | 4 | 4992
1249 | the + result | 2 | 4 | 4996
1250 | the + river | 2 | 4 | 5000
1251 | the + rule | 2 | 4 | 5004
1252 | the + s | 2 | 4 | 5008
1253 | the + ship | 2 | 4 | 5012
1254 | the + shop | 2 | 4 | 5016
1255 | the + side | 2 | 4 | 5020
1256 | the + sky | 2 | 4 | 5024
1257 | the + stair | 2 | 4 | 5028
1258 | the + system | 2 | 4 | 5032
1259 | the + teacher | 2 | 4 | 5036
1260 | the + temperature | 2 | 4 | 5040
1261 | the + terrain | 2 | 4 | 5044
1262 | the + theater | 2 | 4 | 5048
1263 | the + top | 2 | 4 | 5052
1264 | the + town | 2 | 4 | 5056
1265 | the + truth | 2 | 4 | 5060
1266 | the + u | 2 | 4 | 5064
1267 | the + week | 2 | 4 | 5068
1268 | the + winter | 2 | 4 | 5072
1269 | the + year | 2 | 4 | 5076
1270 | they + would | 2 | 4 | 5080
1271 | thing + be | 2 | 4 | 5084
1272 | this + book | 2 | 4 | 5088
1273 | this + case | 2 | 4 | 5092
1274 | this + letter | 2 | 4 | 5096
1275 | this + product | 2 | 4 | 5100
1276 | this + year | 2 | 4 | 5104
1277 | though + be | 2 | 4 | 5108
1278 | though + know | 2 | 4 | 5112
1279 | time + of | 2 | 4 | 5116
1280 | time + talk | 2 | 4 | 5120
1281 | to + accommodate | 2 | 4 | 5124
1282 | to + achieve | 2 | 4 | 5128
1283 | to + add | 2 | 4 | 5132
1284 | to + adopt | 2 | 4 | 5136
1285 | to + allow | 2 | 4 | 5140
1286 | to + answer | 2 | 4 | 5144
1287 | to + area | 2 | 4 | 5148
1288 | to + ask | 2 | 4 | 5152
1289 | to + avoid | 2 | 4 | 5156
1290 | to + bed | 2 | 4 | 5160
1291 | to + catch | 2 | 4 | 5164
1292 | to + choose | 2 | 4 | 5168
1293 | to + cover | 2 | 4 | 5172
1294 | to + deliver | 2 | 4 | 5176
1295 | to + drive | 2 | 4 | 5180
1296 | to + enter | 2 | 4 | 5184
1297 | to + explain | 2 | 4 | 5188
1298 | to + fix | 2 | 4 | 5192
1299 | to + he | 2 | 4 | 5196
1300 | to + hear | 2 | 4 | 5200
1301 | to + hire | 2 | 4 | 5204
1302 | to + hold | 2 | 4 | 5208
1303 | to + house | 2 | 4 | 5212
1304 | to + kid | 2 | 4 | 5216
1305 | to + know | 2 | 4 | 5220
1306 | to + light | 2 | 4 | 5224
1307 | to + meeting | 2 | 4 | 5228
1308 | to + neighbor | 2 | 4 | 5232
1309 | to + own | 2 | 4 | 5236
1310 | to + pick | 2 | 4 | 5240
1311 | to + prevent | 2 | 4 | 5244
1312 | to + problem | 2 | 4 | 5248
1313 | to + project | 2 | 4 | 5252
1314 | to + push | 2 | 4 | 5256
1315 | to + quit | 2 | 4 | 5260
1316 | to + read | 2 | 4 | 5264
1317 | to + receive | 2 | 4 | 5268
1318 | to + replace | 2 | 4 | 5272
1319 | to + return | 2 | 4 | 5276
1320 | to + ride | 2 | 4 | 5280
1321 | to + share | 2 | 4 | 5284
1322 | to + stand | 2 | 4 | 5288
1323 | to + talk | 2 | 4 | 5292
1324 | to + think | 2 | 4 | 5296
1325 | to + type | 2 | 4 | 5300
1326 | to + visit | 2 | 4 | 5304
1327 | to + vote | 2 | 4 | 5308
1328 | to + watch | 2 | 4 | 5312
1329 | to + write | 2 | 4 | 5316
1330 | try + avoid | 2 | 4 | 5320
1331 | turn + into | 2 | 4 | 5324
1332 | turn + on | 2 | 4 | 5328
1333 | two + hundred | 2 | 4 | 5332
1334 | understand + it | 2 | 4 | 5336
1335 | understand + why | 2 | 4 | 5340
1336 | unfortunately + have | 2 | 4 | 5344
1337 | up to + you | 2 | 4 | 5348
1338 | use + computer | 2 | 4 | 5352
1339 | use + on | 2 | 4 | 5356
1340 | use + to | 2 | 4 | 5360
1341 | value + be | 2 | 4 | 5364
1342 | version + of | 2 | 4 | 5368
1343 | very + important | 2 | 4 | 5372
1344 | very + pale | 2 | 4 | 5376
1345 | walk + far | 2 | 4 | 5380
1346 | want + carry | 2 | 4 | 5384
1347 | want + continue | 2 | 4 | 5388
1348 | want + give | 2 | 4 | 5392
1349 | want + go | 2 | 4 | 5396
1350 | want + have | 2 | 4 | 5400
1351 | want + i | 2 | 4 | 5404
1352 | want + it | 2 | 4 | 5408
1353 | want + take | 2 | 4 | 5412
1354 | water + be | 2 | 4 | 5416
1355 | we'll + get | 2 | 4 | 5420
1356 | weather + be | 2 | 4 | 5424
1357 | we + buy | 2 | 4 | 5428
1358 | we + find | 2 | 4 | 5432
1359 | we + get | 2 | 4 | 5436
1360 | we + hear | 2 | 4 | 5440
1361 | we + may | 2 | 4 | 5444
1362 | we + might | 2 | 4 | 5448
1363 | what + percentage | 2 | 4 | 5452
1364 | what + think | 2 | 4 | 5456
1365 | what + will | 2 | 4 | 5460
1366 | when + arrive | 2 | 4 | 5464
1367 | when + begin | 2 | 4 | 5468
1368 | when + come | 2 | 4 | 5472
1369 | when + he's | 2 | 4 | 5476
1370 | when + i'm | 2 | 4 | 5480
1371 | who + die | 2 | 4 | 5484
1372 | why + be | 2 | 4 | 5488
1373 | will + die | 2 | 4 | 5492
1374 | will + get | 2 | 4 | 5496
1375 | will + learn | 2 | 4 | 5500
1376 | will + not | 2 | 4 | 5504
1377 | will + we | 2 | 4 | 5508
1378 | will + win | 2 | 4 | 5512
1379 | win + war | 2 | 4 | 5516
1380 | wish + you | 2 | 4 | 5520
1381 | with + company | 2 | 4 | 5524
1382 | with + people | 2 | 4 | 5528
1383 | word + in | 2 | 4 | 5532
1384 | work + in | 2 | 4 | 5536
1385 | work + out | 2 | 4 | 5540
1386 | would + go | 2 | 4 | 5544
1387 | would + love | 2 | 4 | 5548
1388 | would + need | 2 | 4 | 5552
1389 | would + say | 2 | 4 | 5556
1390 | write + paper | 2 | 4 | 5560
1391 | + dress | 2 | 4 | 5564
1392 | + memorial | 2 | 4 | 5568
1393 | + year | 2 | 4 | 5572
1394 | yesterday + see | 2 | 4 | 5576
1395 | you'd + like | 2 | 4 | 5580
1396 | you'll + have | 2 | 4 | 5584
1397 | young + kid | 2 | 4 | 5588
1398 | your + ability | 2 | 4 | 5592
1399 | your + article | 2 | 4 | 5596
1400 | your + assistance | 2 | 4 | 5600
1401 | your + being | 2 | 4 | 5604
1402 | your + car | 2 | 4 | 5608
1403 | your + convenience | 2 | 4 | 5612
1404 | your + effort | 2 | 4 | 5616
1405 | your + face | 2 | 4 | 5620
1406 | your + idea | 2 | 4 | 5624
1407 | your + outfit | 2 | 4 | 5628
1408 | your + proposal | 2 | 4 | 5632
1409 | your + shirt | 2 | 4 | 5636
1410 | your + speech | 2 | 4 | 5640
1411 | your + time | 2 | 4 | 5644
1412 | your + work | 2 | 4 | 5648
1413 | you + feel | 2 | 4 | 5652
1414 | you + frown | 2 | 4 | 5656
1415 | you + receive | 2 | 4 | 5660
1416 | you + talk | 2 | 4 | 5664
Частотный словарь данного текста (как уже сказано, 3170 слов) имеет стандартное распределение Ципфа, так что частота слова
F ~ 1/N
где N - номер слова в частотном списке.
Это удивительное распределение, открытое в прошлом веке Ципфом, до сих пор не получило удовлетворительного объяснения. По-видимому, оно не сводится к известным законам математической статистики и не выводится из них.
Будучи физиком, я отношусь к этому спокойно. Не важно, почему планеты притягиваются по закону обратных квадратов - важно, что они это всегда делают. Это красиво и удобно для расчетов. Для меня закон Ципфа - это наблюдаемый факт, из которого надо исходить.
Я был уверен, что мои словосочетания окажутся распределенными по тому же самому закону Ципфа, ведь он кажется совершенно универсальным и ему подчиняются самые разные вещи: например, если расположить языки в список в порядке убывания числа говорящих на данном языке, то мы получим тот же самый закон Ципфа:
(число говорящих) ~ 1 / (номер языка в списке)
То же самое с футболистами по числу забитых голов, с городами по числу жителей и т.д и т.п. Закон Ципфа - это поистине удивительная и универсальная структура, постоянно "всплывающая" при статистических исследованиях окружающего мира.
Так вот, к моему удивлению оказалось, что мои словосочетания распределены НЕ по закону Ципфа!
Я, в натуре, тут же бросился искать закономерность, которой подчиняется построенная мною статистка.
И без труда нашел.
Оказывается, это ПОЧТИ закон Ципфа. Нечто очень близкое, похожее и явно родственное, но все-таки не то.
А именно.
КВАДРАТ частоты словосочетания оказался обратно пропорционален номеру словосочетания в частотном списке.
Скромно назовем это квадратичным законом Ципфа, оставляя мою фамилию в тени.
Напрашивается гипотеза.
Если закон Ципфа для одиночных слов 1/N,
а для ПАР слов - 1/N1/2,
не окажется ли, что словосочетания из трех слов распределены по кубическому принципу 1/N1/3,
а сочетания из k слов - 1/N1/k
???????????
К сожалению, я любитель не имею достаточных технических мощностей, чтобы проверить эту гипотезу, не вылезая из своей деревни.
Может, кто из профессионалов загорится идеей и соблаговолит проделать эту работу?
Это ещё зависит от добросовестности автора текста.
Однажды я встретил в одном боевике фразу "Сидит, как мышь под веником" три раза.(Источник не помню).
В другой раз (конкретно, автор Влодавец) попалась одна и та же глава, дважды вмонтированная в текст.
Это понятно. К примеру, текст, состоящий из одного предложения, многократно повторенного, может разрушить и закон Ципфа, и мой "квадратичный закон Ципфа". И что угодно.
Но суть в том, что когда люди ПРОСТО говорят и пишут, как им удобно, у них выходят эти таинственные закономерности. Сами собой.
Цитата: Солохин от июля 7, 2012, 21:40
Программа выявила в нем 10 000 различных словосочетаний, из которых только 1400 словосочетаний встречаются 2 и более раз.
Что это значит? Как определяется словосочетание?
Чисто по-школьному. Пара слов.
Я бы предпочел программу, которая разбивала бы предложение на синтаксические группы - грубо говоря, расставляла бы скобки.
Но такой программы нет.
Создатели анализатора, которым я пользовался, хотели сделать для русского и английского языка ОДНОВРЕМЕННО, но русский с его свободным порядком слов не совсем удобен для теории синтаксических групп (слишком часто можно наблюдать непроективные струтуры предложения, особенно в разговорной речи!) И они сделали по-простому, по-рабочекрестьянски.
Но зато добротно.
Цитата: Солохин от июля 7, 2012, 22:49
Чисто по-школьному. Пара слов.
:o
Тогда говорите
биграммы, а не
словосочетания, что ли... :donno:
Зачем говорить мудреными терминами? И так понятно, что я называю словосочетанием. В школе все учились.
Там словосочетанием называли именно пару.
Я не стремлюсь выглядеть умным или оригинальным.
Мне кажется, мой результат интересен сам по себе, без красивой обертки.
Цитата: Солохин от июля 7, 2012, 22:58
Зачем говорить мудреными терминами? И так понятно, что я называю словосочетанием. В школе все учились.
Там словосочетанием называли именно пару.
:uzhos:
Не знаю, как Вас, а меня в школе учили, что подлежащее+сказуемое не является словосочетанием. Как и подлежащее+предлог, etc.
Честно говоря, слабо верится, что Вас в школе учили иначе. Подозреваю, что Вы просто подзабыли... Я, конечно, не знаю, может школьная программа
настолько поменялась — всякое бывает...
Цитата: Солохин от июля 7, 2012, 22:58
Я не стремлюсь выглядеть умным или оригинальным.
Мне кажется, мой результат интересен сам по себе, без красивой обертки.
Да тут не в обёртке дело, тут «на клетке со слоном написано буйвол».
Вообще говоря, то, что Вы тут сделали, называется
биграммная модель языка. Словарём словосочетаний тут и не пахло.
Не знаю, как Вы искали — наверное, по-русски, раз английский только начали учить? Но при гуглении «english three-word frequency» по первой же ссылке вылезает wordfrequency.info (http://www.wordfrequency.info/), а там w3_.zip (http://www.ngrams.info/coca/download/w3_.zip) (5,4 М) на 1 020 009 сочетаний (правда, n't они считают как отдельное слово). Если отсортировать, то вот первые 20:
199110 i do n't
167285 one of the
143368 a lot of
125280 the united states
81097 do n't know
78526 out of the
75459 as well as
73736 going to be
68687 some of the
67941 you do n't
61930 to be a
61519 i did n't
60849 part of the
58462 the end of
57015 it was a
51446 do n't think
49051 be able to
47566 i think that
47357 the fact that
47260 n't want to
Цитата: wangjhenbai от июля 7, 2012, 23:02Вообще говоря, то, что Вы тут сделали, называется биграммная модель языка. Словарём словосочетаний тут и не пахло.
Да хоть горшком назовите.
Дело не в названиях.
Я полагаю, что подлежащее+сказуемое - это тоже словосочетание. И я не одинок.
Тестелец тоже так полагает. А его, я думаю, Вы профаном не назовете.
Для меня словосочетание - это группа слов, синтаксически связанных между собой.
Я составил словарь ПАР просто потому, что у меня не было мощностей, чтобы сделать для ТРОЕК и прочее. Были бы - сделал бы.
Так что БИ - это вовсе не суть дела.
Цитата: Солохин от июля 7, 2012, 23:08
Тестелец тоже так полагает. А его, я думаю, Вы профаном не назовете.
Тут не в подлежащем и сказуемом дело (хотя если считать их словосочетаниями, то это уже никак не
по-школьному), а в целом в подходе.
Словосочетание предполагает синтаксическую связь,
биграмма предполагает два элемента, идущих подряд.
Цитата: Солохин от июля 7, 2012, 23:08
Так что БИ - это вовсе не суть дела.
Тогда можно сказать n-граммы.
Да нет же!
Не подряд, а именно синтаксически связанных!
Я говорю именно о словосочетаниях, а не просто о парах слов, стоящих рядом!
Иначе зачем бы мне был синтаксический анализатор?!
Цитата: vfaronov от июля 7, 2012, 23:02Не знаю, как Вы искали — наверное, по-русски, раз английский только начали учить? Но при гуглении «english three-word frequency» по первой же ссылке вылезает wordfrequency.info (http://www.wordfrequency.info/), а там w3_.zip (http://www.ngrams.info/coca/download/w3_.zip) (5,4 М) на 1 020 009 сочетаний (правда, n't они считают как отдельное слово). Если отсортировать, то вот первые 20:
199110 i do n't
167285 one of the
143368 a lot of
125280 the united states
81097 do n't know
78526 out of the
75459 as well as
73736 going to be
68687 some of the
67941 you do n't
61930 to be a
61519 i did n't
60849 part of the
58462 the end of
57015 it was a
51446 do n't think
49051 be able to
47566 i think that
47357 the fact that
47260 n't want to
Огромное спасибо!
Да, я плохо искал. Теперь я могу воспользоваться этим материалом для дальнейшей работы.
Вы мне
очень помогли. Я благодарен Вам!
Цитата: Солохин от июля 7, 2012, 23:23
Я говорю именно о словосочетаниях, а не просто о парах слов, стоящих рядом!
Цитата: Солохин от июля 7, 2012, 22:49
Чисто по-школьному. Пара слов.
Цитата: Солохин от июля 7, 2012, 23:23
Иначе зачем бы мне был синтаксический анализатор?!
Цитата: Солохин от июля 7, 2012, 22:49
Я бы предпочел программу, которая разбивала бы предложение на синтаксические группы - грубо говоря, расставляла бы скобки.
Но такой программы нет.
Вы меня теряете...
Что-то я совсем запутался. Где можно посмотреть сам этот анализатор? Сайт большой, я не сориентировался.
Цитата: Солохин от июля 7, 2012, 21:41
304 | s | 4 | 16 | 4864
Цитата: Солохин от июля 7, 2012, 21:44
1266 | the + u | 2 | 4 | 5064
Цитата: Солохин от июля 7, 2012, 21:44
1252 | the + s | 2 | 4 | 5008
А это что такое? :what:
Цитата: wangjhenbai от июля 7, 2012, 23:30
Где можно посмотреть сам этот анализатор? Сайт большой, я не сориентировался.
http://cs.isa.ru:10000/dwarf/download.html
http://cs.isa.ru:10000/dwarf/doc.htm - а это к ней документация
Цитата: wangjhenbai от июля 7, 2012, 23:30А это что такое? :what:
Это глюки. Лес рубят - щепки летят.
Синатксический анализатор - он таки тупой. Притом в процессе обработки могли быть глюки.
Итак, я взял список http://www.ngrams.info/coca/download/w3_.zip и после сортировки проверил, выполняется ли на нем моя гипотеза насчет куба частоты.
Я обрезал длинный хвост списка, оставив первые 16 000. На большее прото не хватило мощностей.
Оказалось - не выполняется.
Зато, как ни странно, почти выполняется все тот же квадратный закон Ципфа!
Там есть какой-то систематический дрейф - частота к концу обработанного списка раза в полтора меньше, чем надо.
Соответственно, квадрат частоты - раза в три.
Однако эта тройка - согласитесь! - ничтожна в масштабе обрабатываемых значений. Ведь речь идет о числах порядка десятка миллиардов. То есть, закономерность явно прослеживается, хотя и с явным намеком, что я чего-то не учитываю.
Вот фрагменты из списка:
(частота) (тройка) (номер тройки в списке) (произведение квадрата частоты на номер в списке)
199110 i do n't 1 39644792100
167285 one of the 2 55968542450
143368 a lot of 3 61663150272
125280 the united states 4 62780313600
81097 do n't know 5 32883617045
78526 out of the 6 36997996056
75459 as well as 7 39858424767
73736 going to be 8 43495981568
68687 some of the 9 42461135721
....
7184 that is not 822 42423301632
7182 most of them 823 42451265052
7180 let me ask 824 42479177600
7179 did n't even 825 42518883825
7155 when we come 826 42286264650
....
2620 where do you 3860 26496584000
2619 back to her 3861 26483220621
2619 copy of the 3862 26490079782
2619 i think so 3863 26496938943
....
1453 to the airport 8722 18413964898
1452 have more than 8723 18390735792
1452 i mean it 8724 18392844096
1452 is not always 8725 18394952400
...
1214 it comes from 11124 16394506704
1214 makes me feel 11125 16395980500
1214 martin luther king 11126 16397454296
1214 nothing in the 11127 16398928092
1214 of our country 11128 16400401888
...
908 at san francisco 16380 13504720320
908 became clear that 16381 13505544784
908 become the first 16382 13506369248
908 by saying that 16383 13507193712
908 few months later 16384 13508018176
Меня как физика поражает в этом, почему распределение для ПАР слов и для ТРОЕК слов подчинено одному и тому же закону?!
Не означает ли это, что обнаруженный мною квадратный Ципф - это универсальное статистическое распределение для словосочетаний любого ранга?
Если так, то почему словосочетания подчинены иному закону, чем слова? Не одного ли порядка эти явления?
По моему это уже делают. Вот сравнительный анализ некоторых евроязыков и Эсперанто.
Заключение интересное.
По-моим прикидкам получилось, что для пар слов их частотность нужно возводить в степень 1,69, а для троек — в 1,76. Действительно, неожиданно близко.
Цитата: maristo от июля 8, 2012, 08:42
По моему это уже делают. Вот сравнительный анализ некоторых евроязыков и Эсперанто.
Заключение интересное.
А как иначе-то могло быть? Слова суть слова. На что их не меняй, какой грамматике не переподчиняй, статистика будет та же. Сравнение с Си выглядит бредом.
Цитата: Hellerick от июля 8, 2012, 09:50
По-моим прикидкам получилось, что для пар слов их частотность нужно возводить в степень 1,69, а для троек — в 1,76. Действительно, неожиданно близко.
Цитата: maristo от июля 8, 2012, 08:42
По моему это уже делают. Вот сравнительный анализ некоторых евроязыков и Эсперанто.
Заключение интересное.
А как иначе-то могло быть? Слова суть слова. На что их не меняй, какой грамматике не переподчиняй, статистика будет та же. Сравнение с Си выглядит бредом.
Я тут читал такой же анализ уличного шума и музыкальных произведений... там тоже закон соблюдается. :o
Цитата: maristo от июля 8, 2012, 10:26
Я тут читал такой же анализ уличного шума и музыкальных произведений... там тоже закон соблюдается. :o
Кстати, вот вам задание на дом: придумайте язык, в котором бы подобная статистика
не соблюдалась.
Цитата: Hellerick от июля 8, 2012, 10:30
Цитата: maristo от июля 8, 2012, 10:26
Я тут читал такой же анализ уличного шума и музыкальных произведений... там тоже закон соблюдается. :o
Кстати, вот вам задание на дом: придумайте язык, в котором бы подобная статистика не соблюдалась.
Ну, Си, формально - язык. Что тут такого? На нём не соблюдается. Тут даже важно не то что язык, а просто множество знаков. Я не спец, но у меня ощущение, что любители Ципфа заблудились в трёх соснах статистики.
Цитата: maristo от июля 8, 2012, 10:41
Си, формально - язык.
Формально следовало бы сравнивать переводы одного и того же текста.
Ага, вот умные люди проводили исследования в том же направлении.
http://aclweb.org/anthology-new/O/O03/O03-4004.pdf
Но до квадрата они не дошли.
Увы, чересчур большие вычислительные мощности расслабляюще действуют на моск.
Они долго считали и пришли к тому, что степень где-то 0.59
Но в природе не бывает 0.59
В природе либо 0, либо 1, либо 1/2, либо еще что-то красивое. "Пи" там или "е".
Природа устроена красиво.
Я думаю, там просто 0.5 - а остальное - погрешность эксперимента.
Цитата: Солохин от июля 8, 2012, 15:17
Природа устроена красиво.
А эвристические законы, описывающие сложные системы — нет.
Закон Ньютона - красив. Уравнения Эйнштейна - ослепительно красивы. Потому что они больше, чем эвристические законы, выведенные из опыта.
Физика на самом деле не выводится из опыта.
Если бы закон всемирного тяготения выдумывали сегодняшние ребята, вооруженные суперкомпьютерами, но небогатые научной интуицией, они бы бесконечно спорили о том, какая там степень в законе всемирного тяготения - 1,92 или 1, 96.
И наука на этом бы остановилась.
Нужен был Ньютон, чтобы сказать: ребята, не майтесь дурью. Там ровно 2 (закон обратных квадратов), а все остальное - от неточности эксперимента и от приливных сил Солнца, Юпитера и проч.
Ципф был мужик умный. Он сказал то, что видно каждому невооруженным глазом: 1/r
Потом пришли ребята не столь умные и сказали: нет, там 1/r^x, где х мы будем уточнять пока нам платят гранты, то есть, всю жизнь.
Это не наука, а наукообразие.
Настоящая наука смела; она не боится чуть-чуть не соответствовать эксперименту, потому что любой реальный эксперимент бывает "грязным", в нем действует множество второстепенных факторов, которые учесть невозможно.
Нужна смелость, чтобы сказать: там просто 0.5
Я говорю это и уверен, что не прогадаю.
Хоть и не согласен с Солохиным по мировоззренческим вопросам - соглашусь; излишняя точность подкашивает принципиальность, а всё фундаментальное - принципиально. В вышеприведённом примере точность ухудшает ситуацию. :(
Вот что странно.
Почему все-таки СЛОВА распределены по одному закону, а СЛОВОСОЧЕТАНИЯ - по другому?
Я понимаю, что слова - это нечто особенное, предел синтаксиса, терминальные символы. В то время как словосочетания могут включать в себя другие словосочетания и так до бесконечности (в принципе).
То есть, это разного порядка явления.
Типа как бозоны и фермионы в физике. В одном состоянии не может быть два фермиона, но может быть сколько угодно бозонов.
Слова - типа фермионы, а словосочетания - типа бозоны.
Потому и статистика разная.
Но все-таки как-то странно это и противоречит интуиции....
Цитата: Солохин от июля 8, 2012, 16:00
Ципф был мужик умный. Он сказал то, что видно каждому невооруженным глазом: 1/r
Каждому видно невооружённым глазом, что сумма всех 1/r равна бесконечности. Поэтому Ципф - это даже не наукообразие, а лженаука.
> сумма всех 1/r равна бесконечности.
Чем это плохо в заведомо конечных множествах ?
Тем, что текст конечен, а по Ципфу сумма вхождений бесконечна.
Цитата: Alone Coder от июля 12, 2012, 12:10
Тем, что текст конечен, а по Ципфу сумма вхождений бесконечна.
Почему сумма конечного числа конечных слагаемых бесконечна ?
Цитата: Alone Coder от июля 12, 2012, 12:10
Тем, что текст конечен, а по Ципфу сумма вхождений бесконечна.
Кодер-Кодер, Вы даже язык и речь не различаете.
Цитата: okruzhor от июля 12, 2012, 12:13
Почему сумма конечного числа конечных слагаемых бесконечна ?
Конечное число - это сколько? И где этот параметр в формуле?
Цитата: fujhi от июля 12, 2012, 13:18
Кодер-Кодер, Вы даже язык и речь не различаете.
Чего спорить с гуманитариями, они даже ряды не проходили.
Цитата: Alone Coder от июля 12, 2012, 20:26
Цитата: okruzhor от июля 12, 2012, 12:13
Почему сумма конечного числа конечных слагаемых бесконечна ?
Конечное число - это сколько? И где этот параметр в формуле?
Число вхождений слов в рассматриваемом словаре, построенном по конкретному конечному тексту. Это если рассматривать случай конечного текста.
Цитата: Alone Coder от июля 12, 2012, 20:26
Чего спорить с гуманитариями, они даже ряды не проходили.
А что, в России ряды не проходят в школе?
Цитата: fujhi от июля 12, 2012, 21:01
Число вхождений слов в рассматриваемом словаре, построенном по конкретному конечному тексту. Это если рассматривать случай конечного текста.
Ципф не работает на конечном тексте, это предельное соотношение.
Любой фундаментальный закон природы является предельным случаем, не более того.
Например, ни один закон Ньютона заведомо не может соблюдаться со всей точностью, так как не существует "материальных точек". Любой материальный объект имеет какие-то конечные размеры.
Так же и лингвистика, если она хочет стать точной наукой, должна в какой-то момент начать рассматривать идеализированные объекты, "идеальные языки", как физика рассматривает идеальный газ или сферически симметричные поля.
Идеальный язык должен идеально соответствовать закону Ципфа 1/r без всяких там дробных степеней.
А реальные языки не точно соответствуют, так как помимо Ципфа есть и какие-то другие факторы, которые надо учитывать отдельно.
Мухи отдельно, котлеты отдельно - вот основная методология точной науки.
Цитата: Солохин от июля 13, 2012, 13:47Идеальный язык должен идеально соответствовать закону Ципфа 1/r без всяких там дробных степеней.
Отсюда, вероятно, вытекает, что в идеальном языке должно быть бесконечно много слов.
Если так, то конечность словаря реальных языков - это осложнение, которое должно быть учитываемо на втором этапе построения теории.
Закон Ципфа для реальных языков соблюдается приблизительно в силу их неидеальности, конечности.
Но поскольку число слов в реальном языке все-таки достаточно велико, постольку закон Ципфа все-таки наблюдается, хотя и приближенно.
Цитата: Солохин от июля 13, 2012, 13:47
Так же и лингвистика, если она хочет стать точной наукой, должна в какой-то момент начать рассматривать идеализированные объекты, "идеальные языки", как физика рассматривает идеальный газ или сферически симметричные поля.
(wiki/en) Langue_and_parole (http://en.wikipedia.org/wiki/Langue_and_parole)
Цитата: Солохин от июля 13, 2012, 13:47
Идеальный язык должен идеально соответствовать закону Ципфа 1/r без всяких там дробных степеней.
В принципе не может. Курите математику.
Цитата: Alone Coder от июля 13, 2012, 13:56
Цитата: Солохин от июля 13, 2012, 13:47
Идеальный язык должен идеально соответствовать закону Ципфа 1/r без всяких там дробных степеней.
В принципе не может. Курите математику.
(http://lingvoforum.net/Smileys/default/sm_yes.gif)
P.S: Неужто все вставляют смайлики , записывая от руки теги [ img ] [ / img ] ?? Как это сделать по-удобному ? Перетаскивание не работает ...
Нет, я полагаю, что ни Langue, ни parole не соответствуют закону Ципфа.
Цитата: Alone Coder от июля 13, 2012, 13:56В принципе не может. Курите математику.
Бесконечный текст - не может.
А язык, состоящий из бесконечного числа конечных текстов - почему нет?
Цитата: okruzhor от июля 13, 2012, 14:00
(http://lingvoforum.net/Smileys/default/sm_yes.gif)
P.S: Неужто все вставляют смайлики , записывая от руки теги [ img ] [ / img ] ?? Как это сделать по-удобному ? Перетаскивание не работает ...
Если Ваш браузер поддерживает JavaScript, просто щёлкните по ним — в текстовом поле появится их код. Например, ;D пишется кодом
;D.
Впрочем, это не поможет, если вы их отключили. Щёлкните по ссылочке «Вложения и другие параметры» под полем ввода и проверьте, не установлен ли у Вас пункт «Не использовать смайлы».
Цитата: okruzhor от июля 13, 2012, 14:00P.S: Неужто все вставляют смайлики , записывая от руки теги [ img ] [ / img ] ??
:o
Цитата: Alone Coder от июля 13, 2012, 13:56
В принципе не может. Курите математику.
Ципф гласит, что частоты вхождений
пропорциональны 1/r. Берем сумму вхождений: 10. Количества 5, 3 и 2 примерно пропорциональны 1/1, 1/2 и 1/3 соответственно. Где принцип, в котором не может?
Цитата: fujhi от июля 13, 2012, 14:27
Цитата: okruzhor от июля 13, 2012, 14:00
(http://lingvoforum.net/Smileys/default/sm_yes.gif)
P.S: Неужто все вставляют смайлики , записывая от руки теги [ img ] [ / img ] ?? Как это сделать по-удобному ? Перетаскивание не работает ...
Если Ваш браузер поддерживает JavaScript, просто щёлкните по ним — в текстовом поле появится их код. Например, ;D пишется кодом ;D.
Впрочем, это не поможет, если вы их отключили. Щёлкните по ссылочке «Вложения и другие параметры» под полем ввода и проверьте, не установлен ли у Вас пункт «Не использовать смайлы».
:= := Спасибо большое ! Просто шлёпнуть я не догадался , только перетаскивал :-[ :what:
Цитата: oort от июля 13, 2012, 14:38
Цитата: Alone Coder от июля 13, 2012, 13:56
В принципе не может. Курите математику.
Ципф гласит, что частоты вхождений пропорциональны 1/r. Берем сумму вхождений: 10. Количества 5, 3 и 2 примерно пропорциональны 1/1, 1/2 и 1/3 соответственно. Где принцип, в котором не может?
Чтобы (при законе Ципфа) получить правильные частоты (дающие в сумме 1) , нужно поделить (1/r) каждого слова на сумму (1/r) всех слов . Знаменатель будет бесконечным при бесконечном числе конечных текстов . Однако при конечном числе текстов -- никаких проблем .
Цитата: okruzhor от июля 13, 2012, 14:46Чтобы (при законе Ципфа) получить правильные частоты (дающие в сумме 1) , нужно поделить (1/r) каждого слова на сумму (1/r) всех слов .
Это означает только, что коэфициент этот не является какой-либо константой для языка с бесконечным числом слов, но определяется в зависимости от объема исследуемого текста.
Если текст бесконечен - коэффициент неопределен, вот и все.
Закон Ципфа - это закон для каждого отдельного текста данного языка, а не для всего корпуса текстов (который бесконечен в случае бесконечного языка).
По сути, чтобы исследовать закон Ципфа, надо брать один, достаточно длинный текст.
Но поскольку в реальном языке тексты имеют небольшую длину, длинный текст заменяют суррогатом - набором множества текстов. Отсюда, наверное, и возникают систематические отклонения от закона Ципфа при больших статистических исследованиях.
В идеальном же языке имеются тексты любой длины, и для любого из них закон Ципфа выполняется с любой, наперед заданной точностью - чем длиннее, тем точнее.
Да, по n-граммам народ все уже исследовал.
А есть ли статистика по фразовым группам для английского?
Существует ли частотный список для фразовых групп?
Цитата: Солохин от июля 13, 2012, 15:19
Это означает только, что коэфициент этот не является какой-либо константой для языка с бесконечным числом слов, но определяется в зависимости от объема исследуемого текста.
Как вы себе представляете механизм зависимости коэффициента от длины текста? Может, и формулу этой зависимости напишете?
Цитата: Солохин от июля 13, 2012, 15:50
В идеальном же языке имеются тексты любой длины, и для любого из них закон Ципфа выполняется с любой, наперед заданной точностью - чем длиннее, тем точнее.
Ни для какого не выполняется. В начале рандом, в конце завал. Смотрите хотя бы статистику по Википедии.
Цитата: Alone Coder от июля 15, 2012, 18:55Как вы себе представляете механизм зависимости коэффициента от длины текста? Может, и формулу этой зависимости напишете?
Конечно.
Единица, поделенная на логарифм длины словаря для данного текста. Ну, плюс там (в знаменателе) постоянная Эйлера, если быть педантом.
Цитата: Alone Coder от июля 15, 2012, 18:55Ни для какого не выполняется. В начале рандом, в конце завал. Смотрите хотя бы статистику по Википедии.
Для реальных языков - не выполняется, так как
1) в них конечное количество слов.
2) нет больших текстов, и потому статистика больших текстов заменяется статистикой по механической сумме текстов
То и другое дает систематические уклонения от закона Ципфа.
Ну, а рандом - это законно. Ведь речь идет о статистическом законе.
Чем длиннее текст - тем более точно он должен был бы давать закон Ципфа. Но у нас просто нет по-настоящему длинных текстов, скажем, мегабайт на 100.
Ибо жизнь коротка.
Число букв в среднем русском слове стремится к трем. Отклонения — погрешности эксперимента.
Цитата: Hellerick от июля 17, 2012, 05:14
Число букв в среднем русском слове стремится к трем.
Et sans mots de fonction?
Мало чего понял в вашей проблеме, но мне интересна работа с лингвистами. Если ваша задача ещё актуальна и сумеете мне объяснить алгоритм решения, я могу попробовать написать программу для составления словаря.