Начался семестр, приступил к изучению статистики тьфу, о чем это я?
Реквестирую тему по статистике, так сказать для полноты охвата тем лингвофорумом.
И вот первая задачка:
Есть трамваи. У каждого трамвая есть серийный номер (для простоты допустим что эти номера — 1,2,3,4,...,n). Мы, гуляя по городу, увидели четыре трамвая с номерами 5, 13, 27, 31. Сколько трамваев в городе?
хз... тут какой-то подвох. вряд ли их 31 или 4...
Хм, мне даже в голову не пришло что их могло бы быть всего 4 :tss:
Здесь же все иначе.
минимум 31
Здесь, кэп, вы как никогда правы :).
че реально?
а еще задачи будут?
Ответ как бы верен, но намного лучше было бы указать верхнюю планку.
Варианты?
Цитата: hurufu от марта 15, 2011, 23:59
Ответ как бы верен, но намного лучше было бы указать верхнюю планку.
Варианты?
от 31 до n?
В наше время, с исчезновением как трамваев, так и маршрутов, в городе может быть и 4 трамвая. Искандар подтвердит...
Цитата: Bhudh от марта 16, 2011, 01:39
В наше время, с исчезновением как трамваев, так и маршрутов, в городе может быть и 4 трамвая. Искандар подтвердит...
В наше время начинает в Израиле появляться общественный транспорт.
Как раз хотел рассказать об изменениях в этой области. Трудное это дело, пересадить людей с личных авто в автобусы.
Во время войны за независимость Израиль сделал такой трюк с кораблями. У них было четыре что ли лодки, они их пронумеровали «порядковыми» номерами так, что был номер 16, чтоб арабы сидели высчитывали, сколько всего лодок есть.
я не совсем понимаю, как из приведенных данных можно верхнюю границу вычислить
Приблизительно же.
не, это уже не ко мне. может же быть такое, что в тот момент, когда гуляли по городу в городе осталось только те четыре трамвая, которые вы видели, а остальные были пропиты списаны)))
Сразу предупреждаю, что в стохастических науках не силён.
Если это только начало статистики... Может, так: трамваи попадаются равновероятно, поэтому средний номер будет
![\frac{1+2+\ldots+n}{n}=\frac{n+1}2 [tex]\frac{1+2+\ldots+n}{n}=\frac{n+1}2[/tex]](https://latex.codecogs.com/png.latex?\frac{1+2+\ldots+n}{n}=\frac{n+1}2)
. Сравнить со средним номером в нашей выборке и получить, таким образом, точечную оценку числа трамваев.
Здесь подходов множество, у нас целая лекция, помню, была посвящена решениию это задачи. Мы обсуждали разные подходы и нашей целью было найти estymator nieobciążony (не знаю как перевести).
Если честно, то всего того что там было я не помню, но думаю вечерком, как будет время, напишу.
Цитата: Квас от марта 16, 2011, 10:37
... Сравнить со средним номером в нашей выборке и получить, таким образом, точечную оценку числа трамваев.
Конечно можно, только будет ли такое приближение наилучшим?
Цитата: hurufu от марта 16, 2011, 10:46
Цитата: Квас от Сегодня в 11:37Цитировать... Сравнить со средним номером в нашей выборке и получить, таким образом, точечную оценку числа трамваев.
Конечно можно, только будет ли такое приближение наилучшим?
As likely as not. :) Вы заставляете меня вспоминать ужасные вещи типа критерия Рао—Крамера.
Я не знаю, как тему назвать. :(
Цитата: myst от марта 16, 2011, 11:56
Цитировать"Задача по компьютерной линвистике"
Слишком расплывчато. Вдруг у меня появится ещё одна задача по компьютерной лингвистике?
Будет задача №2. :)
Переименуешь, когда что-нибудь лучше придумаешь.
Цитата: Квас от марта 16, 2011, 10:37
Если это только начало статистики... Может, так: трамваи попадаются равновероятно, поэтому средний номер будет
. Сравнить со средним номером в нашей выборке и получить, таким образом, точечную оценку числа трамваев.
О какой равновероятности речь?.. Не понимаю, каким образом тут можно хоть что-то высчитывать. Неизвестно практически ничего, поэтому имхо ничего вообще нельзя сказать, кроме того, что минимум по максимальному номеру.
Сколько времени мы гулили по городу? Какого размера город? Сколько рельсов могло попасться во время прогулки? В каких интервалах ходят трамваи?
О чем вообще можно разговаривать?... :what:
А если распределение максимального номера найти?
Предположу тоже, что распределение трамваев по нашим встречам случайное, тогда вероятность попадания трамвая с любым номером 1/n. Если нам попался трамвай с номером k, то либо он попался с вероятностью 1/k при условии n = k, либо с вероятностью 1/(k + 1) при условии n = k + 1, и т. д.. По формуле полной вероятности получим
![1 = \frac{P(n = k)}{k} + \frac{P(n = k + 1)}{k + 1} + \frac{P(n = k + 2)}{k + 2} + \ldots [tex]1 = \frac{P(n = k)}{k} + \frac{P(n = k + 1)}{k + 1} + \frac{P(n = k + 2)}{k + 2} + \ldots[/tex]](https://latex.codecogs.com/png.latex?1 = \frac{P(n = k)}{k} + \frac{P(n = k + 1)}{k + 1} + \frac{P(n = k + 2)}{k + 2} + \ldots)
. Очевидно, можно всякие распределения напридумывать. Тогда мы добавим ещё три трамвая, и... тупик.
Цитата: RawonaM от марта 16, 2011, 13:10
Цитата: Квас от Сегодня в 11:37ЦитироватьЕсли это только начало статистики... Может, так: трамваи попадаются равновероятно, поэтому средний номер будет
. Сравнить со средним номером в нашей выборке и получить, таким образом, точечную оценку числа трамваев.
О какой равновероятности речь?.. Не понимаю, каким образом тут можно хоть что-то высчитывать. Неизвестно практически ничего, поэтому имхо ничего вообще нельзя сказать, кроме того, что минимум по максимальному номеру.
Сколько времени мы гулили по городу? Какого размера город? Сколько рельсов могло попасться во время прогулки? В каких интервалах ходят трамваи?
О чем вообще можно разговаривать?... :what:
Предполагаем, что трамваи ходят по одному маршруту, причём порядковый номер на их хождение не меняет. Иначе: n карточек с натуральными числами 1, 2,... n наудачу вынимают 4 и получают тра-та-та; требуется оценить n.
Цитата: Квас от марта 16, 2011, 19:59
Предполагаем, что трамваи ходят по одному маршруту, причём порядковый номер на их хождение не меняет. Иначе: n карточек с натуральными числами 1, 2,... n наудачу вынимают 4 и получают тра-та-та; требуется оценить n.
Все именно так, возможно с трамваями пример был неудачный :-\. В оригинальном условии были танки ;).
А, в принципе, наверно, один трамвай может и несколько раз попадаться, то есть в интерпретации с карточками они возвращаюся.
Получается, имеем дискретную случайную величину Х (номер), которая имеет следующее распределение:
![<br />\mathsf P{X=k} =<br />\begin{cases}<br />\frac 1n, & k \leqslant n\\<br />0, & k > n<br />\end{cases}<br />\qquad (k \in \mathbb N),<br /> [tex]<br />\mathsf P{X=k} =<br />\begin{cases}<br />\frac 1n, & k \leqslant n\\<br />0, & k > n<br />\end{cases}<br />\qquad (k \in \mathbb N),<br />[/tex]](https://latex.codecogs.com/png.latex?<br />\mathsf P{X=k} =<br />\begin{cases}<br />\frac 1n, & k \leqslant n\\<br />0, & k > n<br />\end{cases}<br />\qquad (k \in \mathbb N),<br />)
n — параметр. Применить метод наибольшего правдоподобия (Гмурман, с. 169)? Тогда вроде получается 31. :donno: Что скажете, коллеги?
Гмурман, «Руководство к решению задач...» — весч!
Цитата: Квас от марта 16, 2011, 19:59
Предполагаем, что трамваи ходят по одному маршруту, причём порядковый номер на их хождение не меняет. Иначе: n карточек с натуральными числами 1, 2,... n наудачу вынимают 4 и получают тра-та-та; требуется оценить n.
В таком случае задачу нужно сформулировать хотя б так: вы посидели на остановке, на которой проезжают все маршруты, увидели такие-то трамваи.
Какой-то дикий уровень абстракции блин :)
А в оригинале что: «Вы посидели в окопе, над которым проезжают все танки»⁈ :o
А что вообще было в оригинале, я не понял?
Цитата: Bhudh от марта 16, 2011, 21:26
А в оригинале что: «Вы посидели в окопе, над которым проезжают все танки»⁈ :o
Цитата: RawonaM от марта 16, 2011, 21:27
А что вообще было в оригинале, я не понял?
Оригинал (статью из польского журнала) я сейчас оцифрую и выложу. Там история о том, как математики, во время II Мировой Войны, изменили ход истории.
Хорошую статистическую оценку (т.е. с минимальной дисперсией) можно получить, если преположить, что среднее растояние между номерами равно расстоянию от max{X}, где Х — множество всех увиденых номеров, до n
А, значит сионисты не просто так придумали, что арабы тупые и поверят, что есть как минимум 16 кораблей.
Цитата: hurufu от марта 16, 2011, 23:43
Хорошую статистическую оценку (т.е. с минимальной дисперсией) можно получить, если преположить, что среднее растояние между номерами равно расстоянию от max{X}, где Х — множество всех увиденых номеров, до n
А подробно можно? А то интуитивно непонятно. (А ответ n = max{X}, даваемый методом наибольшего правдоподобия, наоборот, интуитивно понятен.)
Цитата: Квас от марта 16, 2011, 21:00
А, в принципе, наверно, один трамвай может и несколько раз попадаться, то есть в интерпретации с карточками они возвращаюся.
В примере несколько другая ситуация (там надо было по номерам подорваных танков определить сколько танков ежемесячно производит противник), но мы будем, раз уж на то пошло, решать наш пример с трамваями/карточками, т.е. с возвратами.
Пишу максимально понятно в надежде, что это прочтет хотя бы один гуманитарий.
n — истиное количество трамваев/карточек;
x1, x2, ..., xm — наблюдаемые номера;
Х − множество всех
xi;
Все
xi распределены равномерно.
Разместим наши номера в порядке возрастания на числовой оси:
0----x1-------x2-------------x3-----x4---------------------->Нам нужно найти
ñ — статистическую оценку (estymator) истиной величины
n.
Поскольку заведомо
ñ≮max{X}, то
ñ должно быть где-то по правую сторону от max{
X}:
0----x1-------x2-------------x3-----x4----ñ------------------>И далее начинается свободный полет, помню год назад, дōлго пытался это дело раскусить.
Вобщем если преположить что:
![\tilde n=\max\{X\}+\frac{\sum_1^m x_i-x_{i-1}}{m-1}, x_0=0 [tex]\tilde n=\max\{X\}+\frac{\sum_1^m x_i-x_{i-1}}{m-1}, x_0=0 [/tex]](https://latex.codecogs.com/png.latex?\tilde n=\max\{X\}+\frac{\sum_1^m x_i-x_{i-1}}{m-1}, x_0=0 )
т.е. наше приближенное
ñ равняется максимальному из
xi плюс среднее расстояние между ними — то выходит хорошее приближение.
Всех подроностей здесь я описывать не буду ;)
Напишу только, для тех кто уже горит желанием применить это на практике, окончательную формулу:
![\tilde n=\frac{m+1}{m}\max\{X\}-1 [tex]\tilde n=\frac{m+1}{m}\max\{X\}-1[/tex]](https://latex.codecogs.com/png.latex?\tilde n=\frac{m+1}{m}\max\{X\}-1)
Те кто не верят могут, наделать пронумерованых бумажек и убедиться :)
Заинтересованным можно скачать (http://zalil.ru/30685930) статью на полськом языке.
Неужели никто не хочет применить полученные знания на практике и отписаться?
Вчера ехал в трамвае без билета и родилась у меня в голове задачка.
Какова вероятность встретить контролёра в трамвае, и какое максимальное количество остановок можно проехать не заплатив штраф.
У меня есть некие соображения, но я еще не уверен.
Цитата: hurufu от марта 17, 2011, 20:41
Какова вероятность встретить контролёра в трамвае
50/50 - встретишь / не встретишь
ororo desu
Цитата: Juuurgen от марта 17, 2011, 23:08
ororo desu
И я о том же. Данных маловато.
Для простоты, думаю, можно положить, что трамвай у нас один и линия — тоже одна. Контролер — тоже один, хотя это не важно.
Итого выходит игра: мне, чтобы выиграть, надо проехать одну или более остановок, контролёру же — словить меня.
:???
важна наполненность (забитость?) трамвая.
и если у контролёра был тяжёлый день, то берёш вчерашний билетик, демонстративно мнёш в руке и смотриш в окошко. гарантирую мимо пройдёт (опыт есть да...). и едь хоть до конечной.
если ты один в вагоне то конечно и остановки не продержаться.
Цитата: basta от марта 17, 2011, 23:31
важна наполненность (забитость?) трамвая.
Если еще и эти факторы учитывать, то выйдет просто неподъемная система уравнений.
И в догонку третья задача.
Есть человек, он может уйти из дому и может прийти домой, когда – неизвестно.
Если такой человек вышел из дому в 8:00, а сейчас 10:30 и он еще не возвратился, то какая вероятность того, что этот человек не прийдет к 11 часам?
Цитата: hurufu от марта 17, 2011, 23:44
И в догонку третья задача.
Есть человек, он может уйти из дому и может прийти домой, когда – неизвестно.
Если такой человек вышел из дому в 8:00, а сейчас 10:30 и он еще не возвратился, то какая вероятность того, что этот человек не прийдет к 11 часам?
да тоже 50/50
мы ж не знаем, какая у него работа, как его самочувствие и кучу прочих побочных факторов....
Цитата: Juuurgen от марта 17, 2011, 23:49
да тоже 50/50
мы ж не знаем, какая у него работа, как его самочувствие у кучу прочих побочных факторов....
Ей-бг҃у, начну следить за соседом, чтоб набрадать статистичиских данных, для дальнейшей обработки.
Цитата: hurufu от марта 17, 2011, 23:44
И в догонку третья задача.
Есть человек, он может уйти из дому и может прийти домой, когда – неизвестно.
Если такой человек вышел из дому в 8:00, а сейчас 10:30 и он еще не возвратился, то какая вероятность того, что этот человек не прийдет к 11 часам?
подавляюще большая. потому что прийти может в любой момент, а большинство моментов находятся после 11 часов. кажется, место не имеет значения.
Цитата: basta от марта 17, 2011, 23:59
а большинство моментов находятся после 11 часов
откуда такая информация?