Author Topic: Частотность и вероятность букв  (Read 4989 times)

0 Members and 1 Guest are viewing this topic.

anfolio

  • Guest
данность: в лингвистике я не в зуб ногой.

описание:
хотел решить маленькую задачу сопоставления 2х текстов. один из текстов - "Гамлет" на английском языке.
Последовательность действий была следующей. Сначала почистил оба текста от всех знаков препинания, чтобы получить слова. Затем сделал (википедия называет это конкорданс). Затем разложил все слова на буквы. Затем посчитал встречаемость всех букв во всех словах.
Получилось:
- "поведение" (условно можно назвать) каждой буквы, сугубо индивидуально. при этом "поведение" каждой буквы укладывается в строгие правила. например, вероятность, что слово закончится на "q" в анг. языке - стремится к 0. другой пример, вероятность, что буква "ц" будет 2ой буквой в слове, во много раз ниже, чем вероятность, что это будет 1ая или 3яя буква.

потом я посчитал корреляцию между всеми буквами алфавита.
- получилось, что "поведение" отдельных букв очень похоже на поведение других. и можно даже объединить буквы в группы. одна из больших групп - гласные и согласные.

затем я повторил такой экзерсис с текстом на руссом языке. в итоге получилось: что поведение разных букв в разных языках очень похоже. при этом профили букв, как не забавно, совпадают. например, есть редкие буквы, т.е. слова начинаются на них редко , есть буквы которые намного чаще встречаются (я смотрел 3 текста, анг., русс. польск.).

понимаю, что получилось какая-то сложноперевариваемая хрень. Однако, я практически на 100% уверен, что такие экзерсисы делались раньше и очень успешно. было бы интересно с ними ознакомиться.

вопрос: киньте на 12312356@mail.ru, плиз, ссылки на работы посвящённые данной тематике.

Offline antbez

  • Posts: 4936
  • Gender: Male
Reply #1 on: April 1, 2011, 10:40
Обычная статистика текста, частотный анализ
Quae medicamenta non sanant, ferrum sanat, quae ferrum non sanat, ignis sanat.

Offline myst

  • Posts: 35471
Что за мода с киданием на мыло пошла? Спамеры, штоле?

Offline Python

  • Posts: 42367
  • Gender: Male
  • Aluarium agent
Вполне возможно. Надо же как-то список адресатов пополнять. Да и адрес какой-то на вид подозрительный...
Пролетареві ніколи вчити європейських мов, бодай би свою знати добре і на ній принести до своєї хати світло знання (Гнат Хоткевич)
ÆC CASALI NAXI PRASQURI: AHOV CÆRU, MERTVÆRI TÆ SLAVUTÆT!
Вони просили його: «Скажи: кетум», а він говорив: «сатем», і не міг вимовити правильно.
Хотелось бы также отметить, что "Питон" - это "мышиный язык" : "пи+тон". © АБР-2

Offline 123tt

  • Newbie
  • Posts: 2
было превосходно если бы всё-таки дали ответ на вопрос. каких авторов посоветуете, что лучше посмотреть?

не хотите не шлите. дайте ответ в посте.

Offline RawonaM

  • Posts: 43473
Этим вероятно занимались те, кто писал алгоритмы OCR. Думаю надо копать в эту сторону, оттуда выйдите на ссылки. Если чего толковое будет, с нами поделитесь.

Offline hurufu

  • Posts: 876
  • Gender: Male
Reply #6 on: November 16, 2011, 22:40
Обычная статистика текста, частотный анализ
Это и был ответ на ваш вопрос.
Насчет книг на эту тематику...  :-\ даже особо не знаю. Это свойство букв используется в криптоанализе, корпусной лингвистике.

Так как вы не гуманитарий то лучше прочесть книги по теории информации и  криптоанализу.

Offline Bhudh

  • Posts: 57431
  • Gender: Male
  • aka 蝎
    • Сайты по языкознанию
Небольшой офф-топик.
Сейчас никто премий не раздаёт за изобретение новых простых способов шифрования?
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Offline 123tt

  • Newbie
  • Posts: 2
всё понятно, всем спасибо.

если кому интересно из этой области: http://www.rusf.ru/books/analysis/vestnik2000win.htm

Offline gasyoun

  • Posts: 881
  • Gender: Male
  • Санскрит в Сибири
    • Скачать санскрит в Москве
не хотите не шлите. дайте ответ в посте.
http://thelousylinguist.blogspot.ru/ полно того, что интересно на английском яз.
http://groups.google.com/group/Nagari/ & http://nagari.southindia.ru
Словари санскрита, прописи дэванагари, материалы по авестийскому, хинди

 

With Quick-Reply you can write a post when viewing a topic without loading a new page. You can still use bulletin board code and smileys as you would in a normal post.

Note: this post will not display until it's been approved by a moderator.
Name: Email:
Verification:
Type the letters shown in the picture
Listen to the letters / Request another image
Type the letters shown in the picture:
√49 Напишите ответ строчными буквами:
«Сто одёжек, все без застёжек» — что это?: