Лингвофорум

Теоретический раздел => Общая лингвистика => Фонетика и фонология => Тема начата: vfaronov от марта 19, 2010, 22:04

Название: Статистика частот фонем в разных языках
Отправлено: vfaronov от марта 19, 2010, 22:04
Здравствуйте!

Ищу данные по распределению звуков в разных языках. В идеале — инвентари фонем, размеченные чем-то вроде частот их появления в данном языке. Особенно интересуют языки, в которых сильно разные частоты у одних и тех же фонем.

Вообще, пригодятся и другие статистические данные по фонологии языков, буду рад любым ссылкам.
Название: Статистика частот фонем в разных языках
Отправлено: basta от июня 16, 2010, 07:24
ап
Название: Статистика частот фонем в разных языках
Отправлено: Lyoshe от июня 16, 2010, 15:18
Одно время сам загорелся этой темой. Но, не найдя статистических данных в сети, не отчаялся и нашёл такую програмку для подсчёта букв(не фонем, но в большинстве языков это можно подсчитать, зная кол-во буковок) "CounterOfCharacters" - её можно свободно скачать и найти по-гуглу не трудно. Очень проста в обращении. Но есть один КОЛОССАЛЬНЫЙ минус: там читаются только современные кирилические и латинские(без диокритики) буковки =( И хотя с текстами русскими начала ХХв проблема решаема: единственная буква, которая подсчитывается в виде пустого квадратика - это ять... но вот с греческими текстами уже проблема серьёзная...

Хотя кто знает: может программка со свобоным кодом и кто-нить может её доработать до ума? Или есть проги по-лучше? Или может кто найдёт всё-таки данные на эту тему?  :)
Название: Статистика частот фонем в разных языках
Отправлено: vfaronov от июня 16, 2010, 18:18
Цитата: Lyoshe от июня 16, 2010, 15:18нашёл такую програмку для подсчёта букв(не фонем, но в большинстве языков это можно подсчитать, зная кол-во буковок)

Ой ли? Даже в русском частоты «н» и «ь» по отдельности Вам ничего не дадут.

Цитата: Lyoshe от июня 16, 2010, 15:18может программка со свобоным кодом и кто-нить может её доработать до ума? Или есть проги по-лучше?

Если нужно просто посчитать частоты символов в тексте, то это очень легко, делается в несколько строк кода. Могу выложить такую прогу, только она будет не графическая и потребует Python (http://python.org/).

Собственно, я свою задачу (не лингвистическую) именно так решил, обошёлся без фонологии вообще.