Главное меню
Мы солидарны с Украиной. Узнайте здесь, как можно поддержать Украину.

Требуется помощь специалистов или просто знающих людей

Автор Protium, декабря 22, 2018, 18:17

0 Пользователи и 1 гость просматривают эту тему.

Protium

Суть дела такова. Я пишу фантастический роман (про космос). По предыстории в достаточно далёком прошлом (несколько столетий как минимум) произошло объединение Земли, и, в частности, образование унифицированной (не в смысле как-то заданной сверху бесчеловечным тоталитарным правительством, а в смысле перемешивания имеющихся на данный момент систем ввиду высокой внутрипланетарной миграции, высокой доли смешанных браков и малой связности большинства населения с изначальной традицией) антропонимической системы (все человеческие персонажи названы именно по ней). Поскольку я ни разу не специалист в этом вопросе и даже книжек никаких умных (и глупых тоже) по этой теме не читал, возник вопрос к знающим людям: а как это может выглядеть? В смысле, мне нужен алгоритм, по которому можно получить условный топ-100 мужских и женских имён с указанием встречаемости на 10000 населения. Пока что я себе это представляю примерно так и в связи с этим возникают такие вопросы:

1. Вместе с унификацией антропонимики произошла унификация языка, получившийся продукт имеет вполне определённые фонетические нормы (они есть). Соответственно, большая часть именника - это видоизменённые в соответствии с этими самыми фонетическими нормами существующие имена.

2. Известно, что многие имена в разных языках - это продукт эволюции одного и того же имени (пример - Иоанн и производные от него Иван, Джон, Йохан, Хуан, Ян, Жан, Юхо, Джованни и прочие). При формировании частотного списка стоит каждое модифицировать отдельно и получать разные имена (Jan, Ifen, Hun, Jucan, Cuan, опять Jan, Han, Jucas, Hefanes - Ян, Ифэн, Шун, Юкан, Куан, опять Ян, Шан, Юкас, Шефанэс) или передать всё это одним именем Jan? В первом случае проблема состоит в том, что большинство этих имён, по совместительству, в своих языках одни из самых распространённых, поэтому итоговый список будет состоять из сотни вариаций всего десятка одних и тех же имён.

3. Как из частотной распределённости имён сейчас выводить частотную распределённость производных там? Пока что предполагается перевести распределённость (количество носителей на десять тысяч) в "вес", вес каждого умножить на численность соответствующего народа, если мы по предыдущему вопросу следуем второму варианту, то сложить "веса" одинаковых имён, затем каждый вес умножить на рандомный коэффициент от 0,5 до 1,5 (скидка на изменение распространённости во времени), потом из полученных "весов" обратно получить распространённость. Но есть проблемы - во-первых, если мы идём по второму пути, не всегда очевидно, как проверять происхождение имени (каждый раз наводить справки - за*******ься, это работы на несколько лет выйдет), не знают ли люди какого-нибудь замечательного человека, который эти годы уже потратил до нас и выложил результат в открытый доступ? Во-вторых - эти частотные списки можно найти для России, стран Европы, США, Китая и Индии, а они суммарно покрывают всего около половины населения земшарика, а где их искать для Южной Америки, Африки, Ближнего востока и некитайского Дальнего востока - я понятия не имею. Понятно, что, например, в Южной Америке значительная их часть будет списана с Испании и Португалии, но частотность ведь там будет другая. Короче - где цифры брать? Ну и общая справка по основным антропонимическим системам нужна.

4. Помимо производных от существующих имён появляются новые. Это могут быть либо значащие имена в унифицированном языке, либо просто красивые и соответствующие фонетике сочетания, которые ничего не значат. Какой вариант более оправдан и какую долю такие имена могут получить в итоговом списке?

5. Если я ещё чего-то не учёл, об этом тоже прошу сообщить.
Система СИ всесильна, потому что верна.

Fox123

Чтобы не заморачиваться, предлагаю сделать что-то вроде "общеземных святцев" (если у них есть религия) или просто "списка имен, утвержденного общеземным правительством" в соответствии с которыми принято называть детей. Тогда от каждого имени можно произвести только одну форму без учета его национальных вариаций (скажем, брать его каноническую изначальную форму - римскую, греческую, еврейскую). То же самое и для китайских, японских, исконно славянских и т.д. имен. По легенде, это было бы сделано во времена формирования единого правительства и языка.

Распространенность имен в разных странах можно примерно вычислить по телефонным или адресным книгам (если таковые есть в открытом доступе), на худой конец по википедии - по спискам известных людей, живших в той или иной стране. Я понимаю, для художественного произведения вам не нужна абсолютная точность, достаточно приблизительной?

Bhudh

Предлагаю метод.
Переводите гуглотранслятором имя на китайский.
Например, Александр получается 亞歷山大.
Нажимаете кнопку ⇄.
Ставите перенос строки после каждого иероглифа и смотрите перевод.
Составляете имя из первых слогов перевода.
В данном случае из
Цитата: Азия
календарь
гора
большой
получится что-то вроде Азкагоб.
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Protium

Цитата: Fox123 от декабря 22, 2018, 18:36
Тогда от каждого имени можно произвести только одну форму без учета его национальных вариаций (скажем, брать его каноническую изначальную форму - римскую, греческую, еврейскую). То же самое и для китайских, японских, исконно славянских и т.д. имен. По легенде, это было бы сделано во времена формирования единого правительства и языка.

Так вопрос в основном в этом - где брать эти самые канонические формы, причём со списком и с указанием современных производных форм (чтобы прикидывать распространённость). Пример с тем же Иоанном:

1. Смотрим в этот самый список, видим: Иоанн, производные - Иван, Джон, Жан и т.д.
2. Смотрим распространённость имени "Иван" среди русских, умножаем на сто пятьдесят миллионов, потом его же среди украинцев, умножаем ещё на сколько-то там, потом белорусов.
3. Аналогично прогоняем Джона, Жана, Хуана и всех остальных.
4. Складываем все эти числа.
5. Записываем в итоговый список "Jan - вес x".
6. Повторяем то же самое со всеми остальными именами.
7. Складываем все получившиеся веса, называем эту сумму y.
8. Напротив "Jan - вес x" пишем " - распространённость z", где z=x/y*10000.
9. Сортируем по распространённости, отрезаем всё, кроме верхних ста или двухсот.
Система СИ всесильна, потому что верна.

Protium

Цитата: Bhudh от декабря 22, 2018, 18:44
Предлагаю метод.
Переводите гуглотранслятором имя на китайский.
Например, Александр получается 亞歷山大.
Нажимаете кнопку ⇄.
Ставите перенос строки после каждого иероглифа и смотрите перевод.
Составляете имя из первых слогов перевода.

Интересно, но немного не в тему. Мне всё-таки определённая узнаваемость оригинального имени нужна.
Система СИ всесильна, потому что верна.

Bhudh

Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Toman

Цитата: Protium от декабря 22, 2018, 18:17
В первом случае проблема состоит в том, что большинство этих имён, по совместительству, в своих языках одни из самых распространённых, поэтому итоговый список будет состоять из сотни вариаций всего десятка одних и тех же имён.
Почему это проблема? Это только причина брать на порядок больше имён в качестве списка наиболее распространённых. А вообще-то, по идее, чем больше разных имён, тем лучше. Ведь фамилии-то, например, исчезнут как класс, т.к. они уже сейчас, в общем-то, воспринимаются как "прошлый век".
Во́зле до́ма хо́лм с куля́ми - вы́йду на́ холм, ку́ль поставлю.
В славном городе Miami тётки мерялись ногтями, тик иң озын завсегда у Фиделя борода!

Fox123

Цитата: Protium от декабря 22, 2018, 18:49
Цитата: Fox123 от декабря 22, 2018, 18:36
Тогда от каждого имени можно произвести только одну форму без учета его национальных вариаций (скажем, брать его каноническую изначальную форму - римскую, греческую, еврейскую). То же самое и для китайских, японских, исконно славянских и т.д. имен. По легенде, это было бы сделано во времена формирования единого правительства и языка.

Так вопрос в основном в этом - где брать эти самые канонические формы, причём со списком и с указанием современных производных форм (чтобы прикидывать распространённость). Пример с тем же Иоанном:

1. Смотрим в этот самый список, видим: Иоанн, производные - Иван, Джон, Жан и т.д.
2. Смотрим распространённость имени "Иван" среди русских, умножаем на сто пятьдесят миллионов, потом его же среди украинцев, умножаем ещё на сколько-то там, потом белорусов.
3. Аналогично прогоняем Джона, Жана, Хуана и всех остальных.
4. Складываем все эти числа.
5. Записываем в итоговый список "Jan - вес x".
6. Повторяем то же самое со всеми остальными именами.
7. Складываем все получившиеся веса, называем эту сумму y.
8. Напротив "Jan - вес x" пишем " - распространённость z", где z=x/y*10000.
9. Сортируем по распространённости, отрезаем всё, кроме верхних ста или двухсот.

Языки с каким минимальным числом носителей вы планируете рассматривать в рамках вашего проекта? Скажем, сейчас начеление Земли около 7 млрд. чел.  1% от него - это 70 млн. Чем больше количество носителей - тем больше они будут влиять на распространенность в будущем. Большинство из имен, существующих в нескольких тысячах языков Земли, в топ-100 будущего заведомо не попадут, потому что их носителей очень мало. Насколько я поняла вашу методику, на топ-100 реально смогут претендовать максимум 2 десятка языков (а то и меньше).

Fox123

В общем, примерно так.
Берем списки людей по странам допустим из википедии https://en.wikipedia.org/w/index.php?title=Category:People_by_nationality, загружаем в excel, с его помощью подсчитываем частоту (в%) каждого имени (нужно учесть, что там разные формы одного имени могут быть, их показатели надо сложить). Так получится частота имени в каждой стране. Получаем первый коэффициент.

Для каждой страны находим ее долю в общем количестве населения Земли (опять же можно в excel). Получаем второй коэффициент. Их нужно перемножить.
Далее нужно вручную просмотреть получившиеся списки и сложить результаты для разных нац. форм имен (типа Джон-Иван). Полностью автоматически эту работу никак не сделать, тут в сомнительных случаях придется углубляться в этимологию.

Для облегчения работы можно учесть, если вам нужно только топ 100 (первые 100 итоговых коэф-тов), то там наверняка будут только имена из верхней части таблиц, а не нижней (редкие имена). Так что реально имен для проверки этимологии будет меньше, чем в полной таблице.

Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр