Программное средство определения степени родства Европейских языков

Автор Potapova, января 4, 2013, 19:23

0 Пользователи и 1 гость просматривают эту тему.

Potapova

Здравствуйте, дорогие форумчане! :-)

Я студентка 5 курса, учусь на программиста. На любительском уровне интересуюсь лингвистикой. Сама для себя выбрала тему диплома - "Программное средство определения степени родства Европейских языков". Эта программа на основе 100-словных списков Сводеша будет оценивать степень сходства двух языков (в процентах) и выводить полученные результаты:
1) показывать, в каких словах проявилось больше всего сходств;
2) можно также группировать слова по категориям (насколько это позволят 100 слов).

Ещё у программы предполагается сделать очень хороший графический интерфейс с интерактивной картой Европы, чтобы можно было щёлкнуть мышкой на какую-нибудь страну, а программа градацией цвета покажет, насколько другие языки похожи на язык данной страны.
Сами списки Сводеша буду заносить в БД по странам Европы. В интернете по этому поводу информации много. Потом, когда БД будет заполнена, программа будет автоматически анализировать эти списки. Естественно нужно продумать ещё много всего, ведь есть языки, которые используют свою собственную письменность.

Програмка должна получиться, по моему мнению, весьма интересной и интуитивно понятной (возможно наращивание фунций - я только главные функции перечислила). В будущем можно расширить кол-во слов в списке Сводеша до стандартных 200.

Но есть одно важное НО, по поводу которого мне нужен совет знающих людей. Нужно ли вообще всё это (а именно автоматизация процесса сравнения большого количества слов и структурирование данных в удобном виде)? Преподаватели с моей кафедры посчитали мою тему не достаточно обоснованной, лишённой смысла, несмотря на то, что предстоит большая работа именно со знанием программирования.
Ещё проблема в том, что мне хотелось бы знать, существуют ли аналоги. У меня найти не получилось. Возможно, плохо искала.

Буду очень благодарна за любые советы и рекомендации!

Bhudh

Цитата: Potapova от января  4, 2013, 19:23Нужно ли вообще всё это
Цитата: Potapova от января  4, 2013, 19:23Преподаватели с моей кафедры посчитали мою тему не достаточно обоснованной, лишённой смысла

Понятно, преподаватели-то программисты, а не лингвисты...
Дайте им ссылку на StarLing...
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Nevik Xukxo

ЦитироватьПрограммное средство определения степени родства Европейских языков

Европейские языки не родственная категория.

Bhudh

Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

GaLL

Цитата: Potapova от января  4, 2013, 19:23
Но есть одно важное НО, по поводу которого мне нужен совет знающих людей. Нужно ли вообще всё это (а именно автоматизация процесса сравнения большого количества слов и структурирование данных в удобном виде)? Преподаватели с моей кафедры посчитали мою тему не достаточно обоснованной, лишённой смысла, несмотря на то, что предстоит большая работа именно со знанием программирования.
Смысла на самом деле не слишком много, потому что для базовой лексики нельзя применять аналог радиоуглеродный метода, так как размер списка базовой лексики гораздо меньше обычного числа атомов в радиоактивном веществе, и из-за этого сильнее разброс при оценке (из-за меньшего эффекта ЗБЧ). Я об этом писал здесь: *Лексикостатистика.
Однако есть серьёзный проект, связанный с этим, и возможно, стоит попытаться разработать что-то с более точной матмоделью (там генерируется наиболее вероятное дерево, и то не факт, что верно). Если станете заниматься таким проектом, нужно будет обратиться за консультацией к специалисту по теории вероятности и матстатистике.

Potapova

Цитата: Bhudh от января  4, 2013, 20:55
Цитата: Potapova от января  4, 2013, 19:23Нужно ли вообще всё это
Цитата: Potapova от января  4, 2013, 19:23Преподаватели с моей кафедры посчитали мою тему не достаточно обоснованной, лишённой смысла

Понятно, преподаватели-то программисты, а не лингвисты...
Дайте им ссылку на StarLing...

Большое спасибо за такую дельную ссылку! Нашла там для себя много полезного:)

gazik

Простите пожалуйста, не могли бы Вы сообщить, удалось ли Вам создать эту программу?

Basil

Я тут повышением квалификации слегка занимался, и, в частности, поучил алгоритмы сравнения последовательностей, которые используют при сравнении геномов или проверке правописания.

(wiki/en) Sequence_alignment#Global_and_local_alignments

Одно из применений - это поиск сходных участков генома, по-разному мутировавших у разных видов организмов.
Вот к примеру реальные куски генома человека и фруктовой мушки, имеющие общее происхождение с высокой вероятностью, найденные алгоритмом Нидлмана — Вунша

человек:   HSGVNQLGGVFVNGRPLPDSTRQKIVELAHSGARPCDISRILQVSNGCVSKILGRYYETGSIRPRAIGGSKPRVATPEVVSKIAQYKRECPSIFAWEIRDRLLSEGVCTNDNIPSVSSINRVLRNLASEK-QQ
фруктовая мушка:
                HSGVNQLGGVFVGGRPLPDSTRQKIVELAHSGARPCDISRILQVSNGCVSKILGRYYETGSIRPRAIGGSKPRVATAEVVSKISQYKRECPSIFAWEIRDRLLQENVCTNDNIPSVSSINRVLRNLAAQKEQQ

Кроме собственно самих фрагментов, в которые алгоритм может вставлять отсутствующие знаки в виде дефисов, алгоритм также считает дистанцию между поледовательностями. 
Я к чему? Мне показалось, что языковые мутации вполне можно попробовать посчитать, например, на списке Сводеша.
И потом сравнить общий счет списка Сводеша одной группы языков с другой группой. Какие выйдут ближе к кельтским - славянские или италийские, например?

В общем погуглил, ничего в интернетах не нашлось. Неужто никто этим не занимался или все засекречено на всякий случай?




--
Если есть сомнения - значит сомнений нет.

Basil

Сам код у меня написан, списки Сводеша тоже есть. Нужно составить "матрицу похожести", которая каждой пары символово дает некий вес. Например, если в первом языке /а/ и во втором /а/ = счет плюс десять. А если гласная и другая гласная, то +2. И согласным, которые известно, что переходят друг в друга, дать положительный вес, а которые не переходят - отрицательный. Есть какие-то классификации на этот счет, например, универсальные для ИЕ языков?
--
Если есть сомнения - значит сомнений нет.

Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр