Лингвофорум

Теоретический раздел => Уральские языки => Самодийские языки => Тема начата: Krasimir от октября 31, 2016, 08:58

Название: Шё̄шӄуй шэ̄, чумыл шэ, сӱсӱгуй сэ – Южноселькупский язык
Отправлено: Krasimir от октября 31, 2016, 08:58
Шё̄шӄуй шэ̄, чӯмӭльӄут шэ, чумыт шэ, сӱсӱгуй сэ и мн.др. – язык южных селькупов, коренных жителей Томской области - Среднего Приобья. В настоящее время носители есть в Каргасокском, Парабельском, Колпашевском, Верхнекетском и, предположительно, Александровском районе Томской области. Число носителей: до 70-80 человек. Большинство южных селькупов, а их около 1200 человек, языка не знают. В Молчановском районе (на нижнем Чулыме) у селькупов сохраняется самоназвание, тогда как местный говор вымер 50 лет назад.
Язык давно и интенсивно изучается томскими учёными, начиная с А.П. Дульзона, однако состояние языка от этого не очень-то улучшается. На кафедре языков Сибири ТГПУ хранится 80 томов южноселькупских полевых сборов, каждый по 1000 страниц, в т.ч. записи начала 50-х годов ныне вымерших крайне южных говоров.
Материалы:
http://www.twirpx.com/file/1348997/ самый полный южноселькупский словарь +диалекты Турухана и Елогуя
http://www.twirpx.com/file/1128138/ небольшой словарь, но в нём есть некоторые слова, которых нет в предыдущем словаре
http://www.twirpx.com/file/1958443/ первая часть южноселькупской морфологии (есть и вторая в томских библиотеках)
http://www.twirpx.com/file/1378871/ разговорник с грамматическим очерком
http://www.twirpx.com/file/1084188/ фольклорные тексты с построчным переводом на говорах шёшкупов и чумылькупов
http://www.twirpx.com/file/1971244/ учебник диалекта шёшкуп
http://www.twirpx.com/file/2011025/ Шё̄шӄуй букварь
http://www.twirpx.com/file/1735137/ словарь кетского диалекта
ну и ещё на том сайте можно найти

Кратко о языке (в дальнейшем всё опишу подробнее):
Обычный порядок слов SOV. Агглютинация (самодийский же). Глагол имеет субъектное и объектное спряжение. Парадигма существительных - 11-15 падежей в зависимости от локального говора. Есть (по кр.мере были) аналитические конструкции. В фонологии: есть долгие гласные (смыслоразличительная функция слабая), главная фишка консонантизма - звонкая аффриката /дж/ /җ/. Количество алфавитов языка равно количеству изданий на нём. Состояние сохранности - плохое, но на данный момент есть ~3 языковых активиста.
Ну и для начала: текст с построчным переводом и глоссированием из ТГПУ: http://siblang.tspu.ru/project09/RUSS/Selkup.htm

P.S. Это первый пост в самодийском разделе в этом году и первая самодийская тема за год, с чем всех и поздравляю!
Название: Шё̄шӄуй шэ̄, чумыл шэ, сӱсӱгуй сэ – Южноселькупский язык
Отправлено: Teodor от октября 31, 2016, 19:30
Цитироватьтекст с построчным переводом и глоссированием из ТГПУ: http://siblang.tspu.ru/project09/RUSS/Selkup.htm
Тексты (по ссылке) очень хорошо проработаны - есть частеречная разметка (POS) селькупского оригинала и параллельный перевод, при этом 416 словоупотреблений, но написано, что можно запросить полный текст. Что, если попробовать импортировать эти тексты в какую-нибудь электронную корпусную систему, например, в ANNIS http://corpus-tools.org/annis/ (http://corpus-tools.org/annis/).
Если имеется параллельный перевод, это позволит объективно изучить количество употреблений слов по разной тематике, перевод разнообразных конструкций. Также можно будет оценивать, в каких тематических/грамматических областях недостаёт нужной информации, запрашивать её (анкетами, почтой) и добавлять в корпус.
Название: Шё̄шӄуй шэ̄, чумыл шэ, сӱсӱгуй сэ – Южноселькупский язык
Отправлено: Krasimir от ноября 1, 2016, 08:40
Цитата: Krasimir от октября 31, 2016, 08:58
В Молчановском районе (на нижнем Чулыме) у селькупов сохраняется самоназвание, тогда как местный говор вымер 50 лет назад.
:fp: конечно же, самосознание. Чумуль ӄуланан онҗ нэп ӄадӭ сомбласару пот кве̄ссэ, най шэ̄дыт. Самоназвание чулымских селькупов тюйкум вымерло 50 лет назад вместе с языком, а вот самосознание (мы - остяки, селькупы) и отд. элементы культуры (орудия, приметы) сохраняются. Селькупы вроде остались и в Бакчарском районе (глухие лесо-болотные места в верховьях неэтимологизированных левых притоков Оби), только там никакой общественной активности нет.
Районы в википедии:
(wiki/ru) Каргасокский_район (https://ru.wikipedia.org/wiki/%D0%9A%D0%B0%D1%80%D0%B3%D0%B0%D1%81%D0%BE%D0%BA%D1%81%D0%BA%D0%B8%D0%B9_%D1%80%D0%B0%D0%B9%D0%BE%D0%BD)
(wiki/ru) Верхнекетский_район (https://ru.wikipedia.org/wiki/%D0%92%D0%B5%D1%80%D1%85%D0%BD%D0%B5%D0%BA%D0%B5%D1%82%D1%81%D0%BA%D0%B8%D0%B9_%D1%80%D0%B0%D0%B9%D0%BE%D0%BD)
(wiki/ru) Парабельский_район (https://ru.wikipedia.org/wiki/%D0%9F%D0%B0%D1%80%D0%B0%D0%B1%D0%B5%D0%BB%D1%8C%D1%81%D0%BA%D0%B8%D0%B9_%D1%80%D0%B0%D0%B9%D0%BE%D0%BD)
(wiki/ru) Колпашевский_район (https://ru.wikipedia.org/wiki/%D0%9A%D0%BE%D0%BB%D0%BF%D0%B0%D1%88%D0%B5%D0%B2%D1%81%D0%BA%D0%B8%D0%B9_%D1%80%D0%B0%D0%B9%D0%BE%D0%BD)
(wiki/ru) Молчановский_район (https://ru.wikipedia.org/wiki/%D0%9C%D0%BE%D0%BB%D1%87%D0%B0%D0%BD%D0%BE%D0%B2%D1%81%D0%BA%D0%B8%D0%B9_%D1%80%D0%B0%D0%B9%D0%BE%D0%BD)
(wiki/ru) Бакчарский_район (https://ru.wikipedia.org/wiki/%D0%91%D0%B0%D0%BA%D1%87%D0%B0%D1%80%D1%81%D0%BA%D0%B8%D0%B9_%D1%80%D0%B0%D0%B9%D0%BE%D0%BD)
Название: Шё̄шӄуй шэ̄, чумыл шэ, сӱсӱгуй сэ – Южноселькупский язык
Отправлено: Nevik Xukxo от ноября 1, 2016, 09:30
Селькупский язык как группа языков? :)
Название: Шё̄шӄуй шэ̄, чумыл шэ, сӱсӱгуй сэ – Южноселькупский язык
Отправлено: Krasimir от ноября 1, 2016, 09:46
Цитата: Teodor от октября 31, 2016, 19:30Что, если попробовать импортировать эти тексты в какую-нибудь электронную корпусную систему
Сейчас я обдумываю похожий проект: неким способом собрать все ныне существующие словари и разговорники (с 19 в. до позднейших изысканий) в сводную таблицу, где каждое слово/выражение будет сцеплено со своим переводом и словарными пометами. В итоге предполагаю открыть сайт, подобный этому: http://www.speech.nw.ru/NenNgan/Dictionary/dictionary.html
где будет поле ввода, и по запросу будут показываться все возможные переводы. Проблемы здесь такие:

1. Нечёткость распознавания: ю̈̄ӭӧӱӓи̇ӭ̄ӧ̄ӱ̄ӓ̄и̇̄э̄о̄ӯа̄ӣе̄ё̄ю̄я̄ы̄ӄӈӷҗҙю̈ә Ю̈̄ӬӦӰӒИ̇Ӭ̄Ӧ̄Ӱ̄Ӓ̄И̇̄Э̄О̄ӮА̄ӢЕ̄Ё̄Ю̄Я̄Ы̄ӃӇӶҖҘЮ̈ - и что прикажете мне с этим делать?
2. Сколько изданий - столько и алфавитов. Там, где надо, как-то заменить дж на җ, ҙ на дз, ә на ӭ и т.п., чтобы унифицировать письменность.
3. отделить перевод от словарных помет и примеров употребления, чтобы на "пайдугу" находилось "вилять (хвостом)" и ничего лишнего.
4. поставить на каждый перевод помету, из какого словаря/разговорника/пособия взято
5. собственно написать такой код для сайта
Для создания такого сводного словаря в табличном и поисковом виде придётся закопаться в книжки по программированию, но я доведу эту идею до ума.

Цитата: Teodor от октября 31, 2016, 19:30
Цитироватьтекст с построчным переводом и глоссированием из ТГПУ: http://siblang.tspu.ru/project09/RUSS/Selkup.htm
Тексты (по ссылке) очень хорошо проработаны - есть частеречная разметка (POS) селькупского оригинала и параллельный перевод, при этом 416 словоупотреблений, но написано, что можно запросить полный текст. Что, если попробовать импортировать эти тексты в какую-нибудь электронную корпусную систему, например, в ANNIS http://corpus-tools.org/annis/ (http://corpus-tools.org/annis/).
Если имеется параллельный перевод, это позволит объективно изучить количество употреблений слов по разной тематике, перевод разнообразных конструкций.
Мысль хорошая, тоже пригодится в деле возрождения языка :eat: По сути, принцип создания сводного корпуса и его возможности схожи со сводным глоссарием. Как можно убедиться, на сайте ТГПУ есть только 1 южноселькупский текст, и тот неполный. Онлайн тексты есть ещё здесь:
http://www.twirpx.com/file/1084188/ Быконя В.В. Сказки нарымских селькупов: книга для чтения на селькупском языке с переводом на русский язык
И здесь:
http://www.twirpx.com/file/2011025/ Быконя В.В., Ким А.А., Купер Ш.Ц. Шё̄шӄуй букварь для 1-го класса селькупских школ
Но с букварём есть одна загвоздка: тексты-те в нём есть, но без перевода. Есть ещё брошюра Быкони В.В. с методическими указаниями с построчным переводом каждого текста, вот где жемчуг! На неделе всенепременно возьму эту книгу в томской библиотеке и выложу на твирпкс.

Цитата: Teodor от октября 31, 2016, 19:30
Также можно будет оценивать, в каких тематических/грамматических областях недостаёт нужной информации, запрашивать её (анкетами, почтой) и добавлять в корпус.
С "запрашивать" интересная ситуация сложилась, но об этом как-нибудь потом, надо собраться с мыслями  :)
Название: Шё̄шӄуй шэ̄, чумыл шэ, сӱсӱгуй сэ – Южноселькупский язык
Отправлено: Krasimir от ноября 1, 2016, 10:00
Цитата: Nevik Xukxo от ноября  1, 2016, 09:30
Селькупский язык как группа языков? :)
Обращаюсь ко всем: лучше не читайте статью в википедии о селькупском языке. Не воспринимайте за 100% истину хотя бы.
Единый селькупский язык распался лет 400 назад, когда козаченьки вместе с сургутскими хантами в авангарде после многих неудачных попыток разогнали местный территориально-родовой союз, вследствие чего все жители Таёжного Приобья были объясачены и чуть ли не половина селькупов ушла на север, в совр. ЯНАО, верховья Таза и Пура, места настолько глухие, что русская власть там окончательно закрепилась только к 1930-м годам, ещё небольшая группа осела на Турухане и Елогуе. Так и не стало ни языковой, ни территориальной общности селькупов. Больше они никогда не контактировали, языки разошлись далеко, северноселькупский и южноселькупский невзаимопонятны вообще, что-то распознать можно только в записанных текстах, а на слух вообще никак. Поэтому, когда вам начинают рассказывать о селькупском языке, первый вопрос: о каком? Если обо всех сразу, то вам загоняют сравнительный анализ. Даже в современном южноселькупском тьма диалектов и говоров, а 500 лет назад, пока не подпёрли тюрки с юга, существовали ещё 2 больших наречия (континуума говоров), от которых сейчас осталось маленько топонимов и всё!
Название: Шё̄шӄуй шэ̄, чумыл шэ, сӱсӱгуй сэ – Южноселькупский язык
Отправлено: Bhudh от ноября 1, 2016, 10:01
Цитата: Krasimir от ноября  1, 2016, 09:46Там, где надо, как-то заменить дж на җ, ҙ на дз
И получится хрен редьки не слаще? :what: Тут лучше делать выбор для читателя: делать текст с диграфами или с диакритиками. А в базе хранить архиграфемы.
Название: Шё̄шӄуй шэ̄, чумыл шэ, сӱсӱгуй сэ – Южноселькупский язык
Отправлено: Krasimir от ноября 1, 2016, 10:08
Цитата: Bhudh от ноября  1, 2016, 10:01
Цитата: Krasimir от ноября  1, 2016, 09:46Там, где надо, как-то заменить дж на җ, ҙ на дз
И получится хрен редьки не слаще? :what: Тут лучше делать выбор для читателя: делать текст с диграфами или с диакритиками. А в базе хранить архиграфемы.
1. Просто җ хотя бы известна селькупам и они её хоть иногда употребляют на письме, тогда как ҙ встречается в одном словаре и для самих селькупов едва ли понятна.
2. Сама аффриката Җ ну очень частотна в языке, Ҙ, напротив, очень редка.
3. Выбор для читателя дж/җ и т.п.  - мысль хорошая, но это ещё один технический наворот, дай бог с этим всем разобраться  :eat:
Название: Шё̄шӄуй шэ̄, чумыл шэ, сӱсӱгуй сэ – Южноселькупский язык
Отправлено: Цитатель от ноября 1, 2016, 10:13
Цитата: Krasimir от ноября  1, 2016, 09:46
Как можно убедиться, на сайте ТГПУ есть только 1 южноселькупский текст, и тот неполный. Онлайн тексты есть ещё здесь:

вот тут файл с полными текстами

https://www.academia.edu/3473592/Editor_Russian-English_Annotated_Folk_Texts_of_Ob-Yenissei_Area._2010._V-1._Отв.редактор_Аннотированные_фольклорные_тексты_обско-енисейского_языкового_ареала._2010._Том-1

на южноселькупском там полсотни страниц аннотированных текстов.

там же еще три тома текстов, в каждом на селькупские тексты по несколько десятков страниц отведено

https://www.academia.edu/3473582/Editor_Russian-English_Annotated_Folk_Texts_of_Ob-Yenissei_Area._Tomsk._2012._V-2._Отв.редактор_Аннотированные_фольклорные_тексты_обско-енисейского_языкового_ареала._Томск._2012._Том-2
https://www.academia.edu/8572404/Editor_Russian-English_Annotated_Folk_Texts_of_Ob-Yenissei_Area._2013._V-3._Отв.редактор_Аннотированные_фольклорные_тексты_обско-енисейского_языкового_ареала._2013._Том-3
https://www.academia.edu/19866593/Editor_Russian-English_Annotated_Folk_Texts_of_Ob-Yenissei_Area._2015._V-4._Отв.редактор_Аннотированные_фольклорные_тексты_обско-енисейского_языкового_ареала._2015._Том-4
Название: Шё̄шӄуй шэ̄, чумыл шэ, сӱсӱгуй сэ – Южноселькупский язык
Отправлено: Krasimir от ноября 1, 2016, 10:36
Цитатель, спасибо огромное за такую наводку!  := Есть теперь, над чем поработать! К тому же теперь ясно какой объём южноселькупских текстов из тех 80 томов обработан и оцифрован. В первом томе целиком приводится Пе̄ге кут таремба и сказка Нення ай темня, что-то подобное опубликовано в "сказках нарымских селькупов".
Название: Шё̄шӄуй шэ̄, чумыл шэ, сӱсӱгуй сэ – Южноселькупский язык
Отправлено: Krasimir от ноября 1, 2016, 11:24
Перезалил 4 тома аннотированных текстов обско-енисейского языкового ареала на твирпѯ:
http://www.twirpx.com/file/2073179/ - том 1
http://www.twirpx.com/file/2073199/ - том 2
http://www.twirpx.com/file/2073198/ - том 3
http://www.twirpx.com/file/2073200/ - том 4

По прежнему не могу нарадоваться такой находке!  ;up:
Название: Шё̄шӄуй шэ̄, чумыл шэ, сӱсӱгуй сэ – Южноселькупский язык
Отправлено: Teodor от ноября 1, 2016, 19:32
ЦитироватьДля создания такого сводного словаря в табличном и поисковом виде придётся закопаться в книжки по программированию, но я доведу эту идею до ума.
Я уже имею опыт создания таких словарей/корпусов, обработки данных и пр., так что с радостью готов помочь :yes:. Ещё в моём распоряжении имеется сервер, на котором можно разместить проект (кроме ANNIS есть ещё много разных платформ, лучше использовать их, чем писать с нуля, т. к. там уже есть отработанные технологии поиска (AQL в ANNIS'е, например), которые были часто темами научных работ).
Аннотированные тома - шедевр! Они представлены в символьном PDF, и это очень хорошо, т. к. могут быть быстро обработаны.
Название: Шё̄шӄуй шэ̄, чумыл шэ, сӱсӱгуй сэ – Южноселькупский язык
Отправлено: rlode от ноября 2, 2016, 08:52
А южноселькупский сейчас хоть немного жив? Я когда-то интересовался вопросом и у меня сложилось впечатление, что из селькупских живой (и то еле-еле) только северный (тазовский)
Название: Шё̄шӄуй шэ̄, чумыл шэ, сӱсӱгуй сэ – Южноселькупский язык
Отправлено: lammik от ноября 2, 2016, 10:52
В вышедшем в 97-ом году сборнике статья о южных селькупах называлась не иначе как "В сибирской тайге умирает народ".

ЦитироватьПри этом существуют кардинальные различия языковой ситуации
между двумя крупными и практически полностью изолированными друг
от друга группами селькупов, которые не осознают своего этнического
единства - северной (тазовско-енисейской) и южной (тымско-нарымско-
кетско-обской) (Казакевич 1996: 208; Кузнецова, Болсуновская 1996:
262-263). Если у северных селькупов 77% населения признают селькупский
язык родным, то у южных - лишь 11%. На юге сфера употребления
селькупского языка катастрофически сужается, в семье по-селькупски
говорят между собой только представители старшего поколения, молодежь
языка не знает, дети учат его в школе как иностранный. На севере
селькупский язык функционирует в семье и в традиционной производственной
деятельности

Это цитата из статьми Н.Б. Вахтина о языковом сдвиге у КМНС.
Название: Шё̄шӄуй шэ̄, чумыл шэ, сӱсӱгуй сэ – Южноселькупский язык
Отправлено: rlode от ноября 2, 2016, 13:07
С тех пор больше 20 лет прошло
Название: Шё̄шӄуй шэ̄, чумыл шэ, сӱсӱгуй сэ – Южноселькупский язык
Отправлено: Krasimir от ноября 2, 2016, 15:44
Южноселькупский язык однозначно жив, и как минимум 3 человека знают его на таком уровне, чтобы свободно говорить и переводить. С одним таким известным носителем (Наталья Платоновна Иженбина) из Колпашевского района я разговаривал лично 3 раза в этом году. Носительница-та свободно переключается с русского языка на южноселькупский, переводит на ЮС целые тексты и отдельные слова - запросто, вот, н-р, её текст: https://www.youtube.com/watch?v=mV6fD8td_Uo. Ещё есть 2 языковых активиста в Парабельском районе, см., н-р, здесь (Ирина Петровна Коробейникова): https://www.youtube.com/watch?v=0rVmavn7TPs
Откуда взялась цифра в 40-80 носителей в стартовом топике: на основании разных, иногда с противоречивыми данными, научных статей, на основании собственных изысканий и по ощущениям самих южных селькупов (а как вы думаете, сколько человек во всех районах на разных уровнях знают язык?)
Ну и не могу не расказать такую историю. Один мой знакомый летом 2015 года был на археологических раскопках в деревне Рыбинск (https://ru.wikipedia.org/wiki/%D0%9F%D0%B0%D0%BB%D0%BE%D1%87%D0%BA%D0%B8%D0%BD%D1%81%D0%BA%D0%BE%D0%B5_%D1%81%D0%B5%D0%BB%D1%8C%D1%81%D0%BA%D0%BE%D0%B5_%D0%BF%D0%BE%D1%81%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5) в среднем течении Кети. По его словам, в этой деревне живёт дедушка, который вовсю говорит на "кетском" языке, и знакомый лично слышал эту речь и она была вполне обычной. Но как узнать у нелингвиста, что язык такой "кетский"? Спросил: встречался ли в его речи звук /дж/ ? Ответ - да. Кетско-русский словарь диалекта средней Кети. (http://www.twirpx.com/file/1992777/) Это словарь настоящего кетского языка, пошиба как раз со средней Кети, и в этом словаре я не обнаружил ни одного буквосочетания дж, ну а эта аффриката - лакмусовая бумажка южноселькупского, её любят во всех говорах, даже в тех, что уже вымерли давно. Так что - то был классный носитель кетского селькупского диалекта. Также в Катайге (https://ru.wikipedia.org/wiki/%D0%9A%D0%B0%D1%82%D0%B0%D0%B9%D0%B3%D0%B0_(%D0%BF%D0%BE%D1%81%D1%91%D0%BB%D0%BE%D0%BA)) (верховья Кети) вроде есть 2 носителя (http://minlang.srcc.msu.ru/sites/default/files/lib/tomskaya_oblast_2010.doc). Не пугайтесь описанных в этой статье "ужасов", её авторы были даже не во всех посёлках по Кети и Тыму, а на Обь и левобережье и заходить не думали, хотя там ЮС язык как раз лучше сохранился (разговаривал в этом году с одним из её авторов).
Ну и в Туруханском районе местные селькупские говоры кое-как сохраняются (см. где-то здесь) (http://minlang.srcc.msu.ru/), а ещё 10 лет назад там фиксировались случаи русско-селькупско-какого-то трёхъязычия, а это вообще отголосок древности! У северных селькупов вообще вроде всё очень хорошо с языком, где-то читал, что в ЯНАО есть дети, для которых русский неродной, а родной селькупский, и в школу они приходят с минимальными знаниями РЯ после позднего наущения от родителей.
Название: Шё̄шӄуй шэ̄, чумыл шэ, сӱсӱгуй сэ – Южноселькупский язык
Отправлено: Krasimir от ноября 2, 2016, 18:24
Цитата: Teodor от ноября  1, 2016, 19:32
Я уже имею опыт создания таких словарей/корпусов, обработки данных и пр., так что с радостью готов помочь :yes:. Ещё в моём распоряжении имеется сервер, на котором можно разместить проект (кроме ANNIS есть ещё много разных платформ, лучше использовать их, чем писать с нуля, т. к. там уже есть отработанные технологии поиска (AQL в ANNIS'е, например), которые были часто темами научных работ).
Аннотированные тома - шедевр! Они представлены в символьном PDF, и это очень хорошо, т. к. могут быть быстро обработаны.
Конечно же, предложение принимается!  :UU:
Однако проблема нечёткого распознавания является главным препятствием на пути к созданию сводного корпуса и словаря. Не вычитывать же тысячи слов, я вон сегодня ма-ахонькую брошюрку вычитывать подутомился... С чего же начнём?

Также в недалёком будущем думаю поднять все материалы по саянским самодийским, и ко всем зафиксированным словам подобрать южноселькупские переводы и создать такой же электронный сводный словарь. Можно будет выявить преинтересные параллели. Это не должно быть технически сложно.
[offtop]
Ну и совсем уж потом на весь обь-енисейский ареал можно замахнуться со всеми словарями  ::) [/offtop]

Пусь кажна танэнҗат оӷолалҗэшпыгу шё̄шӄуй ай сӱсекой шэндлап, штоб табын сва̄к э̄за!
Сӱсекоп - так называли шёшкупы (колпашевские) всех остальных селькупов.
Название: Шё̄шӄуй шэ̄, чумыл шэ, сӱсӱгуй сэ – Южноселькупский язык
Отправлено: Teodor от ноября 2, 2016, 19:56
Цитата: Krasimir от ноября  2, 2016, 18:24С чего же начнём?
Сейчас для начала автоматически обработал несколько предложений из первого тома, через скрипт перевёл в JSON-формат.
Лемматизацию и определение форм делаю через словарь Зализняка и/или Викисловарь. Результаты авто-обработки первого предложения в картинках прилагаются.
В принципе, отладив возможные баги, можно перевести в такой вид все четыре тома. Причём это может быть сделано за 3-4 дня.
ЦитироватьОднако проблема нечёткого распознавания является главным препятствием на пути к созданию сводного корпуса и словаря.
Что касается имеющихся томов, то тут это, мне кажется, вовсе не проблема. Т. к. PDF текстовый, можно просто считать текст из PDF-клиента и загрузить в скрипт (в данном случае, в мой самописный  :)). Единственная проблема - универсализация символов, если мы хотим слить множество данных из разных источников + реализовать удобный поиск. Но тут тоже нет особенно сложных задач, главное - определить эталонные символы и разнообразные их представления в других текстах. Всё кодируется юникодом, так что заменить всё можно за пару минут. Что касается интерфейса пользователя во время поиска, то тут можно применить ту же замену в строке запроса, либо сразу предлагать воспользоваться эталонными символами.


Описание скринов:
Название: Шё̄шӄуй шэ̄, чумыл шэ, сӱсӱгуй сэ – Южноселькупский язык
Отправлено: Krasimir от ноября 3, 2016, 06:55
Быконя В.В. В помощь учителю селькупского языка для работы по букварю (Шёшӄуй букварь). Методические указания (http://www.twirpx.com/file/2074161/)
Методические указания содержат построчный перевод шёшкупского букваря (Шё̄шӄуй букварь (http://www.twirpx.com/file/2011025/)) и рекомендации по его практическому применению в учебном процессе. Предназначены учителям селькупского языка в школах с преподаванием родного языка. Как букварь, так и настоящая методичка ценны исключительно как лингвистический материал (тексты на языке и построчный перевод соотв.), т.к. преподавание по шё̄шӄуй букварю в 1-ых классах не ведётся.

Очень интересное издание, методичка к самому букварю от автора, и самое главное: построчные переводы всех текстов. Когда занимался с букварём, то не все слова и конструкции смог перевести даже с несколькими словарями, такой вот разброс. Тираж 150, вчера взял в библиотеке (http://www.lib.tomsk.ru/) и отсканировал. Также пригодится для электронных корпусов.

Сва̄ нагӭр. Хорошая книга/грамота.
Название: Шё̄шӄуй шэ̄, чумыл шэ, сӱсӱгуй сэ – Южноселькупский язык
Отправлено: Krasimir от ноября 4, 2016, 17:35
Подсобрал все материалы, которые войдут в сводный словарь.
Словари:
1. СРДС (http://www.twirpx.com/file/1348997/). Селькупско-русский диалектный словарь под ред. проф. Быкони В.В. Самый полный словарь южноселькупских диалектов и диалектов Турухана и Елогуя. СРДС - как БКРЯ для китаистов, его невозможно обойти стороной. Но даже в нём нет множества тонкостей, лексем. Диалектный разброс огромен, в каждой деревне свой говор.

2. Алатало Я. Сӱ̄ссыӷӯй э̄җипсан. Қэ̄тқый қӯланни. Селькупский словарь. Кетский диалект. (http://www.twirpx.com/file/1735137/)
3. Быконя В.В., Ким А.А., Купер Ш.Ц. Словарь селькупско-русский и русско-селькупский. (http://www.twirpx.com/file/1128138/) Совсем небольшой словарь, но в нём есть некоторые моменты, которых нет в СРДС. Предположительно, писался для нужд шёшкупского образования (вышел также букварь, методичка к нему, учебное пособие по языку, книга для чтения).
4. Alatalo Jarmo. Sölkupisches Wörterbuch (http://www.twirpx.com/file/1378889/). Южноселькупско-немецкий словарь.

Разговорники:
5. Быконя В.В. Шарватпленд шёшӄуй шэндсэ! Говори по шёшкупски (русско-селькупский разговорник) (http://www.twirpx.com/file/1378871/) с грамматикой
6. Купер Ш., Пустаи Я. Селькупский разговорник (нарымский диалект) (http://www.twirpx.com/file/1378876/)
7.-10. Вышеуказанные тома размеченных текстов.
Завтра напишу "стародавние" словари.
Название: Шё̄шӄуй шэ̄, чумыл шэ, сӱсӱгуй сэ – Южноселькупский язык
Отправлено: Krasimir от ноября 4, 2016, 17:50
Унификация символов:

ә - ӭ, ӭ̄ (соотв.)
ю̈ - ӱ
i - и̇, и̇̄
ҙ - дз
қ - ӄ
ң - ӈ
ӌ, ҷ - ч
дж - җ
По прежнему сомневаюсь в букве җ. Среди самих селькупов она слабо распространена, но звук-аффриката архичастая. Я б ввёл җ.


Начинаю разбираться с корпусами текстов (пока что был занят). Допустим, у меня есть таблица на 200 пар словоформ в ту и другую сторону в форматах docx и xlsx. Как залить такую таблицу в ANNIS или куда-л. ещё?
Название: Шё̄шӄуй шэ̄, чумыл шэ, сӱсӱгуй сэ – Южноселькупский язык
Отправлено: Krasimir от ноября 4, 2016, 18:10
Цитата: Teodor от ноября  2, 2016, 19:56
Описание скринов:
По-моему, несть хорошо, когда на запрос жить выдаётся форма 3 л. ед. ч. Сколько таких форм будет выдаваться в реальном сводном словаре? Варкымбалыт, варка, варкай... В готовом словаре ведь должна быть привязка к лемме, хотя примеры тоже выкидывать не надо (как в СРДС и Сӱ̄ссыӷӯй э̄җипсан. Қэ̄тқый қӯланни). Ну и такой вопрос: как создать таблицу из pdf? Просто всё перегонять в excel?

P.S. Вот как распарсен СРДС:
Название: Шё̄шӄуй шэ̄, чумыл шэ, сӱсӱгуй сэ – Южноселькупский язык
Отправлено: rlode от ноября 4, 2016, 19:29
Krasimir, я Вам в личку написал.
Название: Шё̄шӄуй шэ̄, чумыл шэ, сӱсӱгуй сэ – Южноселькупский язык
Отправлено: Teodor от ноября 4, 2016, 21:46
Цитата: Krasimir от ноября  4, 2016, 17:50
Допустим, у меня есть таблица на 200 пар словоформ в ту и другую сторону в форматах docx и xlsx. Как залить такую таблицу в ANNIS или куда-л. ещё?
Собственно, пары словоформ требуются для создания словаря (электронного). А ANNIS - платформа для создания корпусов, он, скорее, даёт возможность анализа частотности, грамматики и пр. Обычно онлайн-словари как платформа создаются индивидуально, я бы взялся за это дело, т.к. могу, в принципе, уложиться в 1-2 недели, и будет готов сайт с доменом и т.д.
Если есть таблица xls, её можно перевести в базу данных SQL, например, а затем сделать интерфейс поиска. То есть сейчас можно нам заняться составлением таких xls, я их соберу и залью.
ЦитироватьНу и такой вопрос: как создать таблицу из pdf? Просто всё перегонять в excel?
Лучше, думаю, начать с тех, которые можно получить в текстовом виде, выделив (т. е. не картинка, а текст), это при помощи регулярных выражений можно обработать и представить в нужном виде (JSON, XLS etc.), но тут для каждого случая пишется индивидуальный скрипт. Если в текстовом виде получить нельзя, нужно использовать FineReader или что-то в этом роде. Но пока, как вижу, у нас ещё есть вещи, которые есть "в тексте". Сейчас поискал в гугле "конвертировать pdf в xls", не очень понимаю, о чем речь, но пока не разобрался.
ЦитироватьПо-моему, несть хорошо, когда на запрос жить выдаётся форма 3 л. ед. ч.
На самом деле, не выдаётся не словоформа. Это просто один из параметров под именем token. А lemma - вполне нормальный инфинитив. Дальше из селькупского analysis, наверное, надо отделить mb-a и установить инфинитивный суффикс, в таком виде будет пара (я прав?)
Если я что-то недостаточно подробно объяснил или ещё есть какие-то вопросы, прошу задавать :) А то я засыпаю
Название: Шё̄шӄуй шэ̄, чумыл шэ, сӱсӱгуй сэ – Южноселькупский язык
Отправлено: Krasimir от ноября 5, 2016, 12:17
Переводить pdf в xlsx умеет FineReader, только получается всякое не то (см. вложение)

Цитата: Teodor от ноября  4, 2016, 21:46из селькупского analysis, наверное, надо отделить mb-a и установить инфинитивный суффикс, в таком виде будет пара (я прав?)
Не совсем. -мб (основы на гласный), (основы на звонкий согласный), -п (основы на глухой согласный) - это суффиксы результативного прошедшего времени, т.е. такого, последствия которого актуальны для настоящего. Но эти суффиксы бывают не только в парадигме, но и в инфинитве тоже: апстыгу - накормить, апстымбугу, апстӭбугу - кормить, прокормить(ся). Также этот суффикс может и не менять семантику глагола: кодалҗугу ~ кодалҗэ(ы)мбыгу - застегнуть, закрыть на крючок, быть застёгнутым. Ну и наконец, перед показателем инфинитива -гу ~ -ку в случаях вроде варкугу может стоять ы, у, ӭ, э, они же с макроном. И если в отдельных словах словари указывают 1 вариант гласной, то в других глаголах может стоять любая из 3-4 вышеперечисленных. Не забываем, что на 5 деревень приходится 2 говора (шутка) ;up:
Название: Шё̄шӄуй шэ̄, чумыл шэ, сӱсӱгуй сэ – Южноселькупский язык
Отправлено: Krasimir от ноября 6, 2016, 10:52
Существительное в южноселькупском языке (парадигмы).
Грамматический род отсутствует. Имеется 3 числа, 2 парадигмы склонения, 10-15 падежей в зависимости от конкр. говора. Показатели (суффиксы) числа вставляются между основой и падежным окончанием.
Парадигма безличного склонения (по граммат.очерку разговорника "Шарватпленд шёшӄуй шэндсэ" (http://www.twirpx.com/file/1378871/) и "Шё̄шӄуй букварю" (http://www.twirpx.com/file/2011025/))












Основа:на гласныйна твёрдый согласныйна мягкий согласный
родительный-т, -н-ыт, -ын-ит, -ин
винительный-п, -м-ып, -ым-ип, -им
дательно-направительный-нд, ни̇, -н-онд, -энд-ёнд
местно-временной-ӷыт-ӄыт, -о̄ӷыт, -ыт-ё̄ӷыт
местно-личный-нан-нан, -ннан
исходный-ӷындо, -нандо, -нандыкто, -нандыкти̇-ӄындо, -о̄ӷындо,
-эӷындо, -нандо, -нандыкто
-ё̄ӷындо
продолжительный-мыт, -выт-выт, -овыт-ё̄выт, -ё̄мыт
орудийно-
совместный
-зэ-сэ, -зэ-сэ, -зэ
назначительно-превратительный-тко, -ӈго-ытӄо-итӄо
лишительный-галк, -галык-галк, -галык,
-калк, -калык
-галк, -калк
Название: Шё̄шӄуй шэ̄, чумыл шэ, сӱсӱгуй сэ – Южноселькупский язык
Отправлено: Цитатель от ноября 8, 2016, 06:35
А эти тексты уже упоминались, нет?
Три шамана. Л. А. Коганова
селькупский
Лидия Александровна говорит о том, как стала в детстве свидетельницей камлания трех шаманов: кета, селькупа, эвенка.

Лабаз. Р. С. Куболев
селькупский
В Сибири лабазом называют домик на стойках, где хранятся вещи. Часто это могут быть старые, заброшенные вещи.

http://minlang.srcc.msu.ru/ru/textspage

Название: Шё̄шӄуй шэ̄, чумыл шэ, сӱсӱгуй сэ – Южноселькупский язык
Отправлено: Krasimir от ноября 8, 2016, 11:22
Цитата: Цитатель от ноября  8, 2016, 06:35
А эти тексты уже упоминались, нет?
Три шамана. Л. А. Коганова
селькупский
http://minlang.srcc.msu.ru/ru/textspage
:stop: На этом сайте нет южноселькупских текстов. Говоры Турухана, Баихи и Елогуя относятся к северноселькупским, хотя географически они самые близкие к южному ареалу из всех северных, но контактов всё равно не было и нет почти никаких. Вот перевод начала того же текста на южноселькупский для сравнения (могу маленько перемешивать говоры, т.к. сам не натив и не селькуп :)).
Ми̇̄ Дындаӷыт варкымбавыт. Ны кет ӄуп Елогуйӷындо Дынданд тӧ̄мба. Таб Дынданд тӧ̄мба штоб ӄа̄дӭчугу. Най минан кетла варкымба. Ны Елогуйӷындо оккыр кет кадӭча тӧ̄мба. Вес кадӭчала оккыр ма̄тӄыт таӄӄылбат. Оккыр сусеӄой кадӭча, оккыр кетыль кадӭча, оккыр ӄве̄лумыль кадӭча. На̄гур кадӭчала.
Название: Шё̄шӄуй шэ̄, чумыл шэ, сӱсӱгуй сэ – Южноселькупский язык
Отправлено: Krasimir от ноября 8, 2016, 13:34
Парадигма безличного склонения слов ӄуп(м) и сӯруп(м) из книги Беккер Э.Г., Алиткина Л.А., Быконя В.В., Ильяшенко И.А. Морфология селькупского языка. Южные диалекты. Часть I (http://www.twirpx.com/file/1958443/) (оригинал приложен). В южноселькупском языке существительные с основами на -п и -м теряют этот согласный при склонении.















Говор:Ср. ОбьТымКетьВерх. Обь
родительный-ӭн
винительный-п-п
дательно-
направительный I
-нд---де
дательно-
направительный II
--ни̇-ӷэ
местно-личный-нан, -ннан--нан-нан
местно-
исходный
--нан, -ннан--
исходный-нандо,
-ннандо
--нанни̇-нанду
исходно-
продолжительный
--ут--
продолжительный-ут, -утӭ---мун, -ммун
орудийно-
совместный
-зэ-зэ-се-сэ
лишительный -галӭк-галӭк-галак -галӭк
назначительно-
превратительный
-тко-тко-ӈго-но
превратительный -вле- - -ул
Название: Шё̄шӄуй шэ̄, чумыл шэ, сӱсӱгуй сэ – Южноселькупский язык
Отправлено: Krasimir от марта 24, 2017, 16:00
Северный селькупский:
(1)Ман ни̇к тэнырпаӈ: (2) на куты ситты ӭ̄тысä мулымпа, (3) то пӯт сомаӈ мулэ̄итэнта. (4) Ны̄ны мӭный ӭ̄тым на эй сомаӈ ӱнтэ̄интыӈыт. (5) Куты ситты ӭ̄тысä мулымпылä, (6) ӄо̄ты чаӈак э̄йа. (7) Ме̄ ни̇к кӭткӧ̄мын: (8) ӄо̄ты чаӈак э̄йа. (9) Значит, сомак, сомак танымнэнта, (10) чӭк танымнэнта. (11) Ситты ӭ̄тып ӄуп ӄатамол ӱнтычэ̄ӈыты, (12) чӭӈ, ай чӭӈ ай тэныты койымӧ̄тка, (13) ӱро̄мынты койымӧ̄тка нäйэнты.

Шёшкупский (с):
(1) Мат ни̇к танык: (2) на код шэд шэзэ шарватпа, (3) то кате сва̄к шарватпэ̄нҗа, (4) кате таб арг ӭҗлап сва̄к коштынҗа. (5) Код шэд шэзэ шарватпа, (6) табнан сва̄ ӄола. (7) Ми ни̇к ченьчызавыт: (8) табнан сва̄ ӄола, (9) значит, сва̄к о̄ӷолалҗэнҗа, (10) тек о̄ӷолалҗэнҗа. (11) Ежли ӄуп шэд шэп коштымба, (12) тек, тек таныт лаӷӭрэ̄шпа, (13) кандук надӭ лаӷӭрэ̄шпа.

Русский:
(1) Я так думаю: (2) тот, кто говорит на двух языках, (3) то потом будет хорошо говорить, (4) потом он хорошо поймет чужие слова. (5) Кто говорит на двух языках, (6) у того чистые [не забитые ничем, мешающим услышать] уши. (7) Мы говорим так: (8) его уши чистые, (9) значит, он будет хорошо учиться, (10) быстро учиться будет. (11) Два языка человек если понял [услышал], (12) и быстро, быстро и его ум поворачивается [он быстро соображает], (13) по делу [как надо] поворачивается.

Источник: http://minlang.srcc.msu.ru/ru/text/pohvala-mnogoyazychiyu-yu-irikov

Ӄайӄо̄ коднай нынд шё̄шӄуй таре̄дык аза шарватпа?
Название: Шё̄шӄуй шэ̄, чумыл шэ, сӱсӱгуй сэ – Южноселькупский язык
Отправлено: Red Khan от февраля 8, 2021, 20:30
Цитата: https://t.me/stranayaz/1006
на (южно)селькупском языке стали выходить видео на ютубе. если вам казалось, что на языке, на котором говорит всего несколько носителей, нельзя что-либо выпускать, его нельзя выучить, а ещё он очень сложный, хоть и самый древний, а кому это вообще надо

в общем вместо всей этой типичной мифологии просто нажмите на кнопку

Название: Шё̄шӄуй шэ̄, чумыл шэ, сӱсӱгуй сэ – Южноселькупский язык
Отправлено: RockyRaccoon от февраля 9, 2021, 08:49
Цитата: Krasimir от марта 24, 2017, 16:00
Северный селькупский:
Цитата: Krasimir от марта 24, 2017, 16:00
Шёшкупский
О боже, совершенно разные языки! Как их к одному народу-то отнесли?
Название: Шё̄шӄуй шэ̄, чумыл шэ, сӱсӱгуй сэ – Южноселькупский язык
Отправлено: Krasimir от февраля 9, 2021, 09:03
Цитата: RockyRaccoon от февраля  9, 2021, 08:49
Цитата: Krasimir от марта 24, 2017, 16:00
Северный селькупский:
Цитата: Krasimir от марта 24, 2017, 16:00
Шёшкупский
О боже, совершенно разные языки! Как их к одному народу-то отнесли?
Конечно разные. Ничего общего. Взаимопонятность равна нулю. Вот официальный список языков России, подготовленный по госзаданию https://iyil2019.ru/issledovaniya/index.html где наконец-то 4 мансийских, 2 селькупских; кантыкский, хандэйский и хантыйский; также исправлены прочие косяки 20-х гг.
Название: Шё̄шӄуй шэ̄, чумыл шэ, сӱсӱгуй сэ – Южноселькупский язык
Отправлено: Krasimir от февраля 9, 2021, 09:04
Просто смиритесь, селькупского языка не существует в природе уже более 300 лет.
Название: Шё̄шӄуй шэ̄, чумыл шэ, сӱсӱгуй сэ – Южноселькупский язык
Отправлено: RockyRaccoon от февраля 9, 2021, 09:06
Я когда-то читал, что селькупы и не считают себя единым народом, и называют себя по-разному. Зачем же их свалили в одну кучу? И кто свалил?
Название: Шё̄шӄуй шэ̄, чумыл шэ, сӱсӱгуй сэ – Южноселькупский язык
Отправлено: Krasimir от февраля 9, 2021, 09:10
Цитата: RockyRaccoon от февраля  9, 2021, 09:06
Я когда-то читал, что селькупы и не считают себя единым народом, и называют себя по-разному. Зачем же их свалили в одну кучу? И кто свалил?
Свалили Прокофьевы в 20-е - 30-е. Селькупы живут двумя обособленными ареалами, там и материальная культура разная развилась со временем, на севере оленеводство развилось. Возможно, из-за массы самоназваний и свалили всех вместе, чтобы шибко не разбираться.
Название: Шё̄шӄуй шэ̄, чумыл шэ, сӱсӱгуй сэ – Южноселькупский язык
Отправлено: RockyRaccoon от февраля 9, 2021, 09:20
Цитата: Krasimir от февраля  9, 2021, 09:10
Свалили Прокофьевы в 20-е - 30-е.
Кто все эти Прокофьевы?
Название: Шё̄шӄуй шэ̄, чумыл шэ, сӱсӱгуй сэ – Южноселькупский язык
Отправлено: Krasimir от ноября 29, 2021, 09:43
Ресурсы по языку.
Самая полная и постоянно пополняемая коллекция материалов лежит на Яндекс.Диске: https://disk.yandex.ru/d/who7mD_W3EaVbo - сейчас уже почти 3 Гб. Если у вас есть хоть небольшой интерес к языку, рекомендую скачать всю папку к себе на устройство или на свой яндекс.диск (это делается в один клик) - чем больше бэкапов, тем лучше.

Словарный бот по нарымскому диалекту:
https://t.me/selkup_words_bot
Также подключен в сообщениях группы ВК (https://vk.com/torova.lyagha1).
Не очень удобные в использовании, зато озвученные словари на портале Лингводок: http://lingvodoc.ispras.ru/dashboard/dictionaries_all

Больше текстов, чем на Яндекс.Диске, есть в корпусах:
http://lingvodoc.ispras.ru/corpora_all
https://inel.corpora.uni-hamburg.de/portal/community/selkup.php
И в википедии: https://incubator.wikimedia.org/wiki/Wp/sel/Варг_нагырбыдимы

Соцсети:
https://vk.com/torova.lyagha1
https://ok.ru/torova.lyagha
https://www.facebook.com/groups/torova.lyagha
Можно ещё мой новый твиттер упомянуть: https://twitter.com/kyrshkayuchejel
Можно ещё сделать, как камасинцы, пустой реддит, в дискорде активности нагнать, но пока не до того.

Видео:
YouTube, канал «Художник Юлия HARU-CHAN Селявко», плэйлист «Сохранение селькупской культуры»: https://www.youtube.com/watch?v=ID1b9esrka0&list=PL80XQm8lISUF_xQwf0eM4zitEZmI7220G (общее число просмотров: ~12503)
Одноклассники, группа «Шё̄шӄуй шэ̄ ✼ Чумӭл шэ ✼ Сӱ̄ссыӷӯй сэ̄», видео: https://ok.ru/torova.lyagha/video



Цитата: RockyRaccoon от февраля  9, 2021, 09:20
Цитата: Krasimir от февраля  9, 2021, 09:10
Свалили Прокофьевы в 20-е - 30-е.
Кто все эти Прокофьевы?
Одни из основателей селькуповедения.
Название: От: Шё̄шӄуй шэ̄, чумыл шэ, сӱсӱгуй сэ – Южноселькупский язык
Отправлено: Krasimir от мая 11, 2024, 17:13
https://selkup.fu-lab.ru/index.php/%D0%A2%D0%B5%D1%85%D0%BD%D0%BE%D0%A2%D0%B0%D0%B9%D0%B3%D0%B0