Главное меню
Мы солидарны с Украиной. Узнайте здесь, как можно поддержать Украину.

Шё̄шӄуй шэ̄, чумыл шэ, сӱсӱгуй сэ – Южноселькупский язык

Автор Krasimir, октября 31, 2016, 08:58

0 Пользователи и 1 гость просматривают эту тему.

Krasimir

Шё̄шӄуй шэ̄, чӯмӭльӄут шэ, чумыт шэ, сӱсӱгуй сэ и мн.др. – язык южных селькупов, коренных жителей Томской области - Среднего Приобья. В настоящее время носители есть в Каргасокском, Парабельском, Колпашевском, Верхнекетском и, предположительно, Александровском районе Томской области. Число носителей: до 70-80 человек. Большинство южных селькупов, а их около 1200 человек, языка не знают. В Молчановском районе (на нижнем Чулыме) у селькупов сохраняется самоназвание, тогда как местный говор вымер 50 лет назад.
Язык давно и интенсивно изучается томскими учёными, начиная с А.П. Дульзона, однако состояние языка от этого не очень-то улучшается. На кафедре языков Сибири ТГПУ хранится 80 томов южноселькупских полевых сборов, каждый по 1000 страниц, в т.ч. записи начала 50-х годов ныне вымерших крайне южных говоров.
Материалы:
http://www.twirpx.com/file/1348997/ самый полный южноселькупский словарь +диалекты Турухана и Елогуя
http://www.twirpx.com/file/1128138/ небольшой словарь, но в нём есть некоторые слова, которых нет в предыдущем словаре
http://www.twirpx.com/file/1958443/ первая часть южноселькупской морфологии (есть и вторая в томских библиотеках)
http://www.twirpx.com/file/1378871/ разговорник с грамматическим очерком
http://www.twirpx.com/file/1084188/ фольклорные тексты с построчным переводом на говорах шёшкупов и чумылькупов
http://www.twirpx.com/file/1971244/ учебник диалекта шёшкуп
http://www.twirpx.com/file/2011025/ Шё̄шӄуй букварь
http://www.twirpx.com/file/1735137/ словарь кетского диалекта
ну и ещё на том сайте можно найти

Кратко о языке (в дальнейшем всё опишу подробнее):
Обычный порядок слов SOV. Агглютинация (самодийский же). Глагол имеет субъектное и объектное спряжение. Парадигма существительных - 11-15 падежей в зависимости от локального говора. Есть (по кр.мере были) аналитические конструкции. В фонологии: есть долгие гласные (смыслоразличительная функция слабая), главная фишка консонантизма - звонкая аффриката /дж/ /җ/. Количество алфавитов языка равно количеству изданий на нём. Состояние сохранности - плохое, но на данный момент есть ~3 языковых активиста.
Ну и для начала: текст с построчным переводом и глоссированием из ТГПУ: http://siblang.tspu.ru/project09/RUSS/Selkup.htm

P.S. Это первый пост в самодийском разделе в этом году и первая самодийская тема за год, с чем всех и поздравляю!
Ты остяк, а значит, взгляд упрямый.

Teodor

Цитироватьтекст с построчным переводом и глоссированием из ТГПУ: http://siblang.tspu.ru/project09/RUSS/Selkup.htm
Тексты (по ссылке) очень хорошо проработаны - есть частеречная разметка (POS) селькупского оригинала и параллельный перевод, при этом 416 словоупотреблений, но написано, что можно запросить полный текст. Что, если попробовать импортировать эти тексты в какую-нибудь электронную корпусную систему, например, в ANNIS http://corpus-tools.org/annis/.
Если имеется параллельный перевод, это позволит объективно изучить количество употреблений слов по разной тематике, перевод разнообразных конструкций. Также можно будет оценивать, в каких тематических/грамматических областях недостаёт нужной информации, запрашивать её (анкетами, почтой) и добавлять в корпус.

Krasimir

Цитата: Krasimir от октября 31, 2016, 08:58
В Молчановском районе (на нижнем Чулыме) у селькупов сохраняется самоназвание, тогда как местный говор вымер 50 лет назад.
:fp: конечно же, самосознание. Чумуль ӄуланан онҗ нэп ӄадӭ сомбласару пот кве̄ссэ, най шэ̄дыт. Самоназвание чулымских селькупов тюйкум вымерло 50 лет назад вместе с языком, а вот самосознание (мы - остяки, селькупы) и отд. элементы культуры (орудия, приметы) сохраняются. Селькупы вроде остались и в Бакчарском районе (глухие лесо-болотные места в верховьях неэтимологизированных левых притоков Оби), только там никакой общественной активности нет.
Районы в википедии:
(wiki/ru) Каргасокский_район
(wiki/ru) Верхнекетский_район
(wiki/ru) Парабельский_район
(wiki/ru) Колпашевский_район
(wiki/ru) Молчановский_район
(wiki/ru) Бакчарский_район
Ты остяк, а значит, взгляд упрямый.

Nevik Xukxo


Krasimir

Цитата: Teodor от октября 31, 2016, 19:30Что, если попробовать импортировать эти тексты в какую-нибудь электронную корпусную систему
Сейчас я обдумываю похожий проект: неким способом собрать все ныне существующие словари и разговорники (с 19 в. до позднейших изысканий) в сводную таблицу, где каждое слово/выражение будет сцеплено со своим переводом и словарными пометами. В итоге предполагаю открыть сайт, подобный этому: http://www.speech.nw.ru/NenNgan/Dictionary/dictionary.html
где будет поле ввода, и по запросу будут показываться все возможные переводы. Проблемы здесь такие:

1. Нечёткость распознавания: ю̈̄ӭӧӱӓи̇ӭ̄ӧ̄ӱ̄ӓ̄и̇̄э̄о̄ӯа̄ӣе̄ё̄ю̄я̄ы̄ӄӈӷҗҙю̈ә Ю̈̄ӬӦӰӒИ̇Ӭ̄Ӧ̄Ӱ̄Ӓ̄И̇̄Э̄О̄ӮА̄ӢЕ̄Ё̄Ю̄Я̄Ы̄ӃӇӶҖҘЮ̈ - и что прикажете мне с этим делать?
2. Сколько изданий - столько и алфавитов. Там, где надо, как-то заменить дж на җ, ҙ на дз, ә на ӭ и т.п., чтобы унифицировать письменность.
3. отделить перевод от словарных помет и примеров употребления, чтобы на "пайдугу" находилось "вилять (хвостом)" и ничего лишнего.
4. поставить на каждый перевод помету, из какого словаря/разговорника/пособия взято
5. собственно написать такой код для сайта
Для создания такого сводного словаря в табличном и поисковом виде придётся закопаться в книжки по программированию, но я доведу эту идею до ума.

Цитата: Teodor от октября 31, 2016, 19:30
Цитироватьтекст с построчным переводом и глоссированием из ТГПУ: http://siblang.tspu.ru/project09/RUSS/Selkup.htm
Тексты (по ссылке) очень хорошо проработаны - есть частеречная разметка (POS) селькупского оригинала и параллельный перевод, при этом 416 словоупотреблений, но написано, что можно запросить полный текст. Что, если попробовать импортировать эти тексты в какую-нибудь электронную корпусную систему, например, в ANNIS http://corpus-tools.org/annis/.
Если имеется параллельный перевод, это позволит объективно изучить количество употреблений слов по разной тематике, перевод разнообразных конструкций.
Мысль хорошая, тоже пригодится в деле возрождения языка :eat: По сути, принцип создания сводного корпуса и его возможности схожи со сводным глоссарием. Как можно убедиться, на сайте ТГПУ есть только 1 южноселькупский текст, и тот неполный. Онлайн тексты есть ещё здесь:
http://www.twirpx.com/file/1084188/ Быконя В.В. Сказки нарымских селькупов: книга для чтения на селькупском языке с переводом на русский язык
И здесь:
http://www.twirpx.com/file/2011025/ Быконя В.В., Ким А.А., Купер Ш.Ц. Шё̄шӄуй букварь для 1-го класса селькупских школ
Но с букварём есть одна загвоздка: тексты-те в нём есть, но без перевода. Есть ещё брошюра Быкони В.В. с методическими указаниями с построчным переводом каждого текста, вот где жемчуг! На неделе всенепременно возьму эту книгу в томской библиотеке и выложу на твирпкс.

Цитата: Teodor от октября 31, 2016, 19:30
Также можно будет оценивать, в каких тематических/грамматических областях недостаёт нужной информации, запрашивать её (анкетами, почтой) и добавлять в корпус.
С "запрашивать" интересная ситуация сложилась, но об этом как-нибудь потом, надо собраться с мыслями  :)
Ты остяк, а значит, взгляд упрямый.

Krasimir

Цитата: Nevik Xukxo от ноября  1, 2016, 09:30
Селькупский язык как группа языков? :)
Обращаюсь ко всем: лучше не читайте статью в википедии о селькупском языке. Не воспринимайте за 100% истину хотя бы.
Единый селькупский язык распался лет 400 назад, когда козаченьки вместе с сургутскими хантами в авангарде после многих неудачных попыток разогнали местный территориально-родовой союз, вследствие чего все жители Таёжного Приобья были объясачены и чуть ли не половина селькупов ушла на север, в совр. ЯНАО, верховья Таза и Пура, места настолько глухие, что русская власть там окончательно закрепилась только к 1930-м годам, ещё небольшая группа осела на Турухане и Елогуе. Так и не стало ни языковой, ни территориальной общности селькупов. Больше они никогда не контактировали, языки разошлись далеко, северноселькупский и южноселькупский невзаимопонятны вообще, что-то распознать можно только в записанных текстах, а на слух вообще никак. Поэтому, когда вам начинают рассказывать о селькупском языке, первый вопрос: о каком? Если обо всех сразу, то вам загоняют сравнительный анализ. Даже в современном южноселькупском тьма диалектов и говоров, а 500 лет назад, пока не подпёрли тюрки с юга, существовали ещё 2 больших наречия (континуума говоров), от которых сейчас осталось маленько топонимов и всё!
Ты остяк, а значит, взгляд упрямый.

Bhudh

Цитата: Krasimir от ноября  1, 2016, 09:46Там, где надо, как-то заменить дж на җ, ҙ на дз
И получится хрен редьки не слаще? :what: Тут лучше делать выбор для читателя: делать текст с диграфами или с диакритиками. А в базе хранить архиграфемы.
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Krasimir

Цитата: Bhudh от ноября  1, 2016, 10:01
Цитата: Krasimir от ноября  1, 2016, 09:46Там, где надо, как-то заменить дж на җ, ҙ на дз
И получится хрен редьки не слаще? :what: Тут лучше делать выбор для читателя: делать текст с диграфами или с диакритиками. А в базе хранить архиграфемы.
1. Просто җ хотя бы известна селькупам и они её хоть иногда употребляют на письме, тогда как ҙ встречается в одном словаре и для самих селькупов едва ли понятна.
2. Сама аффриката Җ ну очень частотна в языке, Ҙ, напротив, очень редка.
3. Выбор для читателя дж/җ и т.п.  - мысль хорошая, но это ещё один технический наворот, дай бог с этим всем разобраться  :eat:
Ты остяк, а значит, взгляд упрямый.

Цитатель

Цитата: Krasimir от ноября  1, 2016, 09:46
Как можно убедиться, на сайте ТГПУ есть только 1 южноселькупский текст, и тот неполный. Онлайн тексты есть ещё здесь:

вот тут файл с полными текстами

https://www.academia.edu/3473592/Editor_Russian-English_Annotated_Folk_Texts_of_Ob-Yenissei_Area._2010._V-1._Отв.редактор_Аннотированные_фольклорные_тексты_обско-енисейского_языкового_ареала._2010._Том-1

на южноселькупском там полсотни страниц аннотированных текстов.

там же еще три тома текстов, в каждом на селькупские тексты по несколько десятков страниц отведено

https://www.academia.edu/3473582/Editor_Russian-English_Annotated_Folk_Texts_of_Ob-Yenissei_Area._Tomsk._2012._V-2._Отв.редактор_Аннотированные_фольклорные_тексты_обско-енисейского_языкового_ареала._Томск._2012._Том-2
https://www.academia.edu/8572404/Editor_Russian-English_Annotated_Folk_Texts_of_Ob-Yenissei_Area._2013._V-3._Отв.редактор_Аннотированные_фольклорные_тексты_обско-енисейского_языкового_ареала._2013._Том-3
https://www.academia.edu/19866593/Editor_Russian-English_Annotated_Folk_Texts_of_Ob-Yenissei_Area._2015._V-4._Отв.редактор_Аннотированные_фольклорные_тексты_обско-енисейского_языкового_ареала._2015._Том-4

Krasimir

Цитатель, спасибо огромное за такую наводку!  := Есть теперь, над чем поработать! К тому же теперь ясно какой объём южноселькупских текстов из тех 80 томов обработан и оцифрован. В первом томе целиком приводится Пе̄ге кут таремба и сказка Нення ай темня, что-то подобное опубликовано в "сказках нарымских селькупов".
Ты остяк, а значит, взгляд упрямый.

Krasimir

Перезалил 4 тома аннотированных текстов обско-енисейского языкового ареала на твирпѯ:
http://www.twirpx.com/file/2073179/ - том 1
http://www.twirpx.com/file/2073199/ - том 2
http://www.twirpx.com/file/2073198/ - том 3
http://www.twirpx.com/file/2073200/ - том 4

По прежнему не могу нарадоваться такой находке!  ;up:
Ты остяк, а значит, взгляд упрямый.

Teodor

ЦитироватьДля создания такого сводного словаря в табличном и поисковом виде придётся закопаться в книжки по программированию, но я доведу эту идею до ума.
Я уже имею опыт создания таких словарей/корпусов, обработки данных и пр., так что с радостью готов помочь :yes:. Ещё в моём распоряжении имеется сервер, на котором можно разместить проект (кроме ANNIS есть ещё много разных платформ, лучше использовать их, чем писать с нуля, т. к. там уже есть отработанные технологии поиска (AQL в ANNIS'е, например), которые были часто темами научных работ).
Аннотированные тома - шедевр! Они представлены в символьном PDF, и это очень хорошо, т. к. могут быть быстро обработаны.

rlode

А южноселькупский сейчас хоть немного жив? Я когда-то интересовался вопросом и у меня сложилось впечатление, что из селькупских живой (и то еле-еле) только северный (тазовский)

lammik

В вышедшем в 97-ом году сборнике статья о южных селькупах называлась не иначе как "В сибирской тайге умирает народ".

ЦитироватьПри этом существуют кардинальные различия языковой ситуации
между двумя крупными и практически полностью изолированными друг
от друга группами селькупов, которые не осознают своего этнического
единства - северной (тазовско-енисейской) и южной (тымско-нарымско-
кетско-обской) (Казакевич 1996: 208; Кузнецова, Болсуновская 1996:
262-263). Если у северных селькупов 77% населения признают селькупский
язык родным, то у южных - лишь 11%. На юге сфера употребления
селькупского языка катастрофически сужается, в семье по-селькупски
говорят между собой только представители старшего поколения, молодежь
языка не знает, дети учат его в школе как иностранный. На севере
селькупский язык функционирует в семье и в традиционной производственной
деятельности

Это цитата из статьми Н.Б. Вахтина о языковом сдвиге у КМНС.


Krasimir

Южноселькупский язык однозначно жив, и как минимум 3 человека знают его на таком уровне, чтобы свободно говорить и переводить. С одним таким известным носителем (Наталья Платоновна Иженбина) из Колпашевского района я разговаривал лично 3 раза в этом году. Носительница-та свободно переключается с русского языка на южноселькупский, переводит на ЮС целые тексты и отдельные слова - запросто, вот, н-р, её текст: https://www.youtube.com/watch?v=mV6fD8td_Uo. Ещё есть 2 языковых активиста в Парабельском районе, см., н-р, здесь (Ирина Петровна Коробейникова): https://www.youtube.com/watch?v=0rVmavn7TPs
Откуда взялась цифра в 40-80 носителей в стартовом топике: на основании разных, иногда с противоречивыми данными, научных статей, на основании собственных изысканий и по ощущениям самих южных селькупов (а как вы думаете, сколько человек во всех районах на разных уровнях знают язык?)
Ну и не могу не расказать такую историю. Один мой знакомый летом 2015 года был на археологических раскопках в деревне Рыбинск в среднем течении Кети. По его словам, в этой деревне живёт дедушка, который вовсю говорит на "кетском" языке, и знакомый лично слышал эту речь и она была вполне обычной. Но как узнать у нелингвиста, что язык такой "кетский"? Спросил: встречался ли в его речи звук /дж/ ? Ответ - да. Кетско-русский словарь диалекта средней Кети. Это словарь настоящего кетского языка, пошиба как раз со средней Кети, и в этом словаре я не обнаружил ни одного буквосочетания дж, ну а эта аффриката - лакмусовая бумажка южноселькупского, её любят во всех говорах, даже в тех, что уже вымерли давно. Так что - то был классный носитель кетского селькупского диалекта. Также в Катайге (верховья Кети) вроде есть 2 носителя. Не пугайтесь описанных в этой статье "ужасов", её авторы были даже не во всех посёлках по Кети и Тыму, а на Обь и левобережье и заходить не думали, хотя там ЮС язык как раз лучше сохранился (разговаривал в этом году с одним из её авторов).
Ну и в Туруханском районе местные селькупские говоры кое-как сохраняются (см. где-то здесь), а ещё 10 лет назад там фиксировались случаи русско-селькупско-какого-то трёхъязычия, а это вообще отголосок древности! У северных селькупов вообще вроде всё очень хорошо с языком, где-то читал, что в ЯНАО есть дети, для которых русский неродной, а родной селькупский, и в школу они приходят с минимальными знаниями РЯ после позднего наущения от родителей.
Ты остяк, а значит, взгляд упрямый.

Krasimir

Цитата: Teodor от ноября  1, 2016, 19:32
Я уже имею опыт создания таких словарей/корпусов, обработки данных и пр., так что с радостью готов помочь :yes:. Ещё в моём распоряжении имеется сервер, на котором можно разместить проект (кроме ANNIS есть ещё много разных платформ, лучше использовать их, чем писать с нуля, т. к. там уже есть отработанные технологии поиска (AQL в ANNIS'е, например), которые были часто темами научных работ).
Аннотированные тома - шедевр! Они представлены в символьном PDF, и это очень хорошо, т. к. могут быть быстро обработаны.
Конечно же, предложение принимается!  :UU:
Однако проблема нечёткого распознавания является главным препятствием на пути к созданию сводного корпуса и словаря. Не вычитывать же тысячи слов, я вон сегодня ма-ахонькую брошюрку вычитывать подутомился... С чего же начнём?

Также в недалёком будущем думаю поднять все материалы по саянским самодийским, и ко всем зафиксированным словам подобрать южноселькупские переводы и создать такой же электронный сводный словарь. Можно будет выявить преинтересные параллели. Это не должно быть технически сложно.
[offtop]
Ну и совсем уж потом на весь обь-енисейский ареал можно замахнуться со всеми словарями  ::) [/offtop]

Пусь кажна танэнҗат оӷолалҗэшпыгу шё̄шӄуй ай сӱсекой шэндлап, штоб табын сва̄к э̄за!
Сӱсекоп - так называли шёшкупы (колпашевские) всех остальных селькупов.
Ты остяк, а значит, взгляд упрямый.

Teodor

Цитата: Krasimir от ноября  2, 2016, 18:24С чего же начнём?
Сейчас для начала автоматически обработал несколько предложений из первого тома, через скрипт перевёл в JSON-формат.
Лемматизацию и определение форм делаю через словарь Зализняка и/или Викисловарь. Результаты авто-обработки первого предложения в картинках прилагаются.
В принципе, отладив возможные баги, можно перевести в такой вид все четыре тома. Причём это может быть сделано за 3-4 дня.
ЦитироватьОднако проблема нечёткого распознавания является главным препятствием на пути к созданию сводного корпуса и словаря.
Что касается имеющихся томов, то тут это, мне кажется, вовсе не проблема. Т. к. PDF текстовый, можно просто считать текст из PDF-клиента и загрузить в скрипт (в данном случае, в мой самописный  :)). Единственная проблема - универсализация символов, если мы хотим слить множество данных из разных источников + реализовать удобный поиск. Но тут тоже нет особенно сложных задач, главное - определить эталонные символы и разнообразные их представления в других текстах. Всё кодируется юникодом, так что заменить всё можно за пару минут. Что касается интерфейса пользователя во время поиска, то тут можно применить ту же замену в строке запроса, либо сразу предлагать воспользоваться эталонными символами.


Описание скринов:

  • Общий графический вид полученного дерева
  • Результат поиска по запросу "жить"
  • Исходный JSON-код

Krasimir

Быконя В.В. В помощь учителю селькупского языка для работы по букварю (Шёшӄуй букварь). Методические указания
Методические указания содержат построчный перевод шёшкупского букваря (Шё̄шӄуй букварь) и рекомендации по его практическому применению в учебном процессе. Предназначены учителям селькупского языка в школах с преподаванием родного языка. Как букварь, так и настоящая методичка ценны исключительно как лингвистический материал (тексты на языке и построчный перевод соотв.), т.к. преподавание по шё̄шӄуй букварю в 1-ых классах не ведётся.

Очень интересное издание, методичка к самому букварю от автора, и самое главное: построчные переводы всех текстов. Когда занимался с букварём, то не все слова и конструкции смог перевести даже с несколькими словарями, такой вот разброс. Тираж 150, вчера взял в библиотеке и отсканировал. Также пригодится для электронных корпусов.

Сва̄ нагӭр. Хорошая книга/грамота.
Ты остяк, а значит, взгляд упрямый.

Krasimir

Подсобрал все материалы, которые войдут в сводный словарь.
Словари:
1. СРДС. Селькупско-русский диалектный словарь под ред. проф. Быкони В.В. Самый полный словарь южноселькупских диалектов и диалектов Турухана и Елогуя. СРДС - как БКРЯ для китаистов, его невозможно обойти стороной. Но даже в нём нет множества тонкостей, лексем. Диалектный разброс огромен, в каждой деревне свой говор.

2. Алатало Я. Сӱ̄ссыӷӯй э̄җипсан. Қэ̄тқый қӯланни. Селькупский словарь. Кетский диалект.
3. Быконя В.В., Ким А.А., Купер Ш.Ц. Словарь селькупско-русский и русско-селькупский. Совсем небольшой словарь, но в нём есть некоторые моменты, которых нет в СРДС. Предположительно, писался для нужд шёшкупского образования (вышел также букварь, методичка к нему, учебное пособие по языку, книга для чтения).
4. Alatalo Jarmo. Sölkupisches Wörterbuch. Южноселькупско-немецкий словарь.

Разговорники:
5. Быконя В.В. Шарватпленд шёшӄуй шэндсэ! Говори по шёшкупски (русско-селькупский разговорник) с грамматикой
6. Купер Ш., Пустаи Я. Селькупский разговорник (нарымский диалект)
7.-10. Вышеуказанные тома размеченных текстов.
Завтра напишу "стародавние" словари.
Ты остяк, а значит, взгляд упрямый.

Krasimir

Унификация символов:

ә - ӭ, ӭ̄ (соотв.)
ю̈ - ӱ
i - и̇, и̇̄
ҙ - дз
қ - ӄ
ң - ӈ
ӌ, ҷ - ч
дж - җ
По прежнему сомневаюсь в букве җ. Среди самих селькупов она слабо распространена, но звук-аффриката архичастая. Я б ввёл җ.


Начинаю разбираться с корпусами текстов (пока что был занят). Допустим, у меня есть таблица на 200 пар словоформ в ту и другую сторону в форматах docx и xlsx. Как залить такую таблицу в ANNIS или куда-л. ещё?
Ты остяк, а значит, взгляд упрямый.

Krasimir

Цитата: Teodor от ноября  2, 2016, 19:56
Описание скринов:
По-моему, несть хорошо, когда на запрос жить выдаётся форма 3 л. ед. ч. Сколько таких форм будет выдаваться в реальном сводном словаре? Варкымбалыт, варка, варкай... В готовом словаре ведь должна быть привязка к лемме, хотя примеры тоже выкидывать не надо (как в СРДС и Сӱ̄ссыӷӯй э̄җипсан. Қэ̄тқый қӯланни). Ну и такой вопрос: как создать таблицу из pdf? Просто всё перегонять в excel?

P.S. Вот как распарсен СРДС:
Ты остяк, а значит, взгляд упрямый.


Teodor

Цитата: Krasimir от ноября  4, 2016, 17:50
Допустим, у меня есть таблица на 200 пар словоформ в ту и другую сторону в форматах docx и xlsx. Как залить такую таблицу в ANNIS или куда-л. ещё?
Собственно, пары словоформ требуются для создания словаря (электронного). А ANNIS - платформа для создания корпусов, он, скорее, даёт возможность анализа частотности, грамматики и пр. Обычно онлайн-словари как платформа создаются индивидуально, я бы взялся за это дело, т.к. могу, в принципе, уложиться в 1-2 недели, и будет готов сайт с доменом и т.д.
Если есть таблица xls, её можно перевести в базу данных SQL, например, а затем сделать интерфейс поиска. То есть сейчас можно нам заняться составлением таких xls, я их соберу и залью.
ЦитироватьНу и такой вопрос: как создать таблицу из pdf? Просто всё перегонять в excel?
Лучше, думаю, начать с тех, которые можно получить в текстовом виде, выделив (т. е. не картинка, а текст), это при помощи регулярных выражений можно обработать и представить в нужном виде (JSON, XLS etc.), но тут для каждого случая пишется индивидуальный скрипт. Если в текстовом виде получить нельзя, нужно использовать FineReader или что-то в этом роде. Но пока, как вижу, у нас ещё есть вещи, которые есть "в тексте". Сейчас поискал в гугле "конвертировать pdf в xls", не очень понимаю, о чем речь, но пока не разобрался.
ЦитироватьПо-моему, несть хорошо, когда на запрос жить выдаётся форма 3 л. ед. ч.
На самом деле, не выдаётся не словоформа. Это просто один из параметров под именем token. А lemma - вполне нормальный инфинитив. Дальше из селькупского analysis, наверное, надо отделить mb-a и установить инфинитивный суффикс, в таком виде будет пара (я прав?)
Если я что-то недостаточно подробно объяснил или ещё есть какие-то вопросы, прошу задавать :) А то я засыпаю

Krasimir

Переводить pdf в xlsx умеет FineReader, только получается всякое не то (см. вложение)

Цитата: Teodor от ноября  4, 2016, 21:46из селькупского analysis, наверное, надо отделить mb-a и установить инфинитивный суффикс, в таком виде будет пара (я прав?)
Не совсем. -мб (основы на гласный), (основы на звонкий согласный), -п (основы на глухой согласный) - это суффиксы результативного прошедшего времени, т.е. такого, последствия которого актуальны для настоящего. Но эти суффиксы бывают не только в парадигме, но и в инфинитве тоже: апстыгу - накормить, апстымбугу, апстӭбугу - кормить, прокормить(ся). Также этот суффикс может и не менять семантику глагола: кодалҗугу ~ кодалҗэ(ы)мбыгу - застегнуть, закрыть на крючок, быть застёгнутым. Ну и наконец, перед показателем инфинитива -гу ~ -ку в случаях вроде варкугу может стоять ы, у, ӭ, э, они же с макроном. И если в отдельных словах словари указывают 1 вариант гласной, то в других глаголах может стоять любая из 3-4 вышеперечисленных. Не забываем, что на 5 деревень приходится 2 говора (шутка) ;up:
Ты остяк, а значит, взгляд упрямый.

Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр