Как непосвященному при взгляде на текст с большей долей вероятности верно опознать, что текст татарский? Какие есть наиболее часто встречающиеся буквосочетания\служебные слова?
Самое простое - посмотреть на алфавит. И знать что ә - одна из самых распространенных.
Посмотрел. Исключительно все символы есть в других языках. Сам татарский алфавит почти один-в-один бывший туркменский, за исключением одной буквы. Более того, не русские буквы употребляются очень часто в других языках.
Ә - более десятка языков
Җ - минимум 4 языка
Ң - более десятка языков
Ө - 15 языков
Һ - около 10 языков
По глагольным аффиксам -ый/-мый
Цитата: Apostle от сентября 14, 2012, 15:46
Исключительно все символы есть в других языках.
Надо смотреть не только что есть, а и чего нет. Надеюсь ваши тексты не из 1 предложения?
В основной массе, нет. Однако есть алфавиты почти один-в-один, к примеру, туркменский или калмыцкий. Калмыцкий вообще идентичен полностью. От туркменского спасает буква һ.
Насчет суффикса ый - спасибо, хоть по статьям в википедии он и не самый распространенный (не искать же мне книжку с распознанными буквами), но вроде бы в калмыцком не нашел вообще.
Apostle, вы работаете в Яндексе?
Нет, я люблю языки и после того, как увидел табличку (http://s018.radikal.ru/i506/1209/53/1323c4d276b9.jpg), мне захотелось сделать подобную по языкам на основе кириллицы. Часть составил, с частью испытываю проблемы.
Либо вы знаете язык (на каком-то уровне) и узнаёте его, либо зачем он вам нужен?
Тамильский, каннада, телугу, должно быть, дико неудобные на практике алфавиты.
Чтобы отличить от туркменского и калмыцкого, ищите еще часто встречающийся в татарском тексте союз һәм "и".
Цитата: -Dreame- от сентября 14, 2012, 17:21
Тамильский, каннада, телугу, должно быть, дико неудобные на практике алфавиты.
Предположу, что тамилы думают то же про кириллицу.
Цитата: Iskandar от сентября 14, 2012, 17:22
Предположу, что тамилы думают то же про кириллицу.
Не, ну им же писать, наверное, трудно. Плюс сейчас очень важна компьютерная поддержка.
Цитата: -Dreame- от сентября 14, 2012, 17:24
Не, ну им же писать, наверное, трудно.
Ага, а девочкам неудобно пи́сать, наверное.
Цитата: -Dreame- от сентября 14, 2012, 17:24
Плюс сейчас очень важна компьютерная поддержка.
Какие проблемы?
Искандар, ну я думаю, Вы поняли, что я имел в виду. Просто я иногда несколько сумбурно выражаюсь. Есть объективно удобные и практичные виды письменности, а есть не очень. Вы же кхмерский видели? Это ж лютый...
Apostle, ждем вашу таблицу.
Цитата: Iskandar от сентября 14, 2012, 17:18
Либо вы знаете язык (на каком-то уровне) и узнаёте его, либо зачем он вам нужен?
Вы серьезно верите, что человек, составивший таблицу в моем первом посте знал все эти языки? Также для того, чтоб узнать что-то О языке не обязательно учить весь язык.
Цитата: Apostle от сентября 14, 2012, 17:51
Вы серьезно верите, что человек, составивший таблицу в моем первом посте знал все эти языки? Также для того, чтоб узнать что-то О языке не обязательно учить весь язык.
Конечно. Мне очень часто достаточно энциклопедической информации о каком-то языке, а именно: ареал его распространения, число говорящих, строй языка, алфавит и пара слов об истории.
Эта информация - уже знание.
К "редким" отнесены индийские языки с сотней другой миллионов носителей, а иврит, армянский и грузинский - не редкие :)
Например, я хорошо отличаю тамильский от телугу, но могу спутать тамильский с каннада. Просто мне это до сих пор не нужно было отличать, индийские фильмы в основном тамильские и телугу. Как только возникнет необходимость, я почитаю информацию о каннада и буду легко его отличать.
Зачем эти глупые таблицы нужны?
Да это ж УГ из ВК, там всё такое.
Цитата: Karakurt от сентября 14, 2012, 17:47
Apostle, ждем вашу таблицу.
Пока что очень и очень туго с информацией. В оригинальном посте менее 20 разных письменностей, у меня же письменности очень похожи и языков побольше. Надеюсь, смогу найти инфо.
Цитата: Iskandar от сентября 14, 2012, 17:57
К "редким" отнесены индийские языки с сотней другой миллионов носителей, а иврит, армянский и грузинский - не редкие :)
Мне кажется или вы шутите? Шанс обычного русского человека, рыщущего по инету, натолкнуться на китайские иероглифы гораздо выше шанса наткнуться на телугу.
Цитата: -Dreame- от сентября 14, 2012, 18:00
Да это ж УГ из ВК, там всё такое.
:fp: Это Хабрахабр
Цитата: Iskandar от сентября 14, 2012, 17:59
Зачем эти глупые таблицы нужны?
Просто так. Почему нет?
Цитата: Apostle от сентября 14, 2012, 18:34
:fp: Это Хабрахабр
Ну а я это в ВК видел. :donno:
Вот оригинальный пост. http://habrahabr.ru/post/147838/
Попробую описать на вскидку несколько заметных различий между татарским и туркменским.
ТТ ~ ТК
һәр ~ хер 'каждый'
һәм ~ хем 'и'
вә ~ ве 'и'
-ләр ~ -лер, -дә ~ -де (окончания)
өчен ~ үчин 'для'
мин ~ мен, син ~ сен, минем ~ мениң, ул ~ ол, без ~ биз, сез ~ сиз и т. д. (местоимения)
юк ~ ёк 'нет'
В татарском можно встретить: букву һ, буквы ь и ъ (особенно в сочетаниях къ и гъ), сочетание ый, отдельное слово да/дә/та/тә.
В туркменском можно встретить: букву ё, сочетания йә, йи, йы, йү.
Туркменский на латинице.
Цитата: Karakurt от сентября 14, 2012, 18:40
Туркменский на латинице.
До недавнего времени был на кириллице, также многие продолжают ей пользоваться.
Цитата: Iskandar от сентября 14, 2012, 17:57
К "редким" отнесены индийские языки с сотней другой миллионов носителей, а иврит, армянский и грузинский - не редкие :)
Еврит - вообще общемировой язык :)