Главное меню
Мы солидарны с Украиной. Узнайте здесь, как можно поддержать Украину.

Турецкий

Автор wanad, июня 11, 2004, 01:34

0 Пользователи и 2 гостей просматривают эту тему.

Rachtyrgin

Решил создать список татарских стоп-слов в духе NLTK. За основу взял из NLTK список турецких стоп-слов. Вот он: aslında, çok, en, ve, niye, diye, nerde, az, birşey, nereye, hep, her, acaba, siz, ne, bazı, biri, daha, çünkü, hem, mı, eğer, hepsi, şey, şu, sanki, ya, tüm, de, niçin, gibi, bu, defa, biz, kez, kim, da, belki, veya, ile, nerede, ama, ki, için, o, mu,
neden, hiç, birkaç, mü, yani, ise, nasıl.
К сожалению, я не владею турецким, и у меня возникла проблема со словом birşey. Лингво такого слова не знает. Может в NLTK ошибка, и подразумевалось  bir şey? Просветите неуча, пожалуйста...
Всякому остановленному фашисту для захвата его в плен можешь еще крикнуть:
«Хэндэ хох!» (Руки вверх!)
«Вафи хинлеги!» (Бросай оружие!)
«Абгезэсен!» (Слезай! — С машины, с лошади, с повозки.)
Если фашист не сразу исполняет твое приказание, крикни грознее и добавь:
«Бай флухтфэрзух вирт гэшози!» (Побежишь — буду стрелять!)
А. Афанасьев. В помощь партизану. Москва, 1942 г.

Darkstar

bir şey - что-нибудь, одна вещь

Что такое NLTK?
(1) С людями надо помягше, а на вопросы смотреть поширше (с) (2) Проекция (в психологии) - неосознанное приписывание собеседнику собственных мыслей и действий (3) Учебник логики еще никто не отменял (4) Какой был тезис?

Rachtyrgin

bir şey мне как раз понятно. NLTK (Natural Language Toolkit) - мощный лингвистический инструмент, написанный на питоне. Я хочу расширить его функциональность для работы с татарскими текстами.
Всякому остановленному фашисту для захвата его в плен можешь еще крикнуть:
«Хэндэ хох!» (Руки вверх!)
«Вафи хинлеги!» (Бросай оружие!)
«Абгезэсен!» (Слезай! — С машины, с лошади, с повозки.)
Если фашист не сразу исполняет твое приказание, крикни грознее и добавь:
«Бай флухтфэрзух вирт гэшози!» (Побежишь — буду стрелять!)
А. Афанасьев. В помощь партизану. Москва, 1942 г.

Sagit

Цитата: Rachtyrgin от декабря  3, 2011, 11:51
Решил создать список татарских стоп-слов в духе NLTK. За основу взял из NLTK список турецких стоп-слов. Вот он: aslında, çok, en, ve, niye, diye, nerde, az, birşey, nereye, hep, her, acaba, siz, ne, bazı, biri, daha, çünkü, hem, mı, eğer, hepsi, şey, şu, sanki, ya, tüm, de, niçin, gibi, bu, defa, biz, kez, kim, da, belki, veya, ile, nerede, ama, ki, için, o, mu,
neden, hiç, birkaç, mü, yani, ise, nasıl.
К сожалению, я не владею турецким, и у меня возникла проблема со словом birşey. Лингво такого слова не знает. Может в NLTK ошибка, и подразумевалось  bir şey? Просветите неуча, пожалуйста...

турки могут написать и bişey

Rachtyrgin

Цитата: Sagit от декабря  3, 2011, 13:59
турки могут написать и bişey

Допустим. И что это означает? Мне ведь надо найти татарский эквивалент. Кстати, Лингво вот мне что выдал:
на первый взгляд ничто не изменилось — ilk bakışta değişen birşey yok
Всякому остановленному фашисту для захвата его в плен можешь еще крикнуть:
«Хэндэ хох!» (Руки вверх!)
«Вафи хинлеги!» (Бросай оружие!)
«Абгезэсен!» (Слезай! — С машины, с лошади, с повозки.)
Если фашист не сразу исполняет твое приказание, крикни грознее и добавь:
«Бай флухтфэрзух вирт гэшози!» (Побежишь — буду стрелять!)
А. Афанасьев. В помощь партизану. Москва, 1942 г.

Darkstar

хич бир шей -- "вообще одна вещь" = ничего
хич биршей йок, хич биршей анламадым, хич биршей гёрмедим

Просто турки те слова, которые произносят разделно, пишут вместе, а те, которые произносят вместе, пишут раздельно. Русские, кстати, тоже (пример: отрицание перед глаголами, предлоги и т.д.)

" NLTK (Natural Language Toolkit) - мощный лингвистический инструмент, написанный на питоне"

А что он умеет делать?
(1) С людями надо помягше, а на вопросы смотреть поширше (с) (2) Проекция (в психологии) - неосознанное приписывание собеседнику собственных мыслей и действий (3) Учебник логики еще никто не отменял (4) Какой был тезис?

Rachtyrgin

Цитата: Darkstar от декабря  3, 2011, 14:50
А что он умеет делать?

Вкратце - вот здесь: (wiki/ru) Natural_Language_Toolkit
Если всю функциональность описывать, дня не хватит. В принципе, я бы мог, конечно, но тогда надо отдельную тему заводить... Вам спасибо за разъяснения. Буду ориентироваться на то, что birşey - это "ничто".
Всякому остановленному фашисту для захвата его в плен можешь еще крикнуть:
«Хэндэ хох!» (Руки вверх!)
«Вафи хинлеги!» (Бросай оружие!)
«Абгезэсен!» (Слезай! — С машины, с лошади, с повозки.)
Если фашист не сразу исполняет твое приказание, крикни грознее и добавь:
«Бай флухтфэрзух вирт гэшози!» (Побежишь — буду стрелять!)
А. Афанасьев. В помощь партизану. Москва, 1942 г.

Rachtyrgin

Нашел сайтик, где имеется удобная демонстрация некоторых базовых функций NLTK: http://text-processing.com/
Всякому остановленному фашисту для захвата его в плен можешь еще крикнуть:
«Хэндэ хох!» (Руки вверх!)
«Вафи хинлеги!» (Бросай оружие!)
«Абгезэсен!» (Слезай! — С машины, с лошади, с повозки.)
Если фашист не сразу исполняет твое приказание, крикни грознее и добавь:
«Бай флухтфэрзух вирт гэшози!» (Побежишь — буду стрелять!)
А. Афанасьев. В помощь партизану. Москва, 1942 г.

Darkstar

Вики статью я уже успел прочитать, мне это почти ничего не говорит. Просто что вы собирались делать со всеми этим...
(1) С людями надо помягше, а на вопросы смотреть поширше (с) (2) Проекция (в психологии) - неосознанное приписывание собеседнику собственных мыслей и действий (3) Учебник логики еще никто не отменял (4) Какой был тезис?

Darkstar

бир-шей - это "что-то, что-нибудь", но часто употребляется с отрицанием как англ. anything. А что в татарском нет такого?

биршей вар (что-то есть)
биршей япмак истиорум (хочу что-то сделать)

Пишется в инете по-разному на самом деле и слитно и раздельно, но чаще слитно.
(1) С людями надо помягше, а на вопросы смотреть поширше (с) (2) Проекция (в психологии) - неосознанное приписывание собеседнику собственных мыслей и действий (3) Учебник логики еще никто не отменял (4) Какой был тезис?

Rachtyrgin

Ну, у меня такое хобби - пишу на яве татарско-русский, русско-татарский словарь. Но просто словарь - это не очень интересно. Хочется прикрутить к нему дополнительную функциональность. Типа конкорданса, коллокации, стемминга, лемматизации и прочего в таком же духе. Сделать его исследовательским инструментом для татарского языка. Вот и приглядываюсь к NLTK, где все это уже реализовано. Правда, не для татарского. Единственный тюркский в NLTK - это турецкий.

По-татарски берәр нәрсә что-нибудь, бернәрсә ничто, ничего. Так что конструкция сходная.
Всякому остановленному фашисту для захвата его в плен можешь еще крикнуть:
«Хэндэ хох!» (Руки вверх!)
«Вафи хинлеги!» (Бросай оружие!)
«Абгезэсен!» (Слезай! — С машины, с лошади, с повозки.)
Если фашист не сразу исполняет твое приказание, крикни грознее и добавь:
«Бай флухтфэрзух вирт гэшози!» (Побежишь — буду стрелять!)
А. Афанасьев. В помощь партизану. Москва, 1942 г.

Darkstar

"Типа конкорданса, коллокации, стемминга, лемматизации"

Что такое лемматизация?

"Вот и приглядываюсь к NLTK, где все это уже реализовано"

Я все-таки не понимаю, что он делает или должен делать пратически. Типа анализирует морфологию запроса, как яндекс что-ли...
(1) С людями надо помягше, а на вопросы смотреть поширше (с) (2) Проекция (в психологии) - неосознанное приписывание собеседнику собственных мыслей и действий (3) Учебник логики еще никто не отменял (4) Какой был тезис?

Rachtyrgin

Вы правы, речь идет именно о морфологии. Стемминг приходит к корню слова через отбрасывание известных программе аффиксов. Лемматизация дополнительно проверяет, имеется ли результирующее слово в словаре программы.
Всякому остановленному фашисту для захвата его в плен можешь еще крикнуть:
«Хэндэ хох!» (Руки вверх!)
«Вафи хинлеги!» (Бросай оружие!)
«Абгезэсен!» (Слезай! — С машины, с лошади, с повозки.)
Если фашист не сразу исполняет твое приказание, крикни грознее и добавь:
«Бай флухтфэрзух вирт гэшози!» (Побежишь — буду стрелять!)
А. Афанасьев. В помощь партизану. Москва, 1942 г.

Karakurt

Я в убунте установил, но не могу найти. Как запустить?

Darkstar

(1) С людями надо помягше, а на вопросы смотреть поширше (с) (2) Проекция (в психологии) - неосознанное приписывание собеседнику собственных мыслей и действий (3) Учебник логики еще никто не отменял (4) Какой был тезис?

Rachtyrgin

У меня Windows 7, питон 2.6. Здесь это выглядит так: запускаем питоновское IDLE, в IDLE набираем следующее:

>>> import nltk
>>> //nltk.download()

После этого выскакивает окошко, которое показывает загрузку трех разделов: all, all-corpora, books. Минут за 15 загрузится.
Может, в убунте питон запускается как-то иначе, но суть не в этом, а в том, чтобы загрузить nltk с сайта.

Да, еще спросит, куда встать. У меня: C:\nltk_data.
Всякому остановленному фашисту для захвата его в плен можешь еще крикнуть:
«Хэндэ хох!» (Руки вверх!)
«Вафи хинлеги!» (Бросай оружие!)
«Абгезэсен!» (Слезай! — С машины, с лошади, с повозки.)
Если фашист не сразу исполняет твое приказание, крикни грознее и добавь:
«Бай флухтфэрзух вирт гэшози!» (Побежишь — буду стрелять!)
А. Афанасьев. В помощь партизану. Москва, 1942 г.

Darkstar

Так там встроенный турецкий словарь или только анализатор морфологии?
(1) С людями надо помягше, а на вопросы смотреть поширше (с) (2) Проекция (в психологии) - неосознанное приписывание собеседнику собственных мыслей и действий (3) Учебник логики еще никто не отменял (4) Какой был тезис?

Karakurt

Спасибо, получается. Какие пакеты грузить? Все это сколько трафика? Грузанул стопслова и сводеш, что дальше?

Rachtyrgin

Всякому остановленному фашисту для захвата его в плен можешь еще крикнуть:
«Хэндэ хох!» (Руки вверх!)
«Вафи хинлеги!» (Бросай оружие!)
«Абгезэсен!» (Слезай! — С машины, с лошади, с повозки.)
Если фашист не сразу исполняет твое приказание, крикни грознее и добавь:
«Бай флухтфэрзух вирт гэшози!» (Побежишь — буду стрелять!)
А. Афанасьев. В помощь партизану. Москва, 1942 г.

Rachtyrgin

Здесь описывается процедура стандартной проверки того, как встала NLTK.
Всякому остановленному фашисту для захвата его в плен можешь еще крикнуть:
«Хэндэ хох!» (Руки вверх!)
«Вафи хинлеги!» (Бросай оружие!)
«Абгезэсен!» (Слезай! — С машины, с лошади, с повозки.)
Если фашист не сразу исполняет твое приказание, крикни грознее и добавь:
«Бай флухтфэрзух вирт гэшози!» (Побежишь — буду стрелять!)
А. Афанасьев. В помощь партизану. Москва, 1942 г.

Rachtyrgin

Цитата: Darkstar от декабря  3, 2011, 17:27
Так там встроенный турецкий словарь или только анализатор морфологии?
Встроенного турецкого словаря там нет, а вот анализаторов морфологии там много. Там имеется список турецких стоп-слов и стоп-слов еще пары десятков языков. Стоп-слова - это служебные слова, междометия и т.п. В общем, неинформативные. Такие списки нужны для поисковых программ. Они не должны их индексировать в целях экономии времени и места. Ваш любимый яндекс, разумеется, пользуется такими списками. Ну, а еще там действительно есть Сводеш, несколько корпусов и много-много всякой вкуснятинки...
Всякому остановленному фашисту для захвата его в плен можешь еще крикнуть:
«Хэндэ хох!» (Руки вверх!)
«Вафи хинлеги!» (Бросай оружие!)
«Абгезэсен!» (Слезай! — С машины, с лошади, с повозки.)
Если фашист не сразу исполняет твое приказание, крикни грознее и добавь:
«Бай флухтфэрзух вирт гэшози!» (Побежишь — буду стрелять!)
А. Афанасьев. В помощь партизану. Москва, 1942 г.

Alessandro

На всякий случай напишу кратко про birşey, а то как-то очень много слов написано...

bir şey (в разговорном произношении bişey)

1. что-то, что-нибудь
orda bir şey var - там что-то есть
bir şey oldu - что-то случилось
bir şey söyle - скажи что-нибудь

2. ничего, ничто
orda bir şey yok - там ничего нет
bir şey olmadı - ничего не случилось
bir şey söyleme - не говори ничего
Спасибо, что дочитали.

Darkstar

"несколько корпусов"

Какие там корпуса? Впрочем, не говорите, наверянка какая-нибудь ерунда по распространенным языкам, надерганная из худлит.
(1) С людями надо помягше, а на вопросы смотреть поширше (с) (2) Проекция (в психологии) - неосознанное приписывание собеседнику собственных мыслей и действий (3) Учебник логики еще никто не отменял (4) Какой был тезис?

Darkstar

"Такие списки нужны для поисковых программ."

Думаете это все созадавалось для разработки поисковиков? Я просто не понимаю, под какие задачи это все делается.
(1) С людями надо помягше, а на вопросы смотреть поширше (с) (2) Проекция (в психологии) - неосознанное приписывание собеседнику собственных мыслей и действий (3) Учебник логики еще никто не отменял (4) Какой был тезис?

Darkstar

Алессандро, объясните лучше народу почему это слово пишется слитно. Я тоже давно заметил, но причин -- ноль.
(1) С людями надо помягше, а на вопросы смотреть поширше (с) (2) Проекция (в психологии) - неосознанное приписывание собеседнику собственных мыслей и действий (3) Учебник логики еще никто не отменял (4) Какой был тезис?

Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр