Главное меню
Мы солидарны с Украиной. Узнайте здесь, как можно поддержать Украину.

Корпус украинского языка

Автор NoOne, августа 30, 2010, 18:15

0 Пользователи и 1 гость просматривают эту тему.

NoOne

Добрый день!
Есть такой корпус http://lcorp.ulif.org.ua/virt_unlc/ но туда никак не войти, компоненты необходимые установлены, запускаю, возникает окно для ввода логина и пароля - как я понимаю.. для того чтоб в данный момент зарегистрироваться. Никакие данные не принимает. Сам корпус расположен здесь http://lcorp.ulif.org.ua/info.htm . Может предполагается предварительная регистрация?.. тогда где?  либо он вообще платный... 
Подскажите.. может кто им пользуется. Спасибо.

Вроде как единственный корпус укр. языка в нете. (?)

NoOne

 :( Прикиньте что ответили: З приводу використання лінгвістичних систем звертайтесь будь ласка до директора Українського мовно-інформаційного фонду НАН України Широкова В.А.:
Київ, пр. 40-ччя Жовтня 3 (приміщення бібл. ім. Вернадського),.. бла...бла...бла..

Живёшь в Украине и геморр такой с украинским корпусом, зато чешским, словацким, польским, двумя!!! словенскими и т.д. пользуешся абсолютно свободно. Где ещё так бывает!?   >(

з.ы. верхних лужичан... онемеченых уже.. там горстка в Германии осталась - ан нет! свой корпус в свободном доступе...

Python

Питання нефахівця: чи можливо створити альтернативний корпус української мови спільними зусиллями вільних розробників? Україномовних текстів, опублікованих у мережі, значно більше, ніж серболужицьких — початковий матеріал вже є. Чи фахівці, спроможні здійснити їх обробку, є виключно в НАНУ?
Пролетареві ніколи вчити європейських мов, бодай би свою знати добре і на ній принести до своєї хати світло знання (Гнат Хоткевич)
ÆC CASALI NAXI PRASQURI: AHOV CÆRU, MERTVÆRI TÆ SLAVUTÆT!
Вони просили його: «Скажи: кетум», а він говорив: «сатем», і не міг вимовити правильно.
Хотелось бы также отметить, что "Питон" - это "мышиный язык" : "пи+тон". © АБР-2

Drundia

Доступу туди нема мабуть тому, що є що ховати.

Альтернативний корпус може й можна зробити, треба лише розібратися як тексти обробляти. Плюс є проблема репрезентативності.

Python

Цитата: Drundia от сентября  1, 2010, 23:44
Доступу туди нема мабуть тому, що є що ховати.
Ховати можна як щось цінне, так і те, що соромно показати людям.

Взагалі, що собою являє корпус з точки зору програміста? Це програма, яка виконує певні функції, база даних, файл чи набір файлів у певному чітко визначеому форматі, щось більш абстрактне? Корпус текстів призначений виключно для користувачів-людей, чи він може підлягати подальшій автоматичній обробці?
Пролетареві ніколи вчити європейських мов, бодай би свою знати добре і на ній принести до своєї хати світло знання (Гнат Хоткевич)
ÆC CASALI NAXI PRASQURI: AHOV CÆRU, MERTVÆRI TÆ SLAVUTÆT!
Вони просили його: «Скажи: кетум», а він говорив: «сатем», і не міг вимовити правильно.
Хотелось бы также отметить, что "Питон" - это "мышиный язык" : "пи+тон". © АБР-2

Drundia

Ховати можна так звані «неіснуючі слова» «невластиві словам значення», та «ніким не вживані правописи».

Корпус із погляду програміста, імовірно, не така й складна річ, для аматорського корпусу проблема у відсутності репрезентативності.

Python

Цитата: Drundia от сентября  2, 2010, 01:54
Ховати можна так звані «неіснуючі слова» «невластиві словам значення», та «ніким не вживані правописи».
Якщо брати за основу тексти, надруковані в радянські роки, то, ймовірно, «ніким не вживані правописи» там і справді будуть рідкістю. Що ж стосується текстів сучасної України, в них можна відшукати що-завгодно — від реінкарнацій старих правописів до автоперекладу з Прагмою.
Пролетареві ніколи вчити європейських мов, бодай би свою знати добре і на ній принести до своєї хати світло знання (Гнат Хоткевич)
ÆC CASALI NAXI PRASQURI: AHOV CÆRU, MERTVÆRI TÆ SLAVUTÆT!
Вони просили його: «Скажи: кетум», а він говорив: «сатем», і не міг вимовити правильно.
Хотелось бы также отметить, что "Питон" - это "мышиный язык" : "пи+тон". © АБР-2

Drundia

Цитата: Python от сентября  2, 2010, 02:19Якщо брати за основу тексти, надруковані в радянські роки, то, ймовірно, «ніким не вживані правописи» там і справді будуть рідкістю. Що ж стосується текстів сучасної України, в них можна відшукати що-завгодно — від реінкарнацій старих правописів до автоперекладу з Прагмою.
Перекладні тексти можуть уникати, бо в них часами бувають дійсно не вживані в мові (поза перекладними текстами) речі.

Python

Цитата: Drundia от сентября  2, 2010, 02:37
Перекладні тексти можуть уникати, бо в них часами бувають дійсно не вживані в мові (поза перекладними текстами) речі.
Чому ж, це така ж частина літературної мови, як і оригінальні українські тексти. А художні тексти взагалі мають певний пласт слів, не вживаних за їх межами. Так само, як і будь-який інший мовний стиль.
Пролетареві ніколи вчити європейських мов, бодай би свою знати добре і на ній принести до своєї хати світло знання (Гнат Хоткевич)
ÆC CASALI NAXI PRASQURI: AHOV CÆRU, MERTVÆRI TÆ SLAVUTÆT!
Вони просили його: «Скажи: кетум», а він говорив: «сатем», і не міг вимовити правильно.
Хотелось бы также отметить, что "Питон" - это "мышиный язык" : "пи+тон". © АБР-2

Python

Крім того, не завжди можна визначити, де переклад, а де оригінал. Скажімо, письменник, що видає свої твори українською мовою, може навіть не бути нейтів-спікером, а його публікації — лише переклад більш ранніх рукописів, написаних іншою мовою.
Пролетареві ніколи вчити європейських мов, бодай би свою знати добре і на ній принести до своєї хати світло знання (Гнат Хоткевич)
ÆC CASALI NAXI PRASQURI: AHOV CÆRU, MERTVÆRI TÆ SLAVUTÆT!
Вони просили його: «Скажи: кетум», а він говорив: «сатем», і не міг вимовити правильно.
Хотелось бы также отметить, что "Питон" - это "мышиный язык" : "пи+тон". © АБР-2

Drundia

Цитата: Python от сентября  2, 2010, 02:45Чому ж, це така ж частина літературної мови, як і оригінальні українські тексти.
Бо може переходити що завгодно з ориґіналу. Нетиповий порядок слів, недоречні кальки, крилаті вислови, на які навіть натяку нема в текстах що з самісінького початку українські.

Python

Цитата: Drundia от сентября  2, 2010, 03:51
Нетиповий порядок слів, недоречні кальки, крилаті вислови, на які навіть натяку нема в текстах що з самісінького початку українські.
Оригінальний твір, натомість, може бути перенасичений авторськими неологізмами та іншими відхиленнями від мовних стандартів свого часу — письменники цим зловживають частіше, ніж перекладачі. Зрештою, ніщо не заважає авторові ввести в свій твір переклад іншомовного вислову, який здався йому вельми доречним, але так і не набув розповсюдження в нашій мові.
Пролетареві ніколи вчити європейських мов, бодай би свою знати добре і на ній принести до своєї хати світло знання (Гнат Хоткевич)
ÆC CASALI NAXI PRASQURI: AHOV CÆRU, MERTVÆRI TÆ SLAVUTÆT!
Вони просили його: «Скажи: кетум», а він говорив: «сатем», і не міг вимовити правильно.
Хотелось бы также отметить, что "Питон" - это "мышиный язык" : "пи+тон". © АБР-2

Drundia

Ех, десь читав, шукати ліньки... Наприклад на перший погляд фрази з однаковим значенням «Are you alright?» і «Ти в порядку?», як на мене, уживаються в різних контекстах (там про цю англійську фразу теж писали). Вони так кажуть коли пацієнт скоріше мертвий, а ми — коли скоріше живий і навіть здоровий.

Так чи інакше в перекладах часто перекладають не зміст, а слова, що на такий зміст такими словами можна натрапити лише в перекладі.

Sirko


ppk-zp


kissarat

Цікаво чи за 5 років щось змінилось?
Цитата: Drundia от сентября  1, 2010, 23:44
Альтернативний корпус може й можна зробити, треба лише розібратися як тексти обробляти.
Я програміст. Давно хотів розібратись з обчислювальною лінгвістикою, але руки дійшли тільки зараз. Можу допомогти.

kissarat

Цитата: ppk-zp от мая 24, 2012, 15:42
Що це взагалі за корпус такий?
Корпус - це набір текстів, які репрезентують мову чи якийсь стиль в даній мові.
Є об'єктом програм статистичного аналізу. Найпростіший приклад - знайти найпоширеніші лексеми і скласти список стоп-слів (наприклад https://gist.github.com/kissarat/bec2bb727c9fb520043a). Стоп-слова ігноруються при пошуку в базі даних чи пошукові системи.

Sirko

Надибав ще два українських:

http://corpora.informatik.uni-leipzig.de
Звідси можна завантажити 3 млн речень. Загалом - 100 млн речень з 1,5 млрд токенів.  ;up:


https://www.sketchengine.co.uk






Sirko

В цьому лідсівському корпусі 250М українських слів і всі вони протеґовані й дизамбіґуйовані з точністю, як каже Sharoff, >90%. Бреше. Та це краще, ніж нічого.

Sirko


Pawlo

Лучше смерть, как избавление,
Чем быть первой средь рабынь.
Знай же ты моё решение-
Мой ответ: «Навеки сгинь!»

DarkMax2

Tej wojny nikt za nas nie wygra! © Wiedźmin III
Коли зчинять лемент: "Хто ж знав?!" — відповімо: "Ми".

З моїх снів ти утечеш над ранок,
Терпка, як аґрус, солодка, як біз.
Хочу снить чорні локи сплута́ні,
Фіалкові очі, мокрі від сліз.


Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр