Печать страницы - Корпус украинского языка

Название: Корпус украинского языка
Отправлено: NoOne от августа 30, 2010, 18:15

Добрый день!
Есть такой корпус http://lcorp.ulif.org.ua/virt_unlc/ но туда никак не войти, компоненты необходимые установлены, запускаю, возникает окно для ввода логина и пароля - как я понимаю.. для того чтоб в данный момент зарегистрироваться. Никакие данные не принимает. Сам корпус расположен здесь http://lcorp.ulif.org.ua/info.htm . Может предполагается предварительная регистрация?.. тогда где? либо он вообще платный...
Подскажите.. может кто им пользуется. Спасибо.

Вроде как единственный корпус укр. языка в нете. (?)

Название: Корпус украинского языка
Отправлено: NoOne от сентября 1, 2010, 21:16

:( Прикиньте что ответили: З приводу використання лінгвістичних систем звертайтесь будь ласка до директора Українського мовно-інформаційного фонду НАН України Широкова В.А.:
Київ, пр. 40-ччя Жовтня 3 (приміщення бібл. ім. Вернадського),.. бла...бла...бла..

Живёшь в Украине и геморр такой с украинским корпусом, зато чешским, словацким, польским, двумя!!! словенскими и т.д. пользуешся абсолютно свободно. Где ещё так бывает!? >(

з.ы. верхних лужичан... онемеченых уже.. там горстка в Германии осталась - ан нет! свой корпус в свободном доступе...

Название: Корпус украинского языка
Отправлено: Python от сентября 1, 2010, 22:11

Питання нефахівця: чи можливо створити альтернативний корпус української мови спільними зусиллями вільних розробників? Україномовних текстів, опублікованих у мережі, значно більше, ніж серболужицьких — початковий матеріал вже є. Чи фахівці, спроможні здійснити їх обробку, є виключно в НАНУ?

Название: Корпус украинского языка
Отправлено: Drundia от сентября 1, 2010, 23:44

Доступу туди нема мабуть тому, що є що ховати.

Альтернативний корпус може й можна зробити, треба лише розібратися як тексти обробляти. Плюс є проблема репрезентативності.

Название: Корпус украинского языка
Отправлено: Python от сентября 2, 2010, 01:06

Цитата: Drundia от сентября 1, 2010, 23:44
Доступу туди нема мабуть тому, що є що ховати.

Ховати можна як щось цінне, так і те, що соромно показати людям.

Взагалі, що собою являє корпус з точки зору програміста? Це програма, яка виконує певні функції, база даних, файл чи набір файлів у певному чітко визначеому форматі, щось більш абстрактне? Корпус текстів призначений виключно для користувачів-людей, чи він може підлягати подальшій автоматичній обробці?

Название: Корпус украинского языка
Отправлено: Drundia от сентября 2, 2010, 01:54

Ховати можна так звані «неіснуючі слова» «невластиві словам значення», та «ніким не вживані правописи».

Корпус із погляду програміста, імовірно, не така й складна річ, для аматорського корпусу проблема у відсутності репрезентативності.

Название: Корпус украинского языка
Отправлено: Python от сентября 2, 2010, 02:19

Цитата: Drundia от сентября 2, 2010, 01:54
Ховати можна так звані «неіснуючі слова» «невластиві словам значення», та «ніким не вживані правописи».

Якщо брати за основу тексти, надруковані в радянські роки, то, ймовірно, «ніким не вживані правописи» там і справді будуть рідкістю. Що ж стосується текстів сучасної України, в них можна відшукати що-завгодно — від реінкарнацій старих правописів до автоперекладу з Прагмою.

Название: Корпус украинского языка
Отправлено: Drundia от сентября 2, 2010, 02:37

Цитата: Python от сентября 2, 2010, 02:19Якщо брати за основу тексти, надруковані в радянські роки, то, ймовірно, «ніким не вживані правописи» там і справді будуть рідкістю. Що ж стосується текстів сучасної України, в них можна відшукати що-завгодно — від реінкарнацій старих правописів до автоперекладу з Прагмою.

Перекладні тексти можуть уникати, бо в них часами бувають дійсно не вживані в мові (поза перекладними текстами) речі.

Название: Корпус украинского языка
Отправлено: Python от сентября 2, 2010, 02:45

Цитата: Drundia от сентября 2, 2010, 02:37
Перекладні тексти можуть уникати, бо в них часами бувають дійсно не вживані в мові (поза перекладними текстами) речі.

Чому ж, це така ж частина літературної мови, як і оригінальні українські тексти. А художні тексти взагалі мають певний пласт слів, не вживаних за їх межами. Так само, як і будь-який інший мовний стиль.

Название: Корпус украинского языка
Отправлено: Python от сентября 2, 2010, 02:51

Крім того, не завжди можна визначити, де переклад, а де оригінал. Скажімо, письменник, що видає свої твори українською мовою, може навіть не бути нейтів-спікером, а його публікації — лише переклад більш ранніх рукописів, написаних іншою мовою.

Название: Корпус украинского языка
Отправлено: Drundia от сентября 2, 2010, 03:51

Цитата: Python от сентября 2, 2010, 02:45Чому ж, це така ж частина літературної мови, як і оригінальні українські тексти.

Бо може переходити що завгодно з ориґіналу. Нетиповий порядок слів, недоречні кальки, крилаті вислови, на які навіть натяку нема в текстах що з самісінького початку українські.

Название: Корпус украинского языка
Отправлено: Python от сентября 2, 2010, 04:21

Цитата: Drundia от сентября 2, 2010, 03:51
Нетиповий порядок слів, недоречні кальки, крилаті вислови, на які навіть натяку нема в текстах що з самісінького початку українські.

Оригінальний твір, натомість, може бути перенасичений авторськими неологізмами та іншими відхиленнями від мовних стандартів свого часу — письменники цим зловживають частіше, ніж перекладачі. Зрештою, ніщо не заважає авторові ввести в свій твір переклад іншомовного вислову, який здався йому вельми доречним, але так і не набув розповсюдження в нашій мові.

Название: Корпус украинского языка
Отправлено: Drundia от сентября 2, 2010, 05:28

Ех, десь читав, шукати ліньки... Наприклад на перший погляд фрази з однаковим значенням «Are you alright?» і «Ти в порядку?», як на мене, уживаються в різних контекстах (там про цю англійську фразу теж писали). Вони так кажуть коли пацієнт скоріше мертвий, а ми — коли скоріше живий і навіть здоровий.

Так чи інакше в перекладах часто перекладають не зміст, а слова, що на такий зміст такими словами можна натрапити лише в перекладі.

Название: Корпус украинского языка
Отправлено: Sirko от января 19, 2012, 06:52

http://www.mova.info/corpus.aspx?l1=209

А чи є десь одним файлом нерозмічений корпус?

Название: Корпус украинского языка
Отправлено: ppk-zp от мая 24, 2012, 15:42

Що це взагалі за корпус такий?

Название: Корпус украинского языка
Отправлено: kissarat от февраля 19, 2015, 17:29

Цікаво чи за 5 років щось змінилось?

Цитата: Drundia от сентября 1, 2010, 23:44
Альтернативний корпус може й можна зробити, треба лише розібратися як тексти обробляти.

Я програміст. Давно хотів розібратись з обчислювальною лінгвістикою, але руки дійшли тільки зараз. Можу допомогти.

Название: Корпус украинского языка
Отправлено: kissarat от февраля 19, 2015, 17:43

Цитата: ppk-zp от мая 24, 2012, 15:42
Що це взагалі за корпус такий?

Корпус - це набір текстів, які репрезентують мову чи якийсь стиль в даній мові.
Є об'єктом програм статистичного аналізу. Найпростіший приклад - знайти найпоширеніші лексеми і скласти список стоп-слів (наприклад https://gist.github.com/kissarat/bec2bb727c9fb520043a (https://gist.github.com/kissarat/bec2bb727c9fb520043a)). Стоп-слова ігноруються при пошуку в базі даних чи пошукові системи.

Название: Корпус украинского языка
Отправлено: Sirko от декабря 23, 2015, 07:21

Надибав ще два українських:

http://corpora.informatik.uni-leipzig.de
Звідси можна завантажити 3 млн речень. Загалом - 100 млн речень з 1,5 млрд токенів. ;up:

https://www.sketchengine.co.uk

Название: Корпус украинского языка
Отправлено: Sirko от декабря 29, 2015, 10:26

Ще два
https://github.com/mariana-scorp/lt-project/tree/master/corpus/Processed_good
http://www.corpora.heliohost.org/download.html

Название: Корпус украинского языка
Отправлено: Sirko от июня 12, 2016, 09:18

Ще один
http://corpus.leeds.ac.uk/internet2.html

Название: Корпус украинского языка
Отправлено: Sirko от июня 12, 2016, 09:47

В цьому лідсівському корпусі 250М українських слів і всі вони протеґовані й дизамбіґуйовані з точністю, як каже Sharoff, >90%. Бреше. Та це краще, ніж нічого.

Название: Корпус украинского языка
Отправлено: Sirko от июня 9, 2017, 16:35

Малесенький розмічений корпус на 12к знаків.
https://github.com/UniversalDependencies/UD_Ukrainian

Название: Корпус украинского языка
Отправлено: Pawlo от августа 5, 2017, 00:02

Чесно кажучи не густо :(

Название: Корпус украинского языка
Отправлено: DarkMax2 от августа 5, 2017, 16:43

А як складаються корпуси?

Название: Корпус украинского языка
Отправлено: M. Shvedova от января 14, 2018, 17:02

http://uacorpus.org/

Лингвофорум

Local boards - Разделы на разных языках => Український форум => Ресурси => Тема начата: NoOne от августа 30, 2010, 18:15