Лингвофорум

Local boards - Разделы на разных языках => Український форум => Ресурси => Тема начата: NoOne от августа 30, 2010, 18:15

Название: Корпус украинского языка
Отправлено: NoOne от августа 30, 2010, 18:15
Добрый день!
Есть такой корпус http://lcorp.ulif.org.ua/virt_unlc/ но туда никак не войти, компоненты необходимые установлены, запускаю, возникает окно для ввода логина и пароля - как я понимаю.. для того чтоб в данный момент зарегистрироваться. Никакие данные не принимает. Сам корпус расположен здесь http://lcorp.ulif.org.ua/info.htm . Может предполагается предварительная регистрация?.. тогда где?  либо он вообще платный... 
Подскажите.. может кто им пользуется. Спасибо.

Вроде как единственный корпус укр. языка в нете. (?)
Название: Корпус украинского языка
Отправлено: NoOne от сентября 1, 2010, 21:16
 :( Прикиньте что ответили: З приводу використання лінгвістичних систем звертайтесь будь ласка до директора Українського мовно-інформаційного фонду НАН України Широкова В.А.:
Київ, пр. 40-ччя Жовтня 3 (приміщення бібл. ім. Вернадського),.. бла...бла...бла..

Живёшь в Украине и геморр такой с украинским корпусом, зато чешским, словацким, польским, двумя!!! словенскими и т.д. пользуешся абсолютно свободно. Где ещё так бывает!?   >(

з.ы. верхних лужичан... онемеченых уже.. там горстка в Германии осталась - ан нет! свой корпус в свободном доступе...
Название: Корпус украинского языка
Отправлено: Python от сентября 1, 2010, 22:11
Питання нефахівця: чи можливо створити альтернативний корпус української мови спільними зусиллями вільних розробників? Україномовних текстів, опублікованих у мережі, значно більше, ніж серболужицьких — початковий матеріал вже є. Чи фахівці, спроможні здійснити їх обробку, є виключно в НАНУ?
Название: Корпус украинского языка
Отправлено: Drundia от сентября 1, 2010, 23:44
Доступу туди нема мабуть тому, що є що ховати.

Альтернативний корпус може й можна зробити, треба лише розібратися як тексти обробляти. Плюс є проблема репрезентативності.
Название: Корпус украинского языка
Отправлено: Python от сентября 2, 2010, 01:06
Цитата: Drundia от сентября  1, 2010, 23:44
Доступу туди нема мабуть тому, що є що ховати.
Ховати можна як щось цінне, так і те, що соромно показати людям.

Взагалі, що собою являє корпус з точки зору програміста? Це програма, яка виконує певні функції, база даних, файл чи набір файлів у певному чітко визначеому форматі, щось більш абстрактне? Корпус текстів призначений виключно для користувачів-людей, чи він може підлягати подальшій автоматичній обробці?
Название: Корпус украинского языка
Отправлено: Drundia от сентября 2, 2010, 01:54
Ховати можна так звані «неіснуючі слова» «невластиві словам значення», та «ніким не вживані правописи».

Корпус із погляду програміста, імовірно, не така й складна річ, для аматорського корпусу проблема у відсутності репрезентативності.
Название: Корпус украинского языка
Отправлено: Python от сентября 2, 2010, 02:19
Цитата: Drundia от сентября  2, 2010, 01:54
Ховати можна так звані «неіснуючі слова» «невластиві словам значення», та «ніким не вживані правописи».
Якщо брати за основу тексти, надруковані в радянські роки, то, ймовірно, «ніким не вживані правописи» там і справді будуть рідкістю. Що ж стосується текстів сучасної України, в них можна відшукати що-завгодно — від реінкарнацій старих правописів до автоперекладу з Прагмою.
Название: Корпус украинского языка
Отправлено: Drundia от сентября 2, 2010, 02:37
Цитата: Python от сентября  2, 2010, 02:19Якщо брати за основу тексти, надруковані в радянські роки, то, ймовірно, «ніким не вживані правописи» там і справді будуть рідкістю. Що ж стосується текстів сучасної України, в них можна відшукати що-завгодно — від реінкарнацій старих правописів до автоперекладу з Прагмою.
Перекладні тексти можуть уникати, бо в них часами бувають дійсно не вживані в мові (поза перекладними текстами) речі.
Название: Корпус украинского языка
Отправлено: Python от сентября 2, 2010, 02:45
Цитата: Drundia от сентября  2, 2010, 02:37
Перекладні тексти можуть уникати, бо в них часами бувають дійсно не вживані в мові (поза перекладними текстами) речі.
Чому ж, це така ж частина літературної мови, як і оригінальні українські тексти. А художні тексти взагалі мають певний пласт слів, не вживаних за їх межами. Так само, як і будь-який інший мовний стиль.
Название: Корпус украинского языка
Отправлено: Python от сентября 2, 2010, 02:51
Крім того, не завжди можна визначити, де переклад, а де оригінал. Скажімо, письменник, що видає свої твори українською мовою, може навіть не бути нейтів-спікером, а його публікації — лише переклад більш ранніх рукописів, написаних іншою мовою.
Название: Корпус украинского языка
Отправлено: Drundia от сентября 2, 2010, 03:51
Цитата: Python от сентября  2, 2010, 02:45Чому ж, це така ж частина літературної мови, як і оригінальні українські тексти.
Бо може переходити що завгодно з ориґіналу. Нетиповий порядок слів, недоречні кальки, крилаті вислови, на які навіть натяку нема в текстах що з самісінького початку українські.
Название: Корпус украинского языка
Отправлено: Python от сентября 2, 2010, 04:21
Цитата: Drundia от сентября  2, 2010, 03:51
Нетиповий порядок слів, недоречні кальки, крилаті вислови, на які навіть натяку нема в текстах що з самісінького початку українські.
Оригінальний твір, натомість, може бути перенасичений авторськими неологізмами та іншими відхиленнями від мовних стандартів свого часу — письменники цим зловживають частіше, ніж перекладачі. Зрештою, ніщо не заважає авторові ввести в свій твір переклад іншомовного вислову, який здався йому вельми доречним, але так і не набув розповсюдження в нашій мові.
Название: Корпус украинского языка
Отправлено: Drundia от сентября 2, 2010, 05:28
Ех, десь читав, шукати ліньки... Наприклад на перший погляд фрази з однаковим значенням «Are you alright?» і «Ти в порядку?», як на мене, уживаються в різних контекстах (там про цю англійську фразу теж писали). Вони так кажуть коли пацієнт скоріше мертвий, а ми — коли скоріше живий і навіть здоровий.

Так чи інакше в перекладах часто перекладають не зміст, а слова, що на такий зміст такими словами можна натрапити лише в перекладі.
Название: Корпус украинского языка
Отправлено: Sirko от января 19, 2012, 06:52
http://www.mova.info/corpus.aspx?l1=209

А чи є десь одним файлом нерозмічений корпус?
Название: Корпус украинского языка
Отправлено: ppk-zp от мая 24, 2012, 15:42
Що це взагалі за корпус такий?
Название: Корпус украинского языка
Отправлено: kissarat от февраля 19, 2015, 17:29
Цікаво чи за 5 років щось змінилось?
Цитата: Drundia от сентября  1, 2010, 23:44
Альтернативний корпус може й можна зробити, треба лише розібратися як тексти обробляти.
Я програміст. Давно хотів розібратись з обчислювальною лінгвістикою, але руки дійшли тільки зараз. Можу допомогти.
Название: Корпус украинского языка
Отправлено: kissarat от февраля 19, 2015, 17:43
Цитата: ppk-zp от мая 24, 2012, 15:42
Що це взагалі за корпус такий?
Корпус - це набір текстів, які репрезентують мову чи якийсь стиль в даній мові.
Є об'єктом програм статистичного аналізу. Найпростіший приклад - знайти найпоширеніші лексеми і скласти список стоп-слів (наприклад https://gist.github.com/kissarat/bec2bb727c9fb520043a (https://gist.github.com/kissarat/bec2bb727c9fb520043a)). Стоп-слова ігноруються при пошуку в базі даних чи пошукові системи.
Название: Корпус украинского языка
Отправлено: Sirko от декабря 23, 2015, 07:21
Надибав ще два українських:

http://corpora.informatik.uni-leipzig.de
Звідси можна завантажити 3 млн речень. Загалом - 100 млн речень з 1,5 млрд токенів.  ;up:


https://www.sketchengine.co.uk



Название: Корпус украинского языка
Отправлено: Sirko от декабря 29, 2015, 10:26
Ще два
https://github.com/mariana-scorp/lt-project/tree/master/corpus/Processed_good
http://www.corpora.heliohost.org/download.html
Название: Корпус украинского языка
Отправлено: Sirko от июня 12, 2016, 09:18
Ще один
http://corpus.leeds.ac.uk/internet2.html
Название: Корпус украинского языка
Отправлено: Sirko от июня 12, 2016, 09:47
В цьому лідсівському корпусі 250М українських слів і всі вони протеґовані й дизамбіґуйовані з точністю, як каже Sharoff, >90%. Бреше. Та це краще, ніж нічого.
Название: Корпус украинского языка
Отправлено: Sirko от июня 9, 2017, 16:35
Малесенький розмічений корпус на 12к знаків.
https://github.com/UniversalDependencies/UD_Ukrainian
Название: Корпус украинского языка
Отправлено: Pawlo от августа 5, 2017, 00:02
Чесно кажучи не густо  :(
Название: Корпус украинского языка
Отправлено: DarkMax2 от августа 5, 2017, 16:43
А як складаються корпуси?
Название: Корпус украинского языка
Отправлено: M. Shvedova от января 14, 2018, 17:02
http://uacorpus.org/