Добрый день!
Есть такой корпус http://lcorp.ulif.org.ua/virt_unlc/ но туда никак не войти, компоненты необходимые установлены, запускаю, возникает окно для ввода логина и пароля - как я понимаю.. для того чтоб в данный момент зарегистрироваться. Никакие данные не принимает. Сам корпус расположен здесь http://lcorp.ulif.org.ua/info.htm . Может предполагается предварительная регистрация?.. тогда где? либо он вообще платный...
Подскажите.. может кто им пользуется. Спасибо.
Вроде как единственный корпус укр. языка в нете. (?)
:( Прикиньте что ответили: З приводу використання лінгвістичних систем звертайтесь будь ласка до директора Українського мовно-інформаційного фонду НАН України Широкова В.А.:
Київ, пр. 40-ччя Жовтня 3 (приміщення бібл. ім. Вернадського),.. бла...бла...бла..
Живёшь в Украине и геморр такой с украинским корпусом, зато чешским, словацким, польским, двумя!!! словенскими и т.д. пользуешся абсолютно свободно. Где ещё так бывает!? >(
з.ы. верхних лужичан... онемеченых уже.. там горстка в Германии осталась - ан нет! свой корпус в свободном доступе...
Питання нефахівця: чи можливо створити альтернативний корпус української мови спільними зусиллями вільних розробників? Україномовних текстів, опублікованих у мережі, значно більше, ніж серболужицьких — початковий матеріал вже є. Чи фахівці, спроможні здійснити їх обробку, є виключно в НАНУ?
Доступу туди нема мабуть тому, що є що ховати.
Альтернативний корпус може й можна зробити, треба лише розібратися як тексти обробляти. Плюс є проблема репрезентативності.
Цитата: Drundia от сентября 1, 2010, 23:44
Доступу туди нема мабуть тому, що є що ховати.
Ховати можна як щось цінне, так і те, що соромно показати людям.
Взагалі, що собою являє корпус з точки зору програміста? Це програма, яка виконує певні функції, база даних, файл чи набір файлів у певному чітко визначеому форматі, щось більш абстрактне? Корпус текстів призначений виключно для користувачів-людей, чи він може підлягати подальшій автоматичній обробці?
Ховати можна так звані «неіснуючі слова» «невластиві словам значення», та «ніким не вживані правописи».
Корпус із погляду програміста, імовірно, не така й складна річ, для аматорського корпусу проблема у відсутності репрезентативності.
Цитата: Drundia от сентября 2, 2010, 01:54
Ховати можна так звані «неіснуючі слова» «невластиві словам значення», та «ніким не вживані правописи».
Якщо брати за основу тексти, надруковані в радянські роки, то, ймовірно, «ніким не вживані правописи» там і справді будуть рідкістю. Що ж стосується текстів сучасної України, в них можна відшукати що-завгодно — від реінкарнацій старих правописів до автоперекладу з Прагмою.
Цитата: Python от сентября 2, 2010, 02:19Якщо брати за основу тексти, надруковані в радянські роки, то, ймовірно, «ніким не вживані правописи» там і справді будуть рідкістю. Що ж стосується текстів сучасної України, в них можна відшукати що-завгодно — від реінкарнацій старих правописів до автоперекладу з Прагмою.
Перекладні тексти можуть уникати, бо в них часами бувають дійсно не вживані в мові (поза перекладними текстами) речі.
Цитата: Drundia от сентября 2, 2010, 02:37
Перекладні тексти можуть уникати, бо в них часами бувають дійсно не вживані в мові (поза перекладними текстами) речі.
Чому ж, це така ж частина літературної мови, як і оригінальні українські тексти. А художні тексти взагалі мають певний пласт слів, не вживаних за їх межами. Так само, як і будь-який інший мовний стиль.
Крім того, не завжди можна визначити, де переклад, а де оригінал. Скажімо, письменник, що видає свої твори українською мовою, може навіть не бути нейтів-спікером, а його публікації — лише переклад більш ранніх рукописів, написаних іншою мовою.
Цитата: Python от сентября 2, 2010, 02:45Чому ж, це така ж частина літературної мови, як і оригінальні українські тексти.
Бо може переходити що завгодно з ориґіналу. Нетиповий порядок слів, недоречні кальки, крилаті вислови, на які навіть натяку нема в текстах що з самісінького початку українські.
Цитата: Drundia от сентября 2, 2010, 03:51
Нетиповий порядок слів, недоречні кальки, крилаті вислови, на які навіть натяку нема в текстах що з самісінького початку українські.
Оригінальний твір, натомість, може бути перенасичений авторськими неологізмами та іншими відхиленнями від мовних стандартів свого часу — письменники цим зловживають частіше, ніж перекладачі. Зрештою, ніщо не заважає авторові ввести в свій твір переклад іншомовного вислову, який здався йому вельми доречним, але так і не набув розповсюдження в нашій мові.
Ех, десь читав, шукати ліньки... Наприклад на перший погляд фрази з однаковим значенням «Are you alright?» і «Ти в порядку?», як на мене, уживаються в різних контекстах (там про цю англійську фразу теж писали). Вони так кажуть коли пацієнт скоріше мертвий, а ми — коли скоріше живий і навіть здоровий.
Так чи інакше в перекладах часто перекладають не зміст, а слова, що на такий зміст такими словами можна натрапити лише в перекладі.
http://www.mova.info/corpus.aspx?l1=209
А чи є десь одним файлом нерозмічений корпус?
Що це взагалі за корпус такий?
Цікаво чи за 5 років щось змінилось?
Цитата: Drundia от сентября 1, 2010, 23:44
Альтернативний корпус може й можна зробити, треба лише розібратися як тексти обробляти.
Я програміст. Давно хотів розібратись з обчислювальною лінгвістикою, але руки дійшли тільки зараз. Можу допомогти.
Цитата: ppk-zp от мая 24, 2012, 15:42
Що це взагалі за корпус такий?
Корпус - це набір текстів, які репрезентують мову чи якийсь стиль в даній мові.
Є об'єктом програм статистичного аналізу. Найпростіший приклад - знайти найпоширеніші лексеми і скласти список стоп-слів (наприклад https://gist.github.com/kissarat/bec2bb727c9fb520043a (https://gist.github.com/kissarat/bec2bb727c9fb520043a)). Стоп-слова ігноруються при пошуку в базі даних чи пошукові системи.
Надибав ще два українських:
http://corpora.informatik.uni-leipzig.de
Звідси можна завантажити 3 млн речень. Загалом - 100 млн речень з 1,5 млрд токенів. ;up:
https://www.sketchengine.co.uk
Ще два
https://github.com/mariana-scorp/lt-project/tree/master/corpus/Processed_good
http://www.corpora.heliohost.org/download.html
Ще один
http://corpus.leeds.ac.uk/internet2.html
В цьому лідсівському корпусі 250М українських слів і всі вони протеґовані й дизамбіґуйовані з точністю, як каже Sharoff, >90%. Бреше. Та це краще, ніж нічого.
Малесенький розмічений корпус на 12к знаків.
https://github.com/UniversalDependencies/UD_Ukrainian
Чесно кажучи не густо :(
А як складаються корпуси?
http://uacorpus.org/