Главное меню
Мы солидарны с Украиной. Узнайте здесь, как можно поддержать Украину.

Ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.
Ограничения: максимум вложений в сообщении — 3 (3 осталось), максимальный размер всех файлов — 300 КБ, максимальный размер одного файла — 100 КБ
Снимите пометку с вложений, которые необходимо удалить
Перетащите файлы сюда или используйте кнопку для добавления файлов
Вложения и другие параметры
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр

Сообщения в этой теме

Автор M. Shvedova
 - января 14, 2018, 17:02
Автор DarkMax2
 - августа 5, 2017, 16:43
А як складаються корпуси?
Автор Pawlo
 - августа 5, 2017, 00:02
Чесно кажучи не густо  :(
Автор Sirko
 - июня 9, 2017, 16:35
Малесенький розмічений корпус на 12к знаків.
https://github.com/UniversalDependencies/UD_Ukrainian
Автор Sirko
 - июня 12, 2016, 09:47
В цьому лідсівському корпусі 250М українських слів і всі вони протеґовані й дизамбіґуйовані з точністю, як каже Sharoff, >90%. Бреше. Та це краще, ніж нічого.
Автор Sirko
 - декабря 23, 2015, 07:21
Надибав ще два українських:

http://corpora.informatik.uni-leipzig.de
Звідси можна завантажити 3 млн речень. Загалом - 100 млн речень з 1,5 млрд токенів.  ;up:


https://www.sketchengine.co.uk



Автор kissarat
 - февраля 19, 2015, 17:43
Цитата: ppk-zp от мая 24, 2012, 15:42
Що це взагалі за корпус такий?
Корпус - це набір текстів, які репрезентують мову чи якийсь стиль в даній мові.
Є об'єктом програм статистичного аналізу. Найпростіший приклад - знайти найпоширеніші лексеми і скласти список стоп-слів (наприклад https://gist.github.com/kissarat/bec2bb727c9fb520043a). Стоп-слова ігноруються при пошуку в базі даних чи пошукові системи.
Автор kissarat
 - февраля 19, 2015, 17:29
Цікаво чи за 5 років щось змінилось?
Цитата: Drundia от сентября  1, 2010, 23:44
Альтернативний корпус може й можна зробити, треба лише розібратися як тексти обробляти.
Я програміст. Давно хотів розібратись з обчислювальною лінгвістикою, але руки дійшли тільки зараз. Можу допомогти.