Главное меню
Мы солидарны с Украиной. Узнайте здесь, как можно поддержать Украину.

Создание и конвертирование словарей для ABBYY Lingvo

Автор tmadi, апреля 21, 2009, 23:06

0 Пользователи и 1 гость просматривают эту тему.

tmadi

Собственно, сабж.

Успешный опыт сотрудничества с T-Moor'ом (узбекские), сином (русско-чувашский) и Alessandro (кртат-рус-кртат), а также конвертация в dsl польско-татарского словаря, составленного Anwar'ом с любезного его разрешения, наводит на мысль о реальной возможности совместных действий в этом направлении.

Буду рад любым предложениям.

murator

Интересуют различные тюркско-тюркские словари, словари синонимов, словари иностранных слов, этимологические словари.
Можно, в принципе начать с татарского этимологического словаря Р. Ахметьянова. В чем видите роль заинтересованных в сотрудничестве?

tmadi

Цитата: "murator" от
Интересуют различные тюркско-тюркские словари, словари синонимов, словари иностранных слов, этимологические словари.

И меня это тоже интересует в первую очередь.

Цитата: "murator" от
Можно, в принципе начать с татарского этимологического словаря Р. Ахметьянова.

Можно. В принципе, есть уже "Татар теленең аңлатмалы сүзлеге", да и к кое каким ахметьяновским объяснениям возникают вопросы, но я только за.

Цитата: "murator" от
В чем видите роль заинтересованных в сотрудничестве?

В чем они сами ее видят. Для меня же самое важное - корректура и вычитка текста, так как а) корректор из меня слабый; б) лучше когда вычиткой и правкой занимается носитель языка. Например, раз уж вы заговорили об Ахметьянове, взялись бы вы вычитать распознанный текст? После распознания всегда куча ошибок.

Но мое предложение о сотрудничестве не сводится только к этому. Поддержу любой вид деятельности - распознание, скрипты, сканирование итд.

Например, я взялся сделать англо-казахский словарь на основе вот этого: http://www.uz-translations.net/?category=kazdics-kazakh&altname=EnglishKazakh_Dictionary. Но, видимо, решил откусить больше чем могу прожевать, - работы валом. Еле дошел где-то до середины словаря, поэтому с радостью приму любую помощь.

Да, еще одно. Все это, разумеется, абсолютно некоммерческая деятельность. Денег, цветов, поцелуев и памятников не предвидится.

murator

Мне лично очень пригодился бы этот этимологический словарь (и, пускай, есть сомнительные объяснения - но они и в Фасмере есть, думаю, всё авторское надо оставить) именно в лингво-формате, т.к. DJVU-шка толком не распознана. В принципе, я бы ее сам и распознал, надо только узнать, как минимизировать ручную работу (Есть Photoshop, Fine Reader). Вычитать тоже могу, но не ручаюсь за качество, для этого нужен грамотный носитель.

I. G.

Цитата: "murator" от
надо только узнать, как минимизировать ручную работу (Есть Photoshop, Fine Reader)
Сейчас как раз занимаюсь подобного рода работой. Fine Reader и сканер, Фотошоп не пригодился.
Настройки по умолчанию: 300 dpi, оттенки серого, анализировать без распознавания (распознавание включаю после проверки разбивки на текстовые блоки). Качество распознавания очень хорошее, несмотря на то что оригинал напечатан на машинке, яти вставлены от руки и т.д.
...И мимимишечных круглышек,
Что безусловно хороши,
Но очень вредны для души.


I. G.

Региональный словарь старорусского языка (для переиздания). Значительно упрощает процесс вычитки предварительный поиск-замена всего, что только можно: если в одном случае определенное сочетание букв неправильно распозналось, то ошибка будет по всему тексту, плюс постановка пробелов и т.д.
А почему за основу берете djvu-файл (он же сжимает с потерей качества)? Нет исходных сканов?
...И мимимишечных круглышек,
Что безусловно хороши,
Но очень вредны для души.

tmadi

Цитата: "I. G." от
А почему за основу берете djvu-файл (он же сжимает с потерей качества)? Нет исходных сканов?

В случае с татарским этимологическим словарем - есть только ДЖВ. Я сам тоже предпочитаю сканы, желательно ч/б тиф (и таблеток от жадности, и побольше :)), но приходится работать со всем подряд.

I. G.

Это ж месяцы вычитки и правки. Достать его в бумажном виде совсем невозможно?  :(
Цитата: "tmadi" от
желательно ч/б тиф
Почему именно ч/б? Вроде бы Fine Reader с оттенками серого лучше работает (когда есть плохо пропечатанные элементы у букв).
...И мимимишечных круглышек,
Что безусловно хороши,
Но очень вредны для души.

tmadi

Цитата: "I. G." от
Это ж месяцы вычитки и правки. Достать его в бумажном виде совсем невозможно?

Ну зачем месяцы, реально уходит меньше времени.

Цитата: "I. G." от
Почему именно ч/б? Вроде бы Fine Reader с оттенками серого лучше работает (когда есть плохо пропечатанные элементы у букв).

Мое личное предпочтение, хотя объективно вы правы.

Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр