Author Topic: Создание и конвертирование словарей для ABBYY Lingvo  (Read 7118 times)

0 Members and 1 Guest are viewing this topic.

Offline tmadi

  • Blogger
  • *
  • Posts: 2688
  • Gender: Male
Собственно, сабж.

Успешный опыт сотрудничества с T-Moor'ом (узбекские), сином (русско-чувашский) и Alessandro (кртат-рус-кртат), а также конвертация в dsl польско-татарского словаря, составленного Anwar'ом с любезного его разрешения, наводит на мысль о реальной возможности совместных действий в этом направлении.

Буду рад любым предложениям.

Offline murator

  • Posts: 2071
  • Gender: Male
Интересуют различные тюркско-тюркские словари, словари синонимов, словари иностранных слов, этимологические словари.
Можно, в принципе начать с татарского этимологического словаря Р. Ахметьянова. В чем видите роль заинтересованных в сотрудничестве?

Offline tmadi

  • Blogger
  • *
  • Posts: 2688
  • Gender: Male
Интересуют различные тюркско-тюркские словари, словари синонимов, словари иностранных слов, этимологические словари.

И меня это тоже интересует в первую очередь.

Можно, в принципе начать с татарского этимологического словаря Р. Ахметьянова.

Можно. В принципе, есть уже "Татар теленең аңлатмалы сүзлеге", да и к кое каким ахметьяновским объяснениям возникают вопросы, но я только за.

В чем видите роль заинтересованных в сотрудничестве?

В чем они сами ее видят. Для меня же самое важное - корректура и вычитка текста, так как а) корректор из меня слабый; б) лучше когда вычиткой и правкой занимается носитель языка. Например, раз уж вы заговорили об Ахметьянове, взялись бы вы вычитать распознанный текст? После распознания всегда куча ошибок.

Но мое предложение о сотрудничестве не сводится только к этому. Поддержу любой вид деятельности - распознание, скрипты, сканирование итд.

Например, я взялся сделать англо-казахский словарь на основе вот этого: http://www.uz-translations.net/?category=kazdics-kazakh&altname=EnglishKazakh_Dictionary. Но, видимо, решил откусить больше чем могу прожевать, - работы валом. Еле дошел где-то до середины словаря, поэтому с радостью приму любую помощь.

Да, еще одно. Все это, разумеется, абсолютно некоммерческая деятельность. Денег, цветов, поцелуев и памятников не предвидится.

Offline murator

  • Posts: 2071
  • Gender: Male
Мне лично очень пригодился бы этот этимологический словарь (и, пускай, есть сомнительные объяснения - но они и в Фасмере есть, думаю, всё авторское надо оставить) именно в лингво-формате, т.к. DJVU-шка толком не распознана. В принципе, я бы ее сам и распознал, надо только узнать, как минимизировать ручную работу (Есть Photoshop, Fine Reader). Вычитать тоже могу, но не ручаюсь за качество, для этого нужен грамотный носитель.

Offline I. G.

  • Posts: 34325
  • Кенгуреночек
надо только узнать, как минимизировать ручную работу (Есть Photoshop, Fine Reader)
Сейчас как раз занимаюсь подобного рода работой. Fine Reader и сканер, Фотошоп не пригодился.
Настройки по умолчанию: 300 dpi, оттенки серого, анализировать без распознавания (распознавание включаю после проверки разбивки на текстовые блоки). Качество распознавания очень хорошее, несмотря на то что оригинал напечатан на машинке, яти вставлены от руки и т.д.
...И мимимишечных круглышек,
Что безусловно хороши,
Но очень вредны для души.

Offline tmadi

  • Blogger
  • *
  • Posts: 2688
  • Gender: Male
Если не секрет, что сканируете?

Offline I. G.

  • Posts: 34325
  • Кенгуреночек
Региональный словарь старорусского языка (для переиздания). Значительно упрощает процесс вычитки предварительный поиск-замена всего, что только можно: если в одном случае определенное сочетание букв неправильно распозналось, то ошибка будет по всему тексту, плюс постановка пробелов и т.д.
А почему за основу берете djvu-файл (он же сжимает с потерей качества)? Нет исходных сканов?
...И мимимишечных круглышек,
Что безусловно хороши,
Но очень вредны для души.

Offline tmadi

  • Blogger
  • *
  • Posts: 2688
  • Gender: Male
А почему за основу берете djvu-файл (он же сжимает с потерей качества)? Нет исходных сканов?

В случае с татарским этимологическим словарем - есть только ДЖВ. Я сам тоже предпочитаю сканы, желательно ч/б тиф (и таблеток от жадности, и побольше :)), но приходится работать со всем подряд.

Offline I. G.

  • Posts: 34325
  • Кенгуреночек
Это ж месяцы вычитки и правки. Достать его в бумажном виде совсем невозможно?  :(
желательно ч/б тиф
Почему именно ч/б? Вроде бы Fine Reader с оттенками серого лучше работает (когда есть плохо пропечатанные элементы у букв).
...И мимимишечных круглышек,
Что безусловно хороши,
Но очень вредны для души.

Offline tmadi

  • Blogger
  • *
  • Posts: 2688
  • Gender: Male
Это ж месяцы вычитки и правки. Достать его в бумажном виде совсем невозможно?

Ну зачем месяцы, реально уходит меньше времени.

Почему именно ч/б? Вроде бы Fine Reader с оттенками серого лучше работает (когда есть плохо пропечатанные элементы у букв).

Мое личное предпочтение, хотя объективно вы правы.

 

With Quick-Reply you can write a post when viewing a topic without loading a new page. You can still use bulletin board code and smileys as you would in a normal post.

Note: this post will not display until it's been approved by a moderator.
Name: Email:
Verification:
Type the letters shown in the picture
Listen to the letters / Request another image
Type the letters shown in the picture:
√49 Напишите ответ строчными буквами:
«Сто одёжек, все без застёжек» — что это?: