Лингвофорум

Общий раздел => Наука и техника => Компьютеры => Тема начата: Квас от октября 8, 2011, 12:28

Название: Ёфикация
Отправлено: Квас от октября 8, 2011, 12:28
Предположим, что имеется текстовый файл, содержащий русский текст и некую разметку. Существует ли простой способ проставить там буквы Ё? Вхождения слово «все» готов проверять вручную, но хотелось бы, чтобы остальное делалось автоматически. :)

Заранее спасибо.
Название: Ёфикация
Отправлено: Bhudh от октября 8, 2011, 12:30
А если там «елка» в значении «рот»?‥
А вообще, есть ста-арый макрос-ёфикатор для Ворда.
Название: Ёфикация
Отправлено: Квас от октября 8, 2011, 12:34
Цитата: Bhudh от октября  8, 2011, 12:30
А если там «елка» в значении «рот»?‥

Я готов проверять вручную не только слово «все», но и конечное число других слов. :yes:
Название: Ёфикация
Отправлено: Hellerick от октября 8, 2011, 12:35
А по ссылкам в вики вам ничего не нравится? ( (wiki/ru) Ёфикатор (http://ru.wikipedia.org/wiki/%D0%81%D1%84%D0%B8%D0%BA%D0%B0%D1%82%D0%BE%D1%80) )

Абсурдность ёфикаторов в том, что они уверенно расставляют Ё только там, где она не нужна.
Название: Ёфикация
Отправлено: Bhudh от октября 8, 2011, 12:37
Цитата: http://ru.wikipedia.org/wiki/Ёфикатор...программ, выполняющих полную ёфикацию текстов в автоматическом режиме, не существует. Имеющиеся ёфикаторы либо работают интерактивно, в спорных случаях предоставляя выбор работающему с программой пользователю, либо заменяют «е» на «ё» только в бесспорных случаях («неполная» или «быстрая» ёфикация).
Название: Ёфикация
Отправлено: RawonaM от октября 8, 2011, 12:38
Цитата: Hellerick от октября  8, 2011, 12:35
Абсурдность ёфикаторов в том, что они уверенно расставляют Ё только там, где она не нужна.
Сильно сказано :) Вы хотели бы, чтобы программа понимала сама, что ей нужно подставить, там где даже человек не знает? Это еще дальше от нас, чем автоматический перевод.
Название: Ёфикация
Отправлено: Квас от октября 8, 2011, 12:39
Цитата: Hellerick от октября  8, 2011, 12:35
А по ссылкам в вики вам ничего не нравится? ( (wiki/ru) Ёфикатор )

О, спасибо большое!

Тема полностью раскрыта, можно с чистой совестью флудить.
Название: Ёфикация
Отправлено: RawonaM от октября 8, 2011, 12:41
Цитата: Квас от октября  8, 2011, 12:34
Я готов проверять вручную не только слово «все», но и конечное число других слов. :yes:
Между прочим (раз уже пошла флудилка), есть ли автоматические переводчики, которые работают в таком интерактивном режиме? Известно, что самая главная проблема — разрешение неоднозначностей, так почему бы эти случаи не спрашивать у человека?
Название: Ёфикация
Отправлено: Bhudh от октября 8, 2011, 12:44
Ну, Гуголь уже предлагает варыянты...
Название: Ёфикация
Отправлено: orang_baik от октября 8, 2011, 12:44
Разве существуют такие переводчики, за которыми не надо перепроверять? В любом случае человек участвует.
Название: Ёфикация
Отправлено: RawonaM от октября 8, 2011, 12:52
Цитата: orang_baik от октября  8, 2011, 12:44
Разве существуют такие переводчики, за которыми не надо перепроверять? В любом случае человек участвует.
Это не то. Не интерактивно. Нужно так: программа дает тебе на выбор несколько вариантов значения слова, которое сама не может понять, выбираешь правильный, дальше она сама продолжает, пока что-то непонятное не встретится.
Название: Ёфикация
Отправлено: Python от октября 8, 2011, 12:53
Интересно, вордовские макросы можно портировать во что-нибудь потоковое? Просто непосредственно с вордом мне дела иметь не приходится. Обычно проблема ё вылезает в программах для голосового воспроизведения текста, где она частично решается словарем.

Расстановка точек над ё в паре все/всё — ІМНО, самая важная и трудная проблема ёфикации. Расстановка вручную — не выход, слишком много править придется. Тем более, мне кажется, «всё» произносится чаще, чем «все». У себя в «Говорилке» я прописал чтение «все» как «всё» — вроде бы, режет слух чуть меньше (впрочем, это не решение).
Название: Ёфикация
Отправлено: orang_baik от октября 8, 2011, 13:05
Цитата: RawonaM от октября  8, 2011, 12:52
Цитата: orang_baik от октября  8, 2011, 12:44
Разве существуют такие переводчики, за которыми не надо перепроверять? В любом случае человек участвует.
Это не то. Не интерактивно. Нужно так: программа дает тебе на выбор несколько вариантов значения слова, которое сама не может понять, выбираешь правильный, дальше она сама продолжает, пока что-то непонятное не встретится.
Такую универсальную программу вряд ли возможно создать. Например, до начала перевода надо ей сообщить, что текст на определённую тематику. Тогда она будет выбирать значения слов, подходящие именно к данной теме. А на произвольном тексте она будет через слово переспрашивать.
Название: Ёфикация
Отправлено: RawonaM от октября 8, 2011, 13:10
Цитата: orang_baik от октября  8, 2011, 13:05
Такую универсальную программу вряд ли возможно создать. Например, до начала перевода надо ей сообщить, что текст на определённую тематику. Тогда она будет выбирать значения слов, подходящие именно к данной теме. А на произвольном тексте она будет через слово переспрашивать.
В любом случае это будет улучшать качество перевода. Сегодня программы претендуют на универсальность и без этой помощи человека, что еще хуже.
А по ходу переспрашивания слов она должна будет потихоньку догадываться о тематике текста и в конце перестать спрашивать о словах, хотя конечно двусмысленных форм и конструкций не уменьшится, это будет только лексики касаться.
Название: Ёфикация
Отправлено: Hellerick от октября 8, 2011, 13:15
Насколько я понимаю, с расстановкой Ё скорее понадобится не понимание тематики, а понимание грамматики.
Название: Ёфикация
Отправлено: RawonaM от октября 8, 2011, 13:18
Цитата: Hellerick от октября  8, 2011, 13:15
Насколько я понимаю, с расстановкой Ё скорее понадобится не понимание тематики, а понимание грамматики.
Иногда и тематики. "Какое небо голубое..."
Название: Ёфикация
Отправлено: Python от октября 8, 2011, 14:03
Иногда не работает ни то, ни другое. «Они все знают».
Название: Ёфикация
Отправлено: Oleg Grom от октября 8, 2011, 14:04
Цитата: RawonaM от октября  8, 2011, 13:18
"Какое небо голубое..."
Голубое њобо? Такое словосочетание вообще бывает?
Название: Ёфикация
Отправлено: Hellerick от октября 8, 2011, 14:23
А чтобы правильно написать «Турция признает Абхазию» нужно еще и следить за новостными сайтами.
Название: Ёфикация
Отправлено: Bhudh от октября 8, 2011, 16:54
Можно просто прописа[b]́[/b]ть ударение.
Название: Ёфикация
Отправлено: Python от октября 8, 2011, 17:19
Без ударений обходятся даже те, кто упорно пишет ё. К тому же, в неюникодовском тексте ударение вообще недостопны.
Название: Ёфикация
Отправлено: Bhudh от октября 8, 2011, 17:58
В текстах для голосовых движков ударение обозначается < после буквы, если мне склероз не изменяет. Или наоборот...
Название: Ёфикация
Отправлено: Demetrius от октября 8, 2011, 18:07
Цитата: Bhudh от октября  8, 2011, 17:58
В текстах для голосовых движков ударение обозначается < после буквы, если мне склероз не изменяет. Или наоборот...
Никакого стандарта нет. В&nbsp;белорусском речевом движке, с&nbsp;которым мы на практике работали, ударение обозначалось знаком + или (вторичное) = после буквы.
Название: Ёфикация
Отправлено: Bhudh от октября 8, 2011, 18:58
Цитата: Demetrius от В белорусском речевом движке
обожемой
А вы хотели, чтобы они западный стандард копировали?
Название: Ёфикация
Отправлено: Demetrius от октября 8, 2011, 19:01
Цитата: Bhudh от октября  8, 2011, 18:58
Цитата: Demetrius от В белорусском речевом движке
обожемой
А вы хотели, чтобы они западный стандард копировали?
Это не стандарт. Стандарта нет, западного тоже.
Название: Ёфикация
Отправлено: Bhudh от октября 8, 2011, 19:06
Однако боян (http://lingvoforum.net/index.php/topic,25705.msg563041.html#msg563041)...
Название: Ёфикация
Отправлено: Sirko от октября 8, 2011, 19:36
Цитата: Python от октября  8, 2011, 12:53
У себя в «Говорилке» я прописал чтение «все» как «всё» — вроде бы, режет слух чуть меньше (впрочем, это не решение).
Пропишите как э!
Название: Ёфикация
Отправлено: Python от октября 8, 2011, 19:43
Цитата: Sirko от октября  8, 2011, 19:36
Цитата: Python от октября  8, 2011, 12:53
У себя в «Говорилке» я прописал чтение «все» как «всё» — вроде бы, режет слух чуть меньше (впрочем, это не решение).
Пропишите как э!
Offtop
Може, порадите щось для читання українською? Про «Розмовляльку» чув, що у неї акцент російський, тому поки не встановлював.
Название: Ёфикация
Отправлено: Demetrius от октября 8, 2011, 20:51
Цитата: Bhudh от октября  8, 2011, 19:06
Однако боян (http://lingvoforum.net/index.php/topic,25705.msg563041.html#msg563041)...
И? То, что в двух движках (в двух ли? кто проверял оба?) можно расставлять ударения таким образом, ни о чем не говорит.

Только что проверил в Festival'е. Британский голос ((voice_rab_diphone)) успешно прочитал "Hello less than world", а русский экспериментальный ((voice_msu_ru_nsh_clunits)) вообще отказался читать фразу.
Название: Ёфикация
Отправлено: Sirko от октября 8, 2011, 21:14
Цитата: Python от октября  8, 2011, 19:43
Offtop
Може, порадите щось для читання українською? Про «Розмовляльку» чув, що у неї акцент російський, тому поки не встановлював.

Offtop
Ніколи не користувався. Оце щойно познайомився і з UkrVox, і Розмовлялькою  та іншими. Усі вони булькають, хоча й дикторським голосом. В Розмовляльці акцент український. (якщо вірити аудіо про козу-дерезу). Кращого синтезатора за той що є в польському гугл-перекладачі нема! Лишень треба транслітерувати.
Название: Ёфикация
Отправлено: Python от октября 8, 2011, 21:45
Цитата: Sirko от октября  8, 2011, 21:14
Offtop
Кращого синтезатора за той що є в польському гугл-перекладачі нема! Лишень треба транслітерувати.
Offtop
Спробував. Акцент є, хоча й не російський. Деякі українські звуки взагалі проблематично передати польськими. От якби польську вимову голосних поєднати з чеською вимовою приголосних... Втім, нормальні зь, сь, ць та неоглушене В крім нас мають лише білоруси.