Могут ли программы распознавания речи выдавать фонетическую транскрипцию

Автор Rusiok, июня 28, 2022, 11:08

0 Пользователи и 2 гостей просматривают эту тему.

Rusiok

Вот, на //reddit.com/r/linguistics разгорелась дискуссия о произношении huge, human, hue  etc. Инициатор темы слышит там [çẙuː], другие [χuː] - но это, мол, все равно /hjuː/, третий приводит аудио выступления некой знаменитости, где, мол, ясно слышно просто [juːmæn], четвертые слышат [tʃuː]. Далее была ссылка на словарь, в которых  для американского английского транскрипция без [j]: /huː/. На это некий американец возражает, что без [j] слышал только от редких странных людей.

Я вот тут и в других источниках читал, что при автоматическом распознавания речи промежуточным этапом являются несколько вариантов фонетической транскрипции. Далее эти варианты рассматриваются в контексте и программа выдаёт наиболее вероятный вариант орфографического слова.

Мне представляется полезным для изучающих иностранный язык выдача им программой вот этих фонетических транскрипций.

Старинный способ обучения: слушать речь нативного носителя языка и стараться раз за разом повторять за ним как можно точнее. При этом способе часто не понятно: происходит ли изменение фонемы под влиянием окружающих звуков (редукция и т.п.), пропуск звуков и целых слогов. При автоматической выдаче учащемуся транскипции произнесенного, этот ученик будет твёрдо уверен, что не надо "изображать" речевым аппаратом непроизносимых ("немых") звуков - их на самом деле нет в речи нейтива.

"проект предлагал сократить разговорную речь путем сведения многосложных слов к односложным и упразднения глаголов" - Джонатан Свифт. Путешествие в Бальнибарби

Python

Цитата: Rusiok от июня 28, 2022, 11:08
При автоматической выдаче учащемуся транскипции произнесенного, этот ученик будет твёрдо уверен, что не надо "изображать" речевым аппаратом непроизносимых ("немых") звуков - их на самом деле нет в речи нейтива.
Следует учесть, что немые при определенных обстоятельствах могут слышимо произноситься. Вернее, даже сам натив может делать беззвучные движения голосовым аппаратом, осознавая там наличие «еле слышимого» звука, который обычно не слышится вообще, но при подчеркнуто-отчетливом произношении приобретает звучание. Фонетически точная запись со слуха речи с редукциями, соответственно, будет содержать неполную информацию о настоящем произношении (это можно сказать не только о транскрипции, но и о фонетических орфографиях, передающих редукцию как отсутствие звука — так, укр. «тижні», «персні» может произноситься с восстановлением выпавшего согласного («тиждні», «перстні») — вопреки орфографии, слишком поспешно подогнанной под обычно слышимое произношение).
Пролетареві ніколи вчити європейських мов, бодай би свою знати добре і на ній принести до своєї хати світло знання (Гнат Хоткевич)
ÆC CASALI NAXI PRASQURI: AHOV CÆRU, MERTVÆRI TÆ SLAVUTÆT!
Вони просили його: «Скажи: кетум», а він говорив: «сатем», і не міг вимовити правильно.
Хотелось бы также отметить, что "Питон" - это "мышиный язык" : "пи+тон". © АБР-2

Rusiok

Цитата: Python от июня 28, 2022, 11:49
Фонетически точная запись со слуха речи с редукциями, соответственно, будет содержать неполную информацию о настоящем произношении
Беглая "д" восстанавливается в однокоренном слове "тиждень", "т" - в слове "перстень".  Такого объяснения достаточно. Наличие беззвучных движений языка можно было бы доказать 1) приборным путем - видиорентгенограммой произношения или 2) сравнительно-фонетическим методом о необходимости таких движений для исторической устойчивости произношения соседних звуков.
Без таких доказательств зачем плодить лишние сущности о движении речевого аппарата без звука?
"проект предлагал сократить разговорную речь путем сведения многосложных слов к односложным и упразднения глаголов" - Джонатан Свифт. Путешествие в Бальнибарби

i486

Мне кажется, намного проще сделать синтезатор фонетической транскрипции, но даже его, по-моему, никто так и не сделал.

Andrey Lukyanov

Цитата: Grotlon от июня 28, 2022, 13:32
Мне кажется, намного проще сделать синтезатор фонетической транскрипции, но даже его, по-моему, никто так и не сделал.
Под конкретный язык или «вообще»?

i486


Python

Цитата: Rusiok от июня 28, 2022, 13:04
Беглая "д" восстанавливается в однокоренном слове "тиждень", "т" - в слове "перстень".
Она еще может на автомате восстановиться при попытке произнести слово по слогам — т.е., необязательно вставлять гласную, можно просто вставить паузу, чтобы редукция выключилась.
Пролетареві ніколи вчити європейських мов, бодай би свою знати добре і на ній принести до своєї хати світло знання (Гнат Хоткевич)
ÆC CASALI NAXI PRASQURI: AHOV CÆRU, MERTVÆRI TÆ SLAVUTÆT!
Вони просили його: «Скажи: кетум», а він говорив: «сатем», і не міг вимовити правильно.
Хотелось бы также отметить, что "Питон" - это "мышиный язык" : "пи+тон". © АБР-2

Rusiok

Цитата: Andrey Lukyanov от июня 28, 2022, 13:39
Под конкретный язык или «вообще»?
Основные буквы международного фонетического алфавита (МФА) выбраны по звучанию языков среднеевропейского стандарта. Но к ним пририсовывают диакритические знаки, уточняющие произношение для любого земного языка. Думаю, если установить точность "максимум два диакритических значка у каждой буквы", то это будет достаточно для "конкретного" языка. Но для целей учёбы, полагаю, часто будет достаточно основного алфавита, чтобы понять: есть вообще в конкретном месте звук, слог или нет.
"проект предлагал сократить разговорную речь путем сведения многосложных слов к односложным и упразднения глаголов" - Джонатан Свифт. Путешествие в Бальнибарби

Easyskanker

Цитата: Rusiok от июня 28, 2022, 13:04
Без таких доказательств зачем плодить лишние сущности о движении речевого аппарата без звука?
Пюфон у нас повелитель лишних сущностей.

Easyskanker

Цитата: Grotlon от июня 28, 2022, 13:32
Мне кажется, намного проще сделать синтезатор фонетической транскрипции, но даже его, по-моему, никто так и не сделал.
Чтобы синтезировать речь?

Bhudh

Цитата: Grotlon от июня 28, 2022, 13:32Мне кажется, намного проще сделать синтезатор фонетической транскрипции, но даже его, по-моему, никто так и не сделал.
Praat очень хорошо синтезирует звуки.
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

i486


Bhudh

Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

watchmaker

Цитироватьтак, укр. «тижні», «персні» может произноситься с восстановлением выпавшего согласного («тиждні», «перстні») — вопреки орфографии,
А иногда это Д или Т ещё и восстанавливается на письме - врач в студенческой поликлинике (!) на полном серьёзе написала "преждний" через "д".

Bhudh

Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

kemerover

Цитата: Rusiok от июня 28, 2022, 13:04Без таких доказательств зачем плодить лишние сущности о движении речевого аппарата без звука?
Читал про исследования этого явления в каком-то китайском. Сейчас не найду эту статью, забыл как называется термин. Там спрашивали у людей отличаются ли по произношению два иероглифа; они говорили, что отличаются; их произношение записывали; потом эту запись показывали другим носителям, и они говорили, что произношение не отличается (сами слова им не показывали).

Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр