Могут ли программы распознавания речи выдавать фонетическую транскрипцию

Rusiok · июня 28, 2022, 11:08

Вот, на //reddit.com/r/linguistics разгорелась дискуссия о произношении huge, human, hue etc. Инициатор темы слышит там [çẙuː], другие [χuː] - но это, мол, все равно /hjuː/, третий приводит аудио выступления некой знаменитости, где, мол, ясно слышно просто [juːmæn], четвертые слышат [tʃuː]. Далее была ссылка на словарь, в которых для американского английского транскрипция без [j]: /huː/. На это некий американец возражает, что без [j] слышал только от редких странных людей.

Я вот тут и в других источниках читал, что при автоматическом распознавания речи промежуточным этапом являются несколько вариантов фонетической транскрипции. Далее эти варианты рассматриваются в контексте и программа выдаёт наиболее вероятный вариант орфографического слова.

Мне представляется полезным для изучающих иностранный язык выдача им программой вот этих фонетических транскрипций.

Старинный способ обучения: слушать речь нативного носителя языка и стараться раз за разом повторять за ним как можно точнее. При этом способе часто не понятно: происходит ли изменение фонемы под влиянием окружающих звуков (редукция и т.п.), пропуск звуков и целых слогов. При автоматической выдаче учащемуся транскипции произнесенного, этот ученик будет твёрдо уверен, что не надо "изображать" речевым аппаратом непроизносимых ("немых") звуков - их на самом деле нет в речи нейтива.

Python · июня 28, 2022, 11:49

Цитата: Rusiok от июня 28, 2022, 11:08
При автоматической выдаче учащемуся транскипции произнесенного, этот ученик будет твёрдо уверен, что не надо "изображать" речевым аппаратом непроизносимых ("немых") звуков - их на самом деле нет в речи нейтива.

Следует учесть, что немые при определенных обстоятельствах могут слышимо произноситься. Вернее, даже сам натив может делать беззвучные движения голосовым аппаратом, осознавая там наличие «еле слышимого» звука, который обычно не слышится вообще, но при подчеркнуто-отчетливом произношении приобретает звучание. Фонетически точная запись со слуха речи с редукциями, соответственно, будет содержать неполную информацию о настоящем произношении (это можно сказать не только о транскрипции, но и о фонетических орфографиях, передающих редукцию как отсутствие звука — так, укр. «тижні», «персні» может произноситься с восстановлением выпавшего согласного («тиждні», «перстні») — вопреки орфографии, слишком поспешно подогнанной под обычно слышимое произношение).

Rusiok · июня 28, 2022, 13:04

Цитата: Python от июня 28, 2022, 11:49
Фонетически точная запись со слуха речи с редукциями, соответственно, будет содержать неполную информацию о настоящем произношении

Беглая "д" восстанавливается в однокоренном слове "тиждень", "т" - в слове "перстень". Такого объяснения достаточно. Наличие беззвучных движений языка можно было бы доказать 1) приборным путем - видиорентгенограммой произношения или 2) сравнительно-фонетическим методом о необходимости таких движений для исторической устойчивости произношения соседних звуков.
Без таких доказательств зачем плодить лишние сущности о движении речевого аппарата без звука?

i486 · июня 28, 2022, 13:32

Мне кажется, намного проще сделать синтезатор фонетической транскрипции, но даже его, по-моему, никто так и не сделал.

Andrey Lukyanov · июня 28, 2022, 13:39

Цитата: Grotlon от июня 28, 2022, 13:32
Мне кажется, намного проще сделать синтезатор фонетической транскрипции, но даже его, по-моему, никто так и не сделал.

Под конкретный язык или «вообще»?

i486 · июня 28, 2022, 13:53

Цитата: Andrey Lukyanov от июня 28, 2022, 13:39
Под конкретный язык или «вообще»?

Странный вопрос. В чем смысл делать под конкретный язык?

Python · июня 28, 2022, 13:53

Цитата: Rusiok от июня 28, 2022, 13:04
Беглая "д" восстанавливается в однокоренном слове "тиждень", "т" - в слове "перстень".

Она еще может на автомате восстановиться при попытке произнести слово по слогам — т.е., необязательно вставлять гласную, можно просто вставить паузу, чтобы редукция выключилась.

Rusiok · июня 28, 2022, 14:50

Цитата: Andrey Lukyanov от июня 28, 2022, 13:39
Под конкретный язык или «вообще»?

Основные буквы международного фонетического алфавита (МФА) выбраны по звучанию языков среднеевропейского стандарта. Но к ним пририсовывают диакритические знаки, уточняющие произношение для любого земного языка. Думаю, если установить точность "максимум два диакритических значка у каждой буквы", то это будет достаточно для "конкретного" языка. Но для целей учёбы, полагаю, часто будет достаточно основного алфавита, чтобы понять: есть вообще в конкретном месте звук, слог или нет.

Easyskanker · июня 28, 2022, 14:58

Цитата: Rusiok от июня 28, 2022, 13:04
Без таких доказательств зачем плодить лишние сущности о движении речевого аппарата без звука?

Пюфон у нас повелитель лишних сущностей.

Easyskanker · июня 28, 2022, 15:02

Цитата: Grotlon от июня 28, 2022, 13:32
Мне кажется, намного проще сделать синтезатор фонетической транскрипции, но даже его, по-моему, никто так и не сделал.

Чтобы синтезировать речь?

Bhudh · июня 28, 2022, 16:48

Цитата: Grotlon от июня 28, 2022, 13:32Мне кажется, намного проще сделать синтезатор фонетической транскрипции, но даже его, по-моему, никто так и не сделал.

Praat очень хорошо синтезирует звуки.

i486 · июня 28, 2022, 19:32

Цитата: Bhudh от июня 28, 2022, 16:48
Praat очень хорошо синтезирует звуки.

Он умеет читать фонетическую транскрипцию?

Bhudh · июня 28, 2022, 19:54

Вроде нет, но можете его научить

.

watchmaker · июля 7, 2022, 02:08

Цитироватьтак, укр. «тижні», «персні» может произноситься с восстановлением выпавшего согласного («тиждні», «перстні») — вопреки орфографии,

А иногда это Д или Т ещё и восстанавливается на письме - врач в студенческой поликлинике (!) на полном серьёзе написала "преждний" через "д".

Bhudh · июля 7, 2022, 03:30

Ну это явная аналогия наречию прежде.

kemerover · июля 7, 2022, 04:29

Цитата: Rusiok от июня 28, 2022, 13:04Без таких доказательств зачем плодить лишние сущности о движении речевого аппарата без звука?

Читал про исследования этого явления в каком-то китайском. Сейчас не найду эту статью, забыл как называется термин. Там спрашивали у людей отличаются ли по произношению два иероглифа; они говорили, что отличаются; их произношение записывали; потом эту запись показывали другим носителям, и они говорили, что произношение не отличается (сами слова им не показывали).

Лингвофорум

Могут ли программы распознавания речи выдавать фонетическую транскрипцию

Rusiok

Python

Rusiok

i486

Andrey Lukyanov

i486

Python

Rusiok

Easyskanker

Easyskanker

Bhudh

i486

Bhudh

watchmaker

Bhudh

kemerover

Быстрый ответ