Подготовка к просмотру фильма: анализ лексики по субтитрам

Автор RawonaM, марта 15, 2014, 18:06

0 Пользователи и 1 гость просматривают эту тему.

RawonaM

Завтра иду в кино на фильм который полностью на курдском с финскими субтитрами. Думаю как решить вопрос.
Осенила меня значит мысль. Что если взять файл финских субтитров, составить список слов, заучить. В таком случае, к фильму буду готов. Конечно, остаются фразеологизмы и всякие выражения, но в целом идея мне нравится.

Почему я раньше до этого не додумался? Даже при просмотре фильмов дома. Это было бы эффективнее, нежели останавливать на каждом субтитр-кадре и смотреть слова.

Какие соображения?

Техническая часть: кто-нибудь знает какими инструментами проще всего составить список слов? Не хочется писать ничего самому. Еще лучше, чтобы частотность указывалась. Потом из этого всего сделать какую-то типа зубрилку.

В идеале, чтобы слова не учить в изоляции, можно каждое слово привязать к предложению из которого оно взято, чтобы можно было посмотреть пример употребления.

Wolliger Mensch

Цитата: RawonaM от марта 15, 2014, 18:06
Техническая часть: кто-нибудь знает какими инструментами проще всего составить список слов? Не хочется писать ничего самому. Еще лучше, чтобы частотность указывалась. Потом из этого всего сделать какую-то типа зубрилку.

Самое простое — в Ворде: вставить текст, пребразовать в таблицу → 1 столбец; разделитель — другой знак: ставить пробел. На выходе получится таблица из одного столбца, в каждой строке будет по слову. Перед преобразованием в таблицу лучше автозаменой убрать все двойные пробелы, знаки препинания, чтобы не было лишних потом строк в таблице.

Потом в эту таблицу можно добавить столбцы и писать в них перевод, грамматические сведения и т. д.
«Вот интересно, каких лингвистических жемчуг можно найти в море отодвинутых книг», Ян Гавлиш.
«Впредь прошу помнить, что придумал игру не для любых ассоциаций, а для семантически оправданных. Например, чтó это такое: ,,рулетке" — ,,выпечке"?? Тем более, что сей ляпсус я сам совершил...», Марбол
«Ветхий Завет написан на иврите и частично на армейском», Vesle Anne
«МЛ(ять)КО ... ПЛ(ять)NЪ», Тася
«Вот откроет этот спойлер, например, Марго, ничего не подозревая, а потом будут по всему форуму блюющие смайлики...», Авал
«Томан приличный мужчина. Правда по патриархальным меркам слегка голодранец», Vesle Anne
«Возможен ли фонетический переход "ж" в "п с придыханием"», forest

BormoGlott

Цитата: Wolliger Mensch от марта 15, 2014, 19:42
Самое простое — в Ворде: вставить текст, пребразовать в таблицу
а полученную таблицу взять в буфер обмена и вставить в Excel, где отсортировать всё по алфавиту. тогда сразу станут видны повторяющиеся слова и частота их использования

Rwseg

Цитата: RawonaM от марта 15, 2014, 18:06
Техническая часть: кто-нибудь знает какими инструментами проще всего составить список слов? Не хочется писать ничего самому. Еще лучше, чтобы частотность указывалась. Потом из этого всего сделать какую-то типа зубрилку.

В идеале, чтобы слова не учить в изоляции, можно каждое слово привязать к предложению из которого оно взято, чтобы можно было посмотреть пример употребления.
http://neon.niederlandistik.fu-berlin.de/en/textstat/

Hellerick

Для финского, с его богатой синтетикой, составление подобных списков без лемматайзера представляется малополезным.

RawonaM

Цитата: Rwseg от марта 16, 2014, 01:50
Цитата: RawonaM от марта 15, 2014, 18:06
Техническая часть: кто-нибудь знает какими инструментами проще всего составить список слов? Не хочется писать ничего самому. Еще лучше, чтобы частотность указывалась. Потом из этого всего сделать какую-то типа зубрилку.

В идеале, чтобы слова не учить в изоляции, можно каждое слово привязать к предложению из которого оно взято, чтобы можно было посмотреть пример употребления.
http://neon.niederlandistik.fu-berlin.de/en/textstat/
Это же просто чудо!! Рахмат превеликий!
Прямо все как надо.

Цитата: Hellerick от марта 16, 2014, 05:59
Для финского, с его богатой синтетикой, составление подобных списков без лемматайзера представляется малополезным.
Нельзя сказать, что малополезным. Конечно хотелось бы иметь лемматайзер, но и без него можно достаточно эффективно работать. Более того, для моей цели слова лучше запоминать в определенной форме, ибо если я запомню его в словарной форме, не факт, что опознаю быстро в субтитрах.

Если у этой проги есть возможность подключить морфологию, я бы мог попробовать использовать API тутшоней компании.

Вообще это опенсорс, можно что хочешь наворотить, было бы время. Думаю, что на данный момент мне достаточно как есть.

Wolliger Mensch

«Вот интересно, каких лингвистических жемчуг можно найти в море отодвинутых книг», Ян Гавлиш.
«Впредь прошу помнить, что придумал игру не для любых ассоциаций, а для семантически оправданных. Например, чтó это такое: ,,рулетке" — ,,выпечке"?? Тем более, что сей ляпсус я сам совершил...», Марбол
«Ветхий Завет написан на иврите и частично на армейском», Vesle Anne
«МЛ(ять)КО ... ПЛ(ять)NЪ», Тася
«Вот откроет этот спойлер, например, Марго, ничего не подозревая, а потом будут по всему форуму блюющие смайлики...», Авал
«Томан приличный мужчина. Правда по патриархальным меркам слегка голодранец», Vesle Anne
«Возможен ли фонетический переход "ж" в "п с придыханием"», forest

RawonaM

Обрабатываю список слов...
Очень муторно. Всего где-то 1600 словоформ. Около 1000 используется только один раз, около 250 два раза, а все остальные слова я знаю. Т.е. мне надо просмотреть где-то 1300 слов и осеять те, которые я знаю.
То есть, хотя бы час-два займет составить список неизвестных слов.
Как бы упростить этот процесс... В таблице нудно и долго. Приложение на телефончик бы.

Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр