Author Topic: Работа с параллельными текстами  (Read 1413 times)

0 Members and 1 Guest are viewing this topic.

Offline Азъ есмь

  • Posts: 100
Нужна помощь с решением следущей прикладной задачи.
Есть два паралелльных текста, разбитых по предложениям. Каждое предложение имеет один и тот же номер в обоих текстах. Тексты достаточно большие - Новый завет.

Для анализа было бы удобно объеденить оба текста в один, чтобы каждое преждложение шло друг за другом. Чтобы можно было искать по словам, и сразу видеть, в каком месте искать его соответсвие на втором языке.

Как это можно решить? В ручную копировать по одному предложению очень муторно. Любые идеи горячо приветсвуются. В программирование, как вы поняли, я не умею.

Offline Bhudh

  • Posts: 56649
  • Gender: Male
  • aka 蝎
    • Сайты по языкознанию
В каком формате тексты-то?
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Offline Азъ есмь

  • Posts: 100
В каком формате тексты-то?

Простой .txt

Решение: Вставляем оба текста в ворд, сортируем по алфавиту. Так как у каждой строки одинаковый номер на обоих языках, все строчки строятся друг под дружку. Всё гениальное просто!  :green: :D

Offline Wolliger Mensch

  • Global Moderator
  • *
  • Posts: 53854
  • Gender: Male
  • Haariger Affe
    • Подушка
Нужна помощь с решением следущей прикладной задачи.
Есть два паралелльных текста, разбитых по предложениям. Каждое предложение имеет один и тот же номер в обоих текстах. Тексты достаточно большие - Новый завет.

Для анализа было бы удобно объеденить оба текста в один, чтобы каждое преждложение шло друг за другом. Чтобы можно было искать по словам, и сразу видеть, в каком месте искать его соответсвие на втором языке.

Как это можно решить? В ручную копировать по одному предложению очень муторно. Любые идеи горячо приветсвуются. В программирование, как вы поняли, я не умею.

Решить в Ворде макросом. Если номера предложений отличаются по формату от цифр в тексте, можно даже без Бейсика обойтись.
«Вот интересно, каких лингвистических жемчуг можно найти в море отодвинутых книг», Ян Гавлиш.
«Впредь прошу помнить, что придумал игру не для любых ассоциаций, а для семантически оправданных. Например, чтó это такое: „рулетке“ — „выпечке“?? Тем более, что сей ляпсус я сам совершил…», Марбол
«Ветхий Завет написан на иврите и частично на армейском», Vesle Anne
«МЛ(ять)КО … ПЛ(ять)NЪ», Тася
«Вот откроет этот спойлер, например, Марго, ничего не подозревая, а потом будут по всему форуму блюющие смайлики…», Авал

Offline Цитатель

  • Posts: 1896
сначала нужно разбить текст, чтобы каждый абзац начинался с номера.

в ворде это делается это так: Find and Replace/More/Special/ в Find ставится " ^#" (пробел и знак #), в Replace "^p^&" (знак абзаца и знак "найденный текст"). После этого нажимайте на Replace All, получаете текст разбитый по номерам строк Библии.

Эту операцию нужно проделать с обеими текстами и скопировать оба текста в один файл.

Потом в ворде делается таблица - Select all/Insert/Table/Convert text to table/OK

Теперь ваш текст превратился в таблицу, в котором столбцы начинаются с номера строки.

Затем нужно кликнуть в любую клетку таблицы и нажать на правую кнопку мышки, выбрать Insert/Insert columns to the right

Ваш текст превратился в таблицу в двумя столбцами, где слева текст пронумерованный по строкам на одном языке, а второй столбец пустой.

Далее нужно скопировать текст на втором языке (он должен у вас где то к середине таблицы начинаться) и вставить во второй столбец.

после этого у вас будет таблица, где слева текст на одном языке, а справа на другом. Но его еще нужно выравнять, поскольку нумерация переводов Библии иногда не совпадает.

Выравнивание  производится следующим образом - если текст справа или слева нужно сдвинуть вниз - выбираете любую клетку таблицу, нажимаете на правую кнопку мыши, выбираете Insert/Insert cells/Shift cells down

Делаете это столько, сколько нужно, пока не убедитесь, что все клетки в правом столбце соответствуют по номерам всем клеткам в левом.

После чего выбираете любую клетку, нажимаете сверху на Layout/Convert to text/Paragraph marks/OK.

Текст готов. У вас должно получится что то вроде

1È ji Jezu ɖo Bɛteleyɛ́mu ɖo Juda yíkúngban jí, axɔ́sú Elódu hwenu; nǔnywɛ́tɔ́ e nɔ́ mɔ nǔ jɛ sun sín wuntun wú lɛ́ɛ ɖěe gosín zǎnzǎnhwe jí wá Jeluzalɛ́mu.
1 Когда же Иисус родился в Вифлееме Иудейском во дни царя Ирода, пришли в Иерусалим волхвы с востока и говорят:
2Éeyě wá ɔ́, yě ɖɔ: “Fítɛ́ Jwifulɛ́ɛ xɔ́sú e è ji ɔ́ ɖe? Ɖó mǐ mɔ sunví e ɖejijitɔnxlɛ́ ɔ́ ɖozǎnzǎnhwejí fí emǐ gosín ɔ́, bó wá xwé kanbyɔ́ gbé.”
2 где родившийся Царь Иудейский? ибо мы видели звезду Его на востоке и пришли поклониться Ему.
3Éeaxɔ́sú Elódusexó énɛ́ ɔ́, ayitɔnbǐ gbadó é kpódó Jeluzalɛ́mutogun ɔ́ bǐ kpó,
3 Услышав это, Ирод царь встревожился, и весь Иерусалим с ним.
4bɔ é ylɔ́ vɔ̌sánú-xwlémawutɔ́gánlɛ́ɛ bǐ kplé kpódó sɛ́nkplɔ́nmɛtɔ́ tɔnlɛ́ɛ kpó, lobokanfí e è ɖǒ ná ji Klísu ɖe ɔ́ byɔ́ yě.
4 И, собрав всех первосвященников и книжников народных, спрашивал у них: где должно родиться Христу?
5Yě ká yí gben'i ɖɔ: “Bɛteleyɛ́mu, Judéeyíkúngbanjí wɛ, ɖó Mawukó ɖɔ gbɔngbeyíɖɔ tɔnlɛ́ɛ jí ɖɔ:
5 Они же сказали ему: в Вифлееме Иудейском, ибо так написано через пророка:
6 ‘Hwɛ, Bɛteleyɛ́mu, toxoe ɖoJudayíkúngbanjí é!A ɖotó ɖěbǔ ɖoJudatoxo ɖaxó lɛ́ɛ mɛ ǎ, ɖó agblotowemɛ wɛ axɔ́sú ɖé ná tɔ́n ɖe, bó ná kpé nukúndó togunce Izlayɛ́li wú.’ ”
6 и ты, Вифлеем, земля Иудина, ничем не меньше воеводств Иудиных, ибо из тебя произойдет Вождь, Который упасет народ Мой, Израиля.
7Elódukazɔ́n, bɔ è yiylɔ́ nǔnywɛ́tɔ́ lɛ́ɛ wá n'i. Éeyě wá ɔ́, é kplá yě yikpá, bokanhwenuesunví ɔ́ tɔ́ndó ɔ́ byɔ́ yě tlítlí.
7 Тогда Ирод, тайно призвав волхвов, выведал от них время появления звезды
8Énɛ́ gúdo ɔ́, é nyinǔnywɛ́tɔ́ énɛ́ lɛ́ɛ sɛ́ dó Bɛteleyɛ́mubó ɖɔ nú yě ɖɔ: “Miyibadonú vǐ ɔ́ céɖécéɖé, mikamɔ ɛ hǔn, miwá ɖɔ nú mì, nú nyɛ lɔmɔ̌ ná yikanxwé byɔ́.”
8 и, послав их в Вифлеем, сказал: пойдите, тщательно разведайте о Младенце и, когда найдете, известите меня, чтобы и мне пойти поклониться Ему.

Offline Азъ есмь

  • Posts: 100
Нужна помощь с решением следущей прикладной задачи.
Есть два паралелльных текста, разбитых по предложениям. Каждое предложение имеет один и тот же номер в обоих текстах. Тексты достаточно большие - Новый завет.

Для анализа было бы удобно объеденить оба текста в один, чтобы каждое преждложение шло друг за другом. Чтобы можно было искать по словам, и сразу видеть, в каком месте искать его соответсвие на втором языке.

Как это можно решить? В ручную копировать по одному предложению очень муторно. Любые идеи горячо приветсвуются. В программирование, как вы поняли, я не умею.

Решить в Ворде макросом. Если номера предложений отличаются по формату от цифр в тексте, можно даже без Бейсика обойтись.

Это хорошо, ибо я даже с ним не дружу  :no:


Спасибо огромное. Я уверен, что это очень пригодится. Тексты, которые мне дали, были уже пронумерованы, но не каждый же раз так будет. Уверен, что пригодится, и даже не только мне!

Offline Hellerick

  • Posts: 28338
  • Gender: Male
Я похожую задачу решал, но в автоматическом виде так и не дорешал.
Писал программу, которая соотносила два текста, ориентируясь на корреляцию длин абзацев, и расставляла их в два столбца рядышком.
Можно и на предложения ориентироваться — задача принципиально не изменяется.
Надо бы снова этим заняться.

Offline Bhudh

  • Posts: 56649
  • Gender: Male
  • aka 蝎
    • Сайты по языкознанию
Я сейчас похожую решаю, для параллелирования текста и его перевода.
Для понимания масштабов: текст — Риг-веда. (Если кто помнит, Илиаду и Одиссею я уже делал.)
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

 

With Quick-Reply you can write a post when viewing a topic without loading a new page. You can still use bulletin board code and smileys as you would in a normal post.

Note: this post will not display until it's been approved by a moderator.
Name: Email:
Verification:
Type the letters shown in the picture
Listen to the letters / Request another image
Type the letters shown in the picture:
√49 Напишите ответ строчными буквами:
«Сто одёжек, все без застёжек» — что это?: