Математические методы при определении близости (?) лингвистических явлений?

Автор Lassie, июля 26, 2011, 21:49

0 Пользователи и 1 гость просматривают эту тему.

Марбол

Здравствуйте!

   По этому вопросу я нашёл в сети книжку Пиотровского и Бекаева "Математическая лингвистика", там описано применение математической статистики, дифференциального счисления, теории рядов, есть элементы теории информации (статистические штуки). Собственно, меня это всё радует и впечатляет, надо читать и считать, но в этих приложениях, в сущности, исчисляются дистрибутивные характеристики единиц и их форм. Когда же пишется о семантике, то, в сущности, приводятся результаты разных опросов (например, необработанные статистические кривульки: сколько лет "юноше", "мальчику", "отроку", "мужчине" и т. п. - частотность называемого возраста в гистографической зависимости от возраста).
   Помимо наработок авторов этой книги, из области сравнительно-исторического языкознания можно привести сюда нотацию реконструируемых единиц и их элементов, по-моему, внешне похожую на запись химических реакций или шахматных ходов, когда формулируется априорное или апостериорное правило, той или иной степени общности, без раскрытия деталей процесса. Конечно, такой нотации можно сопоставить что-нибудь из математики (возможно, теория множеств, всякие там алгебры и прочее). Хомского и Мельчука я не читал и потому не упоминаю их направления.
   А вот математическое описание языковых знаков, как двучастных единиц, мне встречалось только в "Курсе" де Соссюра в виде дроби, не помню точно, ds/dS или s/S (s - означающее, S - означаемое). Недавно я и сам озадачился таким вопросом: можно ли в общем виде, математически, выразить соотношение двух сторон знака таким образом, чтобы одновременно учесть дискретный характер означающего и сплошный характер означаемого, а также различие между значением (существует в системе языка), понятием (в первом приближении, существует независимо от языковой системы) и смыслом (в первом приближении, относится к значению так же, как реализация единицы к ней самой). Предметно-понятийную область данного языка можно было бы представить в виде некоторого поля, а семиотические функции лексических, например, единиц выразить в виде нормирующих функций, имеющих значение 1 в центре области значений данной единицы и стремящихся к 0 на её периферии.
   Но это означает, что семантика, в виде упомянутого поля, должна поддаваться анализу, то есть должна быть исчислима: надо задаться принципом возможности сравнения любых двух значений, ввести некую семантическую алгебру. Не знаю, можно ли и как можно это сделать.

Alone Coder

Самая длинная статья БСЭ - "СССР". Очевидно, это самое древнее слово в русском языке.

Ngati

Цитата: Alone Coder от июля 27, 2011, 20:52
Самая длинная статья БСЭ - "СССР". Очевидно, это самое древнее слово в русском языке.
лол! вы как всегда все не так поняли. в методе линейки имелись в виду двуязычные словари, а не моноязычные энциклопедии.
matnaw rera 'apa ca 'osma 'ura nis kanto ko-rikin

係数で始まれば科学なり、係数で終われば簿記なり。

все на расчет коэффициента развития префиксации!

Lassie

Цитата: RawonaM от июля 27, 2011, 11:56
Цитата: Lassie от июля 27, 2011, 10:49
Но что полезного мы узнали, узнав численное выражение пресловутой  близости? Такую информацию только солить. Формализация ради самого процесса :'(
Нет. Мы узнали много чего. Представьте себе алгоритм перевода, который подбирает синонимы к слову, которое уже было раньше, но чтобы не повторяться хочется выбрать другое.
Сочетаемость с другими словами всё равно проставляется вручную.  Задание альтернатив для каждого класса остаётся на усмотрение пользователя, а упорядочивание их по степени предпочтительности (единственное, что даёт этот метод) в каждом контексте требует долгих и мучительных разборок с возможными контекстами и прикидывания количества информации.
В данном случае, по-моему, энергозатраты на подготовку не компенсируются вином от автоматизации. Похоже на средство от тараканов: "Догнал таракана- и в глаза ему, в глаза!".

RawonaM

Цитата: Lassie от июля 27, 2011, 21:41
Сочетаемость с другими словами всё равно проставляется вручную.
А вот и не обязательно. Можно автоматически статистику подсчитывать.
Да и потом, не понял я к чему это было. Ну одно вручную (пока что), другое автоматически. Это лучше, чем все вручную.

Цитата: Lassie от июля 27, 2011, 21:41
В данном случае, по-моему, энергозатраты на подготовку не компенсируются вином от автоматизации.
При таком подходе мы бы ничего не имели. А так через несколько десятков лет методом проб и ошибок мы будем иметь серьезные языковые технологии.

Artemon

ЦитироватьВладимир Плунгян: Если не брать в расчет теоретиков старой школы, я особенно оппозиции и не вижу.
С тех пор, как мои знакомые орфографию (слава Богу, хоть не пунктуацию) проверяют по "Гуглу", а не в словаре, у меня очень серьёзные претензии к корпусам. Как писал Кронгауз, того и гляди, по вторникам будем "карова" писать, по пятницам - "корова", а в остальные дни сомневаться.
За разнообразие в мире языков: //vk.com/lingvomir
    [li]Чёрное и белое - лишь условные абстракции. Но жить, навешивая ярлыки, куда проще.[/li]
    [li]Green ideas и глокая куздра сообщают, что главное – принцип. Слова меняются, модели остаются.[/li]
    [li]Хорошо кишинёвскому сыну тайца и египтянки.[/li]
    [li]Ругая эсперанто, предлагайте альтернативы. Многие в вашей стране смотрят голливудские фильмы без перевода?[/li]
    [li]Живой язык = мёртвый конланг + армия и флот.[/li]
    [li]Центру нужны единое мнение, единый язык и смиренные налогоплательщики.[/li]

RawonaM

Цитата: Artemon от июля 28, 2011, 03:15
ЦитироватьВладимир Плунгян: Если не брать в расчет теоретиков старой школы, я особенно оппозиции и не вижу.
С тех пор, как мои знакомые орфографию (слава Богу, хоть не пунктуацию) проверяют по "Гуглу", а не в словаре, у меня очень серьёзные претензии к корпусам.
Это просто от недопонимания.

I. G.

Цитата: Artemon от июля 28, 2011, 03:15
С тех пор, как мои знакомые орфографию (слава Богу, хоть не пунктуацию) проверяют по "Гуглу", а не в словаре, у меня очень серьёзные претензии к корпусам.
Орфография - царица полей.  :negozhe:
...И мимимишечных круглышек,
Что безусловно хороши,
Но очень вредны для души.

Alone Coder

Я давно предлагал все непроверяемые а/о писать как о. Так ведь нет, у Лопатина наоборот.

Валер

Несолидарный. С войной, чем-либо, кем-либо.

Убить непросто. Убивать за свою страну намного легче.

antbez

Цитировать
С тех пор, как мои знакомые орфографию (слава Богу, хоть не пунктуацию) проверяют по "Гуглу", а не в словаре

Да, жаль. Хотя чаще сомнения возникают в области пунктуации...
Quae medicamenta non sanant, ferrum sanat, quae ferrum non sanat, ignis sanat.

antbez

Цитировать
Недавно я и сам озадачился таким вопросом: можно ли в общем виде, математически, выразить соотношение двух сторон знака таким образом, чтобы одновременно учесть дискретный характер означающего и сплошный характер означаемого, а также различие между значением (существует в системе языка), понятием (в первом приближении, существует независимо от языковой системы) и смыслом (в первом приближении, относится к значению так же, как реализация единицы к ней самой).

Мне это тоже интересно! Можно будет обсудить на ближайшей Лингвовстрече!
Quae medicamenta non sanant, ferrum sanat, quae ferrum non sanat, ignis sanat.

antbez

Насчёт статьи.

Математически всё это достаточно ясно, а с помощью применения ЭВМ можно решить и более сложные задачи.

Цитировать
Рассматривая эти расстояния, приходим к выводу, что глаголы синонимического ряда, вообще, говоря, не являются рядом.

Вероятно, я невнимательно прочёл, так как не понял, в каком смысле употреблён термин "ряд". Также отмечу, что проще всего расстояния между словами вычислять как расстояния Левенштейна ("семиотическое расстояние"), но при этом необходимые семантические признаки не будут учитываться.
Quae medicamenta non sanant, ferrum sanat, quae ferrum non sanat, ignis sanat.

Lassie

Цитата: antbez от июля 28, 2011, 17:42
Математически всё это достаточно ясно
В формуле 2, по-моему, ||х|| находится через J, а в (4) J предлагают находить через x, разве нет? Просто мы не сможем узнать число перестановок k(q), если не будем знать x. Или нет?...

Цитировать
а с помощью применения ЭВМ можно решить и более сложные задачи.
:-[ Я совершенно зелёный чайник в прикладной (и не только) лингвистике, и даже не представляю процесс... Извините за дикий вопрос, на каком языке это лучше осуществить?

Artemon

Цитата: RawonaM от июля 28, 2011, 10:28
Цитата: Artemon от июля 28, 2011, 03:15
ЦитироватьВладимир Плунгян: Если не брать в расчет теоретиков старой школы, я особенно оппозиции и не вижу.
С тех пор, как мои знакомые орфографию (слава Богу, хоть не пунктуацию) проверяют по "Гуглу", а не в словаре, у меня очень серьёзные претензии к корпусам.
Это просто от недопонимания.
Именно. На форумах пишите как хотите, но норма должна быть нормой. Естественно, она может (и должна) меняться в зависимости от данных корпусов, но уравнять норму и результаты "Гугла" - это, похоже, окончательная победа лени над здравым смыслом.
За разнообразие в мире языков: //vk.com/lingvomir
    [li]Чёрное и белое - лишь условные абстракции. Но жить, навешивая ярлыки, куда проще.[/li]
    [li]Green ideas и глокая куздра сообщают, что главное – принцип. Слова меняются, модели остаются.[/li]
    [li]Хорошо кишинёвскому сыну тайца и египтянки.[/li]
    [li]Ругая эсперанто, предлагайте альтернативы. Многие в вашей стране смотрят голливудские фильмы без перевода?[/li]
    [li]Живой язык = мёртвый конланг + армия и флот.[/li]
    [li]Центру нужны единое мнение, единый язык и смиренные налогоплательщики.[/li]

Artemon

Цитата: RawonaM от июля 27, 2011, 08:53
Цитата: Artemon от июля 27, 2011, 03:11
С лексикой работать математическими формулами? Смело. :)
Математическими формулами можно с чем угодно работать.
У нас на мехмате, кстати, статист(ик)ов в шутку называли недоматематиками. Настоящая математика, конечно же, должна опираться не на числа, а на переменные ("если Х, то У", а не "если 50.01%, то У"). Так вот с переменными в лексике плоховато.
За разнообразие в мире языков: //vk.com/lingvomir
    [li]Чёрное и белое - лишь условные абстракции. Но жить, навешивая ярлыки, куда проще.[/li]
    [li]Green ideas и глокая куздра сообщают, что главное – принцип. Слова меняются, модели остаются.[/li]
    [li]Хорошо кишинёвскому сыну тайца и египтянки.[/li]
    [li]Ругая эсперанто, предлагайте альтернативы. Многие в вашей стране смотрят голливудские фильмы без перевода?[/li]
    [li]Живой язык = мёртвый конланг + армия и флот.[/li]
    [li]Центру нужны единое мнение, единый язык и смиренные налогоплательщики.[/li]

Чайник777

Цитата: Artemon от июля 29, 2011, 02:55
Именно. На форумах пишите как хотите, но норма должна быть нормой. Естественно, она может (и должна) меняться в зависимости от данных корпусов, но уравнять норму и результаты "Гугла" - это, похоже, окончательная победа лени над здравым смыслом.
Причём тут вообще корпус и норма? Если ваши знакомые неправильно используют корпус и гугл (для проверки орфографии), то что тут можно сделать?
Смотрите, что получается:
Цитата: Artemon от июля 28, 2011, 03:15С тех пор, как мои знакомые орфографию (слава Богу, хоть не пунктуацию) проверяют по "Гуглу", а не в словаре, у меня очень серьёзные претензии к корпусам.
ЦитироватьС тех пор, как мои знакомые ворованный софт и порнографию ищут в "Гугле" и корпусе, у меня очень серьёзные претензии к Гуглу и корпусу.
ЦитироватьС тех пор, как мои знакомые размещают в инете нацисткую пропаганду, у меня очень серьёзные претензии к инету.
DAZU brauchte Hitler 12 Jahre Zeit.

RawonaM

Цитата: Чайник777 от июля 29, 2011, 08:15
Причём тут вообще корпус и норма? Если ваши знакомые неправильно используют корпус и гугл (для проверки орфографии), то что тут можно сделать?
+1. Как-то все в одну кучу. Плунгян хорошо о норме сказал в этой лекции. Мухи отдельно, котлеты отдельно.

Alone Coder


arseniiv

Цитата: Марбол от июля 27, 2011, 18:33
надо задаться принципом возможности сравнения любых двух значений, ввести некую семантическую алгебру. Не знаю, можно ли и как можно это сделать.
Меня тоже вопрос корректного введения интересует. Для «дискретных» значений (напр., у терминов) довольно просто, а вот структура непрерывных понятий совсем не ясна.

Марбол

Здравствуйте!

Это несколько другая тема; я прошу модераторов вынести отсюда в отдельную дискуссию разговор о приложении математики к описанию языковых знаков.


Artemon

Цитата: RawonaM от июля 29, 2011, 08:20
Цитата: Чайник777 от июля 29, 2011, 08:15
Причём тут вообще корпус и норма? Если ваши знакомые неправильно используют корпус и гугл (для проверки орфографии), то что тут можно сделать?
+1. Как-то все в одну кучу. Плунгян хорошо о норме сказал в этой лекции. Мухи отдельно, котлеты отдельно.
Ну тогда полюбопытствуйте, чем занимается ИРЯ РАН, и скажите, что после этого делать простому журналисту. :)
http://www.ruslang.ru/doc/seminar_codif_orth5.pdf
За разнообразие в мире языков: //vk.com/lingvomir
    [li]Чёрное и белое - лишь условные абстракции. Но жить, навешивая ярлыки, куда проще.[/li]
    [li]Green ideas и глокая куздра сообщают, что главное – принцип. Слова меняются, модели остаются.[/li]
    [li]Хорошо кишинёвскому сыну тайца и египтянки.[/li]
    [li]Ругая эсперанто, предлагайте альтернативы. Многие в вашей стране смотрят голливудские фильмы без перевода?[/li]
    [li]Живой язык = мёртвый конланг + армия и флот.[/li]
    [li]Центру нужны единое мнение, единый язык и смиренные налогоплательщики.[/li]

Чайник777

Цитата: Artemon от июля 30, 2011, 02:25
Ну тогда полюбопытствуйте, чем занимается ИРЯ РАН, и скажите, что после этого делать простому журналисту. :)
http://www.ruslang.ru/doc/seminar_codif_orth5.pdf
Какая-то не вызывающая особого уважения и интереса деятельность  :(
DAZU brauchte Hitler 12 Jahre Zeit.

Марбол

Здравствуйте!

По-видимому, в статье действительно норма слова ||x||Q и количество информации J(q) признака q определяются одно через другое, по порочному кругу. Может быть, здесь можно выразить J через ||x|| и, подставив в выражение для ||x||, составить уравнение (может быть, не разрешимое в явном виде). Но я в упор не могу понять, зачем, при определении нормы слова по формуле (2), вводится делитель γ(q). Это делится информативность J(q) признака q, как такового, на количество γ(q) слов, обладающих им? - А зачем, в чём логика этого? Якобы, информационный вклад данного признака, по сравнению с другими признаками, в употребление данного слова тем меньше, чем больше других слов отвечают этому признаку?..

Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр