Главное меню
Мы солидарны с Украиной. Узнайте здесь, как можно поддержать Украину.

Определение пола автора текста

Автор A.kornilov1, июня 29, 2014, 14:54

0 Пользователи и 1 гость просматривают эту тему.

Kaze no oto

Offtop
Впервые заглянул в тему-ту. И я слегка удивлён тем, шо оказался женщиной :)
Причём ведь намеренно стараюсь писать «по-пацански».

А если серьёзно — что если прогнать через этот анализатор текст какого-нибудь колумниста? Ну так для сравнения — Латынина и Пархоменко.

dragun97yu

Цитата: Kaze no oto от июля  3, 2014, 01:03
Offtop
Впервые заглянул в тему-ту. И я слегка удивлён тем, шо оказался женщиной :)
Причём ведь намеренно стараюсь писать «по-пацански».
Offtop
Возьмёшь у меня курсы? :)
Скопка - это маленькая скопа.

Марго

Цитата: Bhudh от июня 29, 2014, 20:10
Ну хоть у меня совпало.

Это вот в этом:
Цитата: A.kornilov1 от июня 29, 2014, 17:07
вы, весьма вероятно, мужчина
Хотя разница с женщиной не очень большая.

?

А мне Вы всегда представлялись просто мужчиной.  :donno:

A.kornilov1, а настоящего мужчину во всем этом сообществе сумеете отсыкать? Ну хоть одного-единственного?  :)


Тайльнемер

Цитата: A.kornilov1 от июля  2, 2014, 21:42
Цитата: dragun97yu от июля  2, 2014, 21:39
Так вы говорите, что с увеличением числа слов уменьшается точность определения?
Что же так?
Все, как всегда, просто : база была взята для 1000 слов в среднем. И если отклоняться от этого числа более чем в 1.5 раза, то результаты естественно будут "смазываться".
Может тогда стоит переделать алгоритм, чтобы он сперва разбивал длинный текст на куски по 1000 слов, для каждого измерял вероятность того, что это мужчина, а потом брал среднюю величину?

wandrien


A.kornilov1

Цитата: Тайльнемер от июля  3, 2014, 06:08
Может тогда стоит переделать алгоритм, чтобы он сперва разбивал длинный текст на куски по 1000 слов, для каждого измерял вероятность того, что это мужчина, а потом брал среднюю величину?
100 очков грифиндору !
Хоть это и "костыль", но один из рассматриваемых мною вариантов

Цитата: wandrien от июля  3, 2014, 07:10
Полный ЖЖ...
Опять же : меня не интересует отдельные кучки людей - интересно чтобы алгоритм был более-менее универсален

DarkMax2

Tej wojny nikt za nas nie wygra! © Wiedźmin III
Коли зчинять лемент: "Хто ж знав?!" — відповімо: "Ми".

З моїх снів ти утечеш над ранок,
Терпка, як аґрус, солодка, як біз.
Хочу снить чорні локи сплута́ні,
Фіалкові очі, мокрі від сліз.

Валер

Цитата: A.kornilov1 от июля  2, 2014, 21:52
Лукас
Грубо говоря да. Но это сейчас. И это проблема Техническая

Единственное не из технических препятствий что я приметил, это то, что тексты обращенные к другим людям обрабатывать гораздо легче ( подборки сообщений к примеру ) нежели чем обращенные к себе ( блоги о душевных страданиях автора ) или к предмету ( аналитика в новостях)
Вопрос: какой представляется зависимость от темы текста? Ну, типа научность и абстракция с одной стороны и что-нибудь в большей степени относящееся к личности испытуемого?
Несолидарный. С войной, чем-либо, кем-либо.

Убить непросто. Убивать за свою страну намного легче.

A.kornilov1

Валер
Зависимостей кроме вышеобозначенной я пока не наблюдал ( из серьезных ).
Отчасти иногда влияет эмоциональная окраска текста, но не более того.

Milchar

A.kornilov1

а вы знакомы с такой психологической теорией, как соционика? В ней люди классифицируются по 4 признакам: интроверсия - экстраверсия, рациональность - иррациональность, логика - этика, сенсорика - интуиция. Из примеров "мужских" и "женских" текстов, которые вы выложили, у меня складывается впечатление, что ваша программа меряет именно признак логика - этика, считая логиков мужчинами, а этиков женщинами. Логики среди мужчин и этики среди женщин действительно преобладают, но соотношение где-то примерно 65:35.

A.kornilov1

Milchar
Огромная Вам благодарность от меня.
Я не только знаком, но и первоначальную выборку для обучения алгоритма взял с социофорума. 
Возможно, ваша версия объясняет некоторые моменты которые мне до сегодняшнего дня были не ясны.
Только вот встает вопрос каким образом возник переход с измерения гендера на признаки логики-этики...

Milchar

A.kornilov1

Видимо, какие-то стереотипные образы мужчины и женщины показывают мужчину логиком, а женщину этиком.
А вы не пробовали сравнивать тексты, написанные мужчиной и женщиной, относящимися к одному социотипу?

A.kornilov1

Milchar
Нет. Перекрестные проверки будут как только отточу анализ социотипов. А до этого нужно кончить с темпераментом.
Странно то, что выборку я делал то только по м/ж хоть и с социофорума. Теперь буду думать как повлиял на эту выборку социотип. А так как это статистический анализ то стереотипы не должны были повлиять на результаты.


Я соционику не брал раньше в расчет из-за её статуса "недонауки". Как видно, я недооценил оную.

Milchar

A.kornilov1

Соционика -- это просто классификация по наиболее бросающимся в глаза признакам.
Ещё, наверно, стоит пообщаться с лингвистами, занимающимися смежными темами -- например: анализ особенностей речи на предмет выявления эмоциональной вовлечённости говорящего в ситуацию, отношения говорящего к предмету разговора, лжи, и т.п. Этим занимается, например, Анна Коростелёва в МГУ.
Но вообще -- очень сложное дело вы затеяли. Удачи вам!

Alone Coder

Сообщите, если не сложно, результат теста по произведениям "Кавалерист-девица": http://az.lib.ru/d/durowa_n_a/text_0080.shtml и "Капитанская дочка" http://rvb.ru/pushkin/01text/06prose/01prose/0869.htm

bvs

Цитата: A.kornilov1 от июня 29, 2014, 19:11
snn - Мужчина сильно выражено
Мне всегда казалось, что snn - женщина. А для транссексуалов вроде Даны и Александры нужен отдельный алгоритм.

Ыняша

Тащемта задача классификации - нейронная сеть должна хорошо справляться.
Мой номер на ЛФ #43854 — ура, я чётник! Чётники лучше нечётников.
С точностью до полпроцента в нановеке — пи секунд.

Алcy

Пол легко определяется по даже самым кондовым алгоритмам с использованием марковских цепей, даже безо всякой фонематической записи или журавлёвских "звукобукв".

Alone Coder

У вас есть такая программа? Каковы ошибки такого определения (М вместо Ж и Ж вместо М) по классам текстов?

Алcy

Цитата: Alone Coder от ноября 10, 2015, 13:11
У вас есть такая программа? Каковы ошибки такого определения (М вместо Ж и Ж вместо М) по классам текстов?

Зависит от языка. "Я сходила" невольно вырвется в речи женщины.
Для каждого языка надо настраивать отдельно. Часто эффективность зависит от морфологии исследуемого языка.

злой

А еще женщины реже ругаются матом. Так что добавьте в текст про новую тоналку и блеск для губ парочку "б@я" и он автоматически станет мужским ;D
Entre los individuos, como entre las naciones, el respeto al derecho ajeno es la paz.   - Benito Juárez

Ыняша

Цитата: Алcy от ноября 11, 2015, 15:16
Зависит от языка. "Я сходила" невольно вырвется в речи женщины.
Для каждого языка надо настраивать отдельно. Часто эффективность зависит от морфологии исследуемого языка.
Я потому и предлагаю сети - им всё равно на каком языке и что там вообще происходит. Научить на выборке побольше и будут приемлемо классифицировать.
Мой номер на ЛФ #43854 — ура, я чётник! Чётники лучше нечётников.
С точностью до полпроцента в нановеке — пи секунд.

Алcy

Цитата: Ыняша от ноября 11, 2015, 16:53
Цитата: Алcy от ноября 11, 2015, 15:16
Зависит от языка. "Я сходила" невольно вырвется в речи женщины.
Для каждого языка надо настраивать отдельно. Часто эффективность зависит от морфологии исследуемого языка.
Я потому и предлагаю сети - им всё равно на каком языке и что там вообще происходит. Научить на выборке побольше и будут приемлемо классифицировать.

Вот именно. Научить. Конечные ключевые особенности отличаются для разных языков.

Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр