Author Topic: Определение пола автора текста  (Read 22021 times)

0 Members and 1 Guest are viewing this topic.

Offline Kaze no oto

  • Posts: 4538
  • Gender: Male
Offtop
Впервые заглянул в тему-ту. И я слегка удивлён тем, шо оказался женщиной :)
Причём ведь намеренно стараюсь писать «по-пацански».

А если серьёзно — что если прогнать через этот анализатор текст какого-нибудь колумниста? Ну так для сравнения — Латынина и Пархоменко.

Offline dragun97yu

  • Posts: 5116
  • Gender: Female
  • Мод-тян
Offtop
Впервые заглянул в тему-ту. И я слегка удивлён тем, шо оказался женщиной :)
Причём ведь намеренно стараюсь писать «по-пацански».
Offtop
Возьмёшь у меня курсы? :)
Скопка - это маленькая скопа.

Offline Марго

  • Posts: 15522
  • Gender: Female
Ну хоть у меня совпало.

Это вот в этом:
вы, весьма вероятно, мужчина
Хотя разница с женщиной не очень большая.

?

А мне Вы всегда представлялись просто мужчиной.  :donno:

A.kornilov1, а настоящего мужчину во всем этом сообществе сумеете отсыкать? Ну хоть одного-единственного?  :)


Offline Тайльнемер

  • Posts: 12735
  • Σοι υν βυρρο. Ix bin æn ézl
Так вы говорите, что с увеличением числа слов уменьшается точность определения?
Что же так?
Все, как всегда, просто : база была взята для 1000 слов в среднем. И если отклоняться от этого числа более чем в 1.5 раза, то результаты естественно будут "смазываться".
Может тогда стоит переделать алгоритм, чтобы он сперва разбивал длинный текст на куски по 1000 слов, для каждого измерял вероятность того, что это мужчина, а потом брал среднюю величину?

Offline wandrien

  • Posts: 10342
  • Ты должен быть сильным, иначе зачем тебе быть.
1000 слов сложно найти у одного человека
Полный ЖЖ...

Offline A.kornilov1

  • Posts: 36
  • Gender: Male
Может тогда стоит переделать алгоритм, чтобы он сперва разбивал длинный текст на куски по 1000 слов, для каждого измерял вероятность того, что это мужчина, а потом брал среднюю величину?
100 очков грифиндору !
Хоть это и "костыль", но один из рассматриваемых мною вариантов

Полный ЖЖ...
Опять же : меня не интересует отдельные кучки людей - интересно чтобы алгоритм был более-менее универсален

Offline DarkMax2

  • Posts: 47798
  • Gender: Male
  • UeArtemis
    • Наша писемність
Определите меня, пожалуйста!
І мене :)
Tej wojny nikt za nas nie wygra! © Wiedźmin III
Коли зчинять лемент: "Хто ж знав?!" — відповімо: "Ми".

З моїх снів ти утечеш над ранок,
Терпка, як аґрус, солодка, як біз.
Хочу снить чорні локи сплута́ні,
Фіалкові очі, мокрі від сліз.

Offline Валер

  • Posts: 23840
  • Gender: Male
Лукас
Грубо говоря да. Но это сейчас. И это проблема Техническая

Единственное не из технических препятствий что я приметил, это то, что тексты обращенные к другим людям обрабатывать гораздо легче ( подборки сообщений к примеру ) нежели чем обращенные к себе ( блоги о душевных страданиях автора ) или к предмету ( аналитика в новостях)
Вопрос: какой представляется зависимость от темы текста? Ну, типа научность и абстракция с одной стороны и что-нибудь в большей степени относящееся к личности испытуемого?

Offline A.kornilov1

  • Posts: 36
  • Gender: Male
Валер
Зависимостей кроме вышеобозначенной я пока не наблюдал ( из серьезных ).
Отчасти иногда влияет эмоциональная окраска текста, но не более того.

Offline Milchar

  • Posts: 51
  • Gender: Male
    • Прогрессор
A.kornilov1

а вы знакомы с такой психологической теорией, как соционика? В ней люди классифицируются по 4 признакам: интроверсия - экстраверсия, рациональность - иррациональность, логика - этика, сенсорика - интуиция. Из примеров "мужских" и "женских" текстов, которые вы выложили, у меня складывается впечатление, что ваша программа меряет именно признак логика - этика, считая логиков мужчинами, а этиков женщинами. Логики среди мужчин и этики среди женщин действительно преобладают, но соотношение где-то примерно 65:35.

Offline A.kornilov1

  • Posts: 36
  • Gender: Male
Milchar
Огромная Вам благодарность от меня.
 Я не только знаком, но и первоначальную выборку для обучения алгоритма взял с социофорума. 
Возможно, ваша версия объясняет некоторые моменты которые мне до сегодняшнего дня были не ясны.
Только вот встает вопрос каким образом возник переход с измерения гендера на признаки логики-этики...

Offline Milchar

  • Posts: 51
  • Gender: Male
    • Прогрессор
A.kornilov1

Видимо, какие-то стереотипные образы мужчины и женщины показывают мужчину логиком, а женщину этиком.
А вы не пробовали сравнивать тексты, написанные мужчиной и женщиной, относящимися к одному социотипу?

Offline A.kornilov1

  • Posts: 36
  • Gender: Male
Milchar
Нет. Перекрестные проверки будут как только отточу анализ социотипов. А до этого нужно кончить с темпераментом.
Странно то, что выборку я делал то только по м/ж хоть и с социофорума. Теперь буду думать как повлиял на эту выборку социотип. А так как это статистический анализ то стереотипы не должны были повлиять на результаты.


Я соционику не брал раньше в расчет из-за её статуса "недонауки". Как видно, я недооценил оную.

Offline Milchar

  • Posts: 51
  • Gender: Male
    • Прогрессор
A.kornilov1

Соционика -- это просто классификация по наиболее бросающимся в глаза признакам.
Ещё, наверно, стоит пообщаться с лингвистами, занимающимися смежными темами -- например: анализ особенностей речи на предмет выявления эмоциональной вовлечённости говорящего в ситуацию, отношения говорящего к предмету разговора, лжи, и т.п. Этим занимается, например, Анна Коростелёва в МГУ.
Но вообще -- очень сложное дело вы затеяли. Удачи вам!

Offline Alone Coder

  • Вне лингвистики
  • Posts: 23160
  • Gender: Male
    • Орфовики
Сообщите, если не сложно, результат теста по произведениям "Кавалерист-девица": http://az.lib.ru/d/durowa_n_a/text_0080.shtml и "Капитанская дочка" http://rvb.ru/pushkin/01text/06prose/01prose/0869.htm

Offline bvs

  • Posts: 12289
snn - Мужчина сильно выражено
Мне всегда казалось, что snn - женщина. А для транссексуалов вроде Даны и Александры нужен отдельный алгоритм.

Offline Ыняша

  • Posts: 886
  • Gender: Female
  • #43854
Тащемта задача классификации - нейронная сеть должна хорошо справляться.
Мой номер на ЛФ #43854 — ура, я чётник! Чётники лучше нечётников.
С точностью до полпроцента в нановеке — пи секунд.

Offline Алcy

  • Posts: 51
Пол легко определяется по даже самым кондовым алгоритмам с использованием марковских цепей, даже безо всякой фонематической записи или журавлёвских "звукобукв".

Offline Alone Coder

  • Вне лингвистики
  • Posts: 23160
  • Gender: Male
    • Орфовики
У вас есть такая программа? Каковы ошибки такого определения (М вместо Ж и Ж вместо М) по классам текстов?

Offline Алcy

  • Posts: 51
У вас есть такая программа? Каковы ошибки такого определения (М вместо Ж и Ж вместо М) по классам текстов?

Зависит от языка. "Я сходила" невольно вырвется в речи женщины.
Для каждого языка надо настраивать отдельно. Часто эффективность зависит от морфологии исследуемого языка.

Offline злой

  • Posts: 13358
  • Gender: Male
А еще женщины реже ругаются матом. Так что добавьте в текст про новую тоналку и блеск для губ парочку "б@я" и он автоматически станет мужским ;D
Остался у меня на память от тебя портрет твой портрет работы Пабло Пикассо

Offline Ыняша

  • Posts: 886
  • Gender: Female
  • #43854
Зависит от языка. "Я сходила" невольно вырвется в речи женщины.
Для каждого языка надо настраивать отдельно. Часто эффективность зависит от морфологии исследуемого языка.
Я потому и предлагаю сети - им всё равно на каком языке и что там вообще происходит. Научить на выборке побольше и будут приемлемо классифицировать.
Мой номер на ЛФ #43854 — ура, я чётник! Чётники лучше нечётников.
С точностью до полпроцента в нановеке — пи секунд.

Offline Алcy

  • Posts: 51
Зависит от языка. "Я сходила" невольно вырвется в речи женщины.
Для каждого языка надо настраивать отдельно. Часто эффективность зависит от морфологии исследуемого языка.
Я потому и предлагаю сети - им всё равно на каком языке и что там вообще происходит. Научить на выборке побольше и будут приемлемо классифицировать.

Вот именно. Научить. Конечные ключевые особенности отличаются для разных языков.

 

With Quick-Reply you can write a post when viewing a topic without loading a new page. You can still use bulletin board code and smileys as you would in a normal post.

Note: this post will not display until it's been approved by a moderator.
Name: Email:
Verification:
√49 Напишите ответ строчными буквами:
«Сто одёжек, все без застёжек» — что это?: