Главное меню
Мы солидарны с Украиной. Узнайте здесь, как можно поддержать Украину.

Определение пола автора текста

Автор A.kornilov1, июня 29, 2014, 14:54

0 Пользователи и 1 гость просматривают эту тему.

A.kornilov1

Здравствуйте.
Немного истории:
N-ое количество времени назад я размышлял об искусственном интеллекте и искал "узкие места" в воплощении мечты многих фантастов да и не только.
Эти размышления и последующий анализ привели меня к одной идеи, которая со временем превратилась в хобби. Мне стало интересно: а возможно ли создание алгоритма, который бы определял некоторые характеристики автора по тексту им написанным?
По прошествии нескольких месяцев я решил сосредоточиться на одной задаче:
Определение пола автора текста.

Об алгоритме:
Алгоритм готов ( в общих чертах )
Основан он на частотности.
Обучающая выборка была взята с одного форума определенной тематики
Тестирование проводил беря тексты из разнообразных источников: форумы, треккеры, твиттер, посты в "вконтакте", новостные ленты, блоги. Т.е. При тестировании качество и тип источника не учитывалось. Даже наоборот - я старался, чтобы авторы были как можно более непохожи друг на друга.
Вкупе алгоритм, на сегодняшний день, определяет пол автора текста с точностью в 68.5%, чем я не могу быть не удовлетворен.

Теперь же, когда я убедился в минимальной жизнеспособности своих измышлений, настало время придать этой затее более научный, а, возможно, и коммерческий характер. В связи с чем у меня есть целый ряд вопросов, которые ни один из знакомых мне людей не может удовлетворить:

1) Какие подобные работы вам известны?
( мною было найдено лишь зарубежное исследование, где с использованием контент и стилистического анализа удалось достичь точности определения автора в 76.1%)
На какие из них мне обратить внимание?

2) Каким образом в принципе проверяются подобные алгоритмы? Насколько должна быть большой выборка для тестирования? И как проверяется эффективность программ?

3) Какие компании\организации занимаются подобными исследованиями? Кого это может заинтересовать?

4) Что мне нужно знать занимаясь подобной тематикой? На что обращать внимание?


Замечание:
Я, безусловно, буду рад вашим ответам, но прошу учитывать при написании своих комментариев что я- лишь любитель и познания мои весьма скромные.
Так же вы можете писать мне на электронную почту, которая указана в профиле.

Bhudh

Немного непонятно.
Алгоритм учитывает местоимения женского рода, употребляемые автором к самому себе, например? То есть использует ли грамматические методы?
Может ли алгоритм вывести на чистую воду человека, пишущего не от лица своего пола? (На этом форуме это особенно актуально...)
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

A.kornilov1

Bhudh,
Перечитал. Действительно непонятно :)
Сразу приношу свои извинения за скупость и жадность в отношении описания принципов работы алгоритма - во мне борются два желания: получить максимум ответов и никому не рассказывать о своей "прелести".


Касательно вопроса:

1)Нет. Грамматические методы не использует ( хочется в дальнейшем включить, но не сейчас ).
Скажу более - при проверке на устойчивость я удалял из текстов буквы "л" и "а", в таком случае эффективность просто понижалась.

2) Вряд ли. Этот алгоритм по принципам работы имеет отношение скорее к психологии человека, а точнее к его восприятию. Т.е. если у мужчины восприятия мира соответствующее женщине - алгоритм, скорее всего, покажет что автор - женщина. Конечно, исправить это теоретически возможно, но проблематично.
Как показал опыт  влияет на алгоритм и то, что, допустим, парень - воспитывался без отца, под влиянием матери и бабушки. И, возможно как следствие, алгоритм именно из-за этого выдает ошибку когда видит его тексты.

Так же, алгоритм сбоит на тех текстах, которые написаны безотносительно к другим людям.
Психолог, с которым я делюсь информацией по этому проекту сказал: "Ничего удивительного, ведь люди раскрываются лучше всего при взаимодействии с другими людьми"

P.S. надеюсь и дальше на Вашу оперативность при написании комментариев :)

Bhudh

То есть методы используются чисто статистические, основанные на частотности употребления тех или иных слов людьми одного пола.
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Ильич

Попадались какие-то статьи на эту тему. Набрал сейчас в Яндексе "гендерные различия речи" получил 252 тысячи ссылок.
Вот одна ссылка: http://nsportal.ru/ap/literaturnoe-tvorchestvo/library/nauchno-issledovatelskaya-rabota-gendernye-razlichiya-v-pismenno

Работа учащейся  9 класса Лаптевой Анны Сергеевны посвящена исследованию гендерных различий в письменной речи старшеклассников.

A.kornilov1

Bhudh,
Не слова. Но  да - чисто на частотности. ( И не фоносемантика, хотя она оказала влияние )

Ильич,
Спасибо - я отмел этот результат выдачи поисковика, ибо счел его "недостаточно авторитетным".
Мне понравились эти ребята (см. ссылку) ( PDF )

A.kornilov1

Bhudh, кстати мои поздравления ! Алгоритм говорит, что у вас мужское восприятие, а следовательно вы, весьма вероятно, мужчина :)
Хотя разница с женщиной не очень большая.

Пример обрабатываемых данных:

dragun97yu

Скопка - это маленькая скопа.

Nevik Xukxo

А это реально работает? Не утка в духе британских учёных? :umnik:

A.kornilov1

Nevik Xukxo,
Очень на это надеюсь. Я себя успокаиваю тем что статистического отклонения от слепой обезьяны которая выбирает М или Ж в 18% быть не должно ...
Я даже монетку подкидывал в своё время, чтобы проверить законы статистики в реальности.
Пока что - работает.

Но прошу не забывать что все "исследования" я проводил лично, а следовательно:
а) Может присутствовать элемент личной заинтересованности ( пусть и неосознанно )
б) Все это - не научно. И сделано "на коленке".
в) Все-таки может выйти так, что все это - просто магия цифр и большая ошибка

Так что не обнадеживайте себя, но и не теряйте надежду в меня :)

Python

A.kornilov1, можете проверить гендер пользователей dragun97yu и snn?
Пролетареві ніколи вчити європейських мов, бодай би свою знати добре і на ній принести до своєї хати світло знання (Гнат Хоткевич)
ÆC CASALI NAXI PRASQURI: AHOV CÆRU, MERTVÆRI TÆ SLAVUTÆT!
Вони просили його: «Скажи: кетум», а він говорив: «сатем», і не міг вимовити правильно.
Хотелось бы также отметить, что "Питон" - это "мышиный язык" : "пи+тон". © АБР-2

A.kornilov1

Python

dragun97yu - Мужчина :(
Даже не показывает что разница маленькая.

А snn- я не нашел


Если вам интересно - можете скидывать ваши тексты- буду прогонять через алгоритм.
( А то самому собирать сообщения - долго )
Ограничения для корректной работы алгоритма:
1)Русский язык
2)Новейшая история
3)Количество слов примерно 1000 ( не менее 3500 букв и не более 7000. Обычно 5500 )
4) Если вы набираете текст из сообщений пользователя - берите посты где есть хотя-бы 3 предложения.

Примечания:
1)Чем больше спец слов - тем хуже результат
2) Можете всячески путать и изменять тексты и делать выводы
3) Если хотите мне помочь - кидайте текст с минимальным наличием спецслов, указанием источника ( ссылки на профиль ,к примеру, или статью ) и пола.

Тайльнемер


Rwseg

Цитата: A.kornilov1 от июня 29, 2014, 17:56
dragun97yu - Мужчина :(
Наоборот, радуйтесь, алгоритм работает. Ещё проверьте этих пользователей:
Dana
Kaze no oto
Alexandra A

Для получения сообщений есть програмка.

Python

Пролетареві ніколи вчити європейських мов, бодай би свою знати добре і на ній принести до своєї хати світло знання (Гнат Хоткевич)
ÆC CASALI NAXI PRASQURI: AHOV CÆRU, MERTVÆRI TÆ SLAVUTÆT!
Вони просили його: «Скажи: кетум», а він говорив: «сатем», і не міг вимовити правильно.
Хотелось бы также отметить, что "Питон" - это "мышиный язык" : "пи+тон". © АБР-2

A.kornilov1

Тайльнемер,
Это означает что Пушкина тексты мне присылать смысла нет :)
Т.к. язык изменчив, а выборка сделана по сообщениям с 2008 по 2013 год, то чем раньше был текст написан тем больше вероятность ошибки.

Python, Rwseg
По пользователям инфа будет чуть позже - сейчас заминка с программой для поиска сообщений.
Тайльнемер уже в курсе и помогает мне с ней справиться

A.kornilov1

snn - Мужчина сильно выражено

A.kornilov1


Dana - женщина выражено средне

A.kornilov1


Kaze no oto
Женщина - выражено средне

A.kornilov1


Alexandra A - Женщина выражено средне

A.kornilov1

Жду ваших сообщений о результатах - буду дополнять статистику.

А еще сильнее жду информации по вопросам обозначенным мной в первом посте :)

Joris

yóó' aninááh

A.kornilov1

Vibrio cholerae - Женщина Сильно выражено


Тайльнемер

Интересная вещь!

А как она работает?
Цитата: A.kornilov1 от июня 29, 2014, 14:54
Основан он на частотности.
Не слова. Но  да - чисто на частотности. ( И не фоносемантика, хотя она оказала влияние )
Частотность чего именно там считается?
Или это секрет фирмы?

А можете меня проверить?
Вот мой корпус:

Joris

yóó' aninááh

Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
Проверка:
Оставьте это поле пустым:
Наберите символы, которые изображены на картинке
Прослушать / Запросить другое изображение

Наберите символы, которые изображены на картинке:

√36:
ALT+S — отправить
ALT+P — предварительный просмотр