Author Topic: Определение пола автора текста  (Read 22013 times)

0 Members and 1 Guest are viewing this topic.

Offline A.kornilov1

  • Posts: 36
  • Gender: Male
Здравствуйте.
Немного истории:
N-ое количество времени назад я размышлял об искусственном интеллекте и искал "узкие места" в воплощении мечты многих фантастов да и не только.
Эти размышления и последующий анализ привели меня к одной идеи, которая со временем превратилась в хобби. Мне стало интересно: а возможно ли создание алгоритма, который бы определял некоторые характеристики автора по тексту им написанным?
По прошествии нескольких месяцев я решил сосредоточиться на одной задаче:
Определение пола автора текста.

Об алгоритме:
Алгоритм готов ( в общих чертах )
Основан он на частотности.
Обучающая выборка была взята с одного форума определенной тематики
Тестирование проводил беря тексты из разнообразных источников: форумы, треккеры, твиттер, посты в "вконтакте", новостные ленты, блоги. Т.е. При тестировании качество и тип источника не учитывалось. Даже наоборот - я старался, чтобы авторы были как можно более непохожи друг на друга.
Вкупе алгоритм, на сегодняшний день, определяет пол автора текста с точностью в 68.5%, чем я не могу быть не удовлетворен.

Теперь же, когда я убедился в минимальной жизнеспособности своих измышлений, настало время придать этой затее более научный, а, возможно, и коммерческий характер. В связи с чем у меня есть целый ряд вопросов, которые ни один из знакомых мне людей не может удовлетворить:

1) Какие подобные работы вам известны?
 ( мною было найдено лишь зарубежное исследование, где с использованием контент и стилистического анализа удалось достичь точности определения автора в 76.1%)
На какие из них мне обратить внимание?

2) Каким образом в принципе проверяются подобные алгоритмы? Насколько должна быть большой выборка для тестирования? И как проверяется эффективность программ?

3) Какие компании\организации занимаются подобными исследованиями? Кого это может заинтересовать?

4) Что мне нужно знать занимаясь подобной тематикой? На что обращать внимание?


Замечание:
Я, безусловно, буду рад вашим ответам, но прошу учитывать при написании своих комментариев что я- лишь любитель и познания мои весьма скромные.
Так же вы можете писать мне на электронную почту, которая указана в профиле.

Offline Bhudh

  • Posts: 60529
  • Gender: Male
  • aka 蝎
    • Сайты по языкознанию
Немного непонятно.
Алгоритм учитывает местоимения женского рода, употребляемые автором к самому себе, например? То есть использует ли грамматические методы?
Может ли алгоритм вывести на чистую воду человека, пишущего не от лица своего пола? (На этом форуме это особенно актуально…)
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Offline A.kornilov1

  • Posts: 36
  • Gender: Male
Bhudh,
Перечитал. Действительно непонятно :)
Сразу приношу свои извинения за скупость и жадность в отношении описания принципов работы алгоритма - во мне борются два желания: получить максимум ответов и никому не рассказывать о своей "прелести".


Касательно вопроса:

1)Нет. Грамматические методы не использует ( хочется в дальнейшем включить, но не сейчас ).
Скажу более - при проверке на устойчивость я удалял из текстов буквы "л" и "а", в таком случае эффективность просто понижалась.

2) Вряд ли. Этот алгоритм по принципам работы имеет отношение скорее к психологии человека, а точнее к его восприятию. Т.е. если у мужчины восприятия мира соответствующее женщине - алгоритм, скорее всего, покажет что автор - женщина. Конечно, исправить это теоретически возможно, но проблематично.
Как показал опыт  влияет на алгоритм и то, что, допустим, парень - воспитывался без отца, под влиянием матери и бабушки. И, возможно как следствие, алгоритм именно из-за этого выдает ошибку когда видит его тексты.

Так же, алгоритм сбоит на тех текстах, которые написаны безотносительно к другим людям.
 Психолог, с которым я делюсь информацией по этому проекту сказал: "Ничего удивительного, ведь люди раскрываются лучше всего при взаимодействии с другими людьми"

P.S. надеюсь и дальше на Вашу оперативность при написании комментариев :)

Offline Bhudh

  • Posts: 60529
  • Gender: Male
  • aka 蝎
    • Сайты по языкознанию
То есть методы используются чисто статистические, основанные на частотности употребления тех или иных слов людьми одного пола.
Пиши, что думаешь, но думай, что пишешь.
MONEŌ ERGŌ MANEŌ.
Waheeba dokin ʔebi naha.
«каждый пост в интернете имеет коэффициент бреда» © Невский чукчо

Offline Ильич

  • Posts: 8306
  • Gender: Male
Попадались какие-то статьи на эту тему. Набрал сейчас в Яндексе "гендерные различия речи" получил 252 тысячи ссылок.
Вот одна ссылка: http://nsportal.ru/ap/literaturnoe-tvorchestvo/library/nauchno-issledovatelskaya-rabota-gendernye-razlichiya-v-pismenno

Работа учащейся  9 класса Лаптевой Анны Сергеевны посвящена исследованию гендерных различий в письменной речи старшеклассников.

Offline A.kornilov1

  • Posts: 36
  • Gender: Male
Bhudh,
Не слова. Но  да - чисто на частотности. ( И не фоносемантика, хотя она оказала влияние )

Ильич,
Спасибо - я отмел этот результат выдачи поисковика, ибо счел его "недостаточно авторитетным".
Мне понравились эти ребята (см. ссылку) ( PDF )

Bhudh, кстати мои поздравления ! Алгоритм говорит, что у вас мужское восприятие, а следовательно вы, весьма вероятно, мужчина :)
Хотя разница с женщиной не очень большая.

Пример обрабатываемых данных:

Offline dragun97yu

  • Posts: 5116
  • Gender: Female
  • Мод-тян
Что тут за движуха?
Скопка - это маленькая скопа.

Offline Nevik Xukxo

  • Posts: 48083
  • Gender: Male
  • Ещё гляжу сериалы
А это реально работает? Не утка в духе британских учёных? :umnik:

Offline A.kornilov1

  • Posts: 36
  • Gender: Male
Nevik Xukxo,
Очень на это надеюсь. Я себя успокаиваю тем что статистического отклонения от слепой обезьяны которая выбирает М или Ж в 18% быть не должно ...
Я даже монетку подкидывал в своё время, чтобы проверить законы статистики в реальности.
Пока что - работает.

Но прошу не забывать что все "исследования" я проводил лично, а следовательно:
а) Может присутствовать элемент личной заинтересованности ( пусть и неосознанно )
б) Все это - не научно. И сделано "на коленке".
в) Все-таки может выйти так, что все это - просто магия цифр и большая ошибка

Так что не обнадеживайте себя, но и не теряйте надежду в меня :)

Online Python

  • Posts: 46319
  • Gender: Male
  • Aluarium agent
A.kornilov1, можете проверить гендер пользователей dragun97yu и snn?
Пролетареві ніколи вчити європейських мов, бодай би свою знати добре і на ній принести до своєї хати світло знання (Гнат Хоткевич)
ÆC CASALI NAXI PRASQURI: AHOV CÆRU, MERTVÆRI TÆ SLAVUTÆT!
Вони просили його: «Скажи: кетум», а він говорив: «сатем», і не міг вимовити правильно.
Хотелось бы также отметить, что "Питон" - это "мышиный язык" : "пи+тон". © АБР-2

Offline A.kornilov1

  • Posts: 36
  • Gender: Male
Python

dragun97yu - Мужчина :(
Даже не показывает что разница маленькая.

А snn- я не нашел


Если вам интересно - можете скидывать ваши тексты- буду прогонять через алгоритм.
( А то самому собирать сообщения - долго )
Ограничения для корректной работы алгоритма:
1)Русский язык
2)Новейшая история
3)Количество слов примерно 1000 ( не менее 3500 букв и не более 7000. Обычно 5500 )
4) Если вы набираете текст из сообщений пользователя - берите посты где есть хотя-бы 3 предложения.

Примечания:
1)Чем больше спец слов - тем хуже результат
2) Можете всячески путать и изменять тексты и делать выводы
3) Если хотите мне помочь - кидайте текст с минимальным наличием спецслов, указанием источника ( ссылки на профиль ,к примеру, или статью ) и пола.

Offline Тайльнемер

  • Posts: 12735
  • Σοι υν βυρρο. Ix bin æn ézl
2)Новейшая история
Что это означает?

Offline Rwseg

  • Posts: 7025
  • Gender: Male
  • Русег
dragun97yu - Мужчина :(
Наоборот, радуйтесь, алгоритм работает. Ещё проверьте этих пользователей:
Dana
Kaze no oto
Alexandra A

Для получения сообщений есть програмка.

Online Python

  • Posts: 46319
  • Gender: Male
  • Aluarium agent
А snn- я не нашел
Да, там что-то странное с поиском пользователей.
http://lingvoforum.net/index.php?action=profile;area=showposts;u=33551
Пролетареві ніколи вчити європейських мов, бодай би свою знати добре і на ній принести до своєї хати світло знання (Гнат Хоткевич)
ÆC CASALI NAXI PRASQURI: AHOV CÆRU, MERTVÆRI TÆ SLAVUTÆT!
Вони просили його: «Скажи: кетум», а він говорив: «сатем», і не міг вимовити правильно.
Хотелось бы также отметить, что "Питон" - это "мышиный язык" : "пи+тон". © АБР-2

Offline A.kornilov1

  • Posts: 36
  • Gender: Male
Тайльнемер,
Это означает что Пушкина тексты мне присылать смысла нет :)
Т.к. язык изменчив, а выборка сделана по сообщениям с 2008 по 2013 год, то чем раньше был текст написан тем больше вероятность ошибки.

Python, Rwseg
По пользователям инфа будет чуть позже - сейчас заминка с программой для поиска сообщений.
Тайльнемер уже в курсе и помогает мне с ней справиться

snn - Мужчина сильно выражено


Dana - женщина выражено средне


Kaze no oto
Женщина - выражено средне


Alexandra A - Женщина выражено средне

Жду ваших сообщений о результатах - буду дополнять статистику.

А еще сильнее жду информации по вопросам обозначенным мной в первом посте :)

Offline Joris

  • Posts: 14456
  • ở Sao Hỏa
    • Грамматика языка суахили
Проверьте Vibrio cholerae :)
yóó' aninááh

Offline A.kornilov1

  • Posts: 36
  • Gender: Male
Vibrio cholerae - Женщина Сильно выражено


Offline Тайльнемер

  • Posts: 12735
  • Σοι υν βυρρο. Ix bin æn ézl
Интересная вещь!

А как она работает?
Основан он на частотности.
Не слова. Но  да - чисто на частотности. ( И не фоносемантика, хотя она оказала влияние )
Частотность чего именно там считается?
Или это секрет фирмы?

А можете меня проверить?
Вот мой корпус:

Offline Joris

  • Posts: 14456
  • ở Sao Hỏa
    • Грамматика языка суахили
Offtop
Vibrio cholerae - Женщина Сильно выражено
пичаль...
yóó' aninááh

 

With Quick-Reply you can write a post when viewing a topic without loading a new page. You can still use bulletin board code and smileys as you would in a normal post.

Note: this post will not display until it's been approved by a moderator.
Name: Email:
Verification:
√49 Напишите ответ строчными буквами:
«Сто одёжек, все без застёжек» — что это?: