Печать страницы - Определение авторства текста

Название: Определение авторства текста
Отправлено: Alone Coder от июня 22, 2012, 13:21

Какие математические методы сейчас используются для сабжа и насколько хорошо они работают?

Название: Определение авторства текста
Отправлено: RawonaM от июня 22, 2012, 13:25

Quel timing parfait. :)

Je dois écrire un travail sur ce sujet (je l'ai choisi).

"Character N-Grams" est le plus facile et marche pas mal.

Название: Определение авторства текста
Отправлено: Alone Coder от июня 22, 2012, 13:29

Но для текстов одного автора на разные темы это не сработает.
Как и для набора текстов на одну тему от разных авторов.

Название: Определение авторства текста
Отправлено: Alone Coder от июня 22, 2012, 13:33

А никто не пробовал убрать всю словарную информацию и сравнивать только синтаксическую?

Название: Определение авторства текста
Отправлено: RawonaM от июня 22, 2012, 13:37

Ce vous sera utile:
http://www.clips.ua.ac.be/stylometry/Lit/Stamatatos_survey2009.pdf

Название: Определение авторства текста
Отправлено: Alone Coder от июня 28, 2012, 08:20

Очень интересная статья. А как бы это всё пощупать? Например, можно ли определить, кому принадлежит поэма "Гавриилиада" - автору поэмы "Жила девица Катерина..." или автору поэмы "Монах"? Естественно, с кучкой других поэтов для контроля.

Название: Определение авторства текста
Отправлено: Bhudh от июня 28, 2012, 10:03

Ты ж кодер, тябе и шшупать...

Название: Определение авторства текста
Отправлено: RawonaM от июня 28, 2012, 10:07

Essayez char n-gram, c'est très facile à implémenter.
Savez-vous quelque chose sur data mining?
Divisez votre data à train et test 90-10.

Название: Определение авторства текста
Отправлено: Alone Coder от июня 28, 2012, 10:23

Там всего около 1000 слов во всём тексте. Некуда делить.
Странно, если до сих пор нет готовых программ.

Лингвофорум

Теоретический раздел => Прикладная лингвистика => Компьютерная лингвистика => Тема начата: Alone Coder от июня 22, 2012, 13:21