Лингвофорум

Теоретический раздел => Прикладная лингвистика => Компьютерная лингвистика => Тема начата: Alone Coder от июня 22, 2012, 13:21

Название: Определение авторства текста
Отправлено: Alone Coder от июня 22, 2012, 13:21
Какие математические методы сейчас используются для сабжа и насколько хорошо они работают?
Название: Определение авторства текста
Отправлено: RawonaM от июня 22, 2012, 13:25
Quel timing parfait. :)

Je dois écrire un travail sur ce sujet (je l'ai choisi).

"Character N-Grams" est le plus facile et marche pas mal.
Название: Определение авторства текста
Отправлено: Alone Coder от июня 22, 2012, 13:29
Но для текстов одного автора на разные темы это не сработает.
Как и для набора текстов на одну тему от разных авторов.
Название: Определение авторства текста
Отправлено: Alone Coder от июня 22, 2012, 13:33
А никто не пробовал убрать всю словарную информацию и сравнивать только синтаксическую?
Название: Определение авторства текста
Отправлено: RawonaM от июня 22, 2012, 13:37
Ce vous sera utile:
http://www.clips.ua.ac.be/stylometry/Lit/Stamatatos_survey2009.pdf
Название: Определение авторства текста
Отправлено: Alone Coder от июня 28, 2012, 08:20
Очень интересная статья. А как бы это всё пощупать? Например, можно ли определить, кому принадлежит поэма "Гавриилиада" - автору поэмы "Жила девица Катерина..." или автору поэмы "Монах"? Естественно, с кучкой других поэтов для контроля.
Название: Определение авторства текста
Отправлено: Bhudh от июня 28, 2012, 10:03
Ты ж кодер, тябе и шшупать...
Название: Определение авторства текста
Отправлено: RawonaM от июня 28, 2012, 10:07
Essayez char n-gram, c'est très facile à implémenter.
Savez-vous quelque chose sur data mining?
Divisez votre data à train et test 90-10.
Название: Определение авторства текста
Отправлено: Alone Coder от июня 28, 2012, 10:23
Там всего около 1000 слов во всём тексте. Некуда делить.
Странно, если до сих пор нет готовых программ.