Какие математические методы сейчас используются для сабжа и насколько хорошо они работают?
Quel timing parfait. :)
Je dois écrire un travail sur ce sujet (je l'ai choisi).
"Character N-Grams" est le plus facile et marche pas mal.
Но для текстов одного автора на разные темы это не сработает.
Как и для набора текстов на одну тему от разных авторов.
А никто не пробовал убрать всю словарную информацию и сравнивать только синтаксическую?
Ce vous sera utile:
http://www.clips.ua.ac.be/stylometry/Lit/Stamatatos_survey2009.pdf
Очень интересная статья. А как бы это всё пощупать? Например, можно ли определить, кому принадлежит поэма "Гавриилиада" - автору поэмы "Жила девица Катерина..." или автору поэмы "Монах"? Естественно, с кучкой других поэтов для контроля.
Ты ж кодер, тябе и шшупать...
Essayez char n-gram, c'est très facile à implémenter.
Savez-vous quelque chose sur data mining?
Divisez votre data à train et test 90-10.
Там всего около 1000 слов во всём тексте. Некуда делить.
Странно, если до сих пор нет готовых программ.