Уж очень мне сомнителен старостинский алгоритм (хотя я его не знаю, ориентируюсь по результатам: взять ту же топологию из заглавного сообщения - там ровная гребенка весьма красноречива, или можно сравнить деревья для романских языков, старлинговское и нормальное, по старлинговской же матрице (слева, числа надо на два умножать, чтобы сравнивать со стар. деревом)).
Про ровность гребенки я несколько погорячился. Т.е., я уверен, что она "ровная", но на картинке из заглавного сообщения этого не видно, т.к. она обрезана справа. Я этого сначала не заметил. Ладно, я не хочу запутать читателей непонятными фразами, тут надо довольно много писать каким должно и каким не должно быть хорошее дерево, построенное по матрице расстояний. В общем, мне видится так, что Старостин перевёл какие-то
свои личные представления об этом в программный код. И эти представления, по-видимому, мало связаны со всем, что математики выяснили о связи матрицы расстояний с деревом. Повторюсь, тут можно и нужно многое написать, но это большой труд.
Короче, ограничусь ещё одной иллюстрацией с небольшим комментарием. Это почти те же самые романские языки с того же самого сайта:
http://starling.rinet.ru/cgi-bin/response.cgi?root=new100&morpho=0&basename=new100\ier\rom&limit=-1
Слева - дерево построенное алгоритмом с сайта, справа - дерево минимальной эволюции по матрице расстояний, согласно закону Сводеша с константой 0.14.
В сравнении с более ранней картинкой языков стало больше. Как и на предыдущей картинке можно заметить что старостинский алгоритм тасует пучок похожих языков довольно своеобразно. Например, можно посмотреть группу французского на старлинговском дереве и на дереве минимальной эволюции. Видно, что на дереве МЕ французский с близкими ему языками, включая старофранцузский расположены одной группой, а на старлинговском дереве эта группа разбита на две части и смешана с кусками какой-то другой группы. Здесь интересно послушать специалиста по романским языкам. Т.е., даже оценка времени дивергенции по Сводешу даёт более осмысленную топологию, если её использует математически корректный алгоритм. Формулу Старостина я применять не стал, т.к. не могу корректно применить её для разновременных языков, объяснять - долго (старлинговцы могут, ну и молодцы).
Ещё одна интересная деталь. В базе старлинга появилась классическая (Апулей) и архаическая (Плавт) латынь. Между ними 0.69 совпадений и 350 лет разницы. По Сводешу это даёт константу ~1. Один, Карл! 105 слов за тысячу лет. Это меня удивило, прямо скажем.
Тем не менее, на Старлинговском дереве арх. и класс. латыни спокойно прибиты гвоздиком там, где им место по хронологии. Это, конечно, похвальное использование известных возрастов, но вызывает вопросы и к методу и к данным. Стоило ли включать такие данные в базу?
Что такое с латынью произошло за три века, кто знает?