В свежем номере журнала PLoS ONE вышла статья Алексея Касьяна из Института языкознания РАН, посвященная проблеме классификации лезгинских языков. На лезгинских языках, которые относятся к северо-кавказской языковой семье, говорят на северном Кавказе России и в Азербайджане.
В основе работы Касьяна — списки Сводеша для 20 языков и диалектов лезгинской группы, которые он собрал для проекта Global Lexicostatistical Database. Каждый из них состоит из 110 слов, относящихся к основному лексическому составу языка, при этом значение каждого слова многократно проверялось. После этого списки были проанализированы при помощи 5 различных методов построения деревьев, которые обычно используют для построения биологических классификаций (различные вариации метода ближайших соседей, байесовский метод марковских цепей, метод невзвешенного среднего и максимальной бережливости). Перед тем как применять каждый из этих методов, для списков были определены родственные слова, для этого Касьян применил как ручное определение родственных слов, так и определение родственных слов по фонетической схожести на основании наличия там одинаковых согласных.
В результате он получил 10 различных деревьев, которые в той или иной степени совпадали с традиционной классификацией лезгинских языков, где раньше всего отделяются удинские диалекты, потом арчинский, а потом распадаются собственно лезгинские языки на восточную, западную и южную ветви. Как оказалось, деревья, основанные на ручной простановке родственных слов, демонстрировали больше совпадений с традиционным деревом, чем полученные с помощью «автоматизированного» метода. Наиболее отличными от традиционных деревьев оказались те, что были построены с использованием метода максимальной бережливости, который в биологии дает хорошие результаты.
По словам А. Касьяна, лезгинские языки были выбраны им потому, что это относительно глубокая языковая группа, для которой среди исследователей существует согласие насчет того, как она устроено и соответственно можно проверить то, как работают именно различные методы классификации на языковом материале.
Статья является первым опубликованным тестом подобного рода. Ее результаты предполагают, что основные современные филогенетические методы примерно в равной степени соответствуют естественной эволюции лексического фонда языка. Залогом же надежной реконструкции генеалогического дерева являются качественно подготовленные входные данные, т.е. аккуратно собранные лексические списки.