Основатель крупнейшей в мире открытой базы препринтов arXiv, физик из Корнеллского университета Пол Джинспарг (Paul Ginsparg) и его аспирант Даниель Цитрон (Daniel Citron) проанализировали массив научных статей за 20-летний период. Оказалось, что каждый шестнадцатый автор злоупотребляет некорректными заимствованиями. Они также построили географическую карту распространения плагиата. Наконец, обнаруживась обратная зависимость между некорректыми заимствованиями и цитированием созданной на их основе статьи — проще говоря, если вы много копируете, не рассчитывайте, что на вас будут ссылаться. Результаты анализа опубликованы в PNAS, а полный текст можно прочесть собственно в arXiv. Журнал Science представил собственную версию карты плагиата на основе данных Джинспарга и Цитрона.
Сайт arXiv основан в 1991 году физиками из Корнуэльского университета. Это крупнейшее собрание цифровых препринтов по физике, математике и различным математическим дисциплинам. В сутки там публикуют сотни статей. Их общее число доходит до миллиона. Любой ученый может опубликовать свою работу в arXiv, минуя процедуру традиционного рецензирования. Однако некоторый контроль качества есть, последним этапом которого служит проверка программой, настроенной на поиск некорректных заимствований. Программа сравнивает поступившую статью со всеми другими работами в базе и отсекает те, где «частичное совпадение текста» встречается законно, например, в обзорах, в формулировках теорем. Иногда ученые копируют куски из своих собственных работ, слега их видоизменяя. Найдя незаконное «частичное совпадение текста», программа помечает такую статью флагом и дает ссылки на источники заимствования. По словам Джинспарга, программа использует изощренные алгоритмы и самообучающаяся.
Джинспарг и Цитрон проанализировали с помощью программы 757000 статей, опубликованных с 1991 по 2012 годы. Нужно сказать, что это первое исследование научной литературы на плагиат такого масштаба. Отсеяв обзоры и другие случаи правомерного заимствования, они обнаружили, что каждый шестнадцатый автор копирует куски из своих собственных прошлых работ. Объем такого самоплагиата может равняться объему оригинального текста. В каждой тысячной статье обнаружены некорректные заимствования, как минимум в объеме абзаца, из чужих статей.
Для определения географии плагиата ученые взяли статьи, начиная с 1 августа 2011 года. Это 301 759 статей из 151 стран, принадлежащих 106 262 авторам. Программа пометила плагиатом 3,2% из них (9591 статьи). Эти помеченные статьи принадлежат 6% авторов (6737 автора). То есть каждый шестнадцатый ученый, пославший статью в arXiv после 1 августа 2011 года, злоупотребил плагиатом. При загрузке статей авторы указывают страну, поэтому стала известна и география плагиата.
На основе данных проверки журнал Science составил карту, откинув факторы, искажающие общую картину. Для карты взяли статьи только тех стран, которые прислали не менее 100 публикаций. Например, Эфиопия осталась за бортом, потому что оттуда пришло три статьи, в двух из которых обнаружился плагиат.
На карте видно, что из США, Канады и нескольких индустриально развитых стран Европы и Азии статьи с плагиатом приходят реже всего. Например, 6% статей из Японии отмечены программой, более 20% — из Болгарии, около 15% — из Ирана. Такой разброс авторы исследования относят на счет различий в научных традициях стран. По их мнению, научный плагиат свидетельствует о доминировании количества статей над качеством.
Источник иллюстрации: science.org