Интересно сравнить препринты с журналами. Давайте посмотрим на все статьи, опубликованные на ArXiv в 2010 году, используя данные API ArXiv OAI-PMH. Затем мы можем сопоставить их с журнальными версиями тех же статей, используя API CrossRef.
Почему мы смотрим на 2010 год? 2010 год может показаться давным-давно. Но вы можете удивиться, узнав, что некоторые статьи, загруженные в ArXiv в 2010 году, все еще публикуются (последняя из них была опубликована в конце декабря 2018 года).
По большей части контент сначала появляется на ArXiv, а затем в журнале.
Стоимость рецензирования
Здесь есть что-то очень важное. Миллионы статей ежегодно рецензируются. Каждое такое рецензирование стоит времени нескольких человек и приводит к принятию или отклонению рукописи. В случае отклонения предполагается, что отклоненные статьи снова и снова проходят рецензирование в другом месте, пока они в конечном итоге не будут приняты (или не приняты).
Общая стоимость рецензирования недостаточно хорошо изучена, равно как и процесс перехода статей от написания к публикации. Ирония в том, что статьи, рецензирование которых обходится дороже всего, наименее ценны для читателей.
Процесс, описанный выше, кажется очевидным. Если некачественные статьи будут отклонены из журналов, их публикация займет больше времени. Некачественные статьи, как правило, плохо цитируются. И действительно, мы видим отрицательную корреляцию между временем на ArXiv и числом цитирований.
Опять же, это зашумленные данные, и есть ряд других причин, по которым мы можем наблюдать эту тенденцию:
- Статьи, опубликованные совсем недавно, имеют меньше времени для цитирования.
- Ссылки на препринты не могут учитываться CrossRef.
Однако определенно кажется, что время на ArXiv дает нам слабый предсказатель потенциала цитирования препринтов.
Предсказание цитирования
Я уже говорил, что машины учатся на ваших бумагах. Одна из многих причин сделать это — помочь предсказать эффективность цитирования. Предсказание цитируемости на самом деле может быть выполнено с достаточно высокой точностью путем объединения ряда слабых предикторов, подобных описанному выше.
В прогнозировании цитирования есть хорошие стороны:
- Статьи с высоким потенциалом цитирования можно продвигать, чтобы они достигли своей идеальной аудитории. Это экономит время читателей при просмотре и гарантирует, что авторы получат признание за свою высокоцитируемую работу.
- Статьи с более низким потенциалом цитирования могут быть выявлены и предложены к публикации в подходящем месте раньше, чтобы на них тратилось меньше времени. Более ранняя публикация означает больше времени для цитирования.
Но есть и потенциальные недостатки:
- Влияет ли предсказание цитирования на рецензирование?
- Справедливо ли продвигать работы одних авторов, а не других на основе прогноза?
- Цитирование также является спорным показателем влияния/качества исследования. Отличная и высокоспециализированная исследовательская работа, скорее всего, будет иметь низкий уровень цитирования просто потому, что ее специализированная аудитория, естественно, невелика. В этом случае цитаты могут не отражать ценность работы.
Понятно, что мы можем использовать машинное обучение для повышения эффективности системы исследовательской коммуникации. Однако предвзятость в машинном обучении — серьезная проблема. По мере развития технологии обработки и понимания исследовательской литературы ключевой задачей должно стать ответственное обращение с ней.