Благодарности, предостережения, этические соображения и соответствующая работа

О

Эта работа началась как побочный проект, связанный с моими интересами в области визуализации информации, Антологии ACL и Академии Google. Должен признаться, я сильно недооценил количество усилий, которые потребуются для этого, но было приятно видеть большое количество интересных вопросов, которые можно исследовать с помощью данных.

Связаться
Саиф М. Мохаммад
Twitter: @saifmmohammad
Электронная почта: [email protected] , [email protected]
Веб-страница: https://saifmohammad.com

Домашняя страница проекта: https://saifmohammad.com/WebPages/nlpscholar.html

Благодарности

Эта работа стала возможной благодаря полезному обсуждению и поддержке ряда замечательных людей, в том числе: Дэн Джурафски, Тара Смолл, Майкл Штруб, Сирил Гутт, Эрик Джоанис, Мэтт Пост, Патрик Литтел, Торстен Зеш, Эллен Рилофф, Норм Винсон, Ирина Гуревич, Ребекка Ноулз, Изар Неджадгхоли и Питер Терни. Также большое спасибо команде ACL Anthology Team за создание и поддержку замечательного ресурса.

Статьи

Изучение цитат из литературы по обработке естественного языка Саиф М. Мохаммад. В Материалы 58-го ежегодного собрания Ассоциации компьютерной лингвистики (ACL-2020). Июль 2020 года. Сиэтл, США.

  • Резюме: исследует девять вопросов, относящихся к общим тенденциям в цитировании статей по НЛП (во времени, по типам мест, по типам бумаг, по областям и т. д.).
  • BibTeX:
    @inproceedings {mohammad2020citations,
    title = {Examining Citations of Natural Language Processing Literature},
    author = {Mohammad, Saif M.},
    booktitle = {Материалы ежегодной конференции ассоциации компьютерной лингвистики 2020 года},
    address = {Сиэтл, США},
    year = {2020}}

Гендерный разрыв в исследованиях обработки естественного языка: различия в авторстве и цитировании. Саиф М. Мохаммад. В Материалы 58-го ежегодного собрания Ассоциации компьютерной лингвистики (ACL-2020). Июль 2020 года. Сиэтл, США.

  • Резюме: исследует восемь вопросов, касающихся гендерных различий в авторстве и цитировании статей по НЛП.
  • BibTeX:
    @inproceedings {mohammad2020gender,
    title = {Гендерный разрыв в исследованиях обработки естественного языка: различия в авторстве и цитировании},
    author = {Mohammad, Saif M.},
    booktitle = {Материалы ежегодной конференции ассоциации компьютерной лингвистики 2020 года},
    address = {Сиэтл, США},
    year = {2020}}

Состояние литературы по НЛП: диахронический анализ антологии ACL Саиф М. Мохаммад. препринт arXiv arXiv: 1911.03562. ноябрь 2019 г.

  • Резюме: Рукопись, объединяющая анализ работ по НЛП, впервые представленных в четырех сообщениях в блоге о состоянии НЛП.
  • BibTeX:
    @article {mohammad2019nlpscholar,
    title = {Состояние литературы по НЛП: диахронический анализ антологии ACL},
    автор = {Мохаммад, Саиф M.},
    journal = {arXiv препринт arXiv: 1911.03562},
    год = {2019}

Ученый НЛП: интерактивный визуальный обозреватель литературы по обработке естественного языка Саиф М. Мохаммад. В Материалы 58-го ежегодного собрания Ассоциации компьютерной лингвистики (ACL-2020). Июль 2020 года. Сиэтл, США.

  • Резюме: представляет собой интерактивный инструмент визуализации, помогающий пользователям находить (связанные) работы, опубликованные в антологии ACL.
  • BibTeX:
    @inproceedings {mohammad2020demo,
    title = {NLP Scholar: An Interactive Visual Explorer for Natural Language Processing Literature},
    author = {Mohammad, Saif M .},
    booktitle = {Материалы ежегодной конференции ассоциации компьютерной лингвистики 2020 года},
    address = {Сиэтл, США},
    year = {2020}}

Ученый НЛП: набор данных для изучения состояния исследований НЛП. Саиф М. Мохаммад. В Материалы 12-й конференции по языковым ресурсам и оценке (LREC-2020). Май 2020 года. Марсель, Франция.

  • Резюме: представляет набор данных NLP Scholar - единый унифицированный источник информации из ACL Anthology (AA) и Google Scholar для десятков тысяч статей по НЛП. Представляет начальную работу по анализу объема исследований в НЛП на протяжении многих лет определяет некоторые наиболее цитируемые статьи в АА, а также описывает список применений набора данных.
  • BibTeX:
    @inproceedings {mohammad2020data,
    title = {Ученый НЛП: набор данных для изучения состояния исследований НЛП},
    автор = {Мохаммад, Саиф М. .},
    booktitle = {Материалы 12-й конференции по языковым ресурсам и оценке (LREC-2020)},
    address = {Марсель, Франция},
    year = {2020}}

Данные: набор данных, использованный для анализа, вскоре станет бесплатным.

Предостережения, ограничения и этические соображения

У NLP Scholar есть несколько предостережений, ограничений и этических соображений, перечисленных ниже.

Аспекты анализа

  • Анализ, представленный в публикациях Состояние литературы по НЛП, охватывает только некоторые аспекты литературы. В предыдущей работе были исследованы другие аспекты, такие как анализ ссылок цитирования, сети соавторов, влияние, типы цитирования и т. Д. Тем не менее, некоторые интересные вопросы остаются неисследованными.

Доступ к информации о статьях

  • Google не предоставляет API для извлечения информации о документах. Мартин-Мартин и др. (2018) и другие указали, что это, вероятно, связано с его соглашением с издательскими компаниями, у которых есть научная литература за платным доступом. Антология ACL находится в общественном достоянии и бесплатна для доступа. Мы извлекли информацию о цитировании из профилей Google Scholar людей, которые опубликовали в ACL Anthology. Это явно разрешено их стандартом исключения роботов, и именно так в прошлой работе изучалось Google Scholar:
    - Мартин-Мартин, А., Ордуна-Малеа, Э., Телуолл, М. и Лопес-Козар, ED, 2018. Google Scholar, Web of Science и Scopus: систематическое сравнение цитирований в 252 предметных категориях. Journal of Informetrics, 12 (4), pp. 1160–1177.
    - Khabsa, M. and Giles, CL, 2014. Количество научных документов в общедоступной сети. PloS one, 9 (5), p.e93949.
    - Orduña-Malea, E., Ayllón, JM, Martín-Martín, A. and López -Cózar, ED, 2014. О размере Google Scholar: игра в числа. Препринт arXiv arXiv: 1407.6239.

Ошибки

  • Несмотря на то, что Антология ACL и Академия Google являются выдающимися ресурсами, они содержат некоторые ошибки. Кроме того, согласование информации из двух ресурсов никогда не может быть идеальным. (Подробнее см. Ниже.) Таким образом, Ученый НЛП обязательно будет включать некоторые ошибки. Мы приносим свои извинения за любые искажения и исправим все, что в наших силах.

Несоответствия и отсутствующие значения в антологии ACL

Информация в антологии ACL не всегда согласована, и некоторые атрибуты могут отсутствовать:

  • Одно и то же место можно описать по-разному.
  • Не существует единого способа идентифицировать короткие статьи, учебные пособия, демонстрационные статьи, обзоры книг и т.д. Иногда они помечаются другими идиосинкразическими способами, такими как добавление «(короткая статья)» к названию статьи.
  • В некоторых статьях отсутствует поле автора в записи BibTeX. Эти документы опущены. (Часто это протоколы, списки учебных пособий и т. Д., Которые мы в любом случае хотели бы опустить.)
  • Для некоторых документов в заголовке в записи BibTeX используются буквы без диакритических знаков, хотя в заголовке используются буквы с диакритическими знаками. Например, в заголовке записано слово «sémantique» в основных записях AA, оно записывается как «semantique» в записи BibTeX в AA. Мы используем запись BibTeX для извлечения имен авторов, а несовпадение названий приводит к тому, что система не может найти авторов. Статьи с пропущенными значениями для авторов не включаются.

Мы используем эвристику высокой точности для определения необходимой информации. Однако обратите внимание, что будет некоторое количество упущений и неправильных классификаций.

Цитирование из Академии Google

  • Google Scholar широко используется в исследованиях. Тем не менее, он получил критику в отношении количества курирования, снижения академической ценности до цитирования, индекса Хирша и т. Д. (См. Критика системы цитирования и, в частности, Google Scholar, Как Google Scholar изменил академические круги?, 4 причины, почему Google Scholar не так хорош, как вы думаете).
  • Существует некоторое количество статей, так что ни один из их авторов не создал профиль в Google Scholar. У нас нет информации о цитировании этих статей. Такие статьи по-прежнему отображаются в NLP Scholar - только информация о их цитировании имеет нулевое значение. Это, однако, означает, что с точки зрения информации о цитировании, вероятно, что работа, выполненная в прошлом, недостаточно представлена ​​(поскольку авторы, которые покинули академию или вышли на пенсию, могут с меньшей вероятностью создать профиль в Академии Google). Тем не менее, мы не ожидаем, что это существенно повлияет на выводы, сделанные на основе представленных анализов, поскольку у нас есть информация о цитировании более 35 000 статей.

Согласовать информацию в AA и Google Scholar сложно

  • у них нет общего идентификатора статьи или идентификатора автора
  • иногда две разные статьи имеют одно и то же название
  • один и тот же автор может использовать разные формы своего имени в разных статьях
  • несколько авторов могут иметь одно и то же имя

Мы используем комбинацию названия статьи и года публикации в качестве уникального идентификатора статьи. Однако есть несколько пар статей с одинаковым названием и годом публикации. Они опущены.

В АА постоянно появляются новые газеты.

Текущий экземпляр NLP Scholar основан на документах в AA по состоянию на июнь 2019 года. Мы будем периодически обновлять NLP Scholar новой информацией AA.

Со временем статьи получают больше цитирований.

Текущий экземпляр NLP Scholar основан на цитированных статьях, полученных по состоянию на июнь 2019 года. Мы будем периодически обновлять NLP Scholar, добавляя новую информацию о цитировании.

Богатые становятся богатыми

Визуализации в НЛП ученый представляет статьи с большим количеством цитирований более заметно, чем статьи с меньшим количеством цитирований. Это может привести к еще большему цитированию высокоцитируемых статей. (Это мало чем отличается от Google Scholar, который также ранжирует статьи по релевантности и количеству цитирований.) Цитаты - это один (несколько шумный) показатель степени воздействия, которое оказала статья. Хотя они могут быть полезны для поиска интересных и влиятельных статей, следует отметить, что статьи цитируются также по ряду других причин, и вполне возможно, что некоторые из представляющих интерес статей могут оказаться менее цитируемыми.

Тем не менее, существует несколько способов, с помощью которых ученый НЛП может пролить свет и на менее цитируемые статьи. Вот некоторые примеры:

  • Показывая документы на временной шкале, можно легко отследить статьи, которые повлияли на статью с высоким уровнем цитирования в данной области.
  • При поиске статей в той или иной области можно сравнивать цитирование статей в этой области. Это помещает целевой документ в более подходящий контекст. Например, целевая статья может не получить сотни цитирований, но можно увидеть, что в рамках области исследования это одна из самых цитируемых статей.
  • Визуализации языков выделяют работы на разных языках.

Поиск по словам в заголовках

  • Несмотря на то, что существует связь между терминами и областями исследования, для некоторых терминов эта связь может быть менее сильной. Я использую ассоциацию как один (несовершенный) источник информации об областях исследования. Эта информация может быть объединена с другими источниками информации, чтобы сделать более надежные выводы. Планируемая в будущем работа по разрешению поиска терминов в рефератах и ​​целых статьях, а также поиск документов, связанных с термином запроса на основе представлений документов на основе встраивания слов, снимет текущие ограничения. Однако следует отметить, что поиск по словам заголовка - это простой и эффективный метод поиска релевантных документов.

Демография

  • Данные часто представляют людей (Zook 2017). Это, безусловно, так, и мы признаем, что использование таких данных может нанести вред людям. У этой работы есть несколько ограничений, и некоторые из них имеют этические соображения с точки зрения того, кто не учитывается. Кроме того, хотя используемые методы не новы, их использование заслуживает рассмотрения.
  • Анализ, сфокусированный на женщинах и мужчинах, не учитывает небинарных людей. Отсутствие дезагрегирования цис- и трансгендерных людей означает, что статистика в значительной степени отражает более густонаселенный цис-класс. Мы надеемся, что в будущей работе будут исследованы гендерные разрывы между небинарными - бинарными, трансциссными и т. Д. Аналогичным образом критически важным является отслеживание расхождений в выборе авторов, различающихся по доходам, опыту и способностям. В данной работе мы обращаемся к этим проблемам, но, надеюсь, мы продолжим работу над ними.
  • Использование имен, связанных с женским и мужским полом, для вывода статистических данных об уровне населения для женщин и мужчин, может усиливать вредные стереотипы и является исключением для людей, у которых нет таких имен, для людей из некоторых культур, где имена не так сильно связаны с пол, и трансгендерные люди, которые не смогли изменить свое имя.
  • Поскольку используемый набор данных имен предназначен для американских детей, имена других национальностей представлены ниже. Однако многие имена распространены более чем в одной стране, а большое количество иммигрантов в США означает, что все еще существует значительный охват имен со всего мира.
  • Китайские имена (особенно в латинизированной форме) не являются хорошими показателями пола. Таким образом, представленный здесь метод не учитывает большинство китайских имен, и результаты анализа не применимы к исследователям с китайскими именами.
  • Кто-то может возразить, что имена частично соответствуют руководящим принципам гендерной инклюзивности, перечисленным в (Keyes 2018): имена могут быть изменены, чтобы указывать (или не указывать) пол, люди могут сохранить свое имя при рождении или изменить его, а имя, в большей степени, чем внешний вид, может не зависеть от физиологии. Однако изменить имена может быть довольно сложно. Кроме того, имена не отражают гендерную текучесть или контекстный гендер.
  • Более инклюзивный способ получения гендерной информации - это необязательные опросы, о которых сообщают сами. Однако, даже если можно установить флажок самоотчета, чтобы респондент мог иметь первенство и автономию для выражения пола, последующая наука о данных либо игнорирует такие данные, либо объединяет информацию способами, которые не контролируются респондентом. Кроме того, как и в данном случае, нелегко получить историческую информацию о себе.
  • Небольшое количество имен со временем меняют ассоциацию от одного пола к другому. Мы надеемся, что правило ≥99% их отфильтровывает, но это не гарантируется.
  • Обнаружение социальных категорий может потенциально привести к вреду, например, к лишению людей возможностей просто из-за их расы или пола. Тем не менее, можно также увидеть преимущества методов НЛП и определения социальных категорий в общественном здравоохранении (например, разработка целевых инициатив по улучшению показателей здоровья уязвимых групп населения), а также в психологии и социальных науках (например, для лучшего понимания уникальных проблем. принадлежности к социальной категории).
  • Некоторые статьи могут иметь более одного совместного первого автора или более одного последнего автора. Представленный здесь анализ не учитывает это.

Ссылки

  • См. Михальевич (2019) для обсуждения ограничений и предвзятости в использовании имен авторов для вывода гендерной статистики в Гендерный разрыв в научном проекте.
  • См. Larson (2017), Keyes (2018), Cao and Daume III (2020), Blodgett et al. (2020) для обсуждения отсутствия адекватного и всеобъемлющего учета гендерных аспектов в системах НЛП.
  • См. Шейерман (2019) и Киз (2018), где есть опасения по поводу определения пола с помощью методов распознавания лиц.
  • Советы по ответственному использованию данных см. В Zook (2017).}

Ключевые связанные работы

Статьи:

  • Стивен Берд, Роберт Дейл, Бонни Дорр, Брайан Гибсон, Марк Джозеф, Мин-Йен Кан, Донгвон Ли, Бретт Паули, Драгомир Радев и Йи Фан Тан (2008) Справочный корпус антологии ACL: набор справочных данных для библиографических исследований в компьютерной лингвистике . В Proc. языковых ресурсов и конференции по оценке (LREC 08). Марракеш, Марокко, май.
  • Йогатама, Д., Хейлман, М., О’Коннор, Б., Дайер, К., Рутледж, Б.Р. и Смит, Н.А., 2011, июль. Предсказание реакции научного сообщества на статью. В материалах Труды конференции по эмпирическим методам обработки естественного языка (стр. 594–604). Ассоциация компьютерной лингвистики.
  • Андерсон, А., Макфарланд, Д., Джурафски, Д., 2012 г., июль. К вычислительной истории ACL: 1980–2008 гг. В материалах Труды специального семинара ACL-2012 по повторному открытию 50 лет открытий (стр. 13–21). Ассоциация компьютерной лингвистики.
  • Хабса, М., Джайлс, К.Л., 2014. Количество научных документов в общедоступной сети. PloS one, 9 (5), p.e93949.
  • Orduña-Malea, E., Ayllón, J.M., Martín-Martín, A. и López-Cózar, E.D., 2014. О размере Google Scholar: игра в числа. Препринт arXiv arXiv: 1407.6239.
  • Радев Д.Р., Джозеф М.Т., Гибсон Б. и Мутукришнан П., 2016. Библиометрический и сетевой анализ области компьютерной лингвистики. Журнал Ассоциации информационных наук и технологий, 67 (3), pp.683–706.
  • Мариани, Дж., Франкопуло, Г. и Пароубек, П., 2018. Корпус NLP4NLP (I): 50 лет публикаций, сотрудничества и цитирования в обработке речи и языка. Frontiers in Research Metrics and Analytics, 3, p.36.
  • Мартин-Мартин, А., Ордуна-Малеа, Э., Телвалл, М. и Лопес-Козар, E.D., 2018. Google Scholar, Web of Science и Scopus: систематическое сравнение цитирований в 252 предметных категориях. Journal of Informetrics, 12 (4), pp. 1160–1177.
  • Шлютер, Н., 2018. Стеклянный потолок в НЛП. В материалах конференции 2018 г. по эмпирическим методам обработки естественного языка (стр. 2793–2798).

Сообщения блога:

Ссылки:

Приложение

I. Категоризация статей по НЛП

По типам:

  • журнальные статьи
  • основные доклады конференции
  • студенческие исследования
  • документы демонстрации системы
  • общие рабочие документы
  • документы семинара
  • рефераты учебников
  • докторские документы консорциума
  • пиропатроны¹

По длине:

  • длинные статьи (8 страниц ИЛИ 8 страниц + ссылки)
  • короткие статьи (от 4 до 6 страниц ИЛИ от 4 до 6 страниц + ссылки)

По способу представления:

  • устный
  • плакат
  • демонстрация

AA не фиксирует явно или систематически многие типы статей (потому что конференции и журналы этого не делают). Таким образом, существует несколько проблем при автоматическом отнесении статьи к одной из этих категорий для проекта NLP Scholar.

  • Большинство статей в AA, которые явно не отмечены как длинные или короткие. Некоторое количество коротких статей помечается в названии книги как короткие. Указаны номера страниц статей в сборнике, но предусмотренный объем длинных и коротких статей с годами претерпел изменения. Например, в течение многих лет длинные статьи должны были быть максимум 8 страниц (включая ссылки). Затем в какой-то момент была разрешена дополнительная страница для комментариев рецензентов, и теперь многие конференции позволяют неограниченное количество страниц для ссылок.
  • В начале 2000-х короткие статьи часто представлялись в виде плакатов, и в протоколах не всегда можно было четко различать плакаты и демонстрации (например, в ACL-2005 был том «Плакаты и демонстрации»). Так что отделить плакаты, демонстрации и короткие статьи того времени проблематично.
  • SemEval технически является семинаром, но он включен в * Sem (конференция). Это платформа для общих задач, но некоторые основные конференции также имеют общие задачи (независимо от SemEval).
  • Рефераты учебных пособий на самом деле не являются документами, но учебные пособия цитируются в научных статьях.
  • Иногда различие между конференцией и семинаром может быть нечетким. Некоторые площадки, такие как EMNLP и CoNLL, начинались как семинары, но позже преобразовались в конференции. Для этой работы будем считать их конференциями.
  • Иногда бывают совместные мероприятия, например, совместная конференция EMNLP-CoNLL 2007 года. В таких случаях мы относим доклады к конференции, код которой присвоен совместному мероприятию AA.

¹ Сквибы - это короткие исследовательские статьи, в которых представлена ​​конкретная дискуссия или позиция. На момент сбора данных в AA было 43 пиропатрона (все из журнала CL).

Другие публикации из этой серии: