Эта статья была опубликована на Nova Connect нашим участником Пабло Висенте, специалистом по данным в Morgan Stanley.

В начале века мы стали свидетелями бурного развития ИИ в целом и машинного обучения в частности. Такой рост стал возможен благодаря трем факторам:

  1. Наличие достаточного количества данных, необходимых для обучения моделей машинного обучения.
  2. Прорывы в подполях машинного обучения, таких как компьютерное зрение или НЛП
  3. Графические вычислительные блоки (GPU) принесли дешевую вычислительную мощность и массовое распараллеливание.

Эти элементы способствовали развитию области и повышению интереса как со стороны промышленности, так и научных кругов. Как следствие, машинное обучение и наука о данных теперь являются двумя горячими темами в области технологий, привлекающих таланты и инвестиции, как никогда раньше.

Тем не менее, стремление превзойти самые последние показатели в конкурсах, таких как ImageNet, и стремление технологических компаний позиционировать себя как ведущих новаторов отменяет путь, пройденный в течение последних десятилетий. В некоторых областях алгоритмы становятся все труднее запускать, а их обучение становится смехотворно дорогим до такой степени, что это могут себе позволить только элитные компании. Если исследовательское сообщество работало в течение последних нескольких десятилетий над тем, чтобы сделать ИИ более доступным, то недавние достижения, похоже, сделали эту область менее демократичной. На мой взгляд, за этой тенденцией стоит несколько причин, но я упомяну только одну и остановлюсь на второй идее.

Недавние достижения, похоже, делают ИИ менее доступным для широкой публики. Почему?

Появляется все больше статей, результаты которых невозможно воспроизвести, поскольку наборы данных не являются общедоступными. Иметь алгоритм уже недостаточно, чтобы его использовать, и компании знают об этом. Жоэль Пино — один из ученых, пытающихся изменить этот вопрос наряду со многими другими [1].

Вторым и более тревожным фактором является экспоненциальный рост количества параметров, который делает невозможным для большинства компаний воспроизведение результатов или их использование в производстве. Существует тенденция к увеличению размера моделей для получения алгоритмов с лучшими возможностями обобщения, например, языковых моделей. Последняя версия GPT, разработанная OpenAI, имеет общее количество 175 миллиардов параметров [2]. Возможно, это мало что вам говорит, но есть универсальный язык, понятный всем нам. Учебный ГПТ-3 стоит более 12 миллионов долларов [3] и, скорее всего, им понадобилось много попыток, чтобы придумать правильную конфигурацию, которая может довести стоимость до сотен миллионов… и только на одну модель! Немногие компании могут тратить столько денег на исследования, не говоря уже об обучении одного-единственного алгоритма. Мы можем найти следующую цитату в статье GPT-3 [4]:

К сожалению, из-за ошибки в фильтрации мы проигнорировали некоторые совпадения, а из-за стоимости обучения было невозможно переобучить модель.

Следующий график, адаптированный из DistilBERT [5], показывает рост количества параметров в некоторых из последних языковых моделей. Существует четкая экспоненциальная тенденция, которая заставляет всех задаться вопросом, связаны ли интересные результаты модели с ее размером или ее архитектурой.

использованная литература

[1] https://www.wired.com/story/artificial-intelligenc...

[2] https://www.technologyreview.com/2020/07/20/100545...

[3] https://lambdalabs.com/blog/demystifying-gpt-3/

[4] https://arxiv.org/pdf/2005.14165.pdf

[5] https://arxiv.org/pdf/1910.01108.pdf