Машинное обучение — это область компьютерных наук, которая развилась из изучения распознавания образов и теории вычислительного обучения в искусственном интеллекте. Исследования, проводимые в этой области, имеют основной целью предоставить компьютерам возможность обучаться и выполнять задачи в одиночку, то есть без необходимости вмешательства пользователя.

Эти навыки обеспечиваются за счет использования различных методов в области статистики, математической оптимизации и многих других, которые в форме алгоритмов эффективны при решении проблем, но иногда неэффективны при решении их в больших задачах, таких как связанные с Среды больших данных.

Большая часть этой трудности связана со временем выполнения, необходимым для выполнения некоторой задачи алгоритма, используемого для решения проблем. Этот факт связан с тем, что с течением времени проблемы, связанные с большим объемом данных, такие как проблемы с изображениями, видео и исторические прогнозы, стали более распространенными, и, следовательно, потребность в машинах с большей вычислительной мощностью сохраняется.

На рынке есть несколько аппаратных средств, способных повысить производительность машин и обеспечить значительное, но все же недостаточное улучшение. Однако многие из этих аппаратных средств имеют чрезвычайно высокую стоимость, что делает невозможным доступ к ним для некоторых пользователей.

Самым распространенным решением сегодня является наилучшее использование этих аппаратных средств, то есть поиск решений для масштабирования алгоритмов машинного обучения в рамках кластеризации и распараллеливания с использованием инструментов, алгоритмов, моделей или архитектур, которые уже хорошо консолидированы в этих областях, чтобы воспользоваться преимуществами всю вычислительную мощность, которую может предложить аппаратное обеспечение.

Чтобы понять, как соотносятся эти три области и каково современное состояние, когда речь идет о масштабируемости алгоритмов машинного обучения в средах больших данных, мы проводим систематическое картирование предмета.

Для нашего исследования мы выбрали систематическое картирование, поскольку основная цель состоит в том, чтобы найти современное состояние предмета, поэтому нет никаких ограничений на методы, которые будут использоваться в будущей работе.

По словам Петерсена, самым большим преимуществом использования этого процесса является:

Систематическое картографическое исследование обеспечивает структуру типа отчетов об исследованиях и результатов, которые были опубликованы, путем их категоризации и часто дает визуальное резюме, карту своих результатов. Это часто требует меньше усилий, обеспечивая при этом более общий обзор.

Поскольку это процесс, который необходимо четко определить, в своем исследовании Петерсен определяет основные шаги для выполнения систематического картирования, как можно видеть:

Кратко опишем цель каждого шага:

  • Определение вопросов исследования. Чтобы выполнить систематическое картографирование, необходимо определить область исследования. Эта сфера определяется путем разработки вопросов, на которые нужно ответить.
  • Провести поиск первичных исследований. Ответы на вопросы можно найти в ходе исследований, проводимых по предмету, который вы хотите изучить. Эти исследования хранятся в источниках научной литературы, и для получения этих работ необходимо разработать строку поиска, которая создается из вопросов исследования, полученных на предыдущем шаге.
  • Отбор статей для включения и исключения: Часто исследования, полученные в результате поиска в источниках литературы, не имеют отношения к исследованиям, которые должны быть выполнены. Таким образом, определяются критерии включения и исключения работ для выполнения фильтрации.
  • Ключевые формулировки тезисов: соответствующие исследования необходимо классифицировать по категориям, чтобы знать, на какие вопросы исследования они отвечают.
  • Извлечение данных и сопоставление исследований. Наконец, из классификации мы ищем элементы в исследованиях, которые оправдывают то же самое в соответствующей классификации, и таким образом извлекают более релевантную информацию из работы. Эта извлеченная информация каталогизируется, в результате чего создается график, демонстрирующий количество работ в каждой классификации с указанием возможных пробелов и возможностей.

Цель этого исследования состоит в том, чтобы определить и охарактеризовать современное состояние проблемы масштабируемости машинного обучения в средах больших данных, анализируя
существующие предложения и исследовательскую работу, таким образом определяя
потенциальные пробелы и возможности для будущего. исследовательская работа. Таким образом, основной исследовательский вопрос, которым руководствуется данное исследование, заключается в следующем:

Каково современное состояние масштабируемости применительно к машинному обучению в средах больших данных?

Главный исследовательский вопрос – это обзор того, какую информацию мы хотим получить в конце исследования. Однако для выполнения систематического картографирования необходимо иметь вопросы, которые относятся к конкретным терминам об изучаемой области, чтобы извлечь их и применить в поисковой строке. Конкретные исследовательские вопросы, которые были разработаны, были описаны в таблице:

Каждый из этих вопросов не только помогает с условиями для выполнения систематического картирования, но также помогает отфильтровать тему для изучения.

То есть для этого исследования мы хотим знать только о масштабируемости, распараллеливании и распространении алгоритмов машинного обучения в средах больших данных посредством алгоритмов, инструментов, архитектур или моделей.

Другими словами, любой другой контекст следует игнорировать, и эти ключевые термины должны неизменно присутствовать в строке поиска.

Строка поиска является важной частью процесса систематического картирования, поскольку ее качество может быть определяющим фактором в получении хорошего результата при сборе литературы, используемой в процессе картирования.

Одна из самых больших проблем при создании строки поиска связана с определением используемых терминов. Это связано с тем, что во многих областях нет стандартной номенклатуры, которой следует следовать, что часто заставляет авторов использовать разные синонимы или терминологию для одного и того же слова.

Учитывая эту трудность, перед форматированием строки поиска мы сделали список всех возможных синонимов к основным терминам проводимого исследования, как видно из таблицы:

Некоторые альтернативные термины в списке, даже если они являются синонимами, не будут отображаться в форматировании строки поиска, так как, даже являясь синонимом основного термина, он не используется в литературе и, следовательно, не способствует улучшению качества поиска. Струна.

Используя список синонимов и подбор слов с большей релевантностью, последним шагом для выполнения уточнения строки поиска является форматирование терминов в логическое предложение.

Поскольку мы хотим иметь все основные термины, мы разделяем их логическим И. Поскольку существует вариант терминов, мы объединяем все альтернативные термины с основным термином, разделяющим их с помощью логического ИЛИ, как показано в приведенном ниже определении:

(scalability OR paralellism OR clustering) AND (machine learning OR ml) AND (big data OR data analytics OR data processing)

Применение систематического отображения требует ряда решений, чтобы определить рабочий процесс, который следует использовать. Это делает процесс более прозрачным, поскольку легко определить, какой выбор был сделан на каждом этапе выполнения процесса.

Этот шаг необходим по двум основным причинам: именно на этом этапе определяются различия для других исследований, аналогичных тому, что выполняется, а также разъясняется читателю все, что он должен выполнить, чтобы воспроизвести исследование.

Важным выбором является определение того, какие литературные источники используются в исследовании. Google Scholar и Scopus — это базы, которые индексируют несколько источников и иногда таковыми являются, если гарантируется, что поиск выдал все данные, по этому мы решили оставить их за рамками данного исследования.

Мы решили использовать в качестве исходников базы IEEE, ACM и Springer. Есть несколько других баз данных, в которых есть контент, который требуется найти в поиске, но выбор этих баз был сделан на основе предварительного анализа контента, опубликованного в каждой из них, а также релевантности найденного контента.

Для предварительного анализа каждого из источников мы сначала проверили наличие в этих источниках журналов, посвященных теме данного исследования. Если у вас не было той же эпохи отбрасывается. Позднее мы также проверили, касались ли статьи, опубликованные в этих журналах, предмет настоящего исследования. Опять же, если это было не так, его отбрасывали.

В случае трех выбранных нами источников, все они содержали журналы, посвященные теме данного исследования, а также те же публикации, в которых также обсуждалась тема исследования.

Большая проблема работы с разными базами заключается в том, что у каждой есть свой способ форматирования строки поиска. Это делает необходимым выяснить, каковы особенности каждого из них, и применить их в строке поиска, как показано ниже:

  • IEEE Исследуйте

В IEEE строка поиска должна содержать круглые скобки, охватывающие все предложения и для каждого предложения, а также все термины должны быть заключены в кавычки. Важно отметить, что логические операторы И заменяются зарезервированным словом .RBLB.

((”scalability”OR”paralellism”OR”clustering”)AND(”machine earning”OR”ml”)AND(”big data”OR”data analytics”OR”data processing”))
  • Цифровая библиотека ACM

В ACM строка поиска должна содержать круглые скобки только для каждого предложения, кроме того, все термины должны быть заключены в кавычки.

(”scalability”OR”paralellism”OR”clustering”)AND(”machine learning”OR”ml”)AND(”big data”OR”data analytics”OR”dataprocessing”)
  • Спрингер Линк

В Springer строка поиска должна содержать круглые скобки только для каждого предложения, и все они должны быть заключены в одинарные кавычки, а все термины должны быть заключены в кавычки.

'(”scalability”OR”paralellism”OR”clustering”)AND(”machine learning”OR”ml”)AND(”big data”OR”data analytics”OR”dataprocessing”)’

Использование правильного форматирования для каждого источника гарантирует правильный поиск одного и того же контента.

Все литературные источники имеют фильтры в своих инструментах поиска. Эти фильтры служат уточнением для улучшения полученных результатов и сохранения фокуса на том, что вы хотите изучить.

Определение того, какие фильтры будут применяться, является важным решением в стратегии, которая будет использоваться при поиске, и важно подчеркнуть, что эти фильтры должны применяться ко всем источникам.

При этом если какой-то источник имеет какой-то фильтр, которого нет у других, то его не следует использовать, чтобы не было разницы и источник для другого.

Для нашего исследования мы решили применить только три типа фильтров: «Язык», «Тип работы» и «Период публикации».

  • Язык

Масштабируемость алгоритмов машинного обучения — предмет, которым занимаются исследователи по всему миру, которые часто пишут свои исследования на самых разных языках. Поскольку у нас нет возможности понимать некоторые языки, и мы считаем, что исследования, написанные на английском языке, как правило, более актуальны, чем другие, мы выбрали только те исследования, которые написаны на английском языке.

  • Тип работ

Литературные источники имеют индексируемые ими самые разные виды произведений, многие из этих произведений оказываются книгами, летописями, которые быстро переполняются. В этой реальности нам нужно было определить, какую работу мы хотели бы использовать в нашем исследовании, и поэтому мы решили выбирать статьи конференций по большей частоте их обновления.

  • Период публикации

Как мы упоминали во введении, масштабируемость, машинное обучение и большие данные являются очень актуальными темами в компьютерных науках, и поэтому они продолжают постоянно обновляться. При таком сценарии и с целью определения современного состояния этой темы мы не могли использовать старые статьи, поскольку многое из того, что они могли комментировать, не могло быть использовано в течение длительного времени. Поэтому мы решили выбрать только статьи за последние 5 лет, потому что они могут показать произошедшие изменения и в то же время показать, что используется как самое актуальное.

Наконец, очень важно определить, какой процесс будет использоваться при включении или исключении каждой статьи. То есть нам нужно определить, где мы будем искать в статьях существующие субсидии, которые касаются исследования, которое мы хотим провести. Для нашего исследования мы решили сделать уловы следующим образом:

  1. Название
  2. Аннотация
  3. Ключевые слова
  4. Введение
  5. Полный текст

То есть на каждом шаге мы будем читать все статьи, чтобы указать, какие из них касаются предмета исследования в данном месте статьи. Если часть статьи переходит к следующему шагу, в противном случае она отбрасывается.

Чтобы классифицировать исследования, мы определили три категории классификации, которые соответствуют систематическим картографическим исследовательским вопросам. Разработаны следующие категории:

  • Метод масштабируемости

Одним из важных моментов в этом исследовании является классификация исследований в соответствии с методом масштабируемости, используемым для повышения производительности алгоритмов машинного обучения. Эта классификация интересна, поскольку мы хотим знать, что сегодня используется чаще всего, с помощью этой классификации мы можем определить и указать, что для данной проблемы или группы проблем чаще используется, например, распараллеливание, распределение или группировка. Сделав это, мы смогли легко ответить на вопрос запроса RQ1, для которого установлено значение «Таблица».

  • Техника масштабируемости

В дополнение к знанию метода, используемого в исследованиях, важно знать, какие методы чаще всего используются этими методами. Знание этой информации важно, потому что для данного метода существует несколько методов его применения на практике и управления статьями, мы можем получить представление о том, в каких ситуациях каждый метод более интересен.
Зная эту информацию, вы может ответить на поисковые вопросы RQ2, RQ3, RQ4, RQ5, для которых установлено значение Table

  • Среда больших данных

В настоящее время очень часто можно найти эти методы и приемы, применяемые в среде, работающей с большими данными. Но эта номенклатура очень обширна, есть некоторые особенности, которые отличаются от одной среды к другой, и чрезвычайно важно знать, для какой среды лучше всего подходит тот или иной метод и техника. Это делает интересным узнать, какие работы использовали какие методы, в какой среде, чтобы иметь возможность определить шаблон использования. С ответом на эту классификацию мы смогли ответить на вопрос RQ6, заданный в таблице

После окончательного определения классификации исследований этап планирования процесса систематического картирования со всеми должным образом определенными этапами считается завершенным.

С этого момента мы готовы эффективно выполнять систематическое отображение, строго следуя всем предыдущим определениям.

Несмотря на то, что этап планирования завершен, все еще можно вернуться к этому шагу, чтобы скорректировать некоторые моменты, которые были плохо определены и были обнаружены только во время выполнения процесса.

Из сделанных определений, соответствующих планированию процесса, мы готовы сначала применить нашу строку поиска в инструментах поиска источников данных, которые мы выбрали для использования в этом исследовании.

Для каждой из выбранных баз мы будем применять соответствующую строку поиска, отформатированную особым образом.

В результате поиска мы получили разные объемы данных для каждой базы, обобщив значительное количество исследований, в которых есть некоторые из нужных нам ключевых слов, как видно из таблицы.

Однако, как известно, всегда есть большое количество исследований, которые можно отбросить, поскольку некоторые из них, даже содержащие ключевые слова, которые нужно найти, не касались самого предмета, который хотят изучить.

Это было сделано с помощью процесса фильтрации, как показано на рисунке . На какое-то время мы решили проанализировать только 38 статей, которые были выбраны из разных баз данных случайным образом.

Прежде чем классифицировать исследования по классам, которые мы определили, мы решили провести анализ двух важных характеристик исследований, которые помогут нам лучше понять предмет, который мы хотим изучать, а именно: год публикации и издатели.

Как видно на рисунке, 2015 год стал началом более интенсивного изучения этой темы до 2017 года. Уже в 2018 году было еще не так много записей публикаций и сделать панораму этого года не представляется возможным. .

Интересно отметить, что, поскольку это междисциплинарная область вычислительной техники, по этой теме есть публикации на самых разных конференциях. В то же время это усложняет поиск работы по теме, однако оставляет открытым очень широкий спектр возможных вариантов отправки работы издателем.

Эти два анализа не являются необходимыми для понимания предмета, но помогают в подтверждении, если это уместное предположение в настоящее время.

Используя 3 определенных нами класса, мы рассмотрим одно из исследований и классифицируем их.

В таблице мы сгруппировали все исследования по тому методу, который использовался для достижения масштабируемости. Мы смогли связать все исследования только с 3 замечательными методами: те, которые использовали только распределение, те, которые использовали только параллелизм, и те, которые использовали оба.

Чтобы попытаться резюмировать таблицу более наглядно, мы разработаем график, который можно наблюдать на рисунке. В нем можно наблюдать тенденцию использования параллелизма при попытке добиться масштабируемости какой-либо задачи.

Эта первая классификация очень интересна, но она очень поверхностна в отношении того, как достигается эта масштабируемость. Если мы хотим лучше понять предмет, нам придется углубиться в то, как осуществляется процесс масштабируемости.

Именно для этой цели существует наша вторая классификация, которую можно увидеть в таблице, где сгруппированы в 7 методов, мы смогли указать, какие методы каждое исследование использует для получения своего метода масштабируемости.

Так же, как и выше, мы построили график, который можно увидеть на рисунке, чтобы обеспечить более наглядное заполнение разброса исследований по методикам.

Однако, в отличие от того, что можно было наблюдать в отношении методов, когда мы говорим о методах, есть два больших предпочтения для достижения масштабируемости.

Во-первых, это инструменты, где они подходят для Hadoop, Spark, Hive и многих других. Эти инструменты представляют собой реализации набора функций, где у пользователя есть только одна задача — установить их в среде и запустить в ней алгоритм. Инструмент отвечает за знание того, как повысить производительность.

Вторая — это модели, в которых определены Map Reduce, Load Balancing, Division и Conquest. Многие из этих моделей реализуются с помощью инструментов, однако в этом случае пользователь отвечает за их наилучшую реализацию, чтобы получить наилучшую производительность для своего алгоритма.

Обратите внимание, что все эти методы следует использовать в зависимости от проблемы, с которой вы столкнулись.

На данный момент мы знаем, что это за методы и какие методы используются, но мы до сих пор не имеем ни малейшего представления о том, в какой среде больших данных мы можем их применить.

Для этого мы разработали третью классификацию, которую можно увидеть в табл. В нем мы группируем статьи по среде большой даты, в которой применялись методы и приемы.

Как видно, при обобщении, сделанном с помощью графика, представленного на рисунке, количество сред является самым разнообразным. Но самое интересное, что следует отметить, это то, что большинство комбинаций методов и приемов можно применять в общих средах больших данных, то есть они служат для решения более чем одной конкретной задачи.

Оценка, которая была вырвана из контекста, но поскольку данные уже были доступны в исследованиях, стало интересно немного больше понять, какие алгоритмы чаще всего используются для решения задач.

В обобщении, которое можно увидеть на графике на рисунке, можно понять, что существует несколько алгоритмов, которые можно масштабировать, и что одна и та же задача решается во много раз более чем одним из них.

В то же время это помогает решить, какие алгоритмы использовать при выборе одного для масштабирования, но оставляет открытым вопрос: «Если есть два алгоритма, способных решить одну и ту же задачу, какой из них выбрать?».

С этими определенными классификациями и пониманием текущего сценария предмета можно приступить к разработке рабочих предложений, используя исследования, найденные в этих исследованиях, в качестве справочного материала.

Это систематическое картографическое исследование позволило лучше понять масштабируемость алгоритмов машинного обучения в средах больших данных.

Исследуя, как искать литературу по предмету в литературных источниках, мы столкнулись с неунифицирующей терминологией, что заставило нас все больше усиливать необходимость создания стандартов для всех предметов.

Количество различных областей, изучающих один и тот же предмет, одновременно создающее возможности для расширения исследований, вызывает неудобство, делая невозможной прямую и однозначную проверку всей доступной литературы в одном источнике литературы.

Наконец, это исследование заставило нас задуматься о предмете, который мы хотим изучить, и мы понимаем, что еще есть пробелы и возможности, которые необходимо изучить, но мы понимаем, что по-прежнему необходимо проводить систематический обзор предмета, который мы хотим исследования, чтобы понять более глубоко детали, которые были разработаны о нем.

Использованная литература: