«Машинное обучение слишком важно, чтобы оставлять его в руках нескольких крупных корпораций»
Доступ к быстрым вычислениям и большим данным должен быть правом человека.
Доступ к быстрым вычислениям, большим данным и блокчейну должен быть правом человека.
Я слушал выступление Эндрю Нг 5 дней назад. Речь шла об ИИ и его влиянии на общество. Он выступал перед переполненным залом Стэнфордского университета. Один из зрителей спросил Эндрю, какие конкурентные преимущества Baidu в машинном обучении позволяют ему быть лидером в своей области? Его ответ на вопрос вызвал дрожь в моем позвоночнике. Это повысило мое кровяное давление до опасного уровня.
Хорошо, это не было так драматично или травматично, но этого было достаточно, чтобы вызвать немедленную реакцию. Это заставило меня написать эту историю. Итак, кто такой Эндрю Нг и почему вас это должно волновать? Он большое, БОЛЬШОЕ дело. Его курсы машинного обучения прошли более 1 миллиона человек из более чем 90 стран. Они уважают его как эксперта в сообществе ИИ. Профессор Нг пользуется большим уважением у своих коллег по обработке данных в США, Китае и Европе. Он настоящая знаменитость, если таковая когда-либо была, в области машинного обучения.
Нг в настоящее время является ведущим научным сотрудником по искусственному интеллекту в Baidu, китайском гиганте поисковых систем, до этого он был ведущим ученым в проекте Google Brain Project.
Вот как он ответил на вопрос.
Есть только 2 конкурентоспособных Преимущества крупных компаний, таких как Baidu, перед их более мелкими конкурентами: у них очень большие наборы данных и много высокопроизводительных компьютеров. Если мы доведем его ответ до логического завершения, можно с уверенностью предположить, что размер набора данных, которым располагает компания, зависит от ее положения в отрасли. Нулевая небольшая компания имеет большой набор данных, лежащий в ее большом центре обработки данных. Это было бы нелогично. У небольших компаний нет гигантских хранилищ данных или кластера Hadoop. Прежде чем двигаться дальше, задайте себе вопрос:
Чьи это данные?
Мы вернемся к этому вопросу в следующем абзаце, но сначала давайте продолжим изучение презентации Эндрю.
Кажется, Нг заверил, что Baidu и другие хранители данных будут продолжать монополизировать, извините, я имел в виду доминировать в своей отрасли, потому что они не только имеют много графических процессоров, но также обладают двумя дополнительными активами, а именно: сотнями умных специалистов по данным и столь же блестящим высоким исполняют компьютеры dev OPS специалисты.
Я не уверен, что изобретательности выскочек достаточно, чтобы стагнировать. Закон пополнения гласит, что люди, работающие в офисах (кофейни, используемые предпринимателями в качестве офисов), заменят, вытеснят или подорвут позиции действующих лиц во многих областях. Дело не в том, произойдет ли это; вопрос в том, когда это произойдет. Так что я не беспокоюсь.
Тон Нг намекал на то, что невладение большими данными создает непреодолимый барьер для входа на рынок новичкам, у которых нет этих ресурсов.
Далее он сказал, что навыки, необходимые для проектирования архитектуры распределенных компьютеров с высокой пропускной способностью, и мастерство в области машинного обучения являются взаимоисключающими. Эти навыки слишком специфичны для того, чтобы кто-то один или небольшая группа могли овладеть ими обоими. Далее он сказал…
Эксперты по машинному обучению не обладают специальными знаниями в области разработки для создания высокопроизводительных вычислений и управления ими в распределенной среде. и / или разработка функций большого набора данных, чтобы сделать его полезным для обучения. Почему это важно?
Эндрю Нг для машинного обучения то же, что Ричард Фейнман для физики.
Когда Эндрю Нг говорит, люди слушают. Я слушал профессора Нг 8 недель подряд, пока проходил его курс машинного обучения. Он был предоставлен Стэнфордским университетом (МООК). Он был первым, кто познакомил меня с таинственным миром машинного обучения. Он отличный учитель. Профессор Нг для машинного обучения то же, что Ричард Фейнман для физики. Они оба превращали сложные предметы в более простые.
Он демистифицирует машинное обучение для более чем 100 тысяч студентов по всему миру. Его видеолекции на Youtube набирают сотни тысяч просмотров. Он продолжает вдохновлять и набирать множество новичков в области ИИ из других областей с помощью своих занятий, презентаций и видео. Он провидец в нашей области и в образовании. Если этого достаточно, он также является соучредителем чрезвычайно популярного веб-сайта МООК Coursera.
Вот почему то, что он сказал дальше, меня очень обеспокоило. Настолько, что его комментарии вынуждают меня написать эту историю. Вы поймете, почему я беспокоюсь, когда будете читать дальше, но сначала вот что он сказал:
Если вы серьезно относитесь к машинному обучению, вам следует пойти работать в крупную компанию, особенно в ту, которая обладает как HPC (высоким -производительные компьютеры) и терабайт терабайт данных. Это познакомит вас с передовыми методами машинного обучения, которые применяются сейчас.
Хотя в том, что он сказал, была доля правды, я не согласен с последствиями. Я считаю, что передовые методы машинного обучения ежедневно применяются в кофейнях, подвалах и гаражах по всему миру. Крупная компания — не единственное место, где происходят инновации. Бюрократия виновна в убийстве множества инновационных идей, возникающих внутри крупного предприятия.
Большая корпорация — не всегда лучшее место для творчества. Большинство творческих людей, которые до сих пор работают в крупных компаниях, вырвались бы на свободу, но не могут. Они привязаны к зарплате. Есть место для блестящих инструментов и хранилищ данных, но слишком много инструментов может привести к параличу творческого ума. Наличие слишком большого количества инструментов ограничивает вашу свободу и лишает вас творческого взрыва и понимания, которые дают ограничения. Правильное количество ограничений может дать волю вспышкам озарений, которые приведут к ошеломляющим прорывам. Способность делать больше с меньшими затратами — это тот витамин, который питает нашу творческую душу.
Некоторые компании слишком велики, чтобы добиться успеха. Этот факт ускользает от них.
Они не могут сбежать из созданной ими самими тюрьмы. Бюрократическая клетка, которую они построили для творческой мысли, держит их запертыми в одиночном заключении. Консервативная политика их советов директоров действует как тюремная стража.
Чтобы инновации появились, нужна группа людей, которые слишком глупы, чтобы знать, что невозможно.
Чтобы внедрять инновации в машинное обучение,
нужны люди, которые будут изучать правила, как ученые, чтобы потом их нарушать. как художники. Для художника. Какая-то крупная корпорация является пыточной для художника. Стартап — это рай, о котором мечтает раскрепощенный разум.
Крупные компании разумны и стабильны. Четверо неразумных предпринимателей, которые решили изменить мир, неудивительно, что иногда они действительно меняют мир: Google.
Выскочки создают прорывы. Крупные компании внедряют инновации постепенно. Вы можете пересчитать по пальцам одной руки количество крупных компаний, которые продолжают внедрять инновации после IPO. Google, Microsoft и, конечно же, Apple — отличные примеры. Это единороги; они аутсайдеры. Если вы предприимчивы, вы, вероятно, не будете работать ни в какой компании, большой или маленькой. Так что совет Нг о том, что вы пойдете работать на этого человека, — плохая идея. Это просто не сработает для вас. Это просто нежизнеспособный вариант.
Да, я сказал, что слушал Эндрю Нг.
Но я не сказал, что согласен со всеми его взглядами. Честно говоря, он говорит правду, но только для единорога. Поскольку найти работу в крупной компании — это не та мечта, к которой стремится большинство предпринимателей, каково же решение? мы должны найти лучший способ. Тот, который не включает бульдозирование непослушных, упрямых или сумасшедших, чтобы они пошли работать в IBM, Google или Apple. Все они отличные места для работы, только не для основателей, не для тех, кто хочет оставить след во вселенной и уж точно не для тех, кто хочет сделать мир лучше. Идя по правильному пути,
Мантра глубокого обучения: больше данных, больше данных, быстрее GPUU. Похоже на строчку из рэп-песни?
Существуют теоретические и эмпирические данные, свидетельствующие о том, что чем больше данных, тем лучше результаты. Это правда. Глубокие и сверточные сети нуждаются в большом количестве данных, если не учитывать веса и смещения перед обучением.
Но всегда ли больше данных должно быть лучше для обучения нашей модели? Больше GPU — не единственное, что сокращает время обучения наших моделей. Graphlab, например, создает очень быстрые вычисления, используя внешнюю обработку ядра, доказывая, что мы можем многое сделать с помощью алгоритмов для ускорения обучения.
Я прочитал историю здесь, на Medium, где эксперт Adobe по машинному обучению в области маркетинга хвастался, что у них самый большой набор данных о креативах из-за почти монополии Adobe на программное обеспечение, которое используется фотографами, иллюстраторами, полиграфистами и веб-дизайнерами. Adobe создает Photoshop, Illustrator и их творческое облако. Это их базовая облачная платформа. Ваша способность накапливать данные не должна давать вам конкурентного преимущества. Это не должно быть барьером для стартапа для конкуренции или барьером для входа. Если накопление данных — единственное преимущество, которое они получили, это не является устойчивым преимуществом.
Если большие данные и обладание высокопроизводительными компьютерами — это кислород, то маленькие стартапы умрут от удушья. Мы должны бороться против централизации машинного обучения, если вы солдат ОД. Если вы пацифист машинного обучения, вы можете работать над децентрализацией машинного обучения. Я не говорю, что все крупные компании сговариваются против небольших стартапов, голодающие соучредители спасательного круга данных говорят, что мы должны сделать все возможное сейчас, чтобы предотвратить это в ближайшем будущем.
Прежде чем мы начнем, она охотится на ведьм Всем крупным компаниям важно помнить, что без таких крупных компаний, как, например, Google, мы бы не зашли так далеко. Сказав это, вполне разумно думать, что компания, которая была справедливой, когда все шло хорошо, может стать злом, накапливающим данные, если ее господству угрожают 3 основателя в кофейне. Возникает вопрос: может ли блокчейн помочь?
Наша цель — предотвратить зло в будущем, а не наказывать за прошлые добрые дела.
Бизнес-модели некоторых компаний вынуждают их расширять возможности предпринимателей и вести себя дружелюбно с более мелкими стартапами. Google, Microsoft и Amazon, например, передают сообществу множество замечательных инструментов на аутсорсинг: вспомните Tensorflow от Google, это «замечательный инструмент для распределенной нейронной сети в масштабе». Отлично работает с Google Cloud. Мы можем арендовать сервер в облаке, но в качестве мысленного эксперимента, как вы думаете, что произойдет со стоимостью, если стартап, использующий архитектуру Amazon, будет конкурировать с Amazon? Как вы думаете, стоимость повысится или упадет? Серьезно, вы бы одолжили врагу свое оружие, чтобы сразиться с вами?
Один стартап Voice Over IP, который использовал крупную канадскую сеть, чтобы напрямую конкурировать с телефонной службой крупной канадской компании. Voice Over IP обвинила крупную Канаду в саботаже своих пакетов, из-за чего у их пользователей возникло плохое впечатление. Закончилось в судах. Если я не ошибаюсь, в этом случае победил Voice Over IP. Это доказывает, что бизнес пострадает, если его доминирование или доходы начнут уменьшаться. Это не личное. это бизнес. У них есть юридическая обязанность перед заинтересованными сторонами максимизировать прибыль. Крайний случай этого называется внешним эффектом
Предполагается, что OpenAI работает над децентрализацией ИИ. Я говорю «подразумевается», потому что не знаю, насколько OpenAI открыт. Я не знаю, финансируется ли это и с какой целью. Есть ли открытый выступ, похожий на цепочку блоков? Я не знаю. Я предполагаю, что они больше работают над образовательной стороной вещей. Меня больше беспокоят аспекты вычислений и данных.
Просто в качестве примечания: я упоминаю о желании избежать порабощения графического процессора. У Google есть TPU, который представляет собой аппаратное обеспечение для обучения моделей Tensorflow. Насколько это доступно? Это недешево.
На этом этапе вы можете сказать: «Эй, Рой, ты перечисляешь много проблем. Вы рассказали нам о тирании и потенциальном зле разделения вычислений и централизации данных, НО до этого момента вы не сказали ни слова о каких-либо возможных решениях. Ты прав. Давайте перейдем к некоторым возможным решениям. Притормозим на мгновение. Давайте подумаем над важным вопросом: что бы вы хотели увидеть в следующие 5-10 лет для запуска машинного обучения, скажем, с 4 соучредителями? Вот что я хотел бы увидеть.
В идеальном мире все стартапы должны иметь как минимум шанс конкурировать с любым другим бизнесом с ненулевой вероятностью достижения успеха. Стартап должен поддерживать свою плоскую иерархию и отсутствие бюрократических цепочек. Стартапы не должны сдерживать нехватка терабайт данных. Они не должны быть пыткой из-за недостатка дорогих графических процессоров и ограничены отсутствием высокопроизводительных компьютеров.
Данные, которые, кажется, дают Гигантам преимущество. Откуда они это взяли? Чьи это данные? Я утверждаю, что данные принадлежат нам. Мы создаем его, когда занимаемся серфингом. Мы создали его, когда нажимаем кнопку «Мне нравится» в социальных сетях. Мы создаем его, когда ведем блог, и мы создаем его, когда не можем отказаться от отслеживания. Логично ли из этого следует, что мы являемся полноправными владельцами больших данных? Кто еще что думает. Люди, выступающие за распределенные приложения, склонны думать так же, как и я. Кто-нибудь знает, сколько стоят пользовательские данные? Дайте угадаю: миллиарды. Я прав?
Сознательно ли мы отказались от права собственности мелким шрифтом? Как мы можем восстановить свое присутствие в Интернете. Если другим разрешено монетизировать ваши привычки в серфинге, ваши предпочтения могут требовать денег за то, что вы являетесь создателем вас в Интернете. Эти вопросы не были риторическими. Они требовали ответов. Вы должны отвечать на них с той серьезностью, которой они владеют. Переключение передач,
Возможно, существует технология, которая не так привлекательна, как машинное обучение, но она может революционизировать даже науку о данных. Мы только слышим, как машинное обучение изменит или разрушит X, но мы почти никогда не слышали, как Y произведет революцию или улучшит машинное обучение. Я говорю о блокчейне. Блокчейн не нарушит машинное обучение, потому что не может. Машинное обучение и блокчейн дополняют друг друга. Одна из них — звезда баскетбола
Леброн Джеймс, а другая — звезда легкой атлетики Усэйн Болт.
Это две самые революционные технологии с момента появления электричества: машинное обучение и блокчейн. Наша задача – создать…
Сетевая архитектура, основанная на блокчейне. Тот, который имитирует доказательство работы для обучения моделей машинного обучения. Но вместо узлов, проверяющих транзакцию, узлы помогают обучать модели машинного обучения. Это раскроет мощь одноранговой сети для человечества. Распределенная одноранговая сеть для обучения таких моделей машинного обучения, как , демократизировала бы машинное обучение, и это хорошо.
Мы убедились в силе одноранговой сети с помощью Napster и однажды убедились в ее силе. снова с биткойнами. Биткойн сотрясает централизованные властные структуры финансов и денежных переводов. Интернет носит одноранговый характер. Что хорошо в том, что я говорю, так это то, что я понятия не имею, что невозможно. Так что я не ограничен тем, что знаю наверняка, это не так. Я больше сосредотачиваюсь на том, что я хотел бы видеть.
Машинное обучение должно быть таким же без разрешений, как и сеть блокчейн. Скажем, я хотел отправить 100 долларов в биткойнах другу на Ямайку, мне больше не нужен для этого посредник, такой как банк или Western Union. Я просто открываю командную строку open 21.co и отправляю деньги на его публичный адрес. Он получит свои деньги в течение нескольких минут, а не дней. Мне не нужно заполнять кучу бумажной работы и выманивать 10–15% денег, которые я отправляю на комиссионные. Получателю не нужно ждать 5 дней, чтобы получить свои деньги.
Представьте, что мы можем обучить нейронную сеть, не нуждаясь в Amazon или Google. Представьте, что вы могли бы это сделать в среде без разрешений, вдали от полиции облачных платформ. Давайте постараемся сделать обучающую модель машинного обучения такой же простой, как отправка 100 долларов на биткойн-адрес.
Почему мы не можем использовать блочную цепочку или создать что-то подобное для автоматизации обучения и с функцией компенсации для тренеров. Какой будет компенсация за обучение? Это может быть небольшая сумма капитала, которую вы можете обменять с другими на деньги или обменять на другие криптовалюты, такие как биткойн. Форма, которую он может принять, — это тема для другой истории, но вы поняли идею. Мы должны адаптировать и принять то, что работает, чтобы работать на нас.
Предварительно обученные веса и смещения — очень захватывающая разработка в мире машинного обучения. Крупные компании тренируют модель в масштабе, а затем сообщают сообществу веса и предвзятость. Это здорово, потому что позволяет основателям стартапов или исследователям делать удивительные вещи с небольшим количеством данных. Это особенно важно в компьютерном зрении и других задачах глубокого обучения. Все не так, мы просто видим веса и смещения, основанные на точках зрения одной архитектуры, одной оптимизации и одного варианта использования. Вы не видите реальных данных. Вы лишены доступа к данным, которые генерируют веса и смещения. Я говорил это раньше, и я повторю это для полного эффекта здесь. Этот пост предназначен для защиты от будущего зла. Он не стремится игнорировать хорошее из прошлого. Мы должны стремиться к звездам, если вы промахнетесь, вы можете приземлиться на Луну. Предварительная модель дана богами данных, но еще не является ключом к небесам. Нирвана – это пункт назначения.
Святой Грааль машинного обучения для меня — это возможность обучать глубокую нейронную сеть с небольшим набором данных, сохраняя при этом высокую оценку точности на проверочном наборе. Другими словами, давайте отрицаем потребность в больших данных. Это было бы окончательное выравнивание игрового поля для всех участников. Это было бы несколько хорошо. Например,
творчество, сотрудничество и инновации снова станут конкурентным преимуществом. Размер компании не должен быть единственным условием будущего успеха. Еще одним многообещающим шагом в прямом направлении, поскольку для обучения модели требуется меньше данных, является интерактивное обучение.
Исследователи из Стэнфордского университета используют интерактивное обучение в NLU (понимание естественного языка). У него проблемы с масштабируемостью. Интерактивное обучение позволяет человеку обучить компьютер выполнять задачи, которые компьютеру сложно выполнить самостоятельно: скажем, компьютер пытается научиться понимать, какое количество английских предложений означает. Компьютер делает предположение. Человек подталкивает компьютер в правильном направлении. Подобно повторному обучению, но человек переформулирует правила в тесном цикле обратной связи с компьютером.
О нет, понимание естественного языка не является близкой темой, несмотря на то, что вы слышите от опытного спортивного комментатора на канале FOX. Мы продвигаемся в поверхностном понимании неструктурированного текста, используя встраивание слов, LSTM и GRU. Мы получаем замечательные результаты, извлекаем чувства и распознаем именованные сущности. Имея в виду текст, мы можем понять, какое слово является местом, людьми или бизнесом. Мы также можем предсказать следующее слово в последовательности с некоторым подобием осведомленности о контексте.
Если вы нарисуете результат некоторых моделей, используя SNA, алгоритм уменьшения размерности. Вы увидите поразительную согласованность слов и их синонимов. Некоторые слова будут выстраиваться в предсказуемый образец. Как бы замечательно это ни звучало, мы все еще далеки от того, чтобы компьютер действительно понимал текст и его контекстную среду. В соответствии с духом этого поста, лучше тренироваться с меньшим количеством данных. Они не идеальны. Чтобы делать то, что я упомянул выше, вам все равно придется умножать матрицу 500 X 500. Все это для неглубокого понимания естественных языков.
Интерактивное обучение требует гораздо меньше данных, но требует участия большого количества людей. Вам нужны люди, чтобы подтолкнуть компьютер в правильном направлении, когда он делает ошибку. Это выглядит очень многообещающе.
На курсе по компьютерному зрению, который вел великий Андрей Карпати в Стэнфорде (Youtube), я обнаружил, что аугментация данных — это вещь. Это еще одна техника открытия глаз. Для многих читателей этой истории вы могли бы быть ветераном отрасли. Я не. Я был рад узнать, что мы можем создавать данные из воздуха. Для меня это как магия. Что-то вроде банка с частичным резервированием и банкнот для создания денег из эфира. Пух!
Вы можете переводить, поворачивать или преобразовывать изображение множеством способов, чтобы имитировать увеличение размера вашего набора данных. Конечно, хранители данных и GPU Mafia могут использовать тот же трюк. Тем не менее, эти методы выравнивают игровое поле. Это как дать ребенку в очках пару контактных линз, чтобы он мог поиграть 5 минут. Нет никакой гарантии, что она станет стартером, но, по крайней мере, у нее будет игровое время. Обратите внимание, что у всех методов есть одна общая нить.
Каждая из этих идей медленно вырывает нас из когтей монстров, собирающих данные, и из искажения мафии графических процессоров. Подобно чистой воде, чистому воздуху и чистым океанам, ИИ принадлежит всем нам. Большие данные — это общий товар. Он принадлежит не только крупным и могущественным корпорациям. Как только вы знаете, вы несете ответственность. Если вы первым обнаружите потенциальную проблему, значит, вы лучше всего подходите для того, чтобы начать поиск решения. Давайте действовать, давайте действовать.
Поддержите борьбу против централизации машинного обучения. Вы можете сделать это своими комментариями, вы можете сделать это своими обязательствами, и вы можете это сделать, поделившись своими идеями. Эта история слишком важна для того, чтобы ее мог написать один человек, вы можете помочь, добавив свое предложение, добавив свой абзац к главам этой истории. Это не моя история. Это не твоя история. Это не их история. Это наша история.
Давайте напишем это вместе.
Вам понравился этот пост?
Порекомендуйте его, щелкнув значок очага ♡ ниже.
Twitter Roydell Clarke
Публичный контакт: www.21.co /roydell2b
Twitter: @roydell2
Давайте напишем это вместе.
Понравилось ли вам это сообщение?
Рекомендуйте его, нажав значок очага♡ ниже.
Твиттер Ройделл Кларк
Публичный контакт: www.21.co/roydell2b
Твиттер: @roydell2b