Аарон Кимбалл был на пике популярности в мире больших данных, сначала как коммиттер Hadoop и один из первых сотрудников Cloudera, а затем как соучредитель основанного на Hadoop стартапа рекомендаций под названием WibiData. Сегодня он использует свой талант в качестве технического директора в Zymergen, стартапе, который использует лабораторную робототехнику и машинное обучение для улучшения процесса создания микробов для различных областей, от производства до сельского хозяйства.

В этом интервью Кимбалл объясняет, почему работа Цимергена так важна (подумайте, например, о том, сколько нефти идет только на производство потребительских товаров) и как продвинулись вперед в таких областях, как геномика, вычисления и обработка данных. Возможна работа Цимергена. Он также очень четко объясняет разницу между анализом данных в биохимии и в Интернете, и почему инструменты, разработанные для одного варианта использования, не всегда применимы для другого.

АРХИТЕКТОР: Не могли бы вы объяснить, что делает Цимерген?

ААРОН КИМБОЛ: Мы занимаемся промышленной ферментацией - производим микробы, которые производят химические вещества. И мы помогаем другим компаниям, производящим микробы, производящие химические вещества, улучшать эти микробы. Эти химические вещества используются в различных отраслях промышленности, включая сельское хозяйство, промышленные химикаты, ароматизаторы и ароматизаторы, а также в лечебных препаратах.

Можете ли вы пройти через процесс развития микробов?

Возьмем классический пример ферментации: дрожжи естественным образом производят алкоголь, и мы наливаем воду, сахар и дрожжи в большой чан, и мы можем сварить немного пива или сбродить вино. Существуют и другие микробы, которые естественным образом производят множество других химикатов в следовых количествах, но этих следовых количеств было бы недостаточно, чтобы быть экономически жизнеспособным для того количества сахара, которое вам нужно было бы добавить. Итак, ученые создадут копии этот микроб - производные этого микроба с небольшим генетическим изменением в каждом из них - и они исследуют генетические изменения, которые увеличивают производство целевого химического вещества за счет других химических веществ, которые микроб может выделять естественным путем.

Есть и другие способы заставить микробы производить то, что они не производят естественным путем. Вы можете вставить гены для совершенно нового метаболического пути, который похож на путь, который уже есть у микроба, и тогда он может производить химическое вещество, которое он изначально не создал.

«Традиционные биотехнологии были более сфокусированы на« биотехнологиях », а не на« технологиях ». В то время как в Zymergen пятая часть компании занимается разработкой».

Ваши клиенты - фармацевтические компании или пищевые компании? И вы продаете им технологии или настоящие физические микробы?

В настоящее время мы продаем услуги. Сегодня мы не имеем прямого отношения к фармацевтическому сектору; наши клиенты происходят из более традиционных химических производств.

Ежегодно на рынке продается промышленно ферментированных химикатов на сумму 80 миллиардов долларов, и многие из них оцениваются как чистые товары, поэтому эффективность производства этих химикатов представляет ключевой интерес для этих клиентов. Они подписываются на наши услуги и дают нам микроб, который они используют сегодня в производстве для производства химического вещества. Затем мы управляем нашими системами на нашем заводе и нашими системами данных, чтобы создать очень большое количество производных микробов, каждый из которых является небольшим генетическим изменением от хозяина, которого они нам дали. Мы стремимся повысить эффективность этих микробов - так что, возможно, это будет на 1, 2 или 3 процента более эффективных при производстве этого химического вещества - а затем каждые 6-12 месяцев мы будем отправлять улучшенный микроб этой компании-клиенту, которые затем масштабируют его в своих крупномасштабных ферментационных системах.

Когда дело доходит до больших данных, все относительно

Вы были одним из первых сотрудников Cloudera, а затем соучредили основанную на Hadoop компанию под названием WibiData. Как ваш опыт работы с большими данными связан с тем, что вы делаете в Zymergen?

Это определенно большой скачок от прежнего бизнеса. Традиционный способ выполнения такой работы предполагает, что ученые создают гипотезы одну за другой, а затем вручную конструируют эти генетические изменения и новые микробы с помощью пипеток, что является довольно низкопроизводительным способом выполнения работы. Это очень случайное предложение, потому что, как выясняется, люди не очень хорошо умеют априори выяснить, какое генетическое изменение откроет эту повышенную производительность.

В Zymergen у нас есть автоматизированная фабрика влажных лабораторий, где мы можем производить очень большое количество генетических изменений с помощью лабораторной робототехники. На этом этапе, когда у нас есть такая пропускная способность для проверки гипотез, мы можем начать думать об этом больше как о проблеме поиска. Мы можем использовать сопоставление с образцом и машинное обучение, чтобы направлять [процесс и ранжирование результатов], а затем передавать их через этот механизм исследования, который мы создали, чтобы проверить как можно больше гипотез с максимальной эффективностью.



Вы размещаете вычислительную часть этого самостоятельно или, предположительно, в облаке?

Серверы размещены на Amazon Web Services. Программный стек, который мы создали на его основе, опираясь на некоторую инфраструктуру с открытым исходным кодом для потоков данных и базовой обработки, представляет собой настраиваемый стек, который мы разрабатываем собственными силами в течение последних двух с половиной лет.

Я слышал, что Zymergen описывают как компанию, занимающуюся искусственным интеллектом. Это точно?

Я думаю, люди часто используют термин искусственный интеллект для обозначения сильной концепции искусственного интеллекта, чего-то вроде Siri или Alexa, которые кажутся почти сверхъестественными, и мы не работаем на этом уровне. Не существует всезнающего голоса, который проходит через динамики, чтобы говорить людям, что делать, но мы используем машинное обучение, чтобы помочь увидеть закономерности, которые люди не смогли бы распознать в наших исследованиях генома.

Стоит обратить внимание на то, насколько обширен геном и на множестве различных уровней, на которых мы можем его понять. Мы думаем о геноме как о совокупности As, G, Ts и Cs - букв ДНК, - но внести генетические изменения на этом уровне очень сложно. Это все равно, что пытаться изменить набор команд компьютера без справочного руководства.

Но мы также можем прочитать геном как набор слов, предложений или строф более высокого порядка. Мы можем не знать, что каждый из них говорит, но между этими различными элементами существуют взаимосвязи, и применение машинного обучения к сбору генетических изменений, которые мы уже сделали, а также наши знания о геноме микроба, которым мы являемся. совершенствуясь, мы можем ориентироваться в наших будущих исследованиях со значительно большей точностью, чем если бы мы механически двигались слева направо.



Где появилась функция большого шага или ступенчатая функция, благодаря которой работа Цимергена стала возможной? В данных? Вычислительная техника? Геномика?

Я думаю, что есть изменения во всех областях, о которых вы упомянули, и на самом деле именно их совокупность делает это возможным. Во-первых, лабораторная робототехника более надежна и доступна, и это позволяет нам расширить наши возможности тестирования. Что касается программного обеспечения, то теперь у нас есть возможность генерировать большие коллекции гипотез для проверки. Частично это связано с очень низкой стоимостью масштабирования облачных вычислений. Частично это связано с наличием высококачественных библиотек машинного обучения и других технологий обработки данных, которые мы можем собрать эти компоненты с открытым исходным кодом и быстро встроить в нечто, ориентированное на решение конкретной проблемы.

Я думаю, что это также связано с культурными изменениями, которые заключаются в том, что по всей Кремниевой долине мы начинаем видеть намного больше стартапов, которые представляют собой гибрид технологической компании и некоторой другой отрасли. Посмотрите, как Uber думает об автомобилях, вождении и технологиях. Взгляните на Cruise, который был куплен GM и сосредоточился на беспилотных автомобилях и технологиях.

То же самое происходит и в сфере биотехнологий. Традиционные биотехнологии были более сфокусированы на биологии, чем на технологиях. В то время как в Zymergen пятая часть компании занимается проектированием. У нас есть большое количество ученых, которые проводят исследовательские кампании и продвигают наши возможности вперед, используя преимущества новейших методов манипуляции с ДНК, и у нас есть большая группа инженеров, которые создают мощные аналитические платформы, которые дают им гораздо более длительный рычаг что делать этой науке.

«Информация о потоках кликов невероятно однородна и практически может обрабатываться механизмом SQL, если бы не его размер.

«… [T] он шкала ДНК от 3 миллионов до 6 миллионов оснований на микроб. Это пространство поиска от 4 до 3 или 6 миллионов изменений, которые вы можете порекомендовать, по сравнению с рекомендациями по каталогу ".

Каким образом технологическая компания, такая как Uber или Zymergen, использует инструменты иначе, чем более традиционная технологическая компания, которая существует только в сфере программного обеспечения?

Рассмотрим пример WibiData, компании, соучредителем которой я был ранее. Мы сосредоточились на пространстве розничных рекламных технологий для улучшения рекомендаций. В розничной торговле вы комбинируете этот фиксированный каталог товаров для продажи с данными о переходах, которые поступают от пользователей, и поэтому это очень замкнутый цикл развития интернет-технологий, который работает в Интернете и только расширяет Интернет. Данные очень упорядочены. Информация о потоках кликов невероятно однородна и практически может обрабатываться механизмом SQL, если бы не ее размер.

В биологии у вас есть гораздо более беспорядочный набор данных, над которыми вы работаете, и все это статистическое приближение некой основной истины. Эксперименты в области геномики никогда не бывают успешными или неудачными. Всегда бывает, что в какой-то процент ваших образцов генетические изменения действительно внесены - они никогда не будут 100-процентными, и никогда не будет, если что-то не пойдет катастрофически неправильно. На каждом этапе нужно выносить более тонкие суждения, поэтому гораздо важнее быть статистически точными в границах того, что вы знаете и к чему это можно применить.

Например, масштаб ДНК составляет от 3 до 6 миллионов оснований на микроб. Это пространство поиска от 4 до 3–6 миллионов изменений, которые вы можете порекомендовать, по сравнению с рекомендациями товаров из каталога. В очень большом каталоге для розничного продавца может быть 500 000 наименований. Итак, это сочетание разных типов данных, и вам нужно гораздо больше узнать о том, какую информацию вы можете извлечь из этих данных.

«У таких компаний, как Google или Facebook, есть триллионы индивидуальных записей, на основании которых они могут использовать алгоритм машинного обучения… так что это приводит к созданию для них высококачественных предикторов.

«Наши индивидуальные эксперименты или испытания намного дороже в проведении, чем пробная версия рекламной кампании, и поэтому у нас их не так много, как у Google поисковых запросов, по которым можно что-то обучить».

Поиск ИИ, который работает на вас

Какие типы технологий или методов машинного обучения использует Zymergen? Следите ли вы за проектами, такими как TensorFlow или другими библиотеками с открытым исходным кодом?

Я изучал эту технологию и считаю ее очень интересной. Я думаю, что статья в New York Times о команде TensorFlow на самом деле является одной из лучших публикаций об ИИ за последний год или даже больше. Это технология, которая со временем может стать очень полезной для Цимергена.

Я бы сказал, что наше собственное участие на алгоритмическом уровне менее изощренно, чем сейчас. Например, мы извлекли немало пользы из более традиционных систем, таких как scikit-learn.

Отчасти ли это связано с пространством, в котором вы находитесь? Например, тяготеете ли вы к вещам, разработанным для научного сообщества, по сравнению с продуктами, разработанными, например, интернет-компаниями или изначально ориентированными на варианты использования, такие как компьютерное зрение?

Я не обязательно так думаю. На самом деле, я думаю, что в будущем у этой технологии появятся интересные возможности. Например, один из способов, которым TensorFlow и глубокое обучение широко применяются, - это распознавание изображений, и у нас появляется больше проблем с анализом изображений в Zymergen, так что это область исследования, к которой мы должны приступить.

Другая часть этого, однако, заключается в том, как эти системы были спроектированы с упором на аспект масштаба, а не на аспект сложности. Такие компании, как Google или Facebook, имеют триллионы индивидуальных записей, на основе которых они могут использовать алгоритм машинного обучения, и центр обработки данных одновременно, чтобы делать это, так что это приводит к созданию для них высококачественных предикторов.

Наши индивидуальные эксперименты или пробные версии намного дороже, чем пробная версия рекламной кампании, поэтому у нас их не так много, как у Google поисковых запросов, по которым можно что-то обучить. Пройдет некоторое время, прежде чем появится большая выгода от накопления объема данных, необходимого для использования некоторых из этих алгоритмов.

«Одна вещь, которую я думаю, упускается во многих дискуссиях, - это то, как машинное обучение позволяет нам применять более высокопроизводительный подход к множеству проблем в биологии с точки зрения понимания клеточной активности. … Мы наблюдаем гораздо большее расширение воображения, используя эти системы поиска и классификации ».

Лечение рака и сокращение использования масел

Немного сместив тему в сторону биотехнологий в целом… если слышать, как говорят некоторые люди, похоже, что мы действительно сможем вылечить рак при нашей жизни. Какие типы проблем, по вашему мнению, можно реально решить с учетом нынешней технологии?

Что ж, я думаю, что если вы собираетесь запустить стартап по лечению рака, вам еще предстоит многое сделать с точки зрения нерешенных проблем. Не думаю, что мы там уже или в следующем году.

Однако ранее я упоминал, что такие инструменты, как глубокое обучение и TensorFlow, особенно хороши для решения проблем классификации изображений, и одной из областей исследования, к которой я слышал, что это применяется, является радиология. Радиологические системы глубокого обучения способны выявлять и классифицировать некоторые визуальные аномалии лучше, чем радиологи-люди, поэтому они могут заметить небольшую детальную аномалию на МРТ, которую человеческий глаз может пропустить, и поэтому они могут предоставить пациентам более ранние предупреждения, если что-то пойдет. неправильные и помогают снизить частоту ошибок, ложноотрицательных результатов, которые могут возникнуть при проведении медицинских тестов.

Другой пример - использование IBM Watson в медицинской промышленности, особенно в отношении рака. Я слышал историю о больном раком, которому порекомендовали программу лечения после того, как врач проконсультировался с Watson, и она была основана на единственной исследовательской статье, в которой предлагался такой подход. Ежегодно публикуются тысячи исследовательских работ, поэтому врачу, который также занимается медицинской практикой, практически невозможно уследить за всем этим исследованием. Но поскольку это было частью корпуса обучения Watson, система могла рекомендовать конкретную статью, потому что она понимала связь между случаем конкретного пациента и этой исследовательской работой.

Одна вещь, которую я думаю, упускается во многих дискуссиях, - это то, как машинное обучение позволяет нам применять более высокопроизводительный подход к множеству проблем в биологии с точки зрения понимания клеточной активности. Будь то открытие лекарств, люди, которые используют более продвинутые вычислительные модели для определения взаимодействий лекарств с мишенью, или способность выдвигать гипотезы о том, как интересующее химическое вещество или интересующий материал может выглядеть на молекулярном уровне, а затем возвращаться назад от там, какие микробы могут его создать. Мы наблюдаем гораздо большее расширение воображения при использовании этих систем поиска и классификации.

Глядя на пять лет, на что вы надеетесь, Zymergen сможет сделать как с технологической точки зрения, так и с точки зрения более широкого воздействия?

Я думаю, что мы движемся к миру, в котором у нас будет несколько источников химических веществ, которые будут намного более устойчивыми, чем те, которые есть у нас сегодня. Большая часть нашей химии сегодня получена из нефти, и это в значительной степени потому, что затраты и риски, связанные с разработкой промышленной программы ферментации до коммерческой жизнеспособности, очень высоки. Благодаря робототехнике и машинному обучению мы можем сократить этот срок и сделать вывод химического вещества на рынок более предсказуемым.

Я думаю, мы увидим множество более дешевых химикатов, которые заменят химические вещества на основе нефти, а также возможность производить химические вещества, которые [более устойчивы] из-за более богатого источника атомов, который вы получаете через органическое сырье.

Значит, вы ориентируетесь не только на эффективность, но и на устойчивость?

Абсолютно. Сегодня мы производим десятки тысяч химических веществ из нефти. Примерно пятая часть каждого барреля нефти идет на химическое производство, поэтому поиск новых источников материалов, из которых мы можем получить эти химические вещества, будет иметь решающее значение в следующие 50 лет - столь же важно, как переход от автомобильной промышленности на нефтяной основе к электрической. . Мы полагаемся на эту отрасль во многих других сферах, в которых нам нужно будет искать альтернативы в более широком смысле, и это потребует от нас использования преимуществ всех технологий, которые мы разработали на сегодняшний день, чтобы максимально эффективно нацелить этот поиск.