Часть I. Информационный век
Я помню, как меня познакомили с Mosaic, первым веб-браузером. Я учился в университете, изучал нейронные вычисления, и кто-то продемонстрировал мне браузер Mosaic. Моя первая реакция была: что теперь? Не было видимого контента, нечего было смотреть и не было возможности его найти. Затем пришел Yahoo, который организовал для вас мир, а затем AltaVista, мой первый портал с возможностью поиска по контенту. У Google был более простой интерфейс, это не портал, а просто поисковая система, он был быстрее, и все.
Что ж, было и больше двух разных подходов. Порталы собирают, упорядочивают и представляют данные, они меня ограничивают. В то время как поисковые системы открывают огромный потенциал для исследования всех данных мира, освобождая меня для открытия чего угодно. Возможно, тонкость заключается в том, что даже поисковые системы направляют ваш поиск и систематизируют данные для вас, мы не так свободны, как мы думаем. Забавно, что мое нынешнее поведение все еще смешанное, я хожу в Yahoo и Google, но теперь я также посещаю сферу Twitter и Facebook, смесь личных предпочтений, определяющих мои форматированные данные и открытый поиск.
Считая эти мысли открытием этого блога, отчасти потому, что пересматривать их - это весело, тогда жизнь была проще, больше физического выживания меньше виртуального. Однако кажется, что эти два способа взаимодействия типичны для сегодняшней борьбы с данными. Слишком много свободы, чистый свободный поиск подавляет, слишком мало - душно. Что мы должны передать другим, как мы можем прокладывать свой путь через все эти данные?
Я хотел бы поделиться инструментами, которые я разработал, чтобы помочь ориентироваться и выжить в информационную эпоху. Но помимо выживания, я хотел бы вместе с вами разрабатывать инструменты, которые позволят вам развиваться и развиваться. Итак, начнем ...
Давным-давно, когда, в конце 90-х, до появления больших данных, у нас было мало вычислений. Я работал с институтом Volcani (научно-исследовательский институт министерства сельского хозяйства) над проблемой качественной сортировки помидоров. Проект, мультисенсорный синтез для контроля качества томатов, потребовал от нас анализа томатов с помощью датчиков зрения, запаха и прикосновения. Я отвечал за датчик зрения, настройку освещения и новую цифровую камеру, обработка изображений была искусством, сильно отличавшимся от искусства глубокого обучения сегодня. Я сделал снимки нескольких сотен помидоров, хранящихся на компакт-дисках (как мне кажется), чтобы проанализировать их. Основной метод обработки изображения заключался в том, чтобы разбить изображение на небольшие окна размером 16x16 пикселей, создать подпись (вектор признаков) на основе текстуры и цвета, а затем сгруппировать эти подписи в группы. Идея состоит в том, что похожие друг на друга части помидора должны обладать схожими качествами (синяки / сладкий / здоровый).
Очень быстро я столкнулся с проблемой слишком большого количества данных. Стандартные методы кластеризации (как и сегодня) предполагали пакетную обработку данных. Это означает, что поместите все свои данные в одну комнату (на одном компьютере) и подумайте. Это была проблема, с которой я частично сталкивался ранее, когда изучал аэрофотосъемку в магистратуре, но теперь у меня было слишком много данных, и я не мог этого избежать. Итак, как обрабатывать большое количество данных, не сохраняя их, стало моей новой проблемой. Это привело к моей докторской диссертации - алгоритму потоковой кластеризации.
Здесь интересно остановиться и подумать, что означает слишком много данных. Что такое данные?
Данные - это записи сенсорных восприятий. Вам нравится это определение? Иногда мне кажется, что слово «наблюдения» лучше описывает чувственное восприятие, которое почему-то менее антропоморфно. Термин «сенсорное восприятие» и родственный ему термин «рецептивное поле» - это термины, которые я впервые услышал от профессора Шауля Хохштейна из Еврейского университета. Восприимчивое поле - это поле, которое стимулирует нейрон: место в пространстве, которое отражает фотоны в определенное место на сетчатке, возбуждает определенный нейрон в этом месте, звук с частотой, который проходит через улитку и возбуждает нейрон. Есть что-то изящное в определении абстрактного рецептивного поля, независимо от типа стимула. В любом случае это помогает разделить внешний источник стимула и результирующий стимулированный датчик.
Данные - это запись датчика, который наблюдает за внешним событием.
Что ж, сохранение данных - это одна проблема, но что делать с данными после того, как они сохранены, - это другая.
Пакетная обработка, попытка понять все данные одновременно, имеет свою логику. Интуитивно мы знаем, что вы не можете понять что-то вне контекста. Следовательно, лучше отложить суждение до тех пор, пока не будут собраны все факты - пакетная обработка. Соберите все данные и примите решение.
Но что делать, если невозможно собрать все факты или, что более вероятно, невозможно охватить все факты, невозможно обработать все данные?
Слишком много данных.
Предпосылка моего тезиса заключается в том, что обучение происходит именно тогда, когда у нас слишком много данных. Я думаю, что мы склонны к ошибочному пониманию того, что мы узнаем то, чему подвергаемся. О, вот что-то новенькое, дай мне понять. Но это в корне неверно. Обучение требует метрики расстояния, а метрики требуют относительных мер к предыдущим знаниям, подробнее об этом позже. А пока позвольте мне представить эту простую идею. Мы учимся, когда у нас слишком много данных, мы учимся, когда нам нужно что-то забыть, а не когда мы пытаемся это запомнить.
Слишком много данных заставляет нас переходить от запоминания к обучению. А обучение - прекрасная вещь.
Часть II. Одно из этих элементов не похоже на другое, но два из этих элементов далеки от третьего
Я вырос с Бриск Тора, точнее говоря, мой отец был талмидом раввина Джозефа Соловейчика, и диалектическое мышление было неотъемлемой частью наших дискуссий. Две вещи, два динам, ритм в потоке между двумя вещами. Диалектика, а не дихотомия. Идея, поддержанная Рамбамом в его описании любви и трепета, взаимоисключающих, мы путешествуем между ними.
Зачем создавать двойственность? Диалектика или дихотомия - мощный инструмент, но что это за инструмент? В чем проблема?
Я думаю, что раввинистическим языком может быть נתת דברך לשיעורים, «ваши слова даны степеням», идея состоит в том, что без четких определений у нас остается расплывчатый язык, что-то больше, чем что-то еще, хорошо, но насколько больше?
Я думаю, что это аргумент в пользу первого из двадцати одного вопроса, которому меня задала мать моего отца: «Он больше, чем хлебная корзина?». Ссылаясь на объект с фиксированными размерами, мы теперь можем преобразовать размер неизвестного объекта в один из две категории, больше или меньше хлебницы, двойственность. В науке о данных мы бы назвали это; создание категориального признака.
Специалисты по анализу данных любят делить мир на два типа данных: числовые и категориальные. Числовые данные имеют то преимущество, что обычно довольно легко создать метрику расстояния. Если я наблюдаю температуру дважды, я могу спросить, в чем разница между наблюдениями. Простое число дает инструмент для различения двух наблюдений.
Эта простота вводит в заблуждение. Числовые показатели являются абсолютными, потому что они основаны на предварительных предположениях. Почему мы должны измерять расстояние между двумя наблюдениями температуры с разницей между ними? Возможно, это косинусная мера подобия, возможно, евклидово расстояние, возможно, расстояние квартала Манхэттена….
С категориальными данными работать гораздо сложнее, каково расстояние между двумя категориями? Синий очень далек от желтого? Коровы сильно отличаются от овец? Тем не менее, в этой трудности есть изящное решение. Нам нужно третье! Итак, если я спрошу, коровы больше похожи на овец, чем на яблоко? Это вопрос, на который можно ответить.
Чтобы говорить о показателях в числовом мире, необходимы два наблюдения, однако для показателей в категориальном мире требуются три.
Двое лучше, чем один, потому что, если один упадет, другой сможет его поднять. Но трое - это уже другая история, трое - это вечная коса. Не уверен, думал ли Соломон о показателях или философии Хайдеггера, но идея похожа.
Так что делать. Обратите внимание на сообщения, в которых говорится о том, что что-то лучше, чем что-то еще. Вот пример пареве: проблема с тележкой имеет один из двух вариантов: действие или бездействие, щелкнуть выключателем и убить одного человека или оставить переключатель как есть и убить пятерых. Какой вариант лучше?
У этого вопроса нет четко определенной метрики. Лучше по какой метрике? Что нам следует измерять: полезность или действие?
Выбор метрики определяет масштаб.
Менее неприятный пример: вакцинация, должно ли правительство вводить вакцинацию населению? Что лучше активно вакцинировать сотни миллионов детей с известными побочными эффектами для отдельных лиц или не вакцинировать и пассивно подвергать риску тысячи детей?
Опять же, какова метрика «лучше», наше предварительное принятие метрики определяет вопрос. Но почему мы должны выбирать одну метрику вместо другой. Это не научный вопрос, а скорее политический / религиозный.
Так что прислушайтесь к словам, которые предполагают метрику, лучше, чем, не хорошо, меньше, больше… в разговоре без четко определенной метрики.
Часть III. При вводе третьего элемента создается абстракция.
Тот момент, когда непрерывная функция принимает дискретную форму. Момент, когда мы используем метрику, чтобы вместо того, чтобы сказать, что что-то лучше или хуже, мы говорим, что это относится к другой категории. Это момент, когда мы создаем идею категории. Категория предоставляет основу для описания только что созданной абстракции, говоря, что эти две вещи больше похожи друг на друга, чем на третью вещь.
Это также момент, когда мы что-то теряем, мы переходим от бесконечного потенциала к конкретной реализации. Мы выносим суждение.
Https://ashlag-cause-and-kook-affect.blogspot.com/2018/12/being-judgmental-is-needed-for.html
Абстракции - это одновременно ключевой элемент в обучении и реализации суждения, фазовый переход. Я хочу определить обучение, в отличие от запоминания и предсказания, как метод создания модели. Модель - это компактное представление данных, всех тех наблюдений, которых, будем надеяться, слишком много, чтобы их можно было запомнить. Наша относительно небольшая память и потребность в эффективном общении вынуждают нас создавать абстракции.
Некоторое время назад, когда мы продали Mobilee компании NMS Communications, я оказался без работы и не знал, что делать. Я сидел с Цви Волицки в его доме, когда вошел Дэниел Свиркси, мы коротко поговорили, и следующее, что я понял, я работал на Дэниела в качестве патентного представителя.
Ремесленные патенты - это поиск нового идеального слова. Вам нужно найти новое слово, потому что вам нужно доказать, что идея является новым творением. А в патенте лучший способ доказать идею - это слово.
Творчество и наименование идут рука об руку, подробнее об этом позже, когда мы перейдем к семиотике. Но пока давайте наслаждаться творческим речевым актом и знать, когда люди бросают нам больше данных, не создавая абстракции для более эффективного общения.
Итак, вот несколько примеров плохих коммуникативных навыков без эффективного использования языка. Ищите слишком длинное описание. Хорошее общение строится само на себе. Хорошее научное предложение вводит новый термин, дает ему определение, а затем использует этот термин для коммуникации.
Ищите людей, добавляющих все больше и больше данных низкого уровня без предоставления абстракций. Например: пожалуйста, передайте предмет в контейнере слева, сделанный из серебра, а не передайте, пожалуйста, солонку. Обратите внимание, что первая фраза не только длинная (большая минимальная длина описания MDL), но и включает несколько измерений - положение (слева), материал (серебро). Во второй фразе используется красивое причудливое слово, которое обеспечивает семантику более высокого уровня.
Часть IV. Информация и значение
Я был рядом с моим братом в Нью-Йорке, когда ехал в аэропорт, и я заметил книгу Умберто Эко об информации и открытых системах. Я позаимствовал книгу (а она до сих пор у меня - прости, Джейкоб) просто по прихоти, что мне хотелось бы получить больше удовольствия от Эко в моей жизни. Я обнаружил гораздо больше, эта книга - это более ранние работы Эко, семиотика, смешанная с искусством и наукой, и оказала на меня глубокое влияние. Эко утверждает, что описание информации Шенноном, мера коммуникативности сообщения, обеспечивает меру искусства.
Если это помогает подумать об «Об интерпретации» Сьюзен Зонтаг, испытать искусство, не интерпретируя его. Нет ни одного сообщения, даже того, которое создает зритель. Нет смысла иметь, просто опыт. Обратной стороной этого аргумента является то, что когда есть интерпретация, есть смысл. Эта точка зрения, предложенная Semiotics, гласит, что когда две закрытые системы встречаются и сопоставляются друг с другом, мы создаем смысл (я и произведение искусства). Встреча и отображение - это процесс интерпретации, то, как я отображаю произведение искусства, отличается от другого человека, я уникально интерпретирую чувственные восприятия. Следовательно, опыт имеет смысл именно потому, что существует интерпретация, интерпретация не является помехой для опыта, она обеспечивает отображение между двумя закрытыми системами.
[вау, похоже, абзац слишком плотный… извините]
Эко утверждает, что художник оставляет свое искусство открытым для различных интерпретаций. Это облегчает нашу способность сопоставлять себя с произведением искусства, у нас есть много вариантов интерпретации открытого произведения. Прелесть аргументов Эко в том, что он включил в обсуждение информацию Шеннона. Эко утверждает, что Шеннон учит нас измерять информацию, и чем больше информации содержится в сообщении, тем яснее его интерпретация. Эта прямая связь между информацией и ясностью сообщения позволяет нам количественно оценить и измерить количество интерпретаций в работе.
Проще говоря (я надеюсь): количество способов, которыми разные люди могут потенциально что-то понять, зависит от количества информации в этом чем-то. И вот что самое интересное: мы можем объективно измерить, сколько информации содержится в этом чем-то, поэтому мы можем объективно измерить, сколько возможных интерпретаций. Постмодернизм, позволяющий каждому иметь собственное толкование реальности, объективно ограничен объемом информации в интерпретируемой реальности.
Информация - это то, что мы можем увеличить с помощью работы (я использую информацию с заглавной буквы «Я», технический термин, который не является синонимом данных). Поэтому, если мы вкладываем энергию, мы работаем над чем-то изучением, мы увеличиваем Информацию и уменьшаем количество потенциальных интерпретаций.
Я участвовал в семинаре в университете Бар-Илан под эгидой раввина Шаббтая Раппапорта, когда я обнаружил все это. В ходе продолжающегося обсуждения с другими участниками, в частности с Дэниелом Рейфманом, кандидатом наук, изучающим семиотику, я понял кое-что интересное. Теперь мы можем измерить расстояние между землей и небом, между фактом и ценностью (как сказал бы Сэм Харрис), между истиной / ложью и хорошим / плохим утверждением.
Согласно определению Маймонидиса, приведенному в первых главах «Руководства», факты становятся ценностями, когда общественность принимает факты как моральное благо. Если в системе много информации, общественности становится очевидно, каково общее толкование этого набора фактов. Однако, если фактов очень мало или они не пересекаются, в системе очень мало информации и возможны многие интерпретации. Мораль в ситуации с небольшим количеством информации подлежит толкованию.
Другими словами, мы все выносим суждения, в какой-то момент нам нужно принять решение, поэтому мы собираем факты, а затем принимаем решение. Каково расстояние между фактами, которые мы собираем, и решением? Как мы можем объективно оценить, приняли ли мы разумное решение?
Мы можем измерить Информацию в замкнутой системе фактов, а затем мы можем заявить, что разумное суждение - это такое, когда Информация является большой, настолько большой, что существует очень мало других возможных интерпретаций / решений.
Это творит чудеса, но только если у нас будет закрытая система. Как только мы открываем дверь в другие системы, становится очень трудно измерить информацию во множестве систем. Этот прием часто называют «как насчет измов».
Разговор может быть таким: давайте посмотрим на факты, давайте соединим точки, посмотрим, как увеличивается информация, начинает вырисовываться четкая картина, мы собираемся найти единую возможную интерпретацию. В этот момент кто-то может ввести: «А как насчет…», открывая разговор с совершенно новым набором фактов. Эти новые факты размывают информацию в системе. Вместо разговора, который увеличивает информацию, мы теперь начинаем размывать информацию, становятся возможными целые наборы новых интерпретаций.
Итак, вот пример, допустим, мы говорим о диете или, точнее, о весе как функции от количества потребляемых калорий. Я ем больше, набираю вес. Я взвешиваюсь почти каждый день в течение многих лет и могу сказать вам с достаточной точностью, сколько я буду весить, исходя из моих привычек в еде за последние три дня. У меня много фактов и данных, если я скажу вам, что я ел, мы оба придем к одному и тому же выводу, интерпретация этих фактов очень ограничена. А потом вы говорите, но, секундочку, как насчет упражнений. Арггг… вы только что открыли разговор. Теперь мне нужно собрать все данные о моих упражнениях, что я мог сделать, я это тоже отслеживаю. Но подождите, этого недостаточно, поскольку существует взаимосвязь между упражнениями и диетой, сложная взаимосвязь, поэтому нам нужны все возможные комбинации того, что я ел и какие упражнения выполнял, углеводы с аэробикой, белок с сопротивлением, до и после, утром, вечером и т. д. Информация резко падает с внедрением новой системы.
Вот мой совет: следите за разговорами, которые объединяют факты из нескольких систем и разбавляют информацию!
ПРИЛОЖЕНИЕ
Https://ashlag-cause-and-kook-affect.blogspot.com/2018/10/the-natural-scale-of-thing.html
Https://ashlag-cause-and-kook-affect.blogspot.com/2018/03/scale-dependent-truths-in-big-data.html
Https://ashlag-cause-and-kook-affect.blogspot.com/2017/07/autonomous-cars-trolleys-and-scale-of.html
Https://ashlag-cause-and-kook-affect.blogspot.com/2018/12/being-judgmental-is-needed-for.html