Некоторые документы по машинному обучению довольно сложны в математике. Мне требуется гораздо больше времени, чтобы прочитать тяжелую математическую статью, чем другую, более распространенную разновидность статей по глубокому обучению. Кроме того, было бы неплохо узнать, какие математические знания есть у людей здесь. Какие книги вы нашли очень полезными для понимания статей по машинному обучению? Какие книги я могу прочитать, чтобы улучшить свою «выносливость» для чтения математических работ по машинному обучению?
- У слов «тяжелая математика» есть два возможных значения. Кого из них вы имеете в виду?
«Математический тяжелый документ» может означать: документ с длинными уравнениями, большим количеством алгебры и манипулированием сложными уравнениями.
Когда вы читаете газету, вы никогда не читаете ее только один раз. Сначала вы читаете заголовок, а затем решаете, следует ли вам читать аннотацию. Вы читаете аннотацию и решаете, будете ли вы просматривать результаты. Вы делаете это и решаете, будете ли вы просматривать весь текст. И т.д. и т.п. Жизнь коротка, а читать чертовы статьи слишком много.
Секрет чтения статей, насыщенных алгеброй, состоит в том, чтобы НЕ пытаться следовать алгебре при первом прочтении. Это ошибка большинства студентов. Вам не нужно понимать все шаги длинного вычисления с первого чтения. Вы просматриваете алгебру и предполагаете, что она верна, внимательно смотрите на ключевые шаги на этом пути. Прочтите то, что написано на английском между уравнениями. Прочитайте результаты. Прочитайте заключение. Когда вы поняли, о чем эта гребаная газета говорит в целом, тогда вы решаете, собираетесь ли вы тратить свое время на алгебру. Не зацикливайтесь на шагах, которые вы не понимаете. Предположим, что они верны, и продолжайте. Вернитесь к ним позже. Повторяйте, пока не получите все.
Когда вы созреваете как «прикладной математик», вы развиваете эту способность бегло просматривать алгебру и более или менее понимать, что этот парень пытается сделать, куда он хочет добраться и какие более или менее шаги необходимы для этого. Никто не может быстро прочитать длинные манипуляции со сложными уравнениями. Вот почему вы не делаете этого при первом чтении. Вы читаете грубо, обращая внимание на все более мелкие детали при каждом новом прочтении.
Также следует обратить внимание на тот факт, что в расчетах МНОГО раз бывают ошибки. И найти их в первом прочтении невозможно. В большинстве случаев эти ошибки не имеют отношения к сути статьи, но они могут запутать вас и помешать пониманию алгебры. Если вы уже в общих чертах понимаете, что делается, эти ошибки гораздо легче обнаружить.
Кроме того, когда вы смотрите на уравнения, убедитесь, что вы понимаете, что они на самом деле означают. Я уверен, что вы знаете математику этого уравнения, но знаете ли вы физику этого уравнения? (Извините, я физик, так что это единственная аналогия, которую я знаю). Вы знаете, как объяснить мне по-английски, что это уравнение говорит о том, что делает конкретная система? Можете ли вы сказать что-то вроде «когда вы максимизируете ELBO, приблизительная апостериорная вероятность будет настолько похожа на априорную, насколько позволяют данные в термине вероятности»? Это «физика» этого противного вида выражения ELBO. Когда вы дойдете до этого момента, рассуждения о длинных алгебраических манипуляциях станут проще. Как добраться до этой точки? Читайте много теоретических работ и занимайтесь алгеброй. Другого пути нет.
Еще один способ, которым статью можно назвать «тяжелой по математике», — это когда она использует очень формальный математический жаргон и опирается (иногда чрезмерно и излишне) на множество формальных математических понятий. Он использует меры Лебега, производные Радона-Никодима, сигма-алгебры и т. д.
Мне их труднее читать, потому что они сбивают с толку мой внутренний детектор чуши. Все официальные разговоры выглядят важными. Но техника та же: сначала пролистайте. Сейчас не время обращаться к Википедии, чтобы попытаться вспомнить, что такое борелевская иерархия. Оставьте это на потом, вы можете даже не читать эту статью в другой раз.
Кроме того, это помогает мысленно заменить формальное понятие на частный случай в простом сценарии. Часто люди используют формальную математику потому, что пытаются обезопасить себя и не допустить, чтобы странные краеугольные случаи испортили их рассуждения. Такие вещи, как умный кандидат наук по математике в комнате, спрашивающий: «О да, что, если эта функция непрерывна везде, но нигде не дифференцируема? Твоя вещь все еще работает?». Так что, что можно сделать, так это предположить, что такого умника нет, и мысленно заменить все производные Радона-Никодима отношениями, все меры простыми функциями со старыми добрыми интегралами Римана, и считать, что этот автор просто хвастается и что вам это не нужно. этот причудливый разговор, чтобы понять, о чем он говорит.
Иногда это терпит неудачу, и есть статья, которую вы действительно должны прочитать, которая пронизана формальной математикой, и математика действительно существует по какой-то причине. Надень шляпу Бурбаки и удачи. Если вы похожи на меня и формальная математика не является вашим самым сильным навыком, вам предстоит долгое и трудное чтение :).
1.1 Отличный ответ. Я недавно окончил инженер-физик со степенью магистра прикладной математики, поэтому многие термины здесь вернули меня в школу (особенно меры Лебега, производные Радона-Никодима, сигма-алгебры) и сделали меня благодарным, что мне больше не о чем беспокоиться о таких вещах слишком много больше. Я согласен с вашей точкой зрения, что, когда статьи переполнены этими типами терминов и зависимых от них производных, у меня больше всего болит голова, и это редко кажется самым простым способом объяснить концепцию (и, как вы все знаете, простое объяснение чего-либо является верным признаком того, что автор действительно понимает, что он делает).
Одна вещь, которую я хотел бы добавить, это то, что когда я на самом деле хочу реализовать что-то из бумаги, я обычно сажусь с ручкой и бумагой и просто повторяю расчет, который они сделали, в то время как бумага передо мной как чит. код. Гораздо проще попытаться понять, почему вещи такие, какие они есть (и легче найти глупые ошибки/опечатки в документе), если вы сделаете математику самостоятельно. Вдобавок ко всему, многие статьи пропускают «очевидные» шаги в своих вычислениях, из-за чего очень сложно понять уравнение, просто взглянув на него. Когда я переделываю математику в своей работе, я стараюсь включить все простые (но все же важные) шаги, которые были пропущены в статье. Даже если они тривиальны, гораздо легче понять, почему вещи такие, какие они есть, когда вы хотите вернуться позже и понять, что за бип вы на самом деле пытаетесь реализовать.
2. Ааа, обычно это самая сложная часть. Как только вы освоите свою нишу, у вас будет достаточно опыта, чтобы заменить жаргон более простыми аналогиями. Тем не менее, это один из самых больших барьеров, с которым люди могут справиться, когда пытаются прочитать что-то из другой области. На самом деле я думаю, что сообщество машинного обучения предприняло очень взвешенную попытку сделать свои статьи как можно более доступными. Я не вижу слишком много жаргона, и, как практик из совершенно другого уголка вселенной, я смог подобрать многие высокоуровневые идеи с первого взгляда, не копаясь в Google, пытаясь понять, что все это значит. . Отчасти, я думаю, это связано с тем, что многие статьи здесь начинаются с того, что мотивируют читателя доступным смыслом существования, который, по крайней мере, даст нам общее представление о том, во что мы ввязываемся, без необходимости инвестировать в выяснить, во что мы ввязываемся.
3. Если есть реализация github, могу ли я просто прочитать (аннотация, заключение, а затем перейти к коду)?
Пример:
1) Название, аннотация, затем заключение
2) Перейти к картинкам и описанию уравнения
3) Если вам все еще нравится статья, попробуйте поработать над уравнениями, леммами.
4) Если вы все еще там, попробуйте повторить эксперимент.
5) Немного изменить и сделать еще одну бумагу :)
Если есть реализация github, просто выполните шаги 1, 2 и перейдите к коду.
Примеры: https://arxiv.org/pdf/1706.02515.pdf https://arxiv.org/pdf/1706.02515.pdf