Публикации по теме 'transformers'
Бумажные заметки № 1 — «Внимание — это все, что вам нужно»
Первая из серии бумажных заметок. Здесь я кратко суммирую важные статьи, которые я читаю по работе или просто для удовольствия :P
Бумага : внимание — это все, что вам нужно Ссылка : https://bit.ly/3aklLFY Авторы : Ашиш Васвани, Ноам Шазир, Ники Пармар, Якоб Ушкорейт, Ллион Джонс, Эйдан Н. Гомес, Лукаш Кайзер, Илья Полосухин Код : https://github.com/tensorflow/tensor2tensor
Найдите аннотированную версию статьи здесь .
Что?
Предлагает Transformers, новую простую..
Orca: насколько хороши маленькие модели?
Мы показали значительный прирост производительности (снижение затрат) Orca при работе с крупномасштабными генеративными моделями, такими как GPT 175B, в нашей предыдущей записи в блоге Orca: Как обслуживать крупномасштабные модели-трансформеры . С тех пор мы получаем множество запросов о производительности Orca при обслуживании небольших генеративных моделей (например, моделей с несколькими миллиардами параметров) на одном графическом процессоре.
Да, Orca значительно превосходит..
Обучите модели сегментации изображений принимать отзывы пользователей с помощью мозаики Вороного, часть 2
Как обучить готовую модель сегментации изображений реагировать на отзывы пользователей
Это вторая часть серии статей об обучении моделей сегментации изображений, чтобы модели реагировали на отзывы пользователей и корректировали свои прогнозы на основе отзывов (щелчков мыши).
В части 1 мы описали общую стратегию обучения готовых моделей сегментации изображений для реагирования на отзывы пользователей. Проблема, выявленная в конце Части 1 , заключалась в том, что ручная генерация..
Понимание Transformer Attention простым языком
Объясните механизм внимания на конкретном примере
Модель машинного обучения Transformer, представленная в статье Внимание — это все, что вам нужно [1], полностью изменила область машинного обучения. А механизм Внимания служит ядром модели Преобразования. Оригинальная статья дает нам такую формулу без особых объяснений:
В этой статье мы попытаемся объяснить механизм Attention простым языком. Давайте временно проигнорируем формулу или притворимся, что уже полностью поняли, что..
Схемы трансформаторов: декомпозиция малых языковых моделей
Можем ли мы понять, что происходит в больших языковых моделях, анализируя маленькие?
Это первая из серии публикаций, в которых я попытаюсь обобщить некоторые из моих прочтений по контекстному обучению в больших языковых моделях — в основном с точки зрения механистической интерпретируемости. Подавляющая часть этого поста будет прямой адаптацией фантастической работы, проделанной в Anthropic , в частности, их статьи Математическая основа для схем трансформаторов . Я внес некоторые..
ArtiClarity —COOT: кооперативный иерархический преобразователь для обучения представлению видеотекста
Интересный подход, основанный на внимании, в обучении совместному представлению текста и видео.
В этом посте я хочу обсудить следующую статью:
Джинг, Саймон и др. «Coot: кооперативный иерархический преобразователь для обучения представлению видеотекста». препринт arXiv arXiv:2011.00597 (2020 г.).
который я нашел в одной из особенно интересных статей на NeurIPS 2020. Итак, давайте начнем просматривать документ и выделять части, которые я считаю важными, чтобы дать полное изложение...
Настраивайте трансформаторы быстрее с помощью Lightning Flash и Torch ORT
Torch ORT использует ONNX Runtime для улучшения времени обучения и вывода для моделей PyTorch.
С Lightning Flash , все, что вам нужно, это enable_ort=True использовать Torch ORT при обучении моделей на основе Transformer , что дает вам возможность использовать все функции Lightning, такие как обратные вызовы , Ведение журнала, смешанная точность и распределенное обучение с поддержкой расширенных распределенных подключаемых модулей.
Ниже мы расскажем, как можно..
Новые материалы
Объяснение документов 02: BERT
BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка.
Во время предварительного обучения модель обучается на неразмеченных данных с помощью..
Как проанализировать работу вашего классификатора?
Не всегда просто знать, какие показатели использовать
С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..
Работа с цепями Маркова, часть 4 (Машинное обучение)
Нелинейные цепи Маркова с агрегатором и их приложения (arXiv)
Автор : Бар Лайт
Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..
Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]
Как вы сегодня, ребята?
В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..
Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter
Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение.
В этом процессе мы будем использовать неконтролируемое обучение, чтобы..
Учебные заметки: создание моего первого пакета Node.js
Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm.
Оглавление
Глоссарий
I. Новый пакет
1.1 советы по инициализации..
Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!
Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных.
Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..