WedX - журнал о программировании и компьютерных науках

Публикации по теме 'transformers'


Бумажные заметки № 1  — «Внимание — это все, что вам нужно»
Первая из серии бумажных заметок. Здесь я кратко суммирую важные статьи, которые я читаю по работе или просто для удовольствия :P Бумага : внимание — это все, что вам нужно Ссылка : https://bit.ly/3aklLFY Авторы : Ашиш Васвани, Ноам Шазир, Ники Пармар, Якоб Ушкорейт, Ллион Джонс, Эйдан Н. Гомес, Лукаш Кайзер, Илья Полосухин Код : https://github.com/tensorflow/tensor2tensor Найдите аннотированную версию статьи здесь . Что? Предлагает Transformers, новую простую..

Orca: насколько хороши маленькие модели?
Мы показали значительный прирост производительности (снижение затрат) Orca при работе с крупномасштабными генеративными моделями, такими как GPT 175B, в нашей предыдущей записи в блоге Orca: Как обслуживать крупномасштабные модели-трансформеры . С тех пор мы получаем множество запросов о производительности Orca при обслуживании небольших генеративных моделей (например, моделей с несколькими миллиардами параметров) на одном графическом процессоре. Да, Orca значительно превосходит..

Обучите модели сегментации изображений принимать отзывы пользователей с помощью мозаики Вороного, часть 2
Как обучить готовую модель сегментации изображений реагировать на отзывы пользователей Это вторая часть серии статей об обучении моделей сегментации изображений, чтобы модели реагировали на отзывы пользователей и корректировали свои прогнозы на основе отзывов (щелчков мыши). В части 1 мы описали общую стратегию обучения готовых моделей сегментации изображений для реагирования на отзывы пользователей. Проблема, выявленная в конце Части 1 , заключалась в том, что ручная генерация..

Понимание Transformer Attention простым языком
Объясните механизм внимания на конкретном примере Модель машинного обучения Transformer, представленная в статье Внимание — это все, что вам нужно [1], полностью изменила область машинного обучения. А механизм Внимания служит ядром модели Преобразования. Оригинальная статья дает нам такую ​​формулу без особых объяснений: В этой статье мы попытаемся объяснить механизм Attention простым языком. Давайте временно проигнорируем формулу или притворимся, что уже полностью поняли, что..

Схемы трансформаторов: декомпозиция малых языковых моделей
Можем ли мы понять, что происходит в больших языковых моделях, анализируя маленькие? Это первая из серии публикаций, в которых я попытаюсь обобщить некоторые из моих прочтений по контекстному обучению в больших языковых моделях — в основном с точки зрения механистической интерпретируемости. Подавляющая часть этого поста будет прямой адаптацией фантастической работы, проделанной в Anthropic , в частности, их статьи Математическая основа для схем трансформаторов . Я внес некоторые..

ArtiClarity —COOT: кооперативный иерархический преобразователь для обучения представлению видеотекста
Интересный подход, основанный на внимании, в обучении совместному представлению текста и видео. В этом посте я хочу обсудить следующую статью: Джинг, Саймон и др. «Coot: кооперативный иерархический преобразователь для обучения представлению видеотекста». препринт arXiv arXiv:2011.00597 (2020 г.). который я нашел в одной из особенно интересных статей на NeurIPS 2020. Итак, давайте начнем просматривать документ и выделять части, которые я считаю важными, чтобы дать полное изложение...

Настраивайте трансформаторы быстрее с помощью Lightning Flash и Torch ORT
Torch ORT использует ONNX Runtime для улучшения времени обучения и вывода для моделей PyTorch. С Lightning Flash , все, что вам нужно, это enable_ort=True использовать Torch ORT при обучении моделей на основе Transformer , что дает вам возможность использовать все функции Lightning, такие как обратные вызовы , Ведение журнала, смешанная точность и распределенное обучение с поддержкой расширенных распределенных подключаемых модулей. Ниже мы расскажем, как можно..

Новые материалы

Объяснение документов 02: BERT
BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?
Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)
Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]
Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter
Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js
Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!
Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..


Для любых предложений по сайту: [email protected]