Вопросы
Приведите пример того, где модель классификации медведей может плохо работать в производственной среде из-за различий в структуре или стиле в обучающих данных. Нарисованные от руки медведи, черно-белые изображения.
В чем в настоящее время текстовые модели имеют серьезные недостатки? Текущие текстовые модели могут генерировать привлекательный текст и контекст, но не могут генерировать правильные ответы.
Каковы возможные негативные социальные последствия моделей генерации текста? Использование в социальных сетях для распространения дезинформации
В ситуациях, когда модель может допускать ошибки, и эти ошибки могут быть вредными, что может быть хорошей альтернативой автоматизации процесса? Модель и пользователь-человек тесно взаимодействуют.
Какие табличные данные лучше всего подходят для глубокого обучения? Временные ряды.
Какой ключевой недостаток прямого использования модели глубокого обучения для рекомендательных систем? Рекомендуйте только то, что кому-то нужно, а не что-то полезное (например, пользователь, вероятно, уже слышал об определенном авторе).
Каковы этапы подхода Drivetrain?
- Определенная цель: какой результат я пытаюсь достичь?
- Рычаги: какие входные данные мы можем контролировать
- Данные: какие данные мы можем собирать.
- Модели: как рычаги влияют на цель.
Как этапы Drivetrain Approach соотносятся с системой рекомендаций? Цель механизма рекомендаций – стимулировать дополнительные продажи, удивляя и радуя клиентов рекомендациями товаров, которые они бы не купили без рекомендации. . Рычаг — ранжирование рекомендаций. Необходимо собрать новые данные, чтобы сгенерировать рекомендации, которые приведут к новым продажам. Это потребует проведения множества рандомизированных экспериментов, чтобы собрать данные о широком спектре рекомендаций для широкого круга клиентов. Это шаг, который предпринимают немногие организации; но без него у вас не будет информации, необходимой для оптимизации рекомендаций на основе вашей истинной цели (больше продаж!).
Что такое DataLoaders? Загрузив некоторые данные, нам нужно собрать их в формат, подходящий для обучения, создав объект с именем DataLoaders. Это класс fastai, который хранит несколько объектов DataLoader, которые вы ему передаете, обычно это поезд и валид. Ключевая функциональность обеспечивается этими строками кода:
class DataLoaders(GetAtrr): def __init__(self, *loaders): self.loaders = loaders def __getitem__(self, i): return self.loaders[i] train, valid = add_props(lambda i, self: self[i])
Какие четыре вещи нам нужно сообщить fastai для создания DataLoaders?
- С какими данными мы работаем
- Как получить список предметов
- Как маркировать эти предметы
- Как создать набор проверки
Что делает параметр разделения для DataBlock? Разделяет наборы для обучения и проверки. RandomSplitter делает это случайным образом, и вы можете установить начальное значение, чтобы каждый раз использовалось одно и то же разделение.
Как мы можем гарантировать, что случайное разделение всегда дает один и тот же набор проверки?
seed=42
, переданный в качестве аргумента.
Какие буквы часто используются для обозначения независимых и зависимых переменных?Независимая переменная часто обозначается как x, а зависимая переменная — как y.
В чем разница между подходами к изменению размера кадрирования, подкладки и сжатия? Когда вы можете выбрать один из других? Pad заполняет изображения нулями (черными), resize обрезает изображения, чтобы они соответствовали квадратной форме требуемого размера, используя полную ширину или высоту, а Squish сжимает их. Все проблематично; сжатие и растяжение искажают изображение, придавая ему нереалистичные формы, что снижает точность. Кроме того, кадрирование удаляет некоторые функции, которые могли бы позволить нам выполнить распознавание. Заполнение изображений приводит к пустому пространству, что означает напрасные вычисления и более низкое эффективное разрешение.
Что такое дополнение данных? Зачем это нужно? Увеличение данных — это создание случайных вариаций наших входных данных, чтобы они выглядели по-разному, но на самом деле не меняли смысла данных. Примеры включают вращение, отражение, искажение перспективы и изменение контраста. Поскольку аугментации означают, что все изображения имеют одинаковый размер, мы можем сгруппировать их с помощью графического процессора.
В чем разница между item_tfms
и batch_tfms
? Чтобы указать fastai, что мы хотим использовать преобразования в пакете, мы используем параметр batch_tfms
. Item_tfms
выполнять преобразования отдельных элементов, изменяя размер изображений до одинакового размера.
Что такое матрица путаницы? Диагональ показывает изображения, которые были классифицированы правильно, а недиагональные ячейки представляют те, которые были классифицированы неправильно. Он рассчитывается с использованием проверочного набора.