Вопросы

Приведите пример того, где модель классификации медведей может плохо работать в производственной среде из-за различий в структуре или стиле в обучающих данных. Нарисованные от руки медведи, черно-белые изображения.

В чем в настоящее время текстовые модели имеют серьезные недостатки? Текущие текстовые модели могут генерировать привлекательный текст и контекст, но не могут генерировать правильные ответы.

Каковы возможные негативные социальные последствия моделей генерации текста? Использование в социальных сетях для распространения дезинформации

В ситуациях, когда модель может допускать ошибки, и эти ошибки могут быть вредными, что может быть хорошей альтернативой автоматизации процесса? Модель и пользователь-человек тесно взаимодействуют.

Какие табличные данные лучше всего подходят для глубокого обучения? Временные ряды.

Какой ключевой недостаток прямого использования модели глубокого обучения для рекомендательных систем? Рекомендуйте только то, что кому-то нужно, а не что-то полезное (например, пользователь, вероятно, уже слышал об определенном авторе).

Каковы этапы подхода Drivetrain?

  1. Определенная цель: какой результат я пытаюсь достичь?
  2. Рычаги: какие входные данные мы можем контролировать
  3. Данные: какие данные мы можем собирать.
  4. Модели: как рычаги влияют на цель.

Как этапы Drivetrain Approach соотносятся с системой рекомендаций? Цель механизма рекомендаций – стимулировать дополнительные продажи, удивляя и радуя клиентов рекомендациями товаров, которые они бы не купили без рекомендации. . Рычаг — ранжирование рекомендаций. Необходимо собрать новые данные, чтобы сгенерировать рекомендации, которые приведут к новым продажам. Это потребует проведения множества рандомизированных экспериментов, чтобы собрать данные о широком спектре рекомендаций для широкого круга клиентов. Это шаг, который предпринимают немногие организации; но без него у вас не будет информации, необходимой для оптимизации рекомендаций на основе вашей истинной цели (больше продаж!).

Что такое DataLoaders? Загрузив некоторые данные, нам нужно собрать их в формат, подходящий для обучения, создав объект с именем DataLoaders. Это класс fastai, который хранит несколько объектов DataLoader, которые вы ему передаете, обычно это поезд и валид. Ключевая функциональность обеспечивается этими строками кода:

class DataLoaders(GetAtrr):
    def __init__(self, *loaders): self.loaders = loaders
    def __getitem__(self, i): return self.loaders[i]
    train, valid = add_props(lambda i, self: self[i])

Какие четыре вещи нам нужно сообщить fastai для создания DataLoaders?

  1. С какими данными мы работаем
  2. Как получить список предметов
  3. Как маркировать эти предметы
  4. Как создать набор проверки

Что делает параметр разделения для DataBlock? Разделяет наборы для обучения и проверки. RandomSplitter делает это случайным образом, и вы можете установить начальное значение, чтобы каждый раз использовалось одно и то же разделение.

Как мы можем гарантировать, что случайное разделение всегда дает один и тот же набор проверки?

seed=42, переданный в качестве аргумента.

Какие буквы часто используются для обозначения независимых и зависимых переменных?Независимая переменная часто обозначается как x, а зависимая переменная — как y.

В чем разница между подходами к изменению размера кадрирования, подкладки и сжатия? Когда вы можете выбрать один из других? Pad заполняет изображения нулями (черными), resize обрезает изображения, чтобы они соответствовали квадратной форме требуемого размера, используя полную ширину или высоту, а Squish сжимает их. Все проблематично; сжатие и растяжение искажают изображение, придавая ему нереалистичные формы, что снижает точность. Кроме того, кадрирование удаляет некоторые функции, которые могли бы позволить нам выполнить распознавание. Заполнение изображений приводит к пустому пространству, что означает напрасные вычисления и более низкое эффективное разрешение.

Что такое дополнение данных? Зачем это нужно? Увеличение данных — это создание случайных вариаций наших входных данных, чтобы они выглядели по-разному, но на самом деле не меняли смысла данных. Примеры включают вращение, отражение, искажение перспективы и изменение контраста. Поскольку аугментации означают, что все изображения имеют одинаковый размер, мы можем сгруппировать их с помощью графического процессора.

В чем разница между item_tfms и batch_tfms? Чтобы указать fastai, что мы хотим использовать преобразования в пакете, мы используем параметр batch_tfms. Item_tfms выполнять преобразования отдельных элементов, изменяя размер изображений до одинакового размера.

Что такое матрица путаницы? Диагональ показывает изображения, которые были классифицированы правильно, а недиагональные ячейки представляют те, которые были классифицированы неправильно. Он рассчитывается с использованием проверочного набора.