Обзор вероятно приблизительно правильной структуры обучения

1. Введение

В динамичной области машинного обучения (МО) понимание возможностей и ограничений наших моделей жизненно важно для достижения успеха. Вероятно приблизительно правильное (PAC) обучение обеспечивает мощную основу, которая позволяет нам принимать обоснованные решения во время обучения и оценки модели. Изучая основы обучения PAC, мы получаем ценную информацию об определении размера выборки, обучаемости модели и сложной взаимосвязи между требованиями к точности и уровнями достоверности. Кроме того, мы вводим неравенство Хёффдинга как ценный инструмент для оценки производительности модели и обеспечения обобщения.

Это руководство предоставляет как опытным практикам, так и новичкам знания и практические методы, необходимые для преодоления сложностей обучения PAC. К концу вы обретете уверенность в том, что сможете оптимизировать свои модели, эффективно оценивать размеры выборки и оценивать их производительность. Присоединяйтесь к нам в этом преобразующем путешествии, когда мы раскрываем возможности обучения PAC и революционизируем наш подход к оценке моделей 🦾🦾. Давайте вместе углубимся в основы и раскроем весь потенциал наших усилий по машинному обучению 🚀🚀.

2. Основы обучения PAC

В этом разделе мы углубимся в основные принципы обучения PAC. Мы рассмотрим, что влечет за собой обучение PAC, определим ключевые понятия, такие как размер выборки, ε, δ и обучаемость модели, а также исследуем взаимосвязь между этими факторами.

2.1 Что такое обучение PAC?

Обучение PAC — это теоретическая основа, направленная на решение фундаментальной проблемы машинного обучения: создание моделей, которые могут хорошо обобщать невидимые данные. Цель обучения PAC — найти гипотезу или модель, которая максимально точно приближает целевую концепцию. «Приблизительно правильный» аспект обучения PAC признает, что идеальная точность часто недостижима, но мы стремимся достичь высокого уровня точности в допустимых пределах.

2.2 Ключевые понятия:

2.2.1 Размер выборки (n):

Размер выборки (n) означает количество помеченных примеров или точек данных, которые мы используем для обучения нашей модели. В обучении PAC параметр n играет решающую роль в определении способности модели обучаться и обобщать. Большее значение n, как правило, предоставляет модели больше информации для изучения и увеличивает шансы на выявление основных закономерностей в данных.

2.2.2 Эпсилон (ε) и дельта (δ):

ε и δ являются двумя ключевыми параметрами в обучении PAC, которые определяют допустимый уровень ошибки и уровень достоверности соответственно. ε представляет собой максимально допустимую ошибку между прогнозируемым выходом нашей модели и истинным выходом (т. Е. Точность = 1 — ε). δ определяет уровень достоверности (т. е. 1 — δ), указывающий вероятность того, что производительность нашей модели будет находиться в пределах определенной границы ε (т. е. 0 ‹ δ ≤ 1).

2.2.3 Обучаемость модели:

Обучаемость модели относится к способности модели ML точно изучать целевую концепцию из доступных данных. Модель считается обучаемой, если она может достичь уровня точности в пределах указанной границы ε с высоким уровнем достоверности, определяемым δ. n, ε и δ в совокупности влияют на обучаемость модели.

2.3 Связь междуn,ε,δи обучаемостью:

Связь между n, ε, δ и обучаемостью имеет решающее значение в обучении PAC. Чем больше n, тем лучше способность модели изучать лежащие в ее основе шаблоны и повышается вероятность достижения лучшего обобщения. Меньшие значения ε и δ указывают на более строгие требования к точности и достоверности соответственно, что приводит к более высоким требованиям к обучаемости модели.

2.4 Неравенство Хёффдинга

Неравенство Хёффдинга — мощный инструмент в обучении PAC, который устанавливает границы ошибки обобщения. Он количественно определяет вероятность того, что разница между истинной ошибкой и эмпирической ошибкой (ошибкой на обучающих данных) превысит определенный порог. Используя неравенство Хёффдинга, мы можем оценить эффективность обобщения нашей модели на основе наблюдаемых данных обучения, что помогает нам принимать обоснованные решения об обучаемости модели и способности к обобщению.

2.4.1. Математическое выражение

Математическое выражение, связывающее n, ε, δ, истинную ошибку (E(h)) и эмпирическую ошибку (E(hᵈ)). можно вывести из неравенства Хёффдинга.

Неравенство Хёффдинга утверждает:

Уравнение (1):

В этом неравенстве:

  • E(h) представляет собой истинную ошибку, которая является ошибкой или коэффициентом неправильной классификации гипотезы h для невидимых данных.
  • E(hᵈ) представляет собой эмпирическую ошибку, которая является ошибкой или коэффициентом неправильной классификации гипотезы h на обучающих данных.

Неравенство утверждает, что вероятность абсолютной разницы между истинной ошибкой и эмпирической ошибкой, превышающей ε, ограничена величиной 2× exp(-2× ε² × n). Это неравенство обеспечивает вероятностную гарантию эффективности обобщения гипотезы, основанной на наблюдаемой эмпирической ошибке.

Если δ = 2× exp(-2× ε²× n), мы можем иметь для δ › 0.Переставляя члены, мы можем выразить связь между n, ε и δ следующим образом:

Уравнение (2):

Это уравнение представляет максимально допустимую разницу между истинной ошибкой и эмпирической ошибкой (т. е. ε) на основе заданного n и желаемого δ. Оно указывает требуемый уровень точности, чтобы гипотеза была верной.

Используя уравнение 2, мы можем получить эквивалентное выражение для неравенства Хёффдинга:

Уравнение (3):

Понимание концепций n, ε, δ и их взаимосвязей, а также роли неравенства Хёффдинга имеет основополагающее значение для обучения PAC. В следующих разделах мы углубимся в практическое применение обучения PAC, оценку минимального размера выборки для обучаемости.

3. Понимание обучаемости и обобщения с использованием неравенства Хёффдинга

Давайте рассмотрим сценарий, в котором у нас есть обучающая выборка и тестовая выборка. Мы хотим определить, легко ли решить проблему, а это означает, что наша модель может хорошо обобщать обучающие данные на невидимые экземпляры. Рассчитав эмпирическую ошибку на обучающих данных и применив неравенство Хёффдинга, мы можем оценить диапазон, в который может попасть истинная ошибка.

Мы можем использовать Python и популярные библиотеки, такие как scikit-learn, чтобы применить неравенство Хеффдинга и оценить обучаемость нашей проблемы. Сначала мы получаем данные для нашей конкретной задачи. Затем мы разделяем данные на обучающие и тестовые наборы, используя такую ​​функцию, как train_test_split из scikit-learn. Затем мы обучаем модель машинного обучения, например логистическую регрессию, на обучающих данных и вычисляем эмпирическую ошибку.

# Importing the necessary libraries
from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
import numpy as np

# Generating synthetic data for demonstration
X, y = make_classification(n_samples=1000, n_features=10, random_state=42)

# Splitting the data into training and test sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Training a logistic regression model
model = LogisticRegression()
model.fit(X_train, y_train)

# Calculating the empirical error
empirical_error = 1 - model.score(X_train, y_train)
test_error = 1 - model.score(X_test, y_test)

# Applying Hoeffding's inequality
n = len(X_train)
epsilon = 0.1  # Desired error bound
delta = 0.05  # Desired confidence level

epsilon_bound = (1 / (2 * n)) * np.log(2 / delta)

if abs(empirical_error - test_error) <= epsilon_bound:
    print("The problem is likely learnable with the given training sample.")
else:
    print("The problem may not be easily learnable with the given training sample.")

В приведенном выше примере результат указывает на то, что «проблема не может быть легко изучена с данной обучающей выборкой». Это говорит о том, что эмпирическая ошибка модели больше, чем граница оценок неравенства Хёффдинга. Это означает, что достижение желаемых значений ε и δ может оказаться сложной задачей при заданном размере выборки.

4. Оценка минимального размера выборки для обучаемости

Используя неравенство Хёффдинга, мы можем установить верхнюю границу разницы между эмпирической ошибкой (наблюдаемой ошибкой обучающих данных) и истинной ошибкой (ошибкой невидимых данных). Установив ε, мы можем количественно определить желаемый уровень точности, которого мы хотим достичь в нашей модели. Кроме того, мы определяем δ, который представляет приемлемую вероятность того, что наблюдаемая ошибка превысит истинную ошибку.

Имея эти параметры, мы можем оценить минимальный размер выборки, необходимый для обучаемости. Идея состоит в том, чтобы найти наименьшее n такое, чтобы граница ε, полученная из неравенства Хеффдинга, была меньше или равна заранее определенному ε. Эта оценка гарантирует, что при достаточно большом размере выборки модель имеет высокую вероятность достижения желаемой точности.

Давайте погрузимся в реализацию Python, которая вычисляет минимальный размер выборки:

import numpy as np

def estimate_min_sample_size(epsilon, delta):
    # Define the desired error bound (epsilon) and confidence level (delta)
    epsilon_bound = np.sqrt((1 / (2 * n)) * np.log(2 / delta))
    
    # Estimate the minimum sample size
    min_sample_size = np.ceil((np.log(2 / delta)) / (2 * (epsilon ** 2)))
    
    return min_sample_size

# Set the desired values for epsilon and delta
epsilon = 0.1
delta = 0.05

# Estimate the minimum sample size
min_sample_size = estimate_min_sample_size(epsilon, delta)

print(f"The minimum sample size required for learnability: {min_sample_size}")

Подставляя нужные значения для ε и δ, эта реализация обеспечивает оценку минимального n, необходимого для достижения желаемого уровня точности: 185 выборок для ε = 0,1 и δ = 0,05. На выходе вы получите конкретное число, указывающее приблизительное n, необходимое вашей модели для эффективного изучения базовой концепции.

Помните, что эта оценка основана на неравенстве Хёффдинга и предполагает определенные свойства распределения данных (и оценка не зависит от модели). Он служит полезным ориентиром для определения n, необходимого для обучаемости, но всегда рекомендуется проверять результаты с помощью эмпирических экспериментов и знаний в предметной области.

Оценив минимальное значение n, вы сможете лучше спланировать свои усилия по сбору данных и убедиться, что у вас достаточно данных для эффективного обучения ваших моделей, что приведет к улучшению результатов обучения и более надежным прогнозам.

5. Понимание ограничений обучения PAC

В сфере машинного обучения важно понимать ограничения любой структуры или методологии, которые мы используем. Хотя обучение PAC предлагает ценные идеи и практические методы, оно также имеет свой собственный набор ограничений. В этом разделе мы исследуем ограничения обучения PAC, чтобы обеспечить всестороннее понимание его границ и потенциальных проблем. Давайте углубимся в ключевые моменты:

  1. Переоснащение и недообучение: обучение PAC предполагает, что целевое понятие может быть точно представлено выбранным классом гипотез. Однако, если класс гипотез слишком сложен, существует риск переобучения, когда модель хорошо работает на обучающих данных, но не может обобщить невидимые примеры. С другой стороны, если класс гипотез слишком прост, модель может не соответствовать требованиям и с трудом улавливать основные закономерности данных.
  2. Ограничения размера выборки: обучение PAC признает, что для получения точных и надежных моделей необходимо достаточное количество помеченных обучающих данных. Однако на практике получение больших и разнообразных помеченных наборов данных может быть сложным и ресурсоемким. Ограниченные размеры выборки могут ограничивать способность модели эффективно изучать сложные концепции.
  3. Предположения и предвзятость: обучение PAC основано на определенных предположениях, таких как независимость и одинаковое распределение данных (i.i.d), которые не всегда выполняются в реальных сценариях. Кроме того, выбор класса гипотез может привнести неотъемлемую предвзятость, потенциально ограничивающую способность модели фиксировать определенные типы концепций.
  4. Вычислительная сложность. Вычислительная сложность некоторых алгоритмов обучения может быть ограничением, особенно при работе с большими наборами данных или сложными пространствами гипотез. Поиск оптимальной гипотезы в рамках выбранного класса может потребовать значительных вычислительных ресурсов и времени.

Понимая эти ограничения, мы можем принимать обоснованные решения и предпринимать соответствующие шаги для смягчения потенциальных проблем при применении обучения PAC в практических сценариях машинного обучения.

6. Заключение

В заключение, обучение PAC обеспечивает мощную основу для понимания обучаемости и возможностей обобщения моделей ML. Оценивая минимальные размеры выборки, оценивая обучаемость модели и применяя статистические границы, обучение PAC дает нам ценную информацию для оптимизации наших моделей и принятия обоснованных решений.

Однако важно осознавать ограничения обучения PAC, такие как риск переобучения или недообучения, ограничения, налагаемые размерами выборки, предположениями, предвзятостью и вычислительной сложностью. Зная об этих ограничениях, мы можем более эффективно справляться с проблемами и изучать стратегии их решения.

В будущих обсуждениях мы углубимся в понятия сложности понятия класса и сложности образца в обучении PAC. Эти аспекты играют решающую роль в понимании компромисса между выразительностью модели, размером выборки и сложностью целевых концепций. Оставайтесь с нами, чтобы узнать больше о том, как эффективно использовать обучение PAC для надежных и надежных моделей машинного обучения.

Рекомендации

  1. Лекция 4: Независимое обучение PAC; Неравенство Хёффдинга https://zcc1307.github.io/courses/csc588sp22/notes/scribe_note_4_renee.pdf
  2. ECE595ML Лекция 24–1 Вероятно, примерно правильно https://www.youtube.com/watch?v=qyI7lv6zDXI&list=PL4FSfq6xtSvyqEsz3UUnAizemXJfQyDVD&index=55
  3. ECE595ML Лекция 24–2 Вероятно, примерно правильно https://www.youtube.com/watch?v=3MxtZDRohbQ&list=PL4FSfq6xtSvyqEsz3UUnAizemXJfQyDVD&index=56

СТАНЬТЕ ПИСАТЕЛЕМ на MLearning.ai //Попробуйте эти БЕСПЛАТНЫЕ инструменты машинного обучения сегодня!