эксцесс
Что такое куртозис?
Эксцесс - 4-й статистический момент. В теории вероятностей и статистике эксцесс (что означает «изогнутый, выгнутый») является мерой «хвостости» распределения вероятностей действительнозначной случайной величины. Как и асимметрия, эксцесс описывает конкретный аспект распределения вероятностей.
Эксцесс измеряет хвостовость или экстремальные значения распределения вероятностей и может предоставить информацию о наличии выбросов или ненормальности.
В статистике есть четыре момента распределения: первый момент — среднее значение, второй момент — дисперсия, третий момент — асимметрия и четвертый момент — эксцесс. Эти моменты помогают понять форму, распространение и поведение распределения.
Эксцесс указывает на степень хвоста в нашем распределении вероятностей.
Возьмем в качестве примера игрока в крикет Дони. Предположим, что в 2010 году он сыграл 100 матчей и гипотетически набирал в среднем 45 очков за матч. Однако, несмотря на его стабильное выступление, было сказано, что в том году он выступил не очень хорошо. В 2011 году Дхони внес некоторые коррективы в свою технику и сыграл еще 100 матчей. Удивительно, но в конце того года у него все еще был средний результат 45 ранов за матч.
Теперь, если мы просто посмотрим на среднее значение за оба года, окажется, что ничего не изменилось. Однако, если мы нарисуем график функции плотности вероятности (PDF) за оба года, мы увидим, что есть больше информации, которую нужно обнаружить.
Например, если мы внимательно посмотрим на графики, то увидим, что форма графика для 2010 года скошена вправо, а для 2011 года — влево. Оба графика пересекаются по среднему значению, но разница в том, что в 2011 году Дхони чаще совершал больше пробежек и реже совершал меньше пробежек. Для сравнения, в 2010 году он чаще совершал меньше пробежек и реже совершал больше пробежек.
Если мы рассмотрим случай, когда и среднее значение, и стандартное отклонение (std) одинаковы для обоих лет, мы можем искать различия, анализируя дисперсию. Точно так же, если и среднее значение, и стандартное отклонение, и дисперсия одинаковы, мы можем искать различия, анализируя асимметрию.
Наконец, если среднее значение, стандартное отклонение, дисперсия и асимметрия одинаковы, мы можем искать различия, анализируя эксцесс графиков. Эксцесс измеряет степень хвоста в распределении, а более высокое значение эксцесса указывает на то, что в наборе данных больше выбросов, то есть более экстремальных значений.
Таким образом, анализ набора данных заключается не только в том, чтобы посмотреть на среднее значение и сделать выводы. Можно обнаружить гораздо больше информации о форме распределения, стандартном отклонении, дисперсии, асимметрии и эксцессе набора данных.
"более"
Ложные сведения о куртозисе
wikipedia Эксцесс Было дано много неверных интерпретаций эксцесса, которые включают понятия остроконечности. Во-первых, эксцесс измеряет как остроконечность распределения, так и тяжесть его хвоста. Были предложены различные другие неправильные толкования, такие как отсутствие плеч (где плечо определяется расплывчато как площадь между пиком и хвостом, или, более конкретно, как площадь примерно одного стандартного отклонения от среднего) или бимодальность.
Формула
Эта формула вычисляет эксцесс набора данных. Эксцесс — это мера остроконечности или плоскостности распределения по сравнению с нормальным распределением.
Формула разбита на две части. Первая часть, (n*(n+1))/((n-1)(n-2)(n-3)), является коэффициентом нормализации, который учитывает размер набора данных (n) и обеспечивает что эксцесс - безразмерная мера.
Вторая часть формулы, sum(i to n) ((xi — x bar)/s)⁴, вычисляет четвертый момент распределения, который является мерой того, насколько распределение отклоняется от симметрии. Сумма этого члена берется по всем точкам данных в наборе, где xi представляет значение каждой точки данных, столбец x представляет среднее значение выборки, а s представляет стандартное отклонение выборки.
Последний член, (3 * (n-3)²)/((n-2)(n-3)), является коэффициентом корреляции, который вычитает ожидаемое значение эксцесса для нормального распределения. Этот член делает эксцесс равным нулю для нормального распределения, как и ожидалось.
Практический вариант использования
Риск куртозиса — это финансовый термин, который относится к возможности экстремальных результатов при распределении доходности актива или портфеля. Если распределение имеет высокий эксцесс, это означает, что существует большая вероятность экстремальных событий, как положительных, так и отрицательных, по сравнению с нормальным распределением. Это важно для инвесторов, поскольку указывает на более высокую вероятность больших убытков или прибылей, что может иметь серьезные последствия для инвестиционных стратегий. Поэтому инвесторы могут захотеть скорректировать свой инвестиционный подход с учетом риска эксцесса.
Избыточный эксцесс и типы
Избыточный эксцесс – это мера того, насколько более остроконечным или плоским является распределение по сравнению с нормальным распределением, которое считается имеющим эксцесс, равный 0. Он рассчитывается путем вычитания 3 из коэффициента эксцесса выборки.
Избыточный эксцесс - это способ измерить, насколько распределение отличается от нормального распределения с точки зрения того, насколько оно остроконечное или плоское. Мы можем рассчитать избыточный эксцесс, взяв образец коэффициента эксцесса и вычтя из него 3. Это дает нам значение, которое показывает, насколько более или менее пикообразное/плоское распределение по сравнению с нормальным распределением. Значение 0 означает, что распределение такое же остроконечное/плоское, как и нормальное распределение.
Типы куртоза:
лептокуртик
Распределение с положительным избыточным эксцессом называется лептокуртическим. Эксцесс — это мера «остроконечности» или «плоскостности» распределения относительно нормального распределения. Нормальное распределение имеет эксцесс 0, и любое распределение с эксцессом больше 0 называется лептокуртическим.
Префикс «лепто-» означает «тонкий», поэтому лептокуртическое распределение имеет более тонкую или остроконечную форму по сравнению с нормальным распределением. Это означает, что хвосты распределения толще, что указывает на то, что в распределении больше экстремальных значений или выбросов. Это может привести к большей волатильности и риску финансовых активов, которые следуют лептокуртному распределению.
Например, активы с положительным избыточным эксцессом более рискованны и более волатильны, чем активы с нормальным распределением. Они могут столкнуться с внезапными движениями цен, которые могут привести к значительным прибылям или убыткам, что затрудняет их прогнозирование и управление ими. Инвесторы должны осознавать чрезмерный эксцесс активов, которыми они владеют, чтобы правильно оценивать и управлять своим риском.
Платикуртик
Распределение с отрицательным избыточным эксцессом называется платикуртом. Эксцесс — это мера «остроконечности» или «плоскостности» распределения по сравнению с нормальным распределением. Нормальное распределение имеет эксцесс 0, а любое распределение с эксцессом меньше 0 называется платикуртическим.
Приставка «плати-» означает «широкий», поэтому платикуртическое распределение имеет более широкую или плоскую форму по сравнению с нормальным распределением. Это означает, что хвосты распределения тоньше, что указывает на то, что в распределении меньше экстремальных значений или выбросов. Это может привести к снижению волатильности и риска в финансовых активах, которые следуют плоскокуртному распределению.
Например, активы с отрицательным избыточным эксцессом менее рискованны и менее волатильны, чем активы с нормальным распределением. Они могут испытывать более постепенные движения цен, которые с меньшей вероятностью приведут к большим прибылям или убыткам, что упрощает их прогнозирование и управление ими. Инвесторы должны осознавать чрезмерный эксцесс активов, которыми они владеют, чтобы правильно оценивать и управлять своим риском.
мезокуртский
Распределения с нулевым избыточным эксцессом называются мезокуртическими. Наиболее ярким примером мезокуртического распределения является семейство нормального распределения, независимо от значений его параметров.
Мезокуртический — это термин, используемый для описания распределения с избыточным эксцессом, равным 0, что указывает на то, что оно имеет ту же степень «остроконечности» или «плоскостности», что и нормальное распределение.
Пример. В финансах мезокуртическое распределение считается идеальным распределением для активов или портфелей, поскольку оно представляет собой баланс между риском и доходностью.
Сюжет QQ
Как определить, является ли данное распределение нормальным или нет?
Визуальная проверка. Один из самых простых способов проверки нормальности — это визуальная проверка гистограммы или графика плотности данных. Нормальное распределение имеет колоколообразную кривую, что означает, что большая часть данных приходится на середину, а хвосты симметрично сужаются. Если распределение выглядит приблизительно колоколообразным, оно, вероятно, является нормальным.
График QQ. Еще один способ проверить нормальность — построить график нормальной вероятности (также известный как график Q-Q) данных. График нормальной вероятности отображает наблюдаемые данные в сравнении с ожидаемыми значениями нормального распределения. Если точки данных падают вдоль прямой линии, распределение, вероятно, будет нормальным.
Статистические тесты. Существует несколько статистических тестов, которые можно использовать для проверки нормальности, например тест Шапиро-Уилка, тест Андерсона-Дарлинга и тест Колмогорова-Смирнова. Эти тесты сравнивают наблюдаемые данные с ожидаемыми значениями нормального распределения и обеспечивают p-значение, которое указывает, могут ли данные быть нормальными или нет. Значение p меньше уровня значимости (обычно 0,05) предполагает, что данные не являются нормальными.
Что такое график QQ и как он строится?
График QQ (график квантилей-квантилей) — это графический инструмент, используемый для оценки сходства распределения двух наборов данных. Это особенно полезно для определения того, соответствует ли набор данных нормальному распределению.
Чтобы построить график QQ, мы берем два набора распределений — назовем их X и Y. X представляет наши данные или случайную величину, а Y — теоретическое распределение. Например, мы можем заранее знать, что Y является нормальным распределением, поэтому мы сравниваем наши данные с этим известным распределением.
Вот пошаговые инструкции о том, как построить график QQ:
Сначала мы создаем теоретическое распределение, и в этом случае давайте создадим нормально распределенный набор данных в Python.
Мы сортируем наши данные X и вычисляем их квантили. Например, если нам нужен 100-й процентиль, мы вычисляем 1-й квантиль, 2-й квантиль и так далее до 100-го квантиля. Мы делаем то же самое для нашего распределения Y — сортируем его и вычисляем 100 квантилей.
Затем мы строим квантили X против квантилей Y. Например, мы берем первый квантиль Y и первый квантиль X и изобразить их на графике. Мы делаем то же самое для второго квантиля и так далее, пока не нанесем все 100 квантилей.
Если точки на точечной диаграмме образуют прямую линию или отрезок, мы можем сказать, что распределение X сравнимо или похоже на распределение Y. Если точки не образуют прямую линию, то X не имеет нормального распределения.
Основная идея графика QQ заключается в том, что мы берем два распределения, сортируем их и строим их квантили относительно друг друга, чтобы проверить сходство. Если точки на графике образуют прямую линию или отрезок, можно сказать, что распределения сравнимы, если нет, то несопоставимы.
На графике QQ квантили двух наборов данных отображаются друг против друга. Квантиль одного набора данных откладывается по оси x, а квантили другого набора данных — по оси y. Если два набора данных имеют одинаковое распределение, точки на графике QQ лягут на прямую линию. Если два набора данных не имеют одинакового распределения, точки будут отклоняться от прямой линии.
Как интерпретировать графики QQ
Теперь давайте посмотрим, как интерпретировать график QQ. Интерпретация графика QQ не очень сложна; нам просто нужно знать, как разные распределения выглядят на графиках QQ.
Если данные нормально распределены, то на графике QQ будет прямая линия, как на первом показанном графике. Почти каждая точка будет на линии.
Если данные имеют слишком высокий пик посередине, как на втором графике, средние точки будут на линии, а точки по обеим сторонам от середины будут отклоняться от линии.
Если данные искажены, как на третьем графике, точки будут находиться на линии до диапазона нормального распределения, после чего точки отклонятся от линии.
В данных с асимметрией, для данных с асимметрией влево, график QQ будет иметь точки с левой стороны, которые находятся далеко от линии. Точно так же для данных с асимметрией вправо график QQ будет иметь точки с правой стороны, которые находятся далеко от линии.
На графике QQ, когда у нас есть толстые хвосты в нашем распределении, точки на обоих концах графика будут отклоняться от линии, указывая на то, что распределение имеет более тяжелые хвосты, чем теоретическое распределение.
С другой стороны, если в нашем распределении есть тонкие хвосты, точки на обоих концах графика также будут отклоняться от линии, но в меньшей степени, чем в случае толстых хвостов.
Итак, хвосты распределения можно интерпретировать по отклонению точек на графике QQ от линии.
График QQ обнаруживает только нормальное распределение?
Нет, график QQ не ограничивается обнаружением только нормального распределения. Его можно использовать для сравнения распределения любых двух наборов данных. Однако при сравнении набора данных с теоретическим нормальным распределением особенно полезен график QQ. Сопоставляя квантили набора данных с квантилями теоретического нормального распределения, график QQ может показать, насколько близко набор данных соответствует нормальному распределению. Если точки данных находятся близко к диагональной линии, это указывает на нормальное распределение набора данных. Если точки данных отклоняются от диагональной линии, это говорит о том, что набор данных не имеет нормального распределения.
Невозможно понять сложную тему, не разбив ее на более мелкие этапы. Поэтому мы следовали пошаговому подходу, чтобы понять, как сгенерировать равномерное распределение и подобрать теоретическое распределение, используя библиотеку моделей статистики. Мы также узнали, как построить график QQ для сравнения распределений и как интерпретировать результаты. Этот процесс помог нам глубже понять тему и применить ее в различных сценариях.
Равномерное распределение
Что такое равномерное распределение
В теории вероятностей и статистике равномерное распределение – это такое распределение вероятностей, при котором все результаты одинаково вероятны в пределах заданного диапазона. Это означает, что если вы выберете случайное значение из этого диапазона, любое значение будет так же вероятно, как и любое другое значение.
Равномерное распределение – это распределение вероятностей, при котором все исходы равновероятны в заданном диапазоне.
это типы.
Равномерное распределение имеет два типа: один для непрерывных случайных величин, который дает непрерывное распределение, а другой для дискретных случайных величин, который дает дискретное распределение.
Обозначается
как X ~ U (a, b), где X - равномерное распределение, а a и b - параметры. а — наименьшее значение, а b — наибольшее значение диапазона.
обычно, когда мы берем примеры непрерывного распределения, мы говорим о диапазоне. Всякий раз, когда мы можем привести какие-либо значения в диапазон, он становится непрерывным. Давайте посмотрим на примерах
- Рост человека, случайно выбранного из группы людей, чей рост колеблется от 5 футов 6 до 6 футов 0, будет соответствовать непрерывному равномерному распределению.
- Время, необходимое машине для производства продукта, где время производства составляет от 5 до 10 минут, будет соответствовать непрерывному равномерному распределению.
- Расстояние, которое случайно выбранный автомобиль проезжает на баке с бензином, где расстояние колеблется от 300 до 400 миль, будет подчиняться непрерывному равномерному распределению.
- Вес случайно выбранного яблока из корзины яблок весом от 100 до 200 граммов будет соответствовать непрерывному равномерному распределению.
Графики равномерного распределения
Это график нашей функции плотности вероятности, поскольку она непрерывна. Здесь a и b — заданный диапазон, а плотность вероятности в этом диапазоне показана в виде постоянной полосы. В остальных случаях плотность вероятности равна нулю.
обратите внимание, что a не равно b
График этой функции представляет собой прямоугольник с высотой 1/(b-a) и шириной (b-a), когда x находится между a и b, а площадь под прямоугольником равна 1. Это связано с тем, что общая вероятность любого события в заданный диапазон всегда равен 1. Поэтому равномерное распределение также называют прямоугольным распределением.
Формула и ее график позволяют понять равномерное распределение и рассчитать вероятности различных событий в пределах диапазона.
CDF
Этот график представляет собой CDF (кумулятивную функцию распределения) равномерного распределения. Глядя на этот график, видно, что плотность вероятности для всех значений, меньших a, равна 0, а для всех значений, больших или равных b, она равна 1. Между a и b плотность неуклонно растет.
асимметрия
Мы говорим об асимметрии, которая здесь равна 0, потому что это равномерное непрерывное распределение и оно симметрично, как и нормальное распределение, о чем всегда следует помнить.
PDF и CDF с равномерным распределением показаны с помощью прямоугольного графика, на котором плотность постоянна между заданным диапазоном, в то время как график CDF показывает устойчивый рост между диапазонами. Асимметрия равна 0 в равномерном распределении, поскольку оно симметрично.
Это скрытый дистрибутив, потому что он работает за кулисами. Давайте посмотрим на несколько примеров в области машинного обучения, где мы можем его найти.
Применение в машинном обучении и науке о данных
- Случайная инициализация. Во многих алгоритмах машинного обучения, таких как нейронные сети и кластеризация методом k-средних, начальные значения параметров могут существенно повлиять на конечный результат. Равномерное распределение часто используется для случайной инициализации параметров, поскольку оно гарантирует, что все значения в диапазоне будут иметь равную вероятность выбора.
- Выборка. Равномерное распределение также может быть использовано для выборки. Например, если у вас есть набор данных с равным количеством выборок из каждого класса, вы можете использовать равномерное распределение, чтобы случайным образом выбрать подмножество данных, представляющее все классы.
- Увеличение данных. В некоторых случаях может потребоваться искусственно увеличить размер набора данных, создав новые примеры, похожие на исходные данные. Равномерное распределение можно использовать для создания новых точек данных, которые находятся в пределах заданного диапазона исходных данных.
- Настройка гиперпараметров. Равномерное распределение также можно использовать при настройке гиперпараметров, когда необходимо найти наилучшее сочетание гиперпараметров для модели машинного обучения. Определив однородное априорное распределение для каждого гиперпараметра, вы можете сделать выборку из распределения, чтобы исследовать пространство гиперпараметров.
Лог нормального распределения
В теории вероятностей и статистике логнормальное распределение – это непрерывное распределение вероятностей с тяжелыми хвостами для случайной величины, логарифм которой распределен нормально.
Итак, первое, что нужно здесь понять, это то, что график равномерного распределения имеет тяжелые хвосты и асимметрию вправо, но не все распределения с асимметрией вправо можно назвать логнормальными, а только те, которые следуют логарифмически нормальному распределению. Это означает, что если переменная X имеет логарифмически нормальное распределение, то ее логарифм log(X) также будет нормально распределен.
Предположим, у нас есть столбец данных, представляющий некоторые значения возраста, и эти значения подчиняются логарифмически нормальному распределению. В этом случае мы можем взять натуральный логарифм всех значений, чтобы получить новый набор значений, которые будут нормально распределены при построении графика. Важно отметить, что не все дистрибутивы с правым перекосом являются нормальными, а только те, чьи журналы распределены нормально.
График логарифмически нормального распределения имеет два параметра, как и нормальное распределение, которые равны (𝜇,𝜎). На приведенном графике мы видим, что есть три разных однородных распределения с одинаковым средним, но разными стандартными отклонениями, и по мере увеличения стандартного отклонения увеличивается и разброс графика.
Примеры
- Давайте обсудим, когда и где мы можем найти логарифмически нормальное распределение. Предположим, мы собираем данные из известного поста в социальной сети и собираем информацию о длине каждого комментария с точки зрения количества слов или букв. Результирующее распределение этих данных, вероятно, будет логарифмически нормальным, потому что большинство людей склонны писать короткие комментарии, и лишь немногие склонны писать длинные. Это обычное явление в социальных сетях.
- Давайте возьмем пример блога, где есть несколько человек, которые читают весь блог или проводят много времени в блоге, в то время как большинство людей просто быстро просматривают его или уходят, прочитав обзор.
- Мы можем использовать пример продолжительности матчей по крикету, чтобы проиллюстрировать логарифмически нормальное распределение. Матчи T20 обычно длятся около 3 часов, ODI обычно длятся около 7 часов, а тестовые матчи могут длиться до 5 дней. Поскольку большинство совпадений представляют собой T20 и ODI, продолжительность совпадений будет следовать логарифмически нормальному распределению с пиком около 3–7 часов и хвостом, который простирается до нескольких дней для тестовых совпадений.
- Возможно, что распределение доходов в мире соответствует логарифмически нормальному распределению, при котором большое количество людей получает низкие доходы, а небольшое количество людей получают высокие доходы.
Обозначим как
Для обозначения логарифмически нормального распределения используется обозначение X ~ LN(μ, σ), где μ — среднее значение соответствующего нормального распределения, а σ — его стандартное отклонение. Условием логарифмически нормального распределения является то, что натуральный логарифм X имеет нормальное распределение со средним значением μ и стандартным отклонением σ. Математически это представляется как ln(X) ~ N(μ, σ).
Уравнение PDF
где:
- х - случайная величина
- 𝜇 — среднее значение логарифма случайной величины
- 𝜎 — стандартное отклонение логарифма случайной величины
- e — основание натурального логарифма (примерно равно 2,71828)
- pi — математическая константа pi (приблизительно равна 3,14159)
Оно очень похоже на нормальное распределение, поэтому мы можем считать его нормальным для всех практических целей.
CDF
Давайте поговорим о CDF, который также очень похож на нормальное распределение. Мы видим, что все кривые пересекаются в среднем, и по мере увеличения стандартного отклонения мы удаляемся от вертикальной линии среднего.
CDF имеет асимметрию.
Как проверить, является ли случайная величина логарифмически нормально распределенной?
Если у нас есть случайная величина X и мы хотим проверить, следует ли она логарифмически нормальному распределению, мы можем взять натуральный логарифм X, чтобы получить новую переменную Y. Если Y следует нормальному распределению с параметрами μ и σ, то X следует логарифмически нормальному распределению. Мы можем использовать qqplot, чтобы визуализировать распределение Y и сравнить его с нормальным распределением с тем же средним значением и стандартным отклонением. Если точки на qqplot образуют прямую линию, то Y имеет нормальное распределение, и, следовательно, ln(X) также имеет нормальное распределение, а X подчиняется логарифмически нормальному распределению.
Лучшая часть логарифмически нормального распределения заключается в том, что, как только мы узнаем, что случайная величина подчиняется логарифмически нормальному распределению, мы можем легко преобразовать ее в нормальное распределение. Затем мы можем выполнить все операции, которые мы выполняем с любым нормальным распределением.
Распределение Парето
Распределение Парето – это тип распределения вероятностей, который обычно используется для моделирования распределения богатства, дохода и других величин, демонстрирующих сходное степенное поведение.
Что такое степенной закон
В математике степенной закон представляет собой функциональную отношение между двумя переменными, где одна переменная пропорциональна степени другой. В частности, если y и x — две переменные, связанные степенным законом, то отношение можно записать как: 𝑦=𝑘∗𝑥^𝑎
- График степенного закона выглядит примерно так. Существует известное правило, которое следует степенному закону, называемое правилом 80:20. Правило гласит, что всякий раз, когда соблюдается этот закон, 20% населения контролируют 80% богатства.
- Отсюда мы понимаем, что Распределение Парето — это математический закон, основанный на степенном законе, где одна переменная связана с другой переменной степенью некоторого показателя степени. Например, это можно представить как y = k * x^a.
- Правило 80:20 не всегда выполняется, и от него могут быть отклонения. только распределения Парето со значением формы (α) log45 ≈ 1,16, т. е. Правило 80:20 будет соблюдаться, когда α будет около 1,66.
Вильфредо Парето первоначально использовал это распределение для описания распределения богатства между людьми, поскольку оно, казалось, довольно хорошо показывало, что большая часть богатства любого общества принадлежит меньшему проценту людей в это общество. Он также использовал его для описания распределения доходов. Эта идея иногда выражается более просто как принцип Парето или «правило 80–20», согласно которому 20 % населения контролирует 80 % богатства.
График и параметры
Давайте посмотрим на функцию плотности вероятности (PDF) распределения Парето, которая имеет только один параметр, обозначаемый α. На графике показаны три различных распределения Парето, выделенные зеленым, красным и синим цветом, причем ось Y представляет плотность вероятности и разные значения α для каждой кривой. Красная кривая имеет α = 3, что выше двух других, поэтому ее пик выше по оси y, а синяя кривая имеет α = 2, что делает ее пик немного ниже, а зеленая кривая имеет α = 1. , который является самым низким из трех. С увеличением α хвост кривой становится тоньше, а с уменьшением α пик становится ниже, а хвост становится толще.
Кроме того, когда α приближается к бесконечности, кривая схлопывается в одну вертикальную линию вдоль оси y. Кривая перекошена, и точка, в которой она начинается на оси x, обозначена как xmin, с максимальным значением α в xmin.
Таким образом, более высокое значение α приводит к более высокому пику и более тонкому хвосту, а более низкое значение α приводит к более низкому пику и более толстому хвосту.
Функция плотности вероятности (PDF) распределения Парето с параметром α и минимальным значением xmin определяется как:
где 𝑓(𝑥) — плотность вероятности в 𝑥.
Примеры
- Размеры населенных пунктов (несколько городов, много деревень/сел)
- Распределение размера файлов интернет-трафика, использующего протокол TCP (много файлов меньшего размера, несколько файлов большего размера)
CDF
Если говорить о CDF, то можно заметить, что по мере уменьшения значения альфа время, необходимое для достижения 1, также увеличивается. Это означает, что по мере уменьшения разницы между богатыми и бедными потребуется больше времени, чтобы достичь 1. С другой стороны, по мере увеличения альфа CDF достигает 1 намного быстрее, указывая на то, что несколько человек накапливают много денег. лица. Когда альфа равна бесконечности, CDF становится вертикальной прямой линией, что указывает на то, что все богатство принадлежит нескольким людям.
Это Искажено, мы можем видеть, что также, если мы хотим найти, мы можем сделать с формулой Перекоса.
Как определить, является ли распределение распределением Парето?
Есть два распространенных способа определить, является ли распределение распределением Парето:
- Графика логарифмической зависимости. Логарифмическая диаграмма данных может помочь определить, следует ли она степенному закону распределения, характерному для распределения Парето. На логарифмическом графике степенное распределение выглядит как прямая линия. Итак, если логарифмический график данных выглядит как прямая линия, то это может быть распределение Парето.
- График QQ. График квантилей-квантилей (QQ) также можно использовать для определения того, является ли распределение распределением Парето. На графике QQ квантили данных отображаются в сравнении с квантилями теоретического распределения Парето. Если данные следуют распределению Парето, точки будут падать примерно по прямой линии.