Аннотация:
В этом исследовании изучается анализ эргодичности и выживаемости. Эргодическая теорема касается обобщаемости статистических явлений. Согласно исследованию, эргодичность выявляет статистическое несоответствие и ошибки вывода, такие как дилемма Симпсона и экологическая ошибка. В статье обсуждается идея эргодичности, последствия для сложных наборов данных и потенциал для улучшения оценок и прогнозов выживаемости. Анализ выживаемости и интерпретация данных улучшаются с ограничениями неэргодичности. Мы продемонстрировали, что анализ эргодичности легко оценить, правильно ли спланирован сбор данных во время планирования эксперимента, чтобы предоставить нам продольное и непрерывное представление о каждом агенте (человеке, корпорации, машине и т. д.).
1. Введение
Эргодическая теорема — это широкая и формальная математическая формулировка, которая касается обобщения статистических явлений на разных уровнях и единицах исследования. Согласно эргодической теории, закономерности межиндивидуальной и внутрииндивидуальной изменчивости данных испытуемых асимптотически сопоставимы, что является необходимым, но не обязательно достаточным условием эргодичности (см. [1]).
Эргодическую теорему можно рассматривать как широкую основу для выявления конкретных ситуаций статистического несоответствия и ошибок вывода, таких как дилемма Симпсона и экологическая ошибка. Парадокс Симпсона (см. [2]) — это статистическое явление, при котором тенденции подгрупп расходятся (или даже обратны) общей тенденции при объединении групп. Экологическая ошибка — это частая и неприятная ошибка статистической интерпретации, которая возникает, когда статистические результаты групп неправильно экстраполируются на отдельных людей (см. [3]).
Хамакер ([4][5]), который обсуждает взаимосвязь между скоростью печати и ошибками, приводит простой пример. На групповом уровне связь отрицательная, так как опытные машинистки быстрее и компетентнее. Однако внутри отдельных людей связь положительная. Чем быстрее человек печатает, тем больше ошибок он или она делает по сравнению с их собственным мастерством при более медленном темпе. В результате агрегации данных мы получаем пример дилеммы Симпсона, и мы совершаем экологическую ошибку, если приходим к выводу, что ассоциация, наблюдаемая на групповом уровне, отражает любого из людей в группе. Парадокс Симпсона и экологическая ошибка напоминают нам, что индивидуальный и групповой уровни не всегда связаны. Прежде чем делать какие-либо экстраполяции, следует явно изучить последствия неэргодичности в конкретном наборе данных.
В этой статье будет рассмотрена концепция эргодичности и ее важность в анализе выживаемости. Таким образом, второй раздел статьи будет посвящен концептуализации эргодичности. В нем будут обсуждаться два строгих условия, необходимых для обобщения наблюдений за отдельными людьми: однородность популяции и стационарность. Нарушение этих условий будет проиллюстрировано на примерах из личностных тестов и исследований развития эмоциональных переживаний. Эти нарушения демонстрируют, что межиндивидуальная изменчивость не может быть приравнена к внутрииндивидуальной изменчивости из-за неэргодичности. В этом разделе будет подчеркнута важность понимания эргодичности для точного анализа сложных систем и процессов.
В третьем разделе основное внимание будет уделено тому, как анализ эргодичности может улучшить анализ выживаемости. В нем будет показано, как учет эргодичности позволяет исследователям более точно оценивать долгосрочные показатели выживаемости, особенно в случаях, когда показатели выживаемости не являются постоянными во времени или когда участвуют конкурирующие риски. В четвертой части статьи мы подходим к упоминанию того, как эргодичность влияет на модели машинного обучения, которые используются для анализа выживания.
В этой статье будет подчеркнута важность учета эргодичности в анализе выживания и моделях машинного обучения. Он даст представление о концептуализации эргодичности, ее последствиях для анализа сложных наборов данных и о том, как анализ эргодичности может повысить точность оценок и прогнозов выживаемости. Устранив ограничения, вызванные неэргодичностью, исследователи могут повысить достоверность и надежность анализа выживаемости и сделать более значимые выводы на основе своих данных.
2. Аппроксимация эргодичности.
К сожалению, прикладные тесты на эргодичность редко используются в социальных, поведенческих и медицинских науках. В то время как другие отмечают, что процессы внутри людей отличаются от процессов, наблюдаемых у разных людей с течением времени ([6] [7] [8]), оценка величины и возможного влияния этого несоответствия в психологической и медицинской областях должна быть постоянным предметом научных исследований. . В то время как Перл ([2]) доказал, что не существует единого диагноза или средства для решения дилеммы Симпсона, мы предлагаем достаточно простой метод прямой проверки на неэргодичность и, следовательно, возможность группового и индивидуального обобщения в статистических исследованиях.
Проще говоря, сравнение первого и второго моментов (среднего и дисперсии) внутрииндивидуальных и межиндивидуальных распределений может дать информацию о правильности групповых и индивидуальных обобщений. Потребуются колоссальные совместные усилия во всех областях исследований людей, чтобы должным образом изучить групповую и индивидуальную обобщаемость в социальных и медицинских науках. Тем временем отдельные исследователи могут решать вопрос о пригодности своих данных для обобщения агрегированных результатов для отдельных участников, используя соответствующие методологии исследования и парадигмы сбора данных.
Ученые, которые хотят обобщить результаты на межиндивидуальных и внутрииндивидуальных уровнях анализа, в частности, должны собрать несколько измерений внутри участников на протяжении всего времени — независимо от того, является ли цель исследования явно лонгитюдной. Кроме того, обмен данными и выводами может снизить нагрузку на проверку эргодичности в будущих исследованиях. К счастью, по мере того, как ресурсы данных становятся более доступными благодаря открытому доступу, мы можем приступить к совместному решению этой проблемы. Чтобы оценить значимость этой попытки, мы сравниваем внутрииндивидуальную и межиндивидуальную дисперсию в шести отдельных наборах данных часто опрашиваемых людей.
Одной из трудностей, связанных с обработкой сложных наборов данных, является необходимость учитывать эргодичность обучающих выборок ([8][9]). Система является эргодичной, если ее математическое ожидание (среднее значение многих независимых систем, выполняющих эксперимент) равно ее долгосрочному среднему значению (среднее значение одной системы, многократно выполняющей эксперимент, сохраняя свое состояние от одной выборки к другой), так что их средние статистические свойства могут быть выведены из одной достаточно большой случайной выборки поведения системы ([9] [10] [11]).
Важность эргодичности заключается в объеме выводов, которые мы можем сделать из анализа. Когда мы имеем дело с неэргодическими множествами, характеристики множества нельзя использовать для вывода чего-либо о конкретном человеке из этого множества.
В случае анализа выживаемости, как это отражено в проанализированной литературе, выводы делаются на групповом уровне с использованием средних значений и на индивидуальном уровне без предварительного анализа эргодичности обучающего набора данных (например, [12] [8] [4]. ] [5] [6] [13]). Это представляет собой важную слабость на уровне анализа выживания, поскольку ничто не может быть подтверждено на индивидуальном уровне, если сначала не будет подтверждено, что модели машинного обучения соответствуют классической эргодической теореме.
Что обычно делается при анализе выживания с использованием моделей машинного обучения с большими объемами данных, так это сегментация населения и обеспечение представления всех сегментов. Затем данные получают из небольшой выборки, которая считается репрезентативной. Поскольку это не эргодическое множество, результаты не совпадут.
Это то, что мы обычно называем погрешностью анализа. Эта ошибка не является ошибкой в буквальном смысле, а относится к ожидаемой разнице из-за неэргодичности множества. Хотя во многих случаях (если не в большинстве случаев) предел погрешности представляет собой скорее неправильное использование статистических понятий, чем вероятность «некорректировки» вывода.
Например, если набор данных для обучения не является репрезентативным для эргодического процесса, модель, обученная на этом наборе данных, может неточно предсказывать будущие результаты или может иметь плохие характеристики обобщения при применении к новым данным. Похожая проблема возникает у ученых, когда они пытаются вывести общие законы из конкретных экспериментов. Когда правильно обобщать, а когда нет? Ответ зависит от эргодичности.
3. Эргодичность Концептуализация в общих моделях
Моленаар и Кэмпбелл [6] утверждали, что классическая эргодическая теорема требует, чтобы обобщение наблюдений над отдельными людьми могло быть выполнено только при соблюдении двух строгих условий.
Первое условие состоит в том, что популяция должна быть однородной, и ко всем субъектам популяции должна применяться та же статистическая модель, которая используется для описания группы в целом. Другими словами, средние и другие описательные статистические данные, описывающие данные, не должны различаться между отдельными участниками. Только тогда статистическая модель населения может быть применена к отдельному участнику этого населения.
Чтобы проиллюстрировать нарушение эргодичности, Моленаар и Кэмпбелл ([6]) сослались на повторное измерение личностного теста, который 22 участника выполняли в течение 90 дней подряд. Анкета состояла из 30 пунктов для оценки факторов, которые представляют компоненты Большой пятерки личностных факторов (нейротизм, экстраверсия, доброжелательность, добросовестность и интеллект). Групповой анализ показал, что анкета достоверно объясняет факторы, входящие в состав «Большой пятерки». Однако при рассмотрении 30 повторно измеряемых баллов каждого из отдельных участников личностные факторы «Большой пятерки» не могут надежно объяснить корреляции между баллами. Факторные нагрузки существенно различались для каждого отдельного участника теста как по количеству задействованных факторов, так и по тому, как эти факторы соотносились с пунктами анкеты.
Второе условие эргодичности — стационарность. Это требует, чтобы данные были стабильными и чтобы среднее значение и дисперсия не менялись между измерениями. Другими словами, статистические параметры, такие как факторные нагрузки, должны оставаться неизменными во всех измерениях с течением времени. Molenaar, Sinclair, Rovine, Ram, & Corneal ([14]) утверждали, что практически все исследования, посвященные изменениям во времени психологических характеристик индивидуумов, нарушают условие стационарности для эргодичности данных. Они заявили, что объединение людей в группы не подходит для изучения развития, поскольку процессы развития почти всегда нестационарны и, следовательно, неэргодичны.
Они проиллюстрировали этот момент данными исследования, в котором изучалось развитие эмоционального опыта восьми детей и восьми приемных детей, когда они взаимодействовали со своими родителями в течение 80 взаимодействий с течением времени. Для каждого участника был использован факторный анализ для выявления трех факторов: вовлеченности, гнева и беспокойства. Авторы подобрали нестационарную модель в пространстве состояний к данным временных рядов одного субъекта, используя рекурсивную оценку (EFKIS).
Модель временных рядов показала, что взаимосвязь между тревогой и вовлеченностью была динамической, изменяясь с отрицательной на положительную примерно в середине временного ряда. Их исследование ясно показало, что из-за нарушения этого условия эргодичности межиндивидуальная изменчивость не может быть отождествлена с внутрииндивидуальной.
Эргодичность — это свойство системы, которое описывает, как ее статистические свойства изменяются во времени. В эргодической системе долгосрочные статистические свойства системы можно вывести из одного длительного наблюдения за системой. Другими словами, если вы достаточно долго наблюдаете за системой, вы можете определить ее статистические свойства с высокой степенью точности.
С другой стороны, если система неэргодична, долгосрочные статистические свойства системы не могут быть выведены из одного длительного наблюдения за системой. Это означает, что невозможно определить статистические свойства системы, наблюдая за ней в течение длительного времени, и необходимо производить многократные наблюдения за системой, чтобы точно определить ее статистические свойства.
3.1 Наш анализ
Мы создали смоделированный набор данных для изучения результатов выживания или времени до события в группе людей. Вот подробное объяснение кода:
n ‹- 100: эта строка присваивает значение 100 переменной n, представляющей количество людей в наборе данных. Каждый человек будет иметь информацию, связанную с выживанием.
time ‹- 1:90: эта строка создает последовательность от 1 до 90 и присваивает ее переменной time. Он представляет собой моменты времени, в которые регистрируются события или наблюдения, связанные с выживанием, для каждого человека.
Эта временнаяпеременная или точка данных имеет решающее значение для измерения наличия или отсутствия эргодичности. Если он не создан, то теряется возможность его вычисления напрямую.
тревога ‹- матрица(rнорма(n * длина(время), среднее = 0, sd = 1), nrow = n): этот код генерирует матрицу с именем тревожность. Она содержит случайные числа, взятые из нормального распределения со средним значением 0 и стандартным отклонением 1. Матрица состоит из n строк (представляющих отдельных лиц) и столбцов длина(время). (представляющие моменты времени). Эти случайные числа представляют собой коэффициенты тревожности для каждого человека в каждый момент времени.
Последующие строки генерируют дополнительные переменные, связанные со здоровьем, которые потенциально могут повлиять на результаты выживания. Эти переменные также генерируются с использованием случайных чисел, взятых из нормального, хи-квадратного, пуассоновского, экспоненциального и логистического распределений, с конкретными значениями среднего и стандартного отклонения, присвоенными каждой переменной. Переменные включают уровни_стресса, генетическая_предрасположенность, прошлый_травматический_опыт, социально-экономический_статус, социальная_сеть_поддержки, >механизмы совладания, личностные_черты, факторы_окружающей среды, состояния_здоровья и события_жизни. Каждая переменная имеет соответствующее среднее значение и стандартное отклонение, которые можно интерпретировать в контексте анализа выживаемости.
Наконец, набор данных создается путем объединения всех сгенерированных переменных во фрейм данных с именем data. Функция data.frame() используется для создания фрейма данных, где каждая переменная назначается столбцом. Кроме того, переменная time повторяется n раз, чтобы соответствовать количеству строк в наборе данных. Это позволяет связать соответствующие времена выживания или наблюдения с каждым человеком и их соответствующими переменными, связанными со здоровьем.
Ниже приведены два графика, иллюстрирующие распределение двух переменных, тревоги и стресса, и то, как они действуют в каждый момент времени (90 моментов) для каждого человека (всего 100).
Можно видеть, что эти две переменные на индивидуальном уровне в каждый из моментов имеют распределение с разной дисперсией и средними значениями, но со сравнимым поведением. Это может указывать на то, что мы можем столкнуться с эргодическим набором данных.
После создания набора данных код продолжает дополнительные вычисления переменных в наборе данных. Вот разбивка кода:
individual_means ‹- apply(data[, c(…)], 1, mean): в этой строке вычисляется среднее значение для каждого человека по выбранным переменным. Функция apply() используется для применения функции mean() по строкам (1) к указанным столбцам (c (…)) в наборе данных data. Эти столбцы включают «тревожность», «уровни стресса», «генетическая предрасположенность» и так далее. В результирующем векторе individual_means хранятся рассчитанные средние значения для каждого человека.
individual_variances ‹- apply(data[, c(…)], 1, var). Аналогично, в этой строке вычисляется дисперсия для каждого человека по одному и тому же набору переменных. Функция apply() с var() в качестве прикладной функции используется для вычисления дисперсии по строкам для указанных столбцов в данных. набор данных. Результирующий вектор individual_variances содержит вычисленные отклонения для каждого человека.
group_mean ‹- colMeans(data[, c(…)]): эта строка вычисляет среднее значение для всей группы по выбранным переменным. Функция colMeans() вычисляет среднее значение по столбцам для указанных столбцов в наборе данных data. Результирующий вектор group_mean содержит средние значения для всей группы.
group_variance ‹- apply(data[, c(…)], 2, var). Аналогично, в этой строке вычисляется дисперсия для всей группы по одному и тому же набору переменных. Функция apply() с var() в качестве прикладной функции используется для вычисления дисперсии по столбцам для указанных столбцов в данных. набор данных. Результирующий вектор group_variance содержит отклонения для всей группы.
Эти расчеты дают представление о центральной тенденции (среднее значение) и изменчивости (дисперсии) выбранных переменных как на индивидуальном, так и на групповом уровнях. Изучая индивидуальные средние значения и дисперсии, исследователи могут исследовать вариации этих переменных у разных людей. Точно так же групповое среднее и дисперсия дают сводку средних значений и дисперсии по всему набору данных.
Эти сводные статистические данные могут помочь исследователям понять характеристики и распределения переменных в наборе данных, что может быть полезно в последующем анализе или при интерпретации результатов моделей выживания или других статистических анализов.
Представленные результаты показывают коэффициенты корреляции для отношений между средним значением и дисперсией как на индивидуальном, так и на групповом уровнях. Вот интерпретация результатов:
- Отношение индивидуального среднего значения к дисперсии: код вычисляет корреляцию между отдельными средними значениями (individual_means) и отдельными дисперсиями (individual_variances). Коэффициент корреляции равен 0,4910476. Эта положительная корреляция предполагает умеренную связь между средним значением и дисперсией выбранных переменных на индивидуальном уровне.
Коэффициент корреляции колеблется от -1 до +1. Положительное значение указывает на то, что люди с более высокими средними значениями, как правило, имеют более высокие дисперсии, в то время как люди с более низкими средними значениями, как правило, имеют более низкие дисперсии. И наоборот, отрицательная корреляция будет указывать на обратную связь, когда люди с более высокими средними значениями имеют более низкие дисперсии, и наоборот. В этом случае положительная корреляция предполагает, что люди с более высокими средними значениями выбранных переменных, как правило, демонстрируют большую изменчивость или дисперсию этих переменных.
- Отношение среднего значения группы к дисперсии: код вычисляет корреляцию между средним значением группы (group_mean) и групповой дисперсией (group_variance). Коэффициент корреляции равен 0,7636821. Это указывает на сильную положительную корреляцию между средним значением и дисперсией на групповом уровне.
Сильная положительная корреляция означает, что по мере увеличения общего среднего значения выбранных переменных соответствующая дисперсия также имеет тенденцию к увеличению. Другими словами, когда группа имеет более высокие средние значения, существует большая изменчивость или дисперсия внутри группы.
Эти коэффициенты корреляции дают представление о взаимосвязи между средним значением и дисперсией как на индивидуальном, так и на групповом уровнях. Результаты показывают, что существует положительная связь между средним значением и дисперсией выбранных переменных, что указывает на то, что более высокие средние значения связаны с повышенной изменчивостью как на индивидуальном, так и на групповом уровнях. Однако важно отметить, что корреляция не подразумевает причинно-следственной связи, и может потребоваться дальнейший анализ или моделирование, чтобы понять основные факторы, способствующие этим отношениям.
В этом наборе данных можно наблюдать наличие эргодичности. Эргодичность подразумевает, что статистические свойства совокупности могут быть выведены из одного долгосрочного наблюдения или путем анализа отдельных наблюдений. В этом случае связь между тревогой и участием во времени изображается для каждого участника, показывая, как колеблются их значения. Кроме того, среднее значение и стандартное отклонение коэффициентов тревожности дают представление об общей изменчивости в популяции.
4. Как управлять эргодичностью в анализе выживания.
Продолжить чтение здесь…