Построение диагностики аутизма с использованием данных микробиома кишечника и машинного обучения
Когда мне было около 8 лет, моему двоюродному брату поставили диагноз аутизм.
В то время я мало что знал об аутизме. Для меня он был обычным ребенком, который носил подгузники и плакал.
Однако я помню, как мои родители говорили, что это действительно хорошо, что мои тетя и дядя «рано поймали» - я думаю, что это было около его первого дня рождения, когда ему поставили диагноз.
Честно говоря, я не особо об этом подумал, когда они это сказали. Но в последнее время я стал больше думать об этом.
Я думал о нескольких вещах: почему хорошо, что они рано заметили признаки? Что это меняет? Почему обычно трудно диагностировать аутизм? Как это исправить?
Найдя ответы на эти вопросы, я сосредоточился на способах ранней диагностики и оценки риска аутизма. В конце концов, я создал алгоритм машинного обучения для диагностики аутизма с помощью данных микробиома кишечника, которые я объясню в этой статье :)
Эта статья разбита на 3 основных раздела:
- Аутизм и диагноз
- Связь между аутизмом и микробиомом кишечника
- Как я использовал машинное обучение для анализа данных микробиома кишечника
Аутизм и диагноз
По данным CDC, каждый 54-й ребенок в Америке страдает расстройством аутистического спектра (РАС).
Аутизм - это нарушение психического развития, которое влияет на восприятие и взаимодействие с другими людьми и окружающей средой, что приводит к проблемам в поведении и общении.
Как и у большинства заболеваний, поражающих мозг, у них нет одной причины. Исследования показывают, что аутизм возникает в результате сочетания генетических факторов и факторов окружающей среды.
Эти факторы могут увеличить риск того, что у ребенка разовьется аутизм, что отличается от причины. Например, некоторые изменения генов, связанные с аутизмом, также могут быть обнаружены у людей, не страдающих этим расстройством. Аутизм влияет на мозг детей по-разному - иногда это отдельные клетки мозга, а иногда целые области мозга.
Учитывая неоднородность заболевания и тот факт, что оно проявляется в виде спектра тесно связанных симптомов, аутизм может быть очень трудно точно диагностировать, особенно на ранней стадии.
И очень важно, чтобы аутизм был диагностирован как можно раньше в жизни ребенка. Раннее вмешательство обязательно, во многом из-за явления, известного как нейропластичность. Нейропластичность - это способность мозга реорганизовываться путем формирования новых нейронных связей, называемых синапсами, на протяжении всей жизни.
Нейропластичность экспоненциально выше на ранних стадиях развития, поэтому малыши учатся так быстро. Синапсы практически не сокращаются или удаляются примерно до 4-летнего возраста.
Таким образом, чем раньше диагностируется и лечится аутизм, тем эффективнее и продолжительнее его последствия. Исследования показали, что если дети получат раннее вмешательство, более вероятно, что им не понадобится интенсивная поддержка в начальной школе и за ее пределами.
По сути, ранняя диагностика аутизма меняет правила игры для аутичных детей и их семей. Но опять же, это очень сложно, учитывая его неоднородность.
Это проблема, которую я хотел решить, и одним местом, где я нашел много возможностей, был микробиом кишечника.
Связь между кишечным микробиомом и аутизмом
Микробиом кишечника - это совокупность всех микробов, обитающих в желудочно-кишечном тракте. Вместе их около 100 триллионов (которые, как ни странно, весят столько же, сколько манго).
Исследования на самом деле показали, что состав микробиома кишечника в значительной степени коррелирует с множеством различных заболеваний, таких как синдром раздраженного кишечника, ожирение, диабет и интересующий меня аутизм!
Исследования показали, что у детей с РАС набор кишечных микробов отличается от микробов у детей без этого заболевания. По мере того, как проводится больше исследований по этой теме, все больше данных подтверждают связь между аутизмом и микробиомом .
Фактически, сообщалось, что стерильные мыши - мыши, лишенные типичной смеси кишечных микробов - избегали других мышей, избегали новых социальных ситуаций и чрезмерно ухаживали за собой. Вот несколько других примечательных (и совершенно потрясающих) результатов:
- Бесплодные мыши, получавшие кишечные микробы от людей с РАС, имели потомство, которое меньше социализировалось и проявляло более повторяющееся поведение. Эти мыши также имели более низкие уровни соединений, продуцируемых кишечными бактериями, которые влияют на функцию мозга, в частности два метаболита, которые, как известно, повышают активность рецепторов гамма-аминомасляной кислоты (ГАМК) мозга. У детей с РАС отмечены отклонения в системе ГАМК. Когда команда дала два недостающих метаболита мышам с симптомами аутизма, «они уменьшили основной дефицит в социальном взаимодействии и повторяющемся поведении».
- Примерно 30–50% всех людей с аутизмом имеют хронические желудочно-кишечные проблемы, в первую очередь запор и / или диарею.
- В одном исследовании дети принимали ежедневную дозу микробов от людей без РАС в течение 8 недель. Через два года после лечения большинство первоначальных улучшений кишечных симптомов осталось. Кроме того, родители сообщили о медленном неуклонном уменьшении симптомов РАС во время лечения и в течение следующих двух лет. Профессиональный оценщик обнаружил снижение основных симптомов РАС (языка, социального взаимодействия и поведения) на 45% через два года после лечения по сравнению с тем, что было до начала лечения.
Хотя взаимосвязь, безусловно, существует, предстоит еще много исследований, чтобы выяснить точные механизмы, с помощью которых кишечные микробы общаются с мозгом, получившие название оси микробиом-кишечник-мозг.
Ось микробиом-кишечник-мозг - это биохимический канал связи между микробами в желудочно-кишечном тракте и центральной нервной системе, включающий нервные, иммунные и эндокринные пути. Ось двунаправлена, что означает, что мозг также может влияют на состав микробиома кишечника.
Ниже представлена схема основных способов, которыми кишечные микробы прямо или косвенно общаются с центральной нервной системой:
- Микробы взаимодействуют с иммунными клетками и заставляют их выделять цитокины (сигнальные белки, секретируемые клетками иммунной системы). Цитокины циркулируют из крови в мозг.
- Микробы взаимодействуют с энтероэндохринными клетками стенки кишечника, которые производят нейроактивные соединения. Эти соединения взаимодействуют с блуждающим нервом, самым сложным черепным нервом в организме человека, который посылает сигналы в мозг. Они взаимодействуют с блуждающим нервом через кишечную нервную систему, огромную сеть, распространенную по всему пищеварительному тракту, состоящую из более чем 500 миллионов нейронов. По оценкам, от 80 до 90 процентов нейронов блуждающего нерва передают сенсорную информацию из желудка и кишечника в мозг.
- Микробы производят метаболиты и нейромедиаторы. Эти молекулы циркулируют в головном мозге, где некоторые из них достаточно малы, чтобы проникнуть через гематоэнцефалический барьер.
- Хотя это не прямой путь коммуникации, мы действительно обнаружили кишечные бактерии человека в тканях мозга.
Еще одну схему из аналогичного исследования можно увидеть ниже:
Предлагаемые механизмы, с помощью которых бактерии получают доступ к мозгу и влияют на поведение на этой диаграмме, включают:
- Бактериальные продукты, попадающие в мозг через кровоток и постремную зону.
- Высвобождение цитокинов из иммунных клеток слизистой оболочки
- Высвобождение кишечных гормонов, таких как серотонин, также известного как 5 ‑ гидрокситриптамин (5 ‑ HT), из энтероэндохринных клеток.
- Афферентные нервные пути, включая блуждающий нерв
- Стресс может влиять на микробиом кишечника через высвобождение гормонов и симпатических нейромедиаторов. Гормоны, такие как норадреналин, могут влиять на экспрессию бактериальных генов или передачу сигналов между бактериями, изменяя состав и активность кишечного микробиома.
Когда кишечные бактерии помогают переваривать пищу, они производят множество побочных продуктов, которые могут влиять на мышление и поведение. Бактериальные патогены Clostridia, например, вырабатывают в кишечнике пропионовую кислоту - короткоцепочечную жирную кислоту, которая, как известно, нарушает производство нейротрансмиттеров. Пропионовая кислота также вызывает у крыс симптомы аутизма, такие как повторяющиеся интересы, необычные двигательные движения и атипичные социальные взаимодействия.
Кроме того, когда у мышей с аутизмом были более низкие уровни кишечных бактерий Bifidobacterium и Blautia, их кишечник вырабатывал меньше триптофана и желчной кислоты - соединений, необходимых для производства серотонина, нейромедиатор, который играет роль в регуляции настроения.
Машинное обучение и анализ данных для диагностики
Учитывая связь между аутизмом и микробиомом, я хотел создать модель машинного обучения для диагностики аутизма с использованием данных микробиома кишечника субъектов с РАС и без них. И с учетом важности раннего вмешательства, о которой я говорил ранее, конечной целью является использование такого алгоритма для ранней оценки риска аутизма.
Используя секвенирование 16S рРНК, около 150 родов бактерий были измерены в образце стула от каждого субъекта в наборе данных (n = 40). Численное содержание каждого рода в испытуемых определялось с использованием базы данных SILVA.
Анализ главных компонентов
Перед использованием машинного обучения я хотел визуализировать данные с помощью анализа главных компонентов (PCA) с учетом большой размерности данных.
PCA - это метод, используемый для уменьшения размерности данных, повышения их интерпретируемости при минимизации потерь информации. Это достигается за счет создания новых некоррелированных переменных, которые максимизируют дисперсию данных.
Другими словами, он упрощает сложность данных, сохраняя при этом тенденции и закономерности в них.
С помощью Scikit-learn я провел двухкомпонентный PCA, то есть сократил набор данных до двух измерений. Часть моего кода можно увидеть ниже:
#Importing libraries from sklearn.decomposition import PCA from sklearn.preprocessing import StandardScaler #Scaling features features = StandardScaler().fit_transform(features) #PCA pca = PCA(n_components=2) principalComponents = pca.fit_transform(features) principalDf = pd.DataFrame(data=principalComponents, columns = ['Principal Component 1','Principal Component 2'])
Каждый объект в наборе данных теперь имеет 2 переменные (главный компонент 1 и главный компонент 2), которые я затем построил:
Результат выше. Каждая синяя точка является объектом с РАС, а каждая зеленая точка - объектом контроля. Отчетливо видна разница между группами.
Классификатор случайного леса
Учитывая меньший размер набора данных и имеющуюся задачу, для прогнозирования аутизма было наиболее разумным использовать классификатор случайного леса (RFC). (Хотя я сравнивал его с другими моделями, такими как SVM, нейронная сеть и k-ближайшие соседи).
Прежде чем я перейду к тому, что такое классификатор случайного леса, нам нужно получить базовое представление о деревьях решений.
На высоком уровне деревья решений классифицируют данные.
Приведенное выше дерево решений определяет, подходит ли человек или нет, в зависимости от особенностей конкретного человека. Например, первый узел разделяет людей по возрасту. Этот узел называется корневым узлом, хотя по иронии судьбы он находится на вершине дерева.
Как вы понимаете, это дерево решений может быть организовано множеством различных способов. Например, «Упражнения по утрам?» можно поставить на позицию «Возраст‹ 30? »
Однако причина «Возраст‹ 30? » находится наверху, потому что это функция, которая разделяет данные на группы, которые наиболее отличаются друг от друга, в которых члены каждой группы наиболее похожи друг на друга. Другими словами, в нем самая низкая примесь Джини.
Примесь Джини - это один из способов оценить, насколько хорошо узел разделяет классы или насколько «нечистым» является узел:
Формулу можно увидеть выше, в которой (p i) - это вероятность класса i в узле. Чем ниже результат, тем лучше узел разделяет данные.
Используя эту формулу, мы можем создать дерево решений на основе некоторых образцов данных и функций.
Однако деревья решений хороши только для классификации данных, которые они уже видели раньше (что в значительной степени противоречит цели). Здесь проявляется сила случайного леса, сочетающего простоту деревьев решений с гибкостью.
Случайный лес использует ансамбль деревьев решений, поэтому считается типом ансамблевого обучения. Каждое дерево решений обучается на случайном подмножестве n функций (с заменой). Таким образом, большинство деревьев решений не одинаковы.
Наиболее частый прогноз, сделанный деревьями решений, также называемый режимом или агрегатом, - это то, к чему классифицируется выборка.
Сначала создается самонастраиваемый набор данных (того же размера, что и исходный). Для этого мы просто случайным образом выбираем образцы из исходного набора данных (с заменой). Затем для обучения дерева решений выбирается n случайных объектов из набора данных, критерием является примесь Джини.
Этот процесс повторяется до тех пор, пока не будут построены сотни деревьев решений, каждое из которых использует самонастраиваемый набор данных и случайное подмножество функций.
После того, как случайный лес создан, его можно использовать для классификации образцов, которые он раньше не видел. Какая бы классификация ни использовалась чаще всего, возможно, «пригодная» или «непригодная», является окончательной классификацией. Когда мы используем агрегирование (наиболее частая классификация) и загружаем данные, это называется пакетированием, сокращенно от начальной агрегации.
Я использовал эту технику для диагностики аутизма с помощью данных микробиома кишечника, каждая особенность которого является относительной численностью всех измеренных родов бактерий. Часть моего кода можно увидеть ниже:
#Splitting data x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.2, random_state=42) #Scaling features sc = StandardScaler() x_train = sc.fit_transform(x_train) x_test = sc.transform(x_test) #RFC rfc = RandomForestClassifier(n_estimators=200) rfc.fit(x_train, y_train) pred_rfc = rfc.predict(x_test)
Как видно выше, случайный лес, который я создал, имеет 200 деревьев решений. После настройки гиперпараметров (в частности, настройки количества деревьев решений в лесу, максимальной глубины деревьев и максимального количества функций) результат можно увидеть ниже:
Общая точность случайного классификатора лесов составила 88%!
Преимуществом использования случайного леса является интерпретируемость модели (по сравнению с другими моделями, такими как нейронные сети). Я смог использовать Scikit-learn, чтобы распечатать, как выглядит одно из деревьев решений в лесу:
Каждый узел определяет следующий узел, на который будут переданы данные, на основе некоторого порога. Например, узел на самом верху (корневой узел) смотрит на изобилие вейлонелловых у субъекта. Если он равен ≤ -0,2, то он будет передан в левый узел, но если нет, он будет передан в листовой узел справа. Каждый листовой узел классифицирует субъекта как аутичного или не аутичного.
Будущее
В будущем я планирую связаться с лабораториями, чтобы собрать больше данных для обучения моделей машинного обучения, а также исследовать развитие микробиома кишечника.
Таким образом, я могу выяснить, на каком этапе развития имеет смысл секвенировать микробиом кишечника ребенка для оценки риска аутизма на его самых ранних стадиях, а также, надеюсь, других заболеваний!
Привет, спасибо, что прочитали! Я 16-летний разработчик машинного обучения, влюбленный в мозг ❤ инновации в области психического здоровья с помощью науки и технологий. В настоящее время я стажусь в Apollo Neuroscience. Свяжитесь со мной в LinkedIn, если вам понравилась эта статья, или напишите мне письмо на [email protected], если вы хотите продолжить обсуждение этой статьи или просто поболтать!
Если вам эта статья показалась интересной, возможно, вас заинтересуют и другие мои работы:
-Мики :)