Как оценить вероятность дефолта с помощью нейронной сети
Кредитный риск концептуально существует уже тысячи лет, полезные кредитные рейтинги — около века, количественные оценки кредитного риска — полвека, а в последнее время наука о данных за последние несколько лет повысила его точность. Тем не менее, по-прежнему существуют проблемы с целостностью данных, методологический скептицизм и распространенное чрезмерное упрощение путей кредитных событий. Ниже я описываю свой подход, который первоначально начался, когда я закодировал инструменты кредитно-дефолтного свопа для торгового стола хедж-фонда в 2007 году.
На протяжении большей части истории человечества дефолт по кредиту был преступлением, эквивалентным воровству и мошенничеству, за которое полагались суровые наказания. Богатые и могущественные откажутся, а остальные попытаются пересмотреть условия или сбежать, спасая свою жизнь. И кредиторы, и должники рисковали репутацией в своих социальных деловых кругах, если не было погашения.
Начиная с конца 1960-х годов академическая работа Уильяма Бивера, Эдварда Альтмана и Роберта Мертона заложила основу кредитно-рейтинговых агентств 1980-х годов как нового направления бизнеса в США. категории были преобразованы в числовую иерархию или то, что специалисты по данным сегодня называют кодированием. Корпоративный кредитный риск, смешанный с потребительским кредитным риском, как новый анализ управления рисками в сочетании с инновациями для управления портфелем фиксированного дохода.
Кульминацией всего стала самая важная переменная для управления кредитными рисками, которой была вероятность дефолта, как оцениваемая или, как сказали бы специалисты по данным, изучаемая для множества должников от стабильных до рискованных. Управление кредитным риском, по своей сути, представляет собой ожидаемый кредитный убыток от неплатежа должника, равный . . . шанс по умолчанию. . . раз превышает ожидаемую экспозицию по умолчанию. . . раз превышает ожидаемый убыток при дефолте. Здесь есть еще кое-что, но Управление кредитными рисками превратилось в широко используемые определения кредитных событий, приведенные ниже.
Прежде чем мы пойдем дальше, отметим некоторые недавние проблемы с целостностью данных и методологические проблемы, связанные с кредитным риском. С 2020 года политика правительства США в отношении моратория на арендные платежи и другие льготы для должников может неточно отражаться в кредитных рейтингах компаний или частных лиц. Должники, которые могли заплатить, но не были обязаны. . . связаны с должниками, которые не могут платить в рамках моратория Cluster. Точны ли кредитные рейтинги или нет, сейчас в 2022 году вызывает серьезную озабоченность.
Более того, вопросы экзогенности и эндогенности усложняют методологию управления кредитным риском. Если в вашей модели науки о данных все (почти) идеально из важных наборов данных и надежной модели, то макроэкономическое событие может сделать вашу вероятность дефолта неправильной. Прошлые наблюдения за рецессиями, массовыми увольнениями, обвалом фондового рынка и другими неблагоприятными экономическими событиями могут превратить кластер сегментации клиентов в одного клиента кластера, потому что как стабильные, так и рискованные кредитные рейтинги группируются вместе, в отличие от чего-либо прежде. . И компании, и частные лица, которые никогда не пропускали платежи, выглядят так же, как отдельная группа, пропустившая один или два платежа. Внешняя сила опережает внутреннюю динамику, поскольку экзогенность может быть сложно предсказать. Всем менеджерам по управлению кредитными рисками нужна отдельная и надежная макроэкономическая модель на панели управления, чтобы управлять своими решениями о рисках и направлять их. Хорошие кредитные рейтинги не застрахованы от макроэкономической рецессии.
Путаница причины и следствия также является общей проблемой в управлении кредитным риском. Если одним из ваших входных данных в вашей модели Data Science является кредитный рейтинг должника, а вашим выходом является вероятность дефолта, вы можете смешивать переменные. Интерпретация вашей модели будет затруднена, поскольку способность должника производить платежи отражается в обеих переменных. Что еще более важно, введение высокого смещения и добавление большего количества данных сделают его менее полезным. Как на вывод вероятности невыполнения обязательств в вашей модели обработки данных, так и на ввод кредитного рейтинга влияет единый поток платежных обязательств, который сбивает с толку причинный фактор из-за эндогенности. (Это все равно, что положить цену облигации в качестве входных данных и ту же доходность облигации в качестве ее выходных данных, что приводит к чему?). Вы можете использовать тест Хаусмана, чтобы принять или отклонить тест гипотезы, чтобы определить, существует ли связь между входной переменной и вашим ошибочным термином. Будьте готовы отказаться от ввода кредитного рейтинга и перейти к Разработке функций.
Моделирование вероятности дефолта для управления кредитными рисками изначально началось с доступного уравнения логистической регрессии, математические расчеты которого существуют уже полтора века. Это был Двоичный классификатор по умолчанию или не по умолчанию. В 1990-х годах Байесовские и Цепи Маркова следовали классическим традициям, поскольку современные модели использовали преимущества Машины опорных векторов и Случайный лес. сильные> модели в прошлом десятилетии. В последнее время нейронные сети несколько раз обучались для повышения точности надежного числа вероятности невыполнения обязательств. С самого начала мы начнем с простой нейронной сети как уравнения логистической регрессии, а затем перейдем к обработке ошибок с несколькими проходами по набору данных в набор моделей или в одну сеть.
TensorFlow и PyTorch — это ваши базовые библиотеки Python, к которым нужно обратиться в первую очередь, но давайте пройдемся, прежде чем приступать к работе. В нейронных сетях широко распространено использование итерационных, неограниченных и нелинейных методов оптимизации наборов данных, таких как алгоритм Бройдена–Флетчера–Голдфарба–Шанно, которыйможет выполнить лучшая работа по точному сопоставлению типов кредитного риска, как указано выше. Он сходится быстрее, чем стохастический градиентный спуск (SGD) и адаптивная оценка момента или Адам.
Глубина вашей нейронной сети — это ваши скрытые слои, и она будет зависеть от размеров и характеристик вашего набора данных, но придерживаться десятков, таких как 100 и 50, — это хорошее начало. В отличие от всех других типов моделирования, упомянутых ранее, вы можете использовать гиперпараметр Скорость обучения, чтобы изменять свои оценки в сторону функции минимальных потерь на каждой итерации по набору данных. Чтобы лучше изучить или оценить набор данных, вы можете добавить или вычесть нули после запятой. Важным достижением в моделировании является обучение вашей модели 10 или даже 100 раз по набору данных, чтобы повысить точность надежной оценки вероятности невыполнения обязательств. Выше приведен многоуровневый классификатор персептрона. strong> к дефолту или нет, вероятностно, и отличное начало вашего путешествия по применению искусственного интеллекта к кредитному риску, точно так же, как естественный интеллект в конце 1960-х годов.
Вы также можете проверить мои прошлые рецензии на акции и иностранную валюту США ниже.