Есть ли в страховании проблема справедливости? Использование кредитных рейтингов для установления премий по автострахованию является ярким примером того, как не движущие факторы увеличивают расходы для тех, кто меньше всего может их себе позволить.

Внедрение машинного обучения в страхование теоретически представляет собой шанс перезагрузить и создать более прозрачную систему. В этом заключается миссия технического директора и соучредителя Cover Ананда Диллона.

Проблема в том, что машинное обучение, как и большинство новых инноваций, оказывается палкой о двух концах. Что, если алгоритмы не устраняют предвзятость, а вместо этого создают новые типы дискриминации?

Какова конечная цель инженеров insurtech в отрасли, основанной на сегментировании людей на группы на основе предполагаемого риска? Разработчики могут реально решить эту проблему?

Ответы на подобные вопросы - одна из самых больших технических - и этических - проблем в сфере инсуртех.

Мы поговорили с Анандом, чтобы узнать его мнение.

ОБЛОЖКА: Прежде всего: как машинное обучение меняет методы ведения бизнеса страховыми компаниями?

AD: Ценообразование в страховании - это все о данных. Актуарии берут огромное количество данных истории претензий, затем изучают такие атрибуты, как возраст, почтовый индекс, пол и т. Д., И оценивают взаимосвязь между этими характеристиками и количеством поданных претензий.

Страховая премия - это, по сути, представление вашего предполагаемого риска для страховой компании на основе проанализированных характеристик.

Таким образом, с машинным обучением алгоритм берет на себя роль оценки взаимосвязи между этими характеристиками и историей претензий. По сути, вы позволяете алгоритму решать, сколько человек должен заплатить.

ОБЛОЖКА: Так в чем же проблема?

AD: Основная проблема, с которой вы сталкиваетесь, заключается в том, что вы тренируетесь на основе наборов данных, а набор данных, с которым вы начинаете, имеет какую-то неявную предвзятость.

Всякий раз, когда в наборе данных уже существует предвзятость - так что если у кого-то более низкий кредитный рейтинг или они одиноки - это уже отражено в его истории несчастных случаев или истории претензий.

Когда вы используете эти данные для обучения алгоритма машинного обучения, этот алгоритм будет иметь аналогичную ошибку.

ОБЛОЖКА: Означает ли это, что внедрение машинного обучения в страхование действительно может ухудшить ситуацию?

AD: Это действительно зависит от того, как это в конечном итоге будет реализовано. Если он реализуется через системы, основанные на поведении, с использованием телематики, это, вероятно, делает его лучше.

Это также зависит от того, как вы оптимизируете систему - оптимизируете ли вы ее для минимального страхового взноса, минимального требования и т. Д. Но если он в основном берет существующую историю претензий и пропускает ее через алгоритм машинного обучения, это потенциально может ухудшить ее. .

ОБЛОЖКА: Итак, если ключом является реализация, как защитить себя от этого?

AD: Что вы можете сделать, так это внести изменения в данные, которые вы вводите. Допустим, вы получаете информацию об этнической принадлежности каждого. Если вы подключите его, вы получите вес, основанный на расе.

Самый простой способ избежать этого - убрать гонку из входной характеристики, чтобы алгоритм не заметил этого.

ОБЛОЖКА: Как вы в первую очередь выявляете предубеждения?

AD: Существуют существующие библиотеки или сторонние решения, которые проверяют справедливость вашего существующего алгоритма.

Есть несколько вещей, которые вы можете делать дома. Допустим, вы хотите, чтобы что-то не было предвзято по признаку пола, например, вы можете взять набор входных характеристик, выделить пол, обучить систему, а затем вернуть пол для тестового подмножества, а затем посмотреть, есть ли различия между мужчиной и женский.

При разработке системы вы должны делать заметки там, где это потенциально может быть предвзятым. Когда он будет завершен, вы можете проверить его, чтобы увидеть, существуют ли эти предубеждения и нужно ли вам внести изменения.

Однако здесь есть проблема второго порядка. Если, например, раса коррелирует с какой-либо другой характеристикой в ​​наборе данных - так, скажем, раса коррелирует с почтовым индексом - как вы избавитесь от предвзятости?

ОБЛОЖКА. Тогда является ли устранение предубеждений в страховании реальной целью для страховых компаний?

AD: Это невозможно. Это больше о том, к каким характеристикам вы согласны быть предвзятыми, и к каким характеристикам вы хотите приложить все усилия, чтобы быть справедливым. Во всем будет некоторая степень предвзятости, поэтому вы идете на компромисс.

Чем больше у вас данных о человеке и информации об его автомобиле, тем более персонализированным будет предложение. Чем больше характеристик вы удалите, тем более общим будет цитата.

Тогда проблема, с которой вы столкнетесь, заключается в том, что плохие драйверы субсидируются хорошими драйверами.

ОБЛОЖКА: Были бы эти алгоритмы более прозрачными, чем система, которая у нас есть сейчас?

AD: Есть разные типы алгоритмов, которые вы можете использовать. Некоторые из них представляют собой «черный ящик», и вы не можете их объяснить.

Есть и другие типы, в которых встроена большая объяснимость. Они ближе к чему-то вроде многомерной регрессии. Если вы хотите объяснить кому-то нетехническому, вы должны использовать те более легко объяснимые алгоритмы, которые фактически показывают результат работы модели.

По сути, для создания рейтинговых таблиц используется машинное обучение, а не создание черного ящика.

ОБЛОЖКА. Как еще могут инженеры разработать более справедливые способы ценообразования на страхование?

AD: Сейчас все меняется в сторону использования телематики, то есть отслеживания физического вождения, а не оценки характеристик. Теоретически со временем это будет больше отражать то, насколько кто-то является рискованным водителем.

Затем вы можете начать учитывать такие вещи, как часы, которые они едут. Например, если это ночью, их труднее увидеть, поэтому они, вероятно, несколько выше рискуют. Вы можете посмотреть, имеют ли они тенденцию ускоряться или быстро останавливаться, совершают ли они длительные поездки или короткие поездки, где они едут, где они припарковывают свою машину и т. Д.

С помощью этих систем с большим количеством данных ценообразование становится более индивидуальным для конкретного человека и менее универсальным в зависимости от того, к какой категории он попадает.

Компромисс заключается в том, что при переходе от ценообразования, основанного на текущих характеристиках, к ценообразованию, основанному на поведении, ставки некоторых людей значительно снизятся, и они выиграют. Для других людей ставки будут расти, потому что они на самом деле плохие водители.

В конце концов, главное - добиться справедливости с нуля.

Как только мы начинаем путь машинного обучения, мы хотим построить весь процесс так, чтобы он был справедливым и разумным.

Это означает вначале определение входных характеристик. Какие факторы мы действительно хотим повлиять на ставку?

Он встраивает его в процесс, проверяет - еще до того, как вы начнете - характеристики, которые должен иметь алгоритм, а затем проверяет эти характеристики на протяжении всего процесса.

С обычным алгоритмом машинного обучения у вас есть набор данных, который вы используете для обучения своей модели машинного обучения, а затем получаете результат. Что вы можете сделать вначале, так это разработать набор данных, в котором вы знаете, что ваш алгоритм предвзят, если вы получите определенные результаты.

Таким образом, на каждом этапе процесса вы можете протестировать свой новый алгоритм с набором данных детектора. В основном вы используете технологию, лежащую в основе алгоритма, чтобы также проверить алгоритм.