Осмысление переполненного аналитического пространства с точки зрения разработчика
Когда вы запускаете продукт, вы очень быстро захотите понять, как он используется.
Чтобы стать лучше, нужно хотя бы понимать, что идет хорошо, а что плохо.
Какие функции нравятся вашим пользователям? Какие функции они ненавидят? Что превращает бесплатного пользователя в платного?
И тут на помощь приходит аналитика.
Но как выглядит «аналитика» на самом деле? Вы просто добавляете Google Analytics к своему продукту и покончили с этим?
Что ж, на самом деле пространство аналитики чрезвычайно переполнено, и каждая компания делает что-то немного по-своему.
Итак, как разработчик программного обеспечения, который создает конвейеры данных в аналитической компании, а также проводит технические демонстрации с компаниями всех форм и размеров, я решил дать вам краткий обзор того, как могут выглядеть различные настройки аналитики.
Граунд ноль
На раннем этапе аналитика часто оказывается далеко не приоритетной. Вы просто сосредоточены на том, чтобы вывести свой продукт на рынок.
Потом, возможно, вы немного подрастете и поймете, что «летаете вслепую» — пора настроить аналитику.
На этом этапе вы можете настроить какой-нибудь аналитический инструмент, увидеть, что ваши графики имеют только одну точку данных, и начать корить себя за то, что до сих пор не проводили никакой аналитики.
Чтобы получить какую-либо действительно значимую информацию, вам нужно подождать, пока у вас не будет данных хотя бы за несколько недель.
Однако не все потеряно на данный момент. Возможно, у вас уже есть какие-то данные, которые вы можете использовать.
Смотри, данные!
Во-первых, у вас есть база данных. Это, вероятно, не скажет вам, что пользователь XYZ нажал кнопку регистрации в 11 часов утра в прошлый вторник, но, вероятно, содержит некоторые полезные данные, такие как история покупок, последний вход в систему, общее количество пользователей в команде и т. д.
Самый простой способ провести здесь некоторый анализ — подключиться к экземпляру вашей базы данных и выполнить к нему несколько необработанных запросов.
В Интернете вы найдете много полезных фрагментов для базовых аналитических запросов, которых часто бывает достаточно, чтобы сдвинуться с мертвой точки.
И если вы действительно хотите сохранить минималистичную настройку, вы можете просто выгрузить данные во что-то вроде Excel и создать там несколько хороших визуализаций.
Кроме того, у вас могут лежать несколько полезных журналов. Соедините данные в своей базе данных с журналами сервера, и вы получите основу для хакерской настройки аналитики.
Теперь, если вы хотите немного улучшить свою игру, вы можете рассмотреть возможность использования платформы BI (Business Intelligence).
Такие продукты, как Metabase, Tableau, Apache Superset, PowerBI и Looker, могут подключаться к вашим существующим базам данных и позволяют вам очень легко выполнять запросы и создавать визуализации, поэтому вы можете сжать значение из ваших существующих данных, а также красиво отображать их.
Кроме того, эти инструменты могут подключаться к различным источникам данных, а также могут использоваться для таких задач, как мониторинг базы данных и выполнение запросов к производственным данным в более безопасной/удобной среде (т. пример).
В результате вы, вероятно, увидите больше пользы от использования инструмента BI по мере роста, а не просто откажетесь от него.
⭐ Приветствие с открытым исходным кодом:И Metabase, и Superset — это инструменты с открытым исходным кодом, которые вы можете разместить у себя.
Подождите, у меня уже есть аналитика?
Еще одна вещь, которую вы должны проверить, прежде чем злиться на себя за то, что не настроили аналитику раньше, — это если у вас уже настроена аналитика.
А?
Не зная об этом, некоторые сервисы, которыми вы пользуетесь, уже могут собирать для вас некоторые аналитические данные.
Хотя это не будет чем-то сделанным на заказ и адаптированным к вашим конкретным потребностям, это может быть хорошим началом.
CloudFare, AWS, Firebase, Netlify и многие другие (слишком много, чтобы сосчитать) обеспечивают уровень аналитики, который является отличной отправной точкой, поэтому определенно стоит проверить, собирает ли какая-либо из платформ, которые вы уже используете, какие-либо данные для ты все время.
Внедрение некоторой работы
Выжав из своих настроек всю возможную аналитическую ценность, вы решили сделать еще один шаг — вы действительно хотите настроить инструмент, который будет выполнять для вас дополнительное отслеживание.
Для базовой аналитики, которую легко настроить, у вас есть множество вариантов, например:
- Google Analytics: Инструмент для большинства начинающих, учитывая, что он бесплатный. Инструмент стал намного лучше за последние годы и теперь поддерживает отслеживание мобильных приложений, пользовательских событий (подробнее об этом позже) и более продвинутых визуализаций, таких как воронки. Тем не менее, Google Analytics очень агрессивен, когда речь идет о конфиденциальности пользователей, и блокируется большинством блокировщиков рекламы, в результате чего ваши числа не представлены.
- ⭐ Matomo: возможно, самая известная альтернатива Google Analytics с открытым исходным кодом. Matomo имеет почти 16 тысяч звезд на GitHub и имеет как облачные, так и самостоятельные варианты. Хотя у них есть SDK для отслеживания мобильных приложений, они по-прежнему в основном ориентированы на Интернет. Недостатком использования Matomo вместо Google Analytics является то, что вам придется либо потратиться на его самостоятельное размещение, либо потратить на использование их облачного варианта.
- ⭐ Правдоподобный:Правдоподобный — это новичок в округе, который добился большого успеха за последний год. Ключевыми преимуществами Plausible являются простота и конфиденциальность. Они также с открытым исходным кодом, но предоставляют только веб-аналитику (по крайней мере, пока). Основным недостатком Plausible является отсутствие функций, которые вы могли бы увидеть на других платформах, а также тот факт, что, как и в случае с большинством инструментов, не являющихся GA, за его использование нужно платить.
* Инструменты с открытым исходным кодом отмечены звездочкой.
В этой области есть множество других компаний, так что это всего лишь очень краткий обзор трех платформ, о которых я часто слышу. В конечном счете, Google Analytics по-прежнему является лидером рынка с большим отрывом, но альтернативы с открытым исходным кодом, ориентированные на конфиденциальность, в последнее время набирают популярность.
Наконец, основное преимущество таких инструментов заключается в том, что их очень легко настроить. Это не то, что займет у вас полдня; это больше похоже на полчаса или меньше. В частности, для веб-аналитики часто достаточно просто добавить фрагмент кода JavaScript на ваш веб-сайт.
«Современный стек данных»
Итак, мы рассмотрели основы. Но как выглядит современный стек аналитики в крупных компаниях?
Как и следовало ожидать, это сильно различается, поэтому любое обобщение, которое я здесь сделаю, неизбежно будет ограниченным.
Тем не менее, есть четыре основных компонента, которые составляют стек аналитики в крупных компаниях, которые я назову следующим образом:
- Конвейер данных
- Основная аналитика
- Хранилище данных
- «Дополнительно»
Итак, давайте изучим их.
Конвейер данных
То, что я называю компонентом «конвейер данных», на самом деле является довольно широким аспектом, который может даже охватывать множество инструментов.
На мой взгляд, этот «компонент» выполняет две основные функции: сбор и предоставление данных. Дополнительная третья обязанность конвейеров данных также потенциально может преобразовывать данные между сбором и доставкой.
Чтобы проводить аналитику, вы должны сначала собрать данные, часто из нескольких источников: вашего маркетингового веб-сайта, вашего веб-приложения, вашего мобильного приложения и т. д.
Затем вам нужно передать эти данные в службы, которые вы используете для их анализа, а также, возможно, в место, где вы сбрасываете данные для хранения (например, хранилище данных, подробнее об этом позже).
И, возможно, попутно эти данные необходимо проанализировать/преобразовать по таким причинам, как обогащение или совместимость с различными инструментами, которые вы используете.
Для вашего конвейера данных у вас есть несколько вариантов:
- Построй свой собственный
2. Используйте инструмент из следующего раздела, чтобы также использовать его в качестве пайплайна
3. Используйте платформу, предоставляющую эту услугу (обычно называемую CDP — Платформа данных клиентов).
Многие компании выбирают вариант 3, так как быстрая настройка даст вам надежный конвейер с поддержкой преобразований, повторных попыток, извлечения данных из множества источников и отправки их в еще большее количество пунктов назначения.
Некоторые компании в этом пространстве:
- Сегмент:Сегмент – наиболее популярный инструмент в этой области, и недавно он был продан компании Twilio за многомиллиардную сделку. Это отраслевой стандарт, который подключается практически ко всему, к чему вам нужно подключиться.
- ⭐ Snowplow:Snowplow — это первоначальный инструмент с открытым исходным кодом в пространстве CDP, существующий с 2012 года. В основном он ориентирован на экспорт данных в хранилища, но расширяется за счет подключения к другим SaaS-инструменты. Его ключевым преимуществом является шаг преобразования, о котором мы упоминали ранее, поскольку они уделяют большое внимание чистым, стандартизированным и высококачественным данным.
- ⭐ RudderStack:В отличие от Snowplow, который имеет немного другую направленность, RudderStack — это инструмент с открытым исходным кодом, который во многих отношениях является альтернативой Segment. Они также совместимы с Segment API, что упрощает переход. RudderStack набирает обороты, но он намного моложе, чем Snowplow и Segment.
Почетное упоминание: я недавно видел запуск ⭐ Jitsu на HackerNews. Они представляют собой альтернативу сегмента с открытым исходным кодом, поддерживаемую YC, которая также выглядит многообещающе.
Базовая аналитика
Базовая аналитика — это термин, который я использую для обозначения платформ, на которых вы выполняете основную часть анализа данных для своего продукта.
О некоторых из этих инструментов мы уже говорили, например о Google Analytics и его альтернативах. Но есть еще одна категория инструментов, которую мы еще не рассмотрели: платформы продуктовой аналитики.
Грань между этими категориями размыта. Традиционно платформы продуктовой аналитики имеют инструменты, которые позволяют проводить более глубокий сквозной анализ вашего продукта, а также обеспечивают поддержку аналитики на уровне пользователей и групп, в отличие от модели агрегированных данных, используемой инструментами, которые мы рассмотрели ранее.
Это меняется, особенно в связи с тем, что в последние годы Google Analytics расширяет сферу своей деятельности. Тем не менее, вот лучшие самопровозглашенные инструменты продуктовой аналитики на рынке (все они компании YCombinator):
- Amplitude:Amplitude — самая успешная компания в сфере продуктовой аналитики. Они также первыми вышли на IPO, сделав это недавно. Они существуют уже около десяти лет, и у них есть зрелый продукт, который предоставляет все, что вам нужно, чтобы ответить на большинство ваших вопросов по аналитике продукта.
- Mixpanel:Из инструментов, которые я упомяну здесь, Mixpanel — самый старый. Они прошли YC в 2009 году, и их набор функций в основном сопоставим с Amplitude. Судя по моему (ограниченному) опыту, пользователи, как правило, очень ценят пользовательский интерфейс Mixpanel, а также его инструменты для отслеживания и управления рекламными кампаниями.
- Heap:Heap — это еще один инструмент, который охватывает весь стек продуктовой аналитики, но отличается тем, что предлагает автозахват событий. В отличие от Mixpanel и Amplitude, где разработчикам необходимо инструментировать каждое событие, которое они хотят отслеживать, Heap по умолчанию фиксирует поведение пользователей, например клики, и имеет зрелый стек для очистки и анализа этих данных задним числом.
- ⭐ PostHog:PostHog — одна из самых молодых компаний в этой области, и она имеет открытый исходный код, что позволяет пользователям самостоятельно размещать платформу в своей собственной инфраструктуре.
Отказ от ответственности. я работаю в PostHog инженером-программистом (поэтому я все знаю из этой статьи). Однако никто в PostHog даже не знал, что я пишу эту статью, полностью написанную в свободное время.
Почетное упоминание: June — самая молодая компания, которую я видел, которая произвела фурор в сфере продуктовой аналитики. Они полагаются на вышеупомянутый сегмент для сбора данных и, похоже, отличаются простотой настройки и использования.
Хранилище данных
До сих пор в этой статье мы рассмотрели дюжину или более инструментов, которые могут оказаться в стеке аналитики.
Каждая из этих платформ (за исключением тех, которые находятся поверх вашей базы данных) представляет собой собственное хранилище данных, но вы можете получить информацию, анализируя данные из этих разных источников вместе.
Введите хранилища данных.
Хранилища данных — это платформы, предназначенные для хранения большого количества данных, обычно из нескольких источников, которые работают как централизованная точка входа для всех данных, которые вы собираете.
Вы можете использовать их для хранения данных в течение длительного периода времени, а также для выполнения сложных аналитических задач.
Хранилища традиционно использовались более крупными компаниями, но я видел, что стартапы все более склонны добавлять хранилище данных в свой стек на раннем этапе, что, вероятно, связано с огромным объемом данных, которые можно легко собрать в наши дни.
По сути, любая хорошо масштабируемая база данных может служить хранилищем данных. Однако выбор подходящего решения для хранилища во многом зависит от типа данных, которые вы хотите хранить, а также от вашей цели.
Учитывая, что любая база данных теоретически может быть хранилищем, область применения огромна. Тем не менее, выделенное пространство облачных хранилищ лидируют Snowflake, Google BigQuery и Amazon Redshift.
Что касается вариантов с открытым исходным кодом ⭐, которые вы могли бы разместить самостоятельно, Apache Hive — это специализированное хранилище, изначально созданное Facebook, а ориентированные на аналитику системы баз данных, такие как ClickHouse, Timescale и Apache Druid, также являются некоторыми примерами. инструменты, которые можно использовать для хранения данных.
Дополнительные услуги
И, наконец, последний пункт в нашем списке.
«Дополнительно» — это свободная группа, которая относится ко всем типам инструментов, которые не были упомянуты в трех других категориях.
Они состоят из инструментов, которые обычно не являются необходимыми, но все же представляют большую ценность, поэтому их стоит кратко обсудить.
Примеры включают инструменты, которые предоставляют более качественные данные, такие как тепловые карты и повторы сеансов (например, Hotjar, Fullstory), или инструменты для экспериментов (например, LaunchDarkly).
Они также могут быть платформами для отслеживания рекламы, платформами для обмена сообщениями с клиентами, инструментами продаж и т. д.
В конце концов, у большинства компаний в стеке данных есть одно из этих «дополнений», и они упомянуты здесь, потому что важно подумать о том, как они сочетаются с остальными инструментами.
Это все люди!
Вот и все — мы рассмотрели основы стека продуктовой аналитики.
Полное руководство будет размером с книгу, но, надеюсь, оно поможет вам начать работу.