🙋 Вы создаете приложение для генеративного ИИ, используя LLM или API? Вы работаете над новым recsys, современной поисковой системой или новым аналитическим инструментом для неструктурированных данных? Хорошие новости: вам больше не нужно бороться с высокой стоимостью Pinecone, чрезмерной сложностью или проблемами конфиденциальности данных.
🚀 LanceDB — это бесплатная база данных векторов с открытым исходным кодом, которую вы можете запускать локально или на своем собственном сервере. Это молниеносно, и его легко встроить в ваш внутренний сервер. Ознакомьтесь с нашим репозиторием github или pip install lancedb
, чтобы начать.
Для быстрой демонстрации вы можете взглянуть на наш образец приложения для поиска транскриптов YouTube. Скоро мы добавим многое другое. Для получения более подробной информации об API см. Документацию LanceDB.
❓ Почему мы создали LanceDB
Когда мы разговаривали с разработчиками приложений ML/AI, пользователи часто возражали, пытаясь заставить такие сервисы, как Pinecone, даже работать. Через некоторое время мы поняли, что рабочий процесс извлечения-фильтрации-гидратации часто был серьезным узким местом в производительности и задержке приложения.
Итак, мы объединили наши головы. Я был одним из первых соавторов библиотеки pandas. Лэй был одним из основных участников HDFS и руководил инфраструктурой машинного обучения в Cruise. Используя наш опыт создания инструментов обработки данных и машинного обучения, мы создали нечто совершенно новое.
LanceDB ❤️ строители
Мы полностью переосмыслили векторный поиск, чтобы повысить производительность, масштабируемость и производительность разработчиков. LanceDB поддерживается форматом Lance — современным колоночным форматом данных, который является альтернативой паркету. Он оптимизирован для высокоскоростного произвольного доступа и управления наборами данных ИИ, такими как векторы, документы и изображения.
Затем мы добавили наши собственные реализации ряда алгоритмов SOTA ANN-index на Rust для поддержки векторного поиска с малой задержкой. Эти индексы основаны на SSD и могут легко масштабироваться за пределами памяти.
Более того, LanceDB позволяет хранить и фильтровать другие объекты вместе с векторами. Наши пользователи смогли заменить 3–4 разных хранилища данных только на LanceDB и одновременно добиться ускорения.
🔥 Обновления
С момента нашего первого релиза 2 недели назад произошло много интересных вещей. Благодаря Minh Le из сообщества, теперь у нас есть интеграция с LangChain. Наша интеграция с LlamaIndex также находится на рассмотрении.
В настоящее время мы сосредоточены на создании реализации TypeScript с нативным интерфейсом — сервер Python не требуется! Если у вас есть мысли о том, как должен выглядеть правильный API, прыгайте на этот PR и дайте нам знать!
🛣️ Дорожная карта
В настоящее время мы предоставляем пакет Python под названием lancedb, который можно установить с помощью pip и который обеспечивает отличный локальный рабочий процесс. Помимо того, над чем мы работаем прямо сейчас, вы можете ожидать следующее:
- Экосистема интеграция в плагин OpenAI / AutoGPT и т. д.
- Расширенный набор функций встраивания и обработки документов.
- Галерея приложений для генеративного ИИ на базе LanceDB
- Решения для облачного развертывания
🙏 Мы хотим услышать от вас
Мы хотели бы узнать ваше мнение о LanceDB. Если у вас есть вопросы, отзывы или вам нужна помощь в использовании LanceDB в вашем приложении, напишите нам по адресу [email protected]. И мы будем очень признательны за вашу поддержку в виде звезды Github на нашем репозитории LanceDB ⭐