
SurfSense: настраиваемый ИИ-агент для исследований с интеграцией личной базы знаний
В современную эпоху с огромным потоком информации традиционные инструменты поиска уже не всегда позволяют эффективно структурировать и анализировать данные. Проект SurfSense — это попытка вывести исследование информации на новый уровень, связав мощь ИИ-агента с вашей персональной базой знаний.
Что такое SurfSense?
SurfSense — это высоконастраиваемый исследовательский ИИ-агент, который не только умеет работать с запросами по любым темам, как популярные решения NotebookLM и Perplexity, но и интегрирован с разнообразными внешними источниками данных и вашей собственной базой. Проект открыт и поддерживает локальное размещение, что важно для сохранения приватности.
Основные особенности проекта
-
Интеграция с личной базой знаний и множеством внешних сервисов
SurfSense связывается с поисковыми движками (Tavily, LinkUp), корпоративными инструментами (Slack, Jira, Linear, ClickUp, Confluence), почтовыми сервисами (Gmail), платформами для ведения заметок и управления проектами (Notion, Airtable), видеохостингами (YouTube) и многими другими, включая GitHub, Discord, Google Calendar и даже Luma. -
Поддержка множества форматов файлов
Можно сохранять и анализировать информацию из более чем 50 типов файлов — текстовых документов, презентаций, таблиц, изображений, аудио и видео. Это даёт возможность создавать максимально полную и разнообразную базу знаний. -
Мощный поиск и чат по сохранённому контенту
SurfSense анализирует ваши данные с помощью гибридного поиска (семантический поиск + полнотекстовый), что обеспечивает точность и релевантность результатов. При этом можно вести диалог естественным языком и получать ответы с ссылками на источник ("цитируемые ответы"). -
Локальная поддержка LLM и приватность
Платформа поддерживает работу с локальными языковыми моделями, такими как Ollama, что позволяет работать с ИИ без отдачи данных на сторонние серверы. Этот момент особенно важен при работе с чувствительной информацией. -
Генерация подкастов из диалогов
Уникальная возможность быстро превращать переписку с агентом в аудиоконтент — подкаст длительностью около 3 минут создаётся менее чем за 20 секунд. Поддерживается работа с локальными и облачными TTS-провайдерами (Kokoro TTS, OpenAI, Azure, Google Vertex AI). -
Современные методы Retrieval-Augmented Generation (RAG)
Используется иерархический индекс с двухуровневой структурой, поддерживаются 100+ языковых моделей и 6000+ моделей эмбеддингов. Кроме того, внедрены лучшие ранжировщики, что позволяет повысить качество поиска и генерации ответов. -
Кроссбраузерное расширение для сохранения страниц
Позволяет сохранять любые веб-страницы, даже если они находятся за авторизацией, без необходимости копировать содержимое вручную. -
Отрытость и возможность самостоятельного хостинга
SurfSense доступен через Docker и ручную установку с поддержкой Windows, macOS и Linux. Документация по развертыванию подробная и покрывает все сложности настройки.
Примеры применения
-
Исследовательская работа и учёба
Вместо разбросанных заметок и файлов вы создаёте единое хранилище, куда складываются статьи, документы, видеолекции и даже корпоративные чаты. ИИ во взаимодействии с такой базой помогает быстро находить нужную информацию и формулировать выводы. -
Работа с корпоративными знаниями
SurfSense интегрируется с Jira, Linear, Slack и прочим, что упрощает поиск по проектной документации, историям сообщений и отчетам. Это предотвращает потерю важной информации в потоке ежедневной коммуникации. -
Контент-мейкинг и создание подкастов
Переписки с ИИ-агентом можно превращать в аудиоформат, создавая краткие тематические подкасты для донесения знаний коллегам или аудитории. -
Личное управление знаниями
Удобно сохранять информацию из веба по интересующим темам, работать с файлами разного типа и быстро получать ответы на вопросы, основанные на вашем же личном опыте и материалах.
Технические детали
-
Бэкенд: написан на Python с использованием FastAPI, использует PostgreSQL с расширением pgvector для поиска по векторам. Реализованы современные фреймворки LangGraph, LangChain для построения ИИ-агентов и тонкой работы с LLM. Для аутентификации FastAPI Users, миграции Alembic.
-
Фронтенд: построен на Next.js и React с TypeScript, применены современные библиотеки для UI и анимаций (Framer Motion, Tailwind CSS, Sonner для уведомлений).
-
DevOps: удобное развертывание в Docker с поддержкой управления базой данных через pgAdmin.
-
Поддержка ETL-сервисов: Unstructured, LlamaIndex, Docling для загрузки, разбивки и обработки разнообразных файлов.
Итог
SurfSense — это многообещающий проект для тех, кто хочет вывести исследовательскую работу на новый уровень с помощью ИИ. Возможность объединить персональные знания с корпоративными ресурсами, быстро искать и получать объяснения, гибко настраивать ИИ-агента под свои нужды и при этом сохранять полную конфиденциальность — это сочетание, которого долго не хватало.
Если вы разработчик, исследователь или продвинутый пользователь с потребностью в умном агрегаторе знаний — SurfSense заслуживает вашего внимания и тестирования. Проект активно развивается, и вклад сообщества приветствуется.