Основатели с опытом из Google создают платформу для анализа видеоконтента
Компании создают больше видео, чем когда-либо. Годы архивных телевизионных записей, тысячи камер наблюдения в магазинах и бесчисленные часы производственного контента — большая часть этого материала просто лежит на серверах, не просматривается и не анализируется. Это тёмные данные: огромный неиспользуемый ресурс, который организации собирают автоматически, но почти никогда не применяют осмысленно.
Чтобы решить эту проблему, Аза Кай (генеральный директор) и Хираку Янагита (операционный директор), два бывших сотрудника Google, почти десять лет проработавших вместе в Google Japan, решили создать собственное решение. Дуэт основал InfiniMind, стартап из Токио, который разрабатывает инфраструктуру для преобразования петабайтов неиспользуемых видео- и аудиозаписей в структурированные бизнес-данные, доступные для поиска.
«Мы с моим сооснователем, который десять лет руководил решениями для брендов и данных в Google Japan, ещё работая в Google, увидели приближение этого переломного момента», — сказал Кай. К 2024 году технологии созрели, а рыночный спрос стал достаточно очевиден, чтобы сооснователи почувствовали необходимость создать компанию самостоятельно, добавил он.
Кай, ранее работавший в Google Japan с облачными технологиями, машинным обучением, рекламными системами и моделями рекомендаций видео, а позже возглавлявший команды data science, пояснил, что текущие решения вынуждают идти на компромисс. Ранние подходы могли маркировать объекты на отдельных кадрах, но не могли отслеживать повествование, понимать причинно-следственные связи или отвечать на сложные вопросы о содержании видео. Для клиентов с десятилетиями телевизионных архивов и петабайтами записей даже базовые вопросы об их контенте часто оставались без ответа.
Что действительно изменило ситуацию, так это прогресс в моделях «зрение-язык» между 2021 и 2023 годами. Именно тогда ИИ для видео начал выходить за рамки простого распознавания объектов, отметил Кай. Снижение стоимости GPU и ежегодный прирост производительности примерно на 15–20% за последнее десятилетие сыграли свою роль, но ключевым фактором стали возможности — до недавнего времени модели просто не справлялись с такой задачей, рассказал он TechCrunch.
InfiniMind недавно привлёк 5,8 миллиона долларов в рамках начального раунда финансирования под руководством UTEC при участии CX2, Headline Asia, Chiba Dojo и исследователя ИИ из a16z Scout. Компания переносит свою штаб-квартиру в США, сохраняя при этом офис в Японии. Япония предоставила идеальный полигон для испытаний: мощное аппаратное обеспечение, талантливые инженеры и поддерживающая экосистема для стартапов, что позволило команде доработать свою технологию с требовательными клиентами перед выходом на глобальный уровень.
Их первый продукт, TV Pulse, был запущен в Японии в апреле 2025 года. Эта платформа на базе искусственного интеллекта анализирует телевизионный контент в реальном времени, помогая медиакомпаниям и ритейлерам «отслеживать демонстрацию товаров, присутствие брендов, настроения аудитории и эффект от PR-кампаний», как сообщает стартап. После пилотных программ с крупными вещателями и агентствами у них уже есть платящие клиенты, включая оптовых дистрибьюторов и медиахолдинги.
Теперь InfiniMind готов выйти на международный рынок. Их флагманский продукт, DeepFrame — платформа для анализа длинных видео, способная обрабатывать 200 часов записи для точного поиска конкретных сцен, говорящих или событий, — запланирован к бета-релизу в марте, а полный запуск состоится в апреле 2026 года, сообщил Кай.
Рынок видеоаналитики сильно фрагментирован. Такие компании, как TwelveLabs, предлагают универсальные API для понимания видео широкому кругу пользователей, включая потребителей, просьюмеров и предприятия, отметил Кай. В то время как InfiniMind фокусируется исключительно на корпоративных задачах, включая мониторинг, безопасность и анализ видеоконтента для получения глубоких инсайтов.
«Наше решение не требует программирования; клиенты предоставляют свои данные, а наша система обрабатывает их и даёт практические рекомендации», — сказал Кай. «Мы также интегрируем анализ аудио, звука и речи, а не только визуала. Наша система работает с видео любой длины, а экономическая эффективность — наше ключевое преимущество. Большинство существующих решений фокусируются на точности или конкретных задачах, но не решают проблему стоимости».
Фондирование посевного раунда поможет команде продолжить разработку модели DeepFrame, расширить инженерную инфраструктуру, нанять больше инженеров и привлечь новых клиентов в Японии и США.
«Это захватывающая область, один из путей к ОИИ (общему искусственному интеллекту)», — заявил Кай. «Понимание общего видеоконтента — это понимание реальности. Промышленные приложения важны, но наша конечная цель — раздвигать границы технологий, чтобы лучше понимать реальность и помогать людям принимать более обоснованные решения».