Вчера Google тихо преподнес сюрприз, который заставил меня пересмотреть весь мой рабочий процесс разработки с использованием ИИ.
Как человек, который активно использовал Gemini 2.5 Flash API для проектов программирования, я проснулся и обнаружил, что моя любимая модель стала значительно дороже.
В моих предыдущих статьях вы знаете, что я много использую Google Gemini API для своего программирования в Visual Studio Code с Cline.
Я всегда использовал Gemini 2.5 Flash API без режима мышления, потому что он был дешевым и всегда справлялся с задачей.
Тихое повышение цен, которое застало всех врасплох
Позвольте мне разобрать, что именно произошло с повышением стоимости Gemini API.
Раньше я платил всего $0,15 за миллион входных токенов и $0,60 за миллион выходных токенов для Gemini 2.5 Flash без режима мышления.
Теперь Google полностью удалил ценовой уровень без режима мышления и объединил всё под одной дорогой ценой: $0,30 за входные и $2,50 за выходные токены.
На мой взгляд, это выглядит как классический приём «приманка и подмена».
Google позволил разработчикам создавать приложения на основе более дешёвого тарифа Gemini 2.5 Flash, а затем повысил цены, когда модель достигла общей доступности.
Представляем Gemini 2.5 Flash-Lite: новый бюджетный вариант
Чтобы немного смягчить удар, Google представил Gemini 2.5 Flash-Lite API с более привлекательными ценами: $0,10 за входные и $0,40 за выходные токены (за миллион).
Что такое Gemini 2.5 Flash Lite?
По словам Google, Gemini 2.5 Flash-Lite — это их самая экономичная и быстрая модель в семействе 2.5.
Она предназначена для высокообъёмных задач, чувствительных к задержкам, таких как перевод и классификация.
Модель поставляется со всеми основными возможностями: контекст в 1 миллион токенов, мультимодальный ввод, поддержка Google Search и выполнение кода.
Мой личный опыт: от доступного до дорогого
Я интенсивно использовал Gemini API для программирования, особенно для моих проектов интеграции Gemini с Visual Studio Code.
Режим без мышления идеально подходил для большинства моих задач разработки — он был быстрым, точным и невероятно экономичным.
Иногда я включал режим мышления Gemini API для сложных проблем, но по цене $3,50 за миллион выходных токенов это редко стоило того.
Теперь меня вынуждают принять сложное решение: платить значительно больше за ту же функциональность или довольствоваться потенциально менее способной моделью.
Gemini 2.5 Flash против Flash Lite: правда о производительности
Позвольте мне показать, как именно эти модели сравниваются, используя официальные данные тестирования от Google.
Это сравнение показывает, почему я обеспокоен компромиссами экономичной модели Gemini API.
Таблица сравнения цен
Тесты производительности: проверка реальности
Здесь возникают проблемы для разработчиков вроде меня, которым нужна надежная производительность.
Как видите, производительность Gemini Flash Lite значительно снижается в критически важных областях.
Особенно для задач программирования падение производительности существенное — именно то, чего я опасался.
Цены на Google AI API: контекст и конкуренция
Это изменение цен ставит Google в интересное положение по сравнению с конкурентами.
В то время как сравнение цен на OpenAI API показывает, что GPT-4.1 Mini предлагается по конкурентоспособным тарифам, а сравнение цен на Claude API показывает премиальное позиционирование Anthropic, Google, казалось, выигрывал гонку цена-производительность.
Теперь они по сути вынуждают пользователей выбирать между стоимостью и возможностями.
Лимиты использования и вопрос плана Ultra
С этими изменениями цен многие разработчики спрашивают: стоит ли план Gemini Ultra того для пользователей API?
Основываясь на моем анализе, ответ в целом отрицательный для большинства разработчиков, ориентированных на API.
План Ultra больше предназначен для пользователей приложения Gemini, чем для разработчиков, создающих приложения.
Ограничения скорости Gemini API и структура ценообразования работают лучше через прямой доступ к API, чем через пакетные планы.
Кому следует (и кому не следует) обновляться
Рассмотрите обновление, если:
Вам регулярно требуется режим мышления для сложных задач рассуждения.
Ваше приложение требует максимально возможной точности, и вы можете принять повышение стоимости.
Вы создаете корпоративные инструменты разработки с ИИ, где производительность важнее стоимости.
Оставайтесь с альтернативами, если:
Вы создаете чувствительные к затратам приложения в масштабе.
Ваш случай использования не требует дополнительных возможностей рассуждения.
Вы можете достичь аналогичных результатов с моделями DeepSeek AI или другими экономичными альтернативами.
Вы выполняете простые задачи кодирования, где сниженная производительность Flash-Lite приемлема для экономии средств.
Более широкая картина: тенденции ценообразования моделей ИИ
Этот шаг отражает более широкие тенденции в ландшафте затрат на API моделей ИИ.
Поскольку Google понимает, что их модели дают отличные результаты по сравнению с OpenAI или Claude, они корректируют цены в соответствии с предполагаемой ценностью.
Это классический случай того, что я называю «шринкфляцией ИИ-моделей» — вы получаете меньше возможностей за ту же цену или платите больше за ту же функциональность.
Сроки совпадают с предстоящим прекращением поддержки Gemini 2.0 Flash, что вынуждает разработчиков переходить на новую структуру ценообразования.
Часто задаваемые вопросы
Стал ли Gemini 2.5 Flash дороже, чем раньше?
Да, если вы раньше использовали режим без мышления, теперь вы платите в 4 раза больше за выходные токены (с $0,60 до $2,50) и в 2 раза больше за входные токены (с $0,15 до $0,30).
Может ли Gemini Flash Lite заменить Gemini 2.5 Flash для программирования?
Для базовых задач программирования, возможно, но ожидайте сниженной точности. Flash-Lite показывает результаты на 17,3% ниже в тестах редактирования кода и на 7,4% ниже в генерации кода по сравнению с обычным Flash.
Каков контекстный объем Gemini 2.5 Flash Lite?
Flash-Lite сохраняет тот же контекстный объем в 1 миллион токенов, что и обычный Flash, что делает его подходящим для задач обработки больших документов.
Почему Google изменил цены на Gemini API?
Google сослался на исключительную ценность 2.5 Flash и устранил путаницу в ценообразовании между режимами с мышлением и без мышления. По сути, они консолидируются вокруг своего премиального предложения.
Как Gemini 2.5 Flash сравнивается с GPT-4.1 mini?
При текущих ценах GPT-4.1 Mini становится более конкурентоспособным по стоимости, особенно для приложений, которые не требуют мультимодальных возможностей Gemini или режима мышления.
Google AI Studio всё ещё бесплатен?
Да, Google AI Studio сохраняет щедрые ограничения бесплатного уровня: 500 запросов в день, 250 000 токенов в минуту, что покрывает большинство сценариев разработки и тестирования.
Какие лучшие альтернативы Gemini 2.5 Flash?
Рассмотрите Anthropic Claude Sonnet 4 для задач рассуждения, GPT-4.1 Mini для сбалансированной производительности или модели DeepSeek AI для чувствительных к стоимости приложений.
Как я могу снизить свои расходы на Gemini API?
Оптимизируйте длину запросов, используйте кеширование контекста для повторяющихся запросов, тестируйте Flash-Lite для некритичных задач и рассмотрите гибридные подходы с использованием нескольких моделей в зависимости от сложности задачи.
Есть ли у Gemini 2.5 Flash ещё режим без мышления?
Технически да — вы можете установить бюджет мышления на ноль — но вы будете платить ту же цену, что и за режим мышления, что устраняет преимущество в стоимости.
Заключение: навигация в новом ландшафте Gemini
Представление Google Gemini 2.5 Flash-Lite наряду с изменениями цен на обычный Flash представляет собой стратегический сдвиг в сторону ценообразования, основанного на ценности.
Хотя улучшения производительности во Flash реальны, повышение стоимости вынуждает разработчиков делать сложные компромиссы.
По моему опыту, ключевым моментом является тщательное тестирование Flash-Lite для ваших конкретных случаев использования перед принятием производственных решений.
Для многих приложений, особенно тех, которые связаны с высокопроизводительными задачами ИИ или требованиями к моделям ИИ с низкой задержкой, Flash-Lite может оказаться адекватным, несмотря на компромиссы в производительности.
Более широкий урок здесь — важность не становиться слишком зависимым от ценовой модели какого-либо одного поставщика ИИ.
Поскольку ландшафт ценообразования больших языковых моделей (LLM) продолжает развиваться, сохранение гибкости в вашей архитектуре ИИ становится всё более ценным.