Генерация изображений: ChatGPT, Gemini, Nano Banana

Зачем AI для генерации изображений?

Современные AI-инструменты генерируют изображения за секунды по текстовому описанию. Для разработчиков это означает:

Автоматические обложки для контента и постов
Прототипирование UI без дизайнера
Генерация иллюстраций для документации
Создание ассетов для игр и приложений
Персонализированные изображения в продуктах

В 2026 году главные игроки — GPT-4o (gpt-image-1), Nano Banana Pro (Gemini), и Midjourney v8. У каждого свои сильные стороны.

GPT-4o Image Generation (gpt-image-1)

ChatGPT с марта 2025 полностью перешёл на нативную генерацию изображений через GPT-4o, заменив DALL-E 3. Официальное название API-модели: gpt-image-1.

Что умеет

Генерация изображений из текстового промпта
Редактирование существующих изображений (inpainting)
Генерация с учётом ссылочных изображений (style transfer)
Чёткое отображение текста внутри изображений
Понимание контекста разговора — “сделай то же, но в синих тонах”

Тарифы (2026)

Качество	Размер	Цена за изображение
Low	1024×1024	~$0.011
Medium	1024×1024	~$0.042
High	1024×1024	~$0.167

Как использовать через API

from openai import OpenAI
import base64

client = OpenAI(api_key="sk-...")

response = client.images.generate(
    model="gpt-image-1",
    prompt="Логотип технологического стартапа: минимализм, синий градиент, круг с молнией",
    size="1024x1024",
    quality="medium",
    n=1
)

# Изображение возвращается в base64
image_base64 = response.data[0].b64_json
image_bytes = base64.b64decode(image_base64)

with open("logo.png", "wb") as f:
    f.write(image_bytes)

print("Изображение сохранено: logo.png")

import OpenAI from 'openai';
import fs from 'fs';

const client = new OpenAI({ apiKey: process.env.OPENAI_API_KEY });

const response = await client.images.generate({
  model: 'gpt-image-1',
  prompt: 'Логотип технологического стартапа: минимализм, синий градиент, круг с молнией',
  size: '1024x1024',
  quality: 'medium',
  n: 1
});

// Сохранить base64
const imageBase64 = response.data[0].b64_json;
const imageBuffer = Buffer.from(imageBase64, 'base64');
fs.writeFileSync('logo.png', imageBuffer);

console.log('Изображение сохранено: logo.png');

curl https://api.openai.com/v1/images/generations \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-image-1",
    "prompt": "Логотип: минимализм, синий градиент, круг с молнией",
    "size": "1024x1024",
    "quality": "medium"
  }' | jq -r '.data[0].b64_json' | base64 -d > logo.png

Редактирование изображения

response = client.images.edit(
    model="gpt-image-1",
    image=open("original.png", "rb"),
    mask=open("mask.png", "rb"),  # Белая область = что изменить
    prompt="Замени фон на закат над горами",
    size="1024x1024"
)

Nano Banana Pro (Gemini 3 Pro Image)

Nano Banana Pro — кодовое название флагманской модели Google для генерации изображений. API-идентификатор: gemini-3-pro-image-preview. Вышла в начале 2026 года.

Возможности

Генерация изображений из текста с высокой детализацией
Нативная поддержка мультиязычного текста в изображениях (ошибки < 10%)
Понимание до 14 ссылочных изображений одновременно
Скорость генерации: 8-12 секунд
SynthID watermarking — идентификация AI-изображений

Тарифы (2026)

Модель	Цена за изображение
Nano Banana Pro (`gemini-3-pro-image-preview`)	$0.039
Imagen 4 Fast	$0.020
Imagen 4 Ultra	$0.040

Бесплатно через Google AI Studio: до 500-1000 изображений в день (зависит от модели).

Установка и настройка

pip install google-genai

Получи API ключ на aistudio.google.com.

from google import genai
from google.genai import types
import base64

client = genai.Client(api_key="AIza...")

response = client.models.generate_content(
    model="gemini-3-pro-image-preview",
    contents="Нарисуй обложку для технического курса по AI: футуристично, неоновые цвета, код на фоне",
    config=types.GenerateContentConfig(
        response_modalities=["IMAGE", "TEXT"]
    )
)

for part in response.candidates[0].content.parts:
    if part.inline_data:
        image_bytes = base64.b64decode(part.inline_data.data)
        with open("cover.png", "wb") as f:
            f.write(image_bytes)
        print("Сохранено: cover.png")
    elif part.text:
        print(part.text)

import { GoogleGenAI } from '@google/genai';
import fs from 'fs';

const ai = new GoogleGenAI({ apiKey: process.env.GOOGLE_API_KEY });

const response = await ai.models.generateContent({
  model: 'gemini-3-pro-image-preview',
  contents: 'Нарисуй обложку для технического курса по AI: футуристично, неоновые цвета',
  config: {
    responseModalities: ['IMAGE', 'TEXT']
  }
});

for (const part of response.candidates[0].content.parts) {
  if (part.inlineData) {
    const imageBuffer = Buffer.from(part.inlineData.data, 'base64');
    fs.writeFileSync('cover.png', imageBuffer);
    console.log('Сохранено: cover.png');
  }
}

OpenClaw: Nano Banana Pro скилл

В OpenClaw есть встроенный скилл для работы с Nano Banana Pro:

/nano-banana-pro нарисуй логотип для приложения с котом-хакером

Скилл автоматически выбирает модель, формирует запрос и возвращает изображение прямо в чат.

Midjourney v8

Midjourney — лидер по художественному качеству изображений. Версия v8 (2026) добавила:

Нативный веб-интерфейс (не только Discord)
Режим Character Reference — сохранение внешности персонажей
Style Reference — применение стиля одного изображения к другому
Улучшенная фотореалистичность

Важно: нет официального API

По состоянию на начало 2026, у Midjourney нет официального публичного API. Все официальные взаимодействия — через Discord-бот или веб-интерфейс на midjourney.com.

Для автоматизации используют:

APIFrame (apiframe.ai) — unofficial wrapper API
Apify — cloud scraper для автоматизации
Zapier/Make — no-code интеграции

Тарифы (2026)

Plan	Цена	GPU часы
Basic	$10/мес	3.3 ч/мес
Standard	$30/мес	15 ч/мес
Pro	$60/мес	30 ч/мес
Mega	$120/мес	60 ч/мес

FLUX — Open Source альтернатива

FLUX от Black Forest Labs — лучший open source вариант на 2026 год. Полностью самохостится.

# Установка через diffusers
pip install diffusers transformers accelerate

# Или запуск через ComfyUI
git clone https://github.com/comfyanonymous/ComfyUI

from diffusers import FluxPipeline
import torch

pipe = FluxPipeline.from_pretrained(
    "black-forest-labs/FLUX.1-dev",
    torch_dtype=torch.bfloat16
)
pipe.enable_model_cpu_offload()

image = pipe(
    "Футуристичный город ночью, неоновые огни, дождь",
    height=1024,
    width=1024,
    num_inference_steps=50,
).images[0]

image.save("city.png")

Модели FLUX:

FLUX.1-schnell — быстрая, Apache 2.0 лицензия (коммерческое использование)
FLUX.1-dev — высокое качество, non-commercial
FLUX.1-pro — через API fal.ai, $0.055/изображение

Сравнение инструментов

GPT-4o (gpt-image-1)

Лучший для: текст в изображениях, контекстное редактирование, интеграция с ChatGPT
API: ✅ Официальный
Цена: от $0.011/img
Уникально: нативное понимание диалога

Nano Banana Pro

Лучший для: детализированные иллюстрации, мультиязычный текст, бесплатная квота
API: ✅ Официальный
Цена: от $0.020/img
Уникально: 14 референсных изображений одновременно

Midjourney v8

Лучший для: художественные изображения, маркетинговые материалы
API: ❌ Нет официального
Цена: от $10/мес
Уникально: художественное качество вне конкуренции

FLUX (open source)

Лучший для: self-hosted, коммерческие проекты без API-зависимости
API: через fal.ai / Replicate
Цена: $0 (self-host) / от $0.055
Уникально: полный контроль, без цензуры

Когда что использовать

Задача	Рекомендация
Генерация в чате/продукте	GPT-4o gpt-image-1
Большой объём, бюджет важен	Imagen 4 Fast (Gemini)
Максимальное художественное качество	Midjourney (вручную)
Self-hosted / privacy-first	FLUX.1-schnell
Прототипирование (бесплатно)	Google AI Studio
Интеграция в OpenClaw	Nano Banana Pro скилл

Практика: автоматическая генерация обложек

Создадим скрипт, который генерирует обложку для статьи по заголовку.

import os
from openai import OpenAI
import base64

client = OpenAI(api_key=os.environ["OPENAI_API_KEY"])

def generate_cover(title: str, output_path: str = "cover.png"):
    """Генерирует обложку для статьи по заголовку."""

    prompt = f"""
    Создай обложку для технической статьи на тему: "{title}".
    Стиль: современный, минималистичный, тёмный фон, акцентный цвет — синий или фиолетовый.
    Без текста в изображении. Абстрактные технологические элементы.
    """

    response = client.images.generate(
        model="gpt-image-1",
        prompt=prompt,
        size="1792x1024",  # Широкоформатная обложка
        quality="medium"
    )

    image_bytes = base64.b64decode(response.data[0].b64_json)

    with open(output_path, "wb") as f:
        f.write(image_bytes)

    print(f"Обложка сохранена: {output_path}")
    return output_path

# Использование
generate_cover("Введение в вайб-кодинг с AI", "vibe-coding-cover.png")
generate_cover("Cursor vs Codex: сравнение AI-редакторов", "cursor-vs-codex-cover.png")

Batch-генерация через Gemini (дешевле)

from google import genai
from google.genai import types
import base64
import asyncio

client = genai.Client(api_key=os.environ["GOOGLE_API_KEY"])

async def generate_batch(titles: list[str]):
    """Генерирует обложки для списка статей параллельно."""

    async def generate_one(title: str, index: int):
        response = await client.aio.models.generate_content(
            model="imagen-4-fast",  # Более дешёвая модель для batch
            contents=f"Обложка для статьи: {title}. Технологический стиль, тёмные тона",
            config=types.GenerateContentConfig(
                response_modalities=["IMAGE"]
            )
        )

        for part in response.candidates[0].content.parts:
            if part.inline_data:
                img_bytes = base64.b64decode(part.inline_data.data)
                filename = f"cover_{index}.png"
                with open(filename, "wb") as f:
                    f.write(img_bytes)
                print(f"Готово: {filename}")

    tasks = [generate_one(title, i) for i, title in enumerate(titles)]
    await asyncio.gather(*tasks)

# Запуск
titles = [
    "Как настроить Cursor для максимальной продуктивности",
    "FLUX vs Midjourney: что выбрать в 2026",
    "Автоматизация с OpenClaw: практическое руководство"
]
asyncio.run(generate_batch(titles))

Промпт-инжиниринг для изображений

Хороший промпт = хорошее изображение. Несколько приёмов:

Структура промпта

[Объект/сцена] + [Стиль] + [Освещение] + [Качество] + [Цветовая схема]

Плохо:

Кот программист

Хорошо:

Кот в толстовке с капюшоном сидит за двумя мониторами с кодом,
профессиональная студийная фотография, мягкое боковое освещение,
cyberpunk стиль, неоновые синие и фиолетовые тона, детализированный fur

Полезные ключевые слова

Качество	Стиль	Освещение
`photorealistic`	`minimalist`	`golden hour`
`8K resolution`	`cyberpunk`	`studio lighting`
`highly detailed`	`flat design`	`neon lights`
`sharp focus`	`isometric`	`backlit`
`professional photo`	`illustration`	`dramatic shadow`

Официальные ресурсы

DALL-E 3 (OpenAI) — генерация изображений от OpenAI
Google Gemini — мультимодальный AI от Google
Nano Banana Pro (OpenClaw) — скилл генерации изображений

Ресурсы

OpenAI Images API docs — официальная документация gpt-image-1
Google AI Studio — бесплатная квота для Nano Banana Pro
Midjourney Docs — официальная документация
FLUX на Hugging Face — open source модели
fal.ai — облачный запуск FLUX и других open source моделей