Перейти к содержимому

Генерация изображений: ChatGPT, Gemini, Nano Banana

Генерация изображений: ChatGPT, Gemini, Nano Banana

Современные AI-инструменты генерируют изображения за секунды по текстовому описанию. Для разработчиков это означает:

  • Автоматические обложки для контента и постов
  • Прототипирование UI без дизайнера
  • Генерация иллюстраций для документации
  • Создание ассетов для игр и приложений
  • Персонализированные изображения в продуктах

В 2026 году главные игроки — GPT-4o (gpt-image-1), Nano Banana Pro (Gemini), и Midjourney v8. У каждого свои сильные стороны.


ChatGPT с марта 2025 полностью перешёл на нативную генерацию изображений через GPT-4o, заменив DALL-E 3. Официальное название API-модели: gpt-image-1.

  • Генерация изображений из текстового промпта
  • Редактирование существующих изображений (inpainting)
  • Генерация с учётом ссылочных изображений (style transfer)
  • Чёткое отображение текста внутри изображений
  • Понимание контекста разговора — “сделай то же, но в синих тонах”
КачествоРазмерЦена за изображение
Low1024×1024~$0.011
Medium1024×1024~$0.042
High1024×1024~$0.167
from openai import OpenAI
import base64
client = OpenAI(api_key="sk-...")
response = client.images.generate(
model="gpt-image-1",
prompt="Логотип технологического стартапа: минимализм, синий градиент, круг с молнией",
size="1024x1024",
quality="medium",
n=1
)
# Изображение возвращается в base64
image_base64 = response.data[0].b64_json
image_bytes = base64.b64decode(image_base64)
with open("logo.png", "wb") as f:
f.write(image_bytes)
print("Изображение сохранено: logo.png")
response = client.images.edit(
model="gpt-image-1",
image=open("original.png", "rb"),
mask=open("mask.png", "rb"), # Белая область = что изменить
prompt="Замени фон на закат над горами",
size="1024x1024"
)

Nano Banana Pro — кодовое название флагманской модели Google для генерации изображений. API-идентификатор: gemini-3-pro-image-preview. Вышла в начале 2026 года.

  • Генерация изображений из текста с высокой детализацией
  • Нативная поддержка мультиязычного текста в изображениях (ошибки < 10%)
  • Понимание до 14 ссылочных изображений одновременно
  • Скорость генерации: 8-12 секунд
  • SynthID watermarking — идентификация AI-изображений
МодельЦена за изображение
Nano Banana Pro (gemini-3-pro-image-preview)$0.039
Imagen 4 Fast$0.020
Imagen 4 Ultra$0.040

Бесплатно через Google AI Studio: до 500-1000 изображений в день (зависит от модели).

Окно терминала
pip install google-genai

Получи API ключ на aistudio.google.com.

from google import genai
from google.genai import types
import base64
client = genai.Client(api_key="AIza...")
response = client.models.generate_content(
model="gemini-3-pro-image-preview",
contents="Нарисуй обложку для технического курса по AI: футуристично, неоновые цвета, код на фоне",
config=types.GenerateContentConfig(
response_modalities=["IMAGE", "TEXT"]
)
)
for part in response.candidates[0].content.parts:
if part.inline_data:
image_bytes = base64.b64decode(part.inline_data.data)
with open("cover.png", "wb") as f:
f.write(image_bytes)
print("Сохранено: cover.png")
elif part.text:
print(part.text)

В OpenClaw есть встроенный скилл для работы с Nano Banana Pro:

/nano-banana-pro нарисуй логотип для приложения с котом-хакером

Скилл автоматически выбирает модель, формирует запрос и возвращает изображение прямо в чат.


Midjourney — лидер по художественному качеству изображений. Версия v8 (2026) добавила:

  • Нативный веб-интерфейс (не только Discord)
  • Режим Character Reference — сохранение внешности персонажей
  • Style Reference — применение стиля одного изображения к другому
  • Улучшенная фотореалистичность

По состоянию на начало 2026, у Midjourney нет официального публичного API. Все официальные взаимодействия — через Discord-бот или веб-интерфейс на midjourney.com.

Для автоматизации используют:

  • APIFrame (apiframe.ai) — unofficial wrapper API
  • Apify — cloud scraper для автоматизации
  • Zapier/Make — no-code интеграции
PlanЦенаGPU часы
Basic$10/мес3.3 ч/мес
Standard$30/мес15 ч/мес
Pro$60/мес30 ч/мес
Mega$120/мес60 ч/мес

FLUX от Black Forest Labs — лучший open source вариант на 2026 год. Полностью самохостится.

Окно терминала
# Установка через diffusers
pip install diffusers transformers accelerate
# Или запуск через ComfyUI
git clone https://github.com/comfyanonymous/ComfyUI
from diffusers import FluxPipeline
import torch
pipe = FluxPipeline.from_pretrained(
"black-forest-labs/FLUX.1-dev",
torch_dtype=torch.bfloat16
)
pipe.enable_model_cpu_offload()
image = pipe(
"Футуристичный город ночью, неоновые огни, дождь",
height=1024,
width=1024,
num_inference_steps=50,
).images[0]
image.save("city.png")

Модели FLUX:

  • FLUX.1-schnell — быстрая, Apache 2.0 лицензия (коммерческое использование)
  • FLUX.1-dev — высокое качество, non-commercial
  • FLUX.1-pro — через API fal.ai, $0.055/изображение

GPT-4o (gpt-image-1)

Лучший для: текст в изображениях, контекстное редактирование, интеграция с ChatGPT
API: ✅ Официальный
Цена: от $0.011/img
Уникально: нативное понимание диалога

Nano Banana Pro

Лучший для: детализированные иллюстрации, мультиязычный текст, бесплатная квота
API: ✅ Официальный
Цена: от $0.020/img
Уникально: 14 референсных изображений одновременно

Midjourney v8

Лучший для: художественные изображения, маркетинговые материалы
API: ❌ Нет официального
Цена: от $10/мес
Уникально: художественное качество вне конкуренции

FLUX (open source)

Лучший для: self-hosted, коммерческие проекты без API-зависимости
API: через fal.ai / Replicate
Цена: $0 (self-host) / от $0.055
Уникально: полный контроль, без цензуры


ЗадачаРекомендация
Генерация в чате/продуктеGPT-4o gpt-image-1
Большой объём, бюджет важенImagen 4 Fast (Gemini)
Максимальное художественное качествоMidjourney (вручную)
Self-hosted / privacy-firstFLUX.1-schnell
Прототипирование (бесплатно)Google AI Studio
Интеграция в OpenClawNano Banana Pro скилл

Практика: автоматическая генерация обложек

Заголовок раздела «Практика: автоматическая генерация обложек»

Создадим скрипт, который генерирует обложку для статьи по заголовку.

import os
from openai import OpenAI
import base64
client = OpenAI(api_key=os.environ["OPENAI_API_KEY"])
def generate_cover(title: str, output_path: str = "cover.png"):
"""Генерирует обложку для статьи по заголовку."""
prompt = f"""
Создай обложку для технической статьи на тему: "{title}".
Стиль: современный, минималистичный, тёмный фон, акцентный цвет — синий или фиолетовый.
Без текста в изображении. Абстрактные технологические элементы.
"""
response = client.images.generate(
model="gpt-image-1",
prompt=prompt,
size="1792x1024", # Широкоформатная обложка
quality="medium"
)
image_bytes = base64.b64decode(response.data[0].b64_json)
with open(output_path, "wb") as f:
f.write(image_bytes)
print(f"Обложка сохранена: {output_path}")
return output_path
# Использование
generate_cover("Введение в вайб-кодинг с AI", "vibe-coding-cover.png")
generate_cover("Cursor vs Codex: сравнение AI-редакторов", "cursor-vs-codex-cover.png")
from google import genai
from google.genai import types
import base64
import asyncio
client = genai.Client(api_key=os.environ["GOOGLE_API_KEY"])
async def generate_batch(titles: list[str]):
"""Генерирует обложки для списка статей параллельно."""
async def generate_one(title: str, index: int):
response = await client.aio.models.generate_content(
model="imagen-4-fast", # Более дешёвая модель для batch
contents=f"Обложка для статьи: {title}. Технологический стиль, тёмные тона",
config=types.GenerateContentConfig(
response_modalities=["IMAGE"]
)
)
for part in response.candidates[0].content.parts:
if part.inline_data:
img_bytes = base64.b64decode(part.inline_data.data)
filename = f"cover_{index}.png"
with open(filename, "wb") as f:
f.write(img_bytes)
print(f"Готово: {filename}")
tasks = [generate_one(title, i) for i, title in enumerate(titles)]
await asyncio.gather(*tasks)
# Запуск
titles = [
"Как настроить Cursor для максимальной продуктивности",
"FLUX vs Midjourney: что выбрать в 2026",
"Автоматизация с OpenClaw: практическое руководство"
]
asyncio.run(generate_batch(titles))

Хороший промпт = хорошее изображение. Несколько приёмов:

[Объект/сцена] + [Стиль] + [Освещение] + [Качество] + [Цветовая схема]

Плохо:

Кот программист

Хорошо:

Кот в толстовке с капюшоном сидит за двумя мониторами с кодом,
профессиональная студийная фотография, мягкое боковое освещение,
cyberpunk стиль, неоновые синие и фиолетовые тона, детализированный fur
КачествоСтильОсвещение
photorealisticminimalistgolden hour
8K resolutioncyberpunkstudio lighting
highly detailedflat designneon lights
sharp focusisometricbacklit
professional photoillustrationdramatic shadow