Cómo solicitar instrucciones con archivos multimedia


Ver en ai.google.dev Ejecutar en Google Colab Ver el código fuente en GitHub

La API de Gemini admite instrucciones con datos de texto, imagen, audio y video. como instrucciones multimodales, lo que significa que puedes incluir esos tipos de contenido multimedia archivos en tus instrucciones. Para archivos pequeños, puedes apuntar el modelo de Gemini directamente a un archivo local cuando se proporciona un mensaje. Sube archivos más grandes con la opción File API antes de incluirlos en mensajes.

La API de File te permite almacenar hasta 20 GB de archivos por proyecto, en los que cada archivo no que superen los 2 GB de tamaño. Los archivos se almacenan durante 48 horas y se puede acceder a ellos con tu clave de API para generarla en ese período y no se puede descargar. desde la API. La API de Files está disponible sin costo en todas las regiones en las que La API de Gemini está disponible.

La API de File controla las entradas que se pueden usar para generar contenido con model.generateContent o model.streamGenerateContent. Para obtener información sobre formatos de archivo válidos (tipos MIME) y modelos admitidos, consulta Archivos admitidos formatos.

En esta guía, se muestra cómo usar la API de File para subir archivos multimedia e incluirlos en una llamada de GenerateContent a la API de Gemini. Para obtener más información, consulta la código muestras.

Formatos de archivo compatibles

Los modelos de Gemini admiten instrucciones con múltiples formatos de archivo. Esta sección explica las consideraciones en el uso de formatos multimedia generales para instrucciones como archivos de imagen, audio, video y texto sin formato. Puedes usar archivos multimedia para solicitar solo versiones de modelos específicas, como se muestra en el siguiente desde una tabla de particiones.

Modelo Imágenes Audio Video Texto sin formato
Gemini 1.5 Pro (versión 008 y posteriores) ✔ (3600 archivos de imagen máx.)

Formatos de imagen

Puedes usar datos de imágenes para crear instrucciones con los modelos de Gemini 1.5. Cuando usas imágenes para las instrucciones, están sujetos a las siguientes limitaciones y requisitos:

  • Las imágenes deben estar en uno de los siguientes MIME de datos de imagen tipos:
    • PNG: image/png
    • JPEG: image/jpeg
    • WEBP: image/webp
    • HEIC: image/heic
    • HEIF: image/heif
  • Un máximo de 3,600 imágenes para los modelos de Gemini 1.5.
  • No hay límites específicos para la cantidad de píxeles en una imagen. sin embargo, se reducen las imágenes para que se ajusten a una resolución máxima de 3072 x 3072, mientras que preservando su relación de aspecto original.

Formatos de audio

Puedes usar datos de audio para crear instrucciones con los modelos de Gemini 1.5. Cuando usas audio para las instrucciones, están sujetas a las siguientes limitaciones y requisitos:

  • Los datos de audio son compatibles con el siguiente formato de audio común: MIME tipos:
    • WAV: audio/WAV
    • MP3: audio/mp3
    • AIFF: audio/aiff
    • AAC: audio/aac
    • OGG Vorbis - audio/ogg
    • FLAC: audio/flac
  • La duración máxima admitida de datos de audio en un solo mensaje es de 9.5 horas.
  • Los archivos de audio se vuelven a muestrear a una resolución de datos de 16 Kbps, y canales de audio se combinan en un solo canal.
  • No hay un límite específico para la cantidad de archivos de audio en una sola instrucción. Sin embargo, la longitud total combinada de todos los archivos de audio en una sola instrucción no puede superar las 9.5 horas.

Formatos de video

Puedes usar datos de video para crear instrucciones con los modelos de Gemini 1.5.

  • Los datos de video son compatibles con el siguiente formato de video común: MIME tipos:

    • video/mp4
    • video/mpeg
    • video/movimiento
    • video/avi
    • video/x-flv
    • video/mpg
    • video/webm
    • video/WMV
    • video/3gpp
  • El servicio de la API de archivos toma muestras de videos y los convierte en imágenes a 1 fotograma por segundo (FPS) y pueden estar sujetos a cambios para proporcionar la mejor calidad de inferencia. Las imágenes individuales ocupan 258 tokens, independientemente de la resolución y calidad.

Formatos de texto sin formato

La API de File admite la carga de archivos de texto sin formato con los siguientes tipos de MIME:

  • text/plain
  • text/html
  • text/css
  • texto/JavaScript
  • application/x-javascript
  • text/x-typescript
  • application/x-typescript
  • texto/csv
  • texto/markdown
  • text/x-python
  • application/x-python-code
  • application/json
  • texto/xml
  • application/rtf
  • texto/rtf

Para los archivos de texto sin formato con un tipo de MIME que no está en la lista, puedes intentar especificar uno de los tipos de MIME anteriores manualmente.