Manual de Prompt Engineering para Sora 2 y Sora 2 Pro

20/10/25
Guía completa para profesionales que buscan aprovechar los modelos Sora 2 de OpenAI para generar vídeo y audio de alta calidad
Prompts para Sora 2 - texto nuboso sobre cielo estrellado con personaje de nube, concepto IA generativa

Introducción

Sora 2 es un modelo generativo de vanguardia de OpenAI que crea clips de vídeo cortos con audio sincronizado a partir de prompts de texto. Supone un salto importante en la generación de vídeo con IA: OpenAI lo ha comparado con el "momento GPT-3.5" para vídeo. Sora 2 puede producir vídeos realistas o estilizados con visuales dinámicos, efectos de sonido e incluso diálogo hablado. Una variante mejorada, Sora 2 Pro, ofrece salida de mayor fidelidad y funciones ampliadas, disponible para usuarios de ChatGPT Pro y vía API. Este manual te ofrece: (i) visión general de capacidades y especificaciones, (ii) buenas prácticas de redacción de prompts, (iii) ejemplos por dominio y (iv) pautas para probar y refinar.

Prueba Sora 2 gratis (disponible en España)

ChatGPT aún no ofrece Sora 2 en España. Regístrate gratis en ilisai.com y empieza a generar tus primeros vídeos con IA.

Probar Sora 2 gratis →

1. Sora 2 y Sora 2 Pro: Capacidades y especificaciones técnicas

Sora 2 en un vistazo

Sora 2 es un modelo generativo generalista de vídeo+audio que puede imaginarse como un "simulador del mundo" aplicado al vídeo. A partir de un prompt de texto (y entradas opcionales de imagen), Sora 2 crea un clip con escenas coherentes, movimiento realista y sonido acorde. Domina diversos estilos (fotorrealista, cinematográfico, anime, etc.) y muestra mejoras notables en física y consistencia temporal frente a su predecesor.

¿Quieres producir vídeos con IA (Sora 2)?

Implementamos Sora 2 / Sora 2 Pro, flujos de prompts y QA creativo para marketing y e-commerce.

Consultoría en IA

Generación de vídeo + audio

Sora 2 genera no sólo las imágenes, sino también audio sincronizado (diálogos, efectos, ambiente) en una única pasada. Si el prompt describe una cafetería ruidosa, el clip incluirá tazas tintineando y conversaciones de fondo. El movimiento de labios de los personajes coincide con el diálogo especificado, evitando posproducción en muchos casos.

Resolución y duración de los clips

Por API, Sora 2 admite hasta 1280x720 (720p) en formato apaisado o vertical. La duración puede fijarse en 4, 8 o 12 segundos (por defecto, 4 s). En la interfaz pública, cada clip ronda ~10 s. Duraciones mayores (~1 min) se han demostrado internamente, pero no están disponibles por límites de cómputo. Sora 2 Pro eleva la resolución hasta 1792x1024 (o 1024x1792 en vertical).

Sora 2 vs Sora 2 Pro

Sora 2 Pro hereda todas las capacidades de Sora 2 y añade nitidez y detalle gracias a mayor presupuesto de modelo/cómputo. Está disponible para suscriptores de ChatGPT Pro (web) y próximamente en la app. En API, Sora 2 Pro tiene mayor coste por segundo (p. ej., 10 s 720p ~3 $ frente a ~1 $ en Sora 2 base). Flujo recomendado: prototipar en Sora 2 y render final en Sora 2 Pro para equilibrio calidad/coste.

Entradas multimodales (imagen y "Cameo")

Además del texto, Sora 2 acepta una imagen de referencia para fijar el primer fotograma o el estilo. La función "Cameo" permite inyectar a una persona real (imagen y voz) en la escena, con controles de consentimiento y verificación de identidad.

Generación de vídeo + audio

Sora 2 genera no sólo las imágenes, sino también audio sincronizado (diálogos, efectos, ambiente) en una única pasada. Si el prompt describe una cafetería ruidosa, el clip incluirá tazas tintineando y conversaciones de fondo. El movimiento de labios de los personajes coincide con el diálogo especificado, evitando posproducción en muchos casos.

Resolución y duración de los clips

Por API, Sora 2 admite hasta 1280x720 (720p) en formato apaisado o vertical. La duración puede fijarse en 4, 8 o 12 segundos (por defecto, 4 s). En la interfaz pública, cada clip ronda ~10 s. Duraciones mayores (~1 min) se han demostrado internamente, pero no están disponibles por límites de cómputo. Sora 2 Pro eleva la resolución hasta 1792x1024 (o 1024x1792 en vertical).

Sora 2 vs Sora 2 Pro

Sora 2 Pro hereda todas las capacidades de Sora 2 y añade nitidez y detalle gracias a mayor presupuesto de modelo/cómputo. Está disponible para suscriptores de ChatGPT Pro (web) y próximamente en la app. En API, Sora 2 Pro tiene mayor coste por segundo (p. ej., 10 s 720p ~3 $ frente a ~1 $ en Sora 2 base). Flujo recomendado: prototipar en Sora 2 y render final en Sora 2 Pro para equilibrio calidad/coste.

Entradas multimodales (imagen y “Cameo”)

Además del texto, Sora 2 acepta una imagen de referencia para fijar el primer fotograma o el estilo. La función “Cameo” permite inyectar a una persona real (imagen y voz) en la escena, con controles de consentimiento y verificación de identidad.

2. Buenas prácticas de prompt engineering

Recomendación clave: redacta los prompts en inglés para Sora 2 (mejor rendimiento lingüístico). Bajo cada ejemplo incluimos traducción al español como referencia.

  • Contenido: sujetos, acciones, entorno, continuidad entre planos.
  • Forma: estilo visual, lente/cámara, iluminación, paleta y sonido.
  • Parámetros: duración (4/8/12 s), resolución (p. ej., 1280x720), orientación (apaisado/vertical).
  • Seguridad: Cameo sólo con consentimiento; evita material con derechos si aplica.
  • Criterios de éxito: define qué es "listo para usar".
  • Iteración: prototipa con Sora 2 y escala a Sora 2 Pro para el render final.
  • Anclaje visual: aporta imagen de referencia cuando el estilo/personaje sea crítico.

3. Ejemplos de prompts por dominio

Nota: use inglés al enviar los prompts a Sora. Incluimos traducciones al español para facilitar la comprensión.

3.1 Marketing Digital

Objetivo: piezas de awareness para redes con foco en marca/beneficio.

Ejemplo A: Teaser de producto (8 s, vertical)

Prompt (EN):
Create an 8-second vertical teaser for a premium espresso machine. Close-up macro shots of rich crema forming, slow pan across stainless-steel body, warm morning light. Add subtle steam and coffee shop ambience. End with a clean hero shot and the text overlay: "Morning, perfected."
Duration: 8s, Resolution: 1080x1920, Style: cinematic, Lens: 50mm, Camera: slow dolly-in.

Traducción :
Crea un teaser vertical de 8 segundos para una cafetera espresso premium. Planos macro de la crema formándose, paneo lento por el acero inoxidable, luz cálida de mañana. Añade vapor sutil y ambiente de cafetería. Termina con plano hero y el texto: "Morning, perfected."
Duración: 8 s, Resolución: 1080x1920, Estilo: cinematográfico, Lente: 50 mm, Cámara: dolly-in lento.

Ejemplo B: UGC estilizado con cameo (12 s, horizontal)

Prompt (EN):
A genuine UGC-style clip: a young professional unboxes a wireless ergonomic keyboard on a wooden desk. Soft natural light, shallow depth of field, light typing sounds. Voice line: "Didn't think I needed this - now I can't work without it." Close on the keyboard backlight breathing.
Duration: 12s, Resolution: 1280x720, Style: natural, Cameo: speaker reads the line.

Traducción :
Clip tipo UGC: una profesional joven desempaca un teclado ergonómico inalámbrico en un escritorio de madera. Luz natural suave, poca profundidad de campo, sonidos de tecleo. Línea de voz: "No creía que lo necesitaba; ahora no puedo trabajar sin él". Cierre con la retroiluminación respirando.
Duración: 12 s, Resolución: 1280x720, Estilo: natural, Cameo: narración.

Ejemplo C: Beneficio único (4 s, horizontal)

Prompt (EN):
Four-second punchy spot for a running shoe: mid-shot of a runner's feet hitting wet pavement at dawn; water splashes in slow motion. Overlay: "Grip that pushes you forward." Emphasize outsole tread detail.
Duration: 4s, Resolution: 1280x720, Audio: subtle rain + heartbeat.

Traducción :
Spot de 4 segundos para una zapatilla de running: plano medio de pies sobre pavimento mojado al amanecer; salpicaduras a cámara lenta. Texto: "Agarre que te impulsa". Enfatiza el dibujo de la suela.
Duración: 4 s, Resolución: 1280x720, Audio: lluvia sutil + latido.

3.2 E-commerce

Objetivo: clips para fichas de producto que muestren uso y detalle.

Ejemplo A: Demostración (8 s, horizontal)

Prompt (EN):
Product demo for a smart blender: ingredients drop in (berries, banana, yogurt), blades spin; a smooth purple smoothie pours into a glass. Clean tabletop studio look, bright key light, minimal reflections. End with a pricing badge "€129".
Duration: 8s, Resolution: 1280x720, Style: clean studio, Camera: overhead then hero.

Traducción :
Demo de un batidor inteligente: caen ingredientes (frutos rojos, plátano, yogur), giran las cuchillas; un smoothie púrpura se vierte en un vaso. Estudio limpio, luz principal intensa, reflejos mínimos. Termina con distintivo de precio "129 €".
Duración: 8 s, Resolución: 1280x720, Estilo: estudio limpio, Cámara: cenital y hero.

Ejemplo B: Variantes/colores (12 s, horizontal)

Prompt (EN):
Carousel-like clip showing a backpack in 4 colorways (charcoal, forest, sand, navy). Each 3 seconds: 360° rotate, freeze on logo detail, quick text label for color. Neutral grey background, soft shadow under product.
Duration: 12s, Resolution: 1280x720, Background: neutral grey.

Traducción :
Clip carrusel mostrando una mochila en 4 colores (antracita, bosque, arena, marino). Cada 3 s: giro 360°, pausa en el logo, etiqueta de color. Fondo gris neutro, sombra suave bajo el producto.
Duración: 12 s, Resolución: 1280x720, Fondo: gris neutro.

Ejemplo C: Prueba social (4 s, vertical)

Prompt (EN):
Vertical 4-second social proof: a five-star rating card fades in over a cozy living room scene with the smart air purifier running quietly; gentle fan noise. Text overlay: "4.8/5 from 2,100+ reviews".
Duration: 4s, Resolution: 1080x1920, Audio: gentle fan.

Traducción :
Prueba social vertical de 4 segundos: tarjeta de 5 estrellas sobre un salón acogedor con el purificador funcionando en silencio; ruido suave de ventilador. Texto: "4,8/5 de 2.100+ reseñas".
Duración: 4 s, Resolución: 1080x1920, Audio: ventilador suave.

3.3 Diseño Industrial

Objetivo: comunicar concepto y materiales con claridad.

Ejemplo A: Render conceptual (8 s, horizontal)

Prompt (EN):
Concept video of a minimalist desk lamp: brushed aluminum stem, matte white shade, magnetic swivel. Slow orbit on a dark studio background with rim light. Show on/off touch control and warm-to-cool color shift.
Duration: 8s, Resolution: 1280x720, Style: industrial aesthetic.

Traducción :
Vídeo conceptual de una lámpara minimalista: fuste en aluminio cepillado, pantalla blanca mate, rótula magnética. Órbita lenta en estudio oscuro con luz de contorno. Muestra control táctil y cambio cálido-frío.
Duración: 8 s, Resolución: 1280x720, Estilo: estética industrial.

Ejemplo B: Vista explosionada (12 s, horizontal)

Prompt (EN):
Exploded-view animation of a modular bike pedal: axle, bearings, cage, pins separate and reassemble. Clean white background, thin blueprint-style labels. Subtle click sounds on reassembly.
Duration: 12s, Resolution: 1280x720, Audio: subtle clicks.

Traducción :
Animación de vista explosionada de un pedal modular: eje, rodamientos, jaula y pernos se separan y reensamblan. Fondo blanco limpio, etiquetas finas estilo plano técnico. Clics sutiles al ensamblar.
Duración: 12 s, Resolución: 1280x720, Audio: clics sutiles.

Ejemplo C: Prueba de materiales (4 s, horizontal)

Prompt (EN):
Material test for a phone case: close-up scratch resistance on textured polymer; micro-scratches slightly self-heal under heat from a hairdryer. Macro lens, high contrast, overlay "Self-healing finish".
Duration: 4s, Resolution: 1280x720, Lens: macro.

Traducción :
Prueba de material para una funda: primer plano de resistencia a arañazos en polímero texturizado; microarañazos que se "autocuran" ligeramente con calor de secador. Lente macro, alto contraste, texto "Self-healing finish".
Duración: 4 s, Resolución: 1280x720, Lente: macro.

4. Pruebas e iteración

Comunidad y ejemplos

Revisa ejemplos oficiales (la guía del cookbook de OpenAI reúne varios prompts) y prompts compartidos por la comunidad (foros o feed de la app de Sora). Puedes descubrir formulaciones útiles o trucos (p. ej., cómo pedir cierto efecto de cámara o fenómenos complejos como reflejos) que incorporar. El campo evoluciona rápido; mantente al día de consejos y actualizaciones que amplíen capacidades o modifiquen el comportamiento.

Pulido final

Si el resultado es satisfactorio, valora un retoque ligero en posproducción si aporta: corrección de fotogramas irregulares, consistencia de luz/color o superposición de textos reales. Aunque Sora 2 procura un resultado "listo para usar", a nivel profesional a veces compensa editar lo mínimo (etalonaje, recorte, overlays) para ese último 5 % de calidad.

Cuándo detenerse

Define criterios de éxito ("cumple el briefing: muestra el producto con claridad, sin fallos evidentes y en tono de marca") y, al alcanzarlos, usa el resultado con confianza. Sobre-iterar consume tiempo y puede degradar un buen clip por exceso de retoque. La salida de Sora 2 mantiene un punto de imprevisibilidad que es parte de su valor creativo. Como apuntó un revisor: "no pasa nada si falla a veces, incluso Sora 2 omite detalles pequeños ocasionalmente".

Probar y refinar prompts es parte integral del flujo de trabajo. Aplicando estos consejos, navegarás el espacio generativo de Sora 2 con mayor eficiencia y obtendrás resultados de alta calidad alineados con tus necesidades.

Conclusión

Sora 2 y Sora 2 Pro abren una nueva frontera en IA: generar medios visuales dinámicos a partir de lenguaje natural. Para usuarios avanzados y prompt engineers, estos modelos son un lienzo donde las instrucciones en texto orquestan escenas completas. Entendiendo capacidades y límites, estructurando prompts con intención e iterando con objetivos claros, podrás co-crear vídeos sobresalientes para múltiples usos.

Referencias

foto perfil vicente pomares
Vicente Pomares
Fundador de Berzerk
Linkedin