Saltar al contenido principal

Open WebUI

Open WebUI es una interfaz de chat para modelos de IA locales usando Ollama. Corre Llama, Mistral, Phi y otros modelos directamente en tu servidor. Sin costos por API, sin limites de tokens, privacidad total.

Para que sirve

  • Chat privado con IA - Tus conversaciones nunca salen de tu servidor
  • Sin costos por API - Modelos open-source corren gratis en tu VPS
  • Multiples modelos - Instala varios y cambia entre ellos al vuelo
  • Interfaz familiar - UI similar a ChatGPT, facil para cualquiera
  • Opcional: APIs externas - Tambien conecta OpenAI, Anthropic si necesitas

Casos de uso comunes

Privacidad empresarial

  • Documentos confidenciales que no pueden salir de tu red
  • Cumplimiento de normativas de datos (GDPR, etc.)
  • Evitar que terceros entrenen con tus conversaciones

Ahorro en costos de IA

  • Sin limites de tokens ni suscripciones mensuales
  • Una vez instalado, usalo todo lo que quieras
  • Ideal para equipos con alto volumen de uso

Experimentacion con modelos

  • Prueba diferentes modelos para cada tarea
  • Compara respuestas entre Llama, Mistral, Phi
  • Aprende sobre IA sin gastar en APIs

Desarrollo y prototipado

  • Desarrolla aplicaciones con IA sin costos de API
  • Prueba prompts antes de implementar en produccion
  • Ambiente de sandbox para experimentar

Primeros pasos

1. Accede a tu Open WebUI

Despues de crear tu deployment, ve a:

https://tu-subdominio.deployalo.com

2. Crea tu cuenta de administrador

La primera persona en registrarse se convierte en admin:

  1. Clic en Sign up
  2. Ingresa tu email y contrasena
  3. Este sera el administrador del sistema
tip

Puedes deshabilitar el registro publico despues en Configuracion.

3. Descarga tu primer modelo

Por defecto, Ollama no tiene modelos instalados. Descarga uno:

  1. Abre el menu (icono de hamburguesa arriba a la izquierda)
  2. Ve a Admin PanelSettingsModels
  3. En Pull a model, escribe el nombre del modelo:
    • llama3.2:3b - Ligero, rapido (2GB)
    • llama3.1:8b - Balanceado (5GB)
    • mistral:7b - Muy bueno para texto (4GB)
  4. Clic en el boton de descarga
  5. Espera a que termine (puede tomar varios minutos)

4. Empieza a chatear

  1. Selecciona el modelo descargado en el dropdown superior
  2. Escribe tu mensaje
  3. Listo - tu propia IA privada

Modelos recomendados

Por capacidad del servidor

PlanRAMModelos recomendados
Basico4 GBllama3.2:3b, phi3:mini
Avanzado8 GBllama3.1:8b, mistral:7b, gemma2:9b
Pro16 GBllama3.1:70b, mixtral:8x7b, codellama:34b

Por caso de uso

UsoModeloTamano
Chat generalllama3.2:3b2 GB
Escrituramistral:7b4 GB
Codigocodellama:7b4 GB
Razonamientollama3.1:8b5 GB
Multilinguegemma2:9b5 GB

Descargar modelos

Desde la interfaz

  1. Menu → Admin PanelSettingsModels
  2. En Pull a model, escribe: nombre-modelo:tag
  3. Clic en descargar
  4. Espera a que complete

Tags comunes

  • :latest - Version por defecto
  • :7b, :8b, :13b, :70b - Tamano del modelo (B = billones de parametros)
  • :q4_0 - Cuantizado a 4 bits (mas pequeno, ligeramente menos preciso)

Ejemplos

llama3.2:3b          # Llama 3.2 de 3B parametros
mistral:7b-instruct # Mistral 7B optimizado para instrucciones
codellama:13b # CodeLlama para programacion

Configuracion

Desactivar registro publico

Si no quieres que cualquiera pueda registrarse:

  1. Menu → Admin PanelSettingsGeneral
  2. Desactiva Enable New Sign Ups
  3. Guarda cambios

Ahora solo el admin puede crear usuarios.

Agregar OpenAI (opcional)

Ademas de modelos locales, puedes usar GPT-4:

  1. Menu → Admin PanelSettingsConnections
  2. En OpenAI API, ingresa tu API key
  3. Guarda

Ahora veras modelos de OpenAI en el dropdown.

Agregar Anthropic (opcional)

Para usar Claude:

  1. Ve a Connections
  2. Agrega tu API key de Anthropic
  3. Guarda

Personalizacion

Crear un personaje

Puedes crear asistentes con personalidad especifica:

  1. Menu → WorkspaceModelfiles
  2. Clic en Create a Modelfile
  3. Define tu asistente:
FROM llama3.2:3b

SYSTEM """
Eres un asistente de atencion al cliente para [Tu Empresa].
Respondes preguntas sobre productos y servicios.
Siempre eres amable y profesional.
Si no sabes algo, lo admites.
"""

PARAMETER temperature 0.7
  1. Guarda y usa tu personaje en chats

Parametros comunes

ParametroDescripcionValor por defecto
temperatureCreatividad (0-2)0.8
top_pDiversidad de respuestas0.9
num_ctxVentana de contexto2048

Integraciones

API de Open WebUI

Open WebUI expone una API compatible con OpenAI:

curl https://tu-subdominio.deployalo.com/api/chat/completions \
-H "Authorization: Bearer TU_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "llama3.2:3b",
"messages": [{"role": "user", "content": "Hola!"}]
}'

Obtener API Key

  1. Menu → SettingsAccount
  2. Genera una API Key
  3. Usala en tus integraciones

Conectar con n8n

  1. En n8n, usa el nodo HTTP Request
  2. Configura:
    • URL: https://tu-subdominio.deployalo.com/api/chat/completions
    • Method: POST
    • Headers: Authorization: Bearer TU_API_KEY
  3. Envia mensajes y procesa respuestas

Rendimiento

Recomendaciones por plan

Basico (4 GB RAM):

  • Usa modelos de 3B o menos
  • Un chat a la vez
  • Respuestas rapidas pero menos precisas

Avanzado (8 GB RAM):

  • Modelos hasta 8B
  • Multiples usuarios simultaneos
  • Balance calidad/velocidad

Pro (16 GB RAM):

  • Modelos grandes (hasta 70B cuantizado)
  • Alto volumen de uso
  • Maxima calidad de respuestas

Optimizar velocidad

  1. Usa modelos cuantizados (:q4_0)
  2. Reduce num_ctx si no necesitas contexto largo
  3. Descarga solo los modelos que uses

Administracion

Gestion de usuarios

  1. Menu → Admin PanelUsers
  2. Ve todos los usuarios registrados
  3. Opciones:
    • Cambiar rol (user/admin)
    • Desactivar cuenta
    • Eliminar usuario

Roles

RolPuede hacer
UserChatear, crear conversaciones
AdminTodo + gestionar usuarios y modelos

Monitoreo

En Admin PanelDashboard puedes ver:

  • Usuarios activos
  • Conversaciones recientes
  • Modelos en uso

Preguntas frecuentes

¿Que modelos puedo usar?

Cualquier modelo de Ollama. Lista completa en ollama.com/library.

¿Por que es lento?

Los modelos de IA requieren mucha memoria y CPU. Si esta lento:

  • Usa un modelo mas pequeno
  • Actualiza a un plan con mas recursos
  • Reduce el contexto de la conversacion

¿Mis datos estan seguros?

Si, todo corre en tu servidor de Deployalo. Tus conversaciones nunca salen de tu VPS.

¿Puedo usar GPU?

No en los planes actuales. Los servidores usan CPU. Para GPU, contacta soporte.

¿Cuantos usuarios pueden usarlo?

Depende del plan y modelo:

  • Basico: 1-3 usuarios simultaneos
  • Avanzado: 5-10 usuarios simultaneos
  • Pro: 20+ usuarios simultaneos

¿Como actualizo Open WebUI?

Deployalo actualiza automaticamente los contenedores. Para forzar actualizacion, reinicia el servicio desde el panel.

¿Puedo correr multiples modelos a la vez?

Si, pero cada modelo consume memoria. Con 8GB puedes tener 2 modelos pequenos cargados. Con 16GB, varios mas.

Recursos