Crear y gestionar un clúster de HA y DRS en VMware vSphere 6.7

Publicada en 20/05/2020 por Jose Ramon Ramos Gata

Hola a tod@s.

En este post vamos a ver cómo se crea, configura y gestiona un clúster HA (High Availability) y DRS (Distributed Resource Scheduler) en VMware vSphere 6.7

HA – High Availability – Alta Disponibilidad

Necesitamos almacenamiento compartido SAN o NAS, que ya lo hemos configurado en un post anterior.
Es necesario vCenter.
Las CPUs de los hosts miembros del clúster han de ser del mismo fabricante.
Durante las tareas de mantenimiento de los hosts, debemos desactivar host monitoring.
No debemos deshabilitar Admission control.
Para quitar un host del clúster tenemos que ponerlo en modo mantenimiento.
Reduce el tiempo de parada en tareas de mantenimiento.
Recuperación automática en caso de fallo, el servicio sufre una mínima parada.
Redundar todos los componentes para aumentar la disponibilidad.
vSphere HA se compone de:
1) FDM (Fault Domain Manager)
2) HOSTD
3) VCENTER
Estos tres componentes los explica perfectamente mi amigo, Leandro Ariel Leonhardt en el libro VMware por vExperts que os podéis descargar libremente en el link.

Lo primero que haremos será crear el clúster, para ello, botón derecho sobre el Datacenter y Nuevo clúster:

Le indicamos el nombre y aceptamos, de momento no habilitamos nada:

Aquí vemos que ya lo tenemos creado:

Ahora vamos a agregar los hosts ESXi al clúster, para ello, botón derecho sobre el clúster Agregar hosts, para agregar los host ESXi al clúster las máquinas virtuales deben estar apagadas o que los ESXi no tengan máquinas virtuales, ya que, al pasarlos al clúster, los hosts entrarán en modo mantenimiento:

Se nos abre este asistente, para agregar los hosts ESXi al clúster:

Aquí podemos ver los hosts ESXi agregados al clúster, y como comentaba anteriormente, los añade en modo mantenimiento:

Sacamos los hosts ESXi del modo mantenimiento:

Aquí tenemos los hosts ESXi operativos en el clúster con sus máquinas virtuales:

Ahora habilitamos y configuramos el clúster para HA, para ello, nos situamos sobre el Clúster > Configurar > Servicios > vSphere Availability > EDITAR:

Habilitamos vSphere HA:

Sobre la primera opción Errores y respuestas, habilitamos el Host Monitoring o Supervisión de host, aquí tenemos varias opciones a configurar:

Vamos a ver Respuesta de error de host, aquí se configura que operación vamos a realizar con las máquinas virtuales cuando uno de nuestros host ESXi falla, en este caso, las máquinas virtuales se van a reiniciar en otro host disponible del clúster, la prioridad del reinicio la configuramos como Mediano, más adelante veremos que podemos asignarle prioridades de reinicio por máquina virtual:

Respuesta para el aislamiento del host, con aislamiento del host se refiere, a que nuestro host ESXi ha perdido la conexión con la red de Management, pero las máquinas virtuales siguen funcionando ya que tienen acceso a las demás redes y a los datastores, por lo tanto, lo dejamos deshabilitado:

Almacén de datos con PDL, si nos falla la conexión entre un host ESXI y un datastore, habilitamos la opción Apagar y reiniciar las máquinas virtuales, así nuestras máquinas virtuales se van a iniciar en otros hosts ESXi que tengan conexión con el datastore:

Almacén de datos con APD, si nos falla la conexión entre un host ESXI y un datastore, habilitamos la opción Apague y reinicie las máquinas virtuales (directiva de reinicio conservadora), así nuestras máquinas virtuales se van a iniciar en otros hosts ESXi que tengan conexión con el datastore:

Supervisión de máquinas virtuales, si vSphere HA no recibe heartbeat de la máquina virtual a través de las VMware Tools, esto será indicativo que esta máquina no estará dando servicios, seguramente algún cuelgue por la circunstancia que sea, si habilitamos Solo supervisión de máquinas virtuales, entonces nuestra máquina virtual se va a reiniciar automáticamente, le configuramos la sensibilidad de supervisión como Bajo:

Sobre la segunda opción Control de admisión, es una política que utiliza vSphere HA para garantizar la conmutación por error del clúster, y que siempre tenga reservado los recursos necesarios en caso de fallo, en este caso, en las políticas de control le decimos que permitimos la caída de un host, y como tenemos dos hosts en nuestro clúster le vamos a reservar el 15% de CPU y Memoria:

Sobre la tercera opción Almacenes de datos de latidos, vSphere HA utiliza almacenes de datos para supervisar hosts y máquinas virtuales cuando no se puede conectar la red de HA, en este caso, seleccionamos el check Seleccionar almacenes de datos automáticamente a los que pueda accederse desde los hosts:

Sobre la cuarta opción Opciones avanzadas, podemos configurar opciones que afectan al comportamiento del clúster vSphere HA, en este caso no configuramos nada, pulsamos sobre ACEPTAR para validar todas las configuraciones realizadas:

El estado de los hosts para vSphere HA nos quedaría de la siguiente manera, siempre uno de los hosts será el maestro y los restantes tendrán el rol de esclavo, si el maestro falla, uno de los esclavos cogerá el rol de maestro:

Ahora si accedemos al clúster en Supervisar > vSphere HA > Resumen, podemos ver de un solo vistazo el estado general de nuestro clúster vSphere HA:

Si accedemos al clúster en Supervisar > vSphere HA > Latido, podemos ver los datastores que vSphere HA utiliza para supervisar los hosts y las máquinas virtuales:

Si accedemos al clúster en Supervisar > vSphere HA > Problemas de configuración, podemos ver si tenemos alguna configuración errónea en vSphere HA:

Si accedemos al clúster en Supervisar > vSphere HA > Almacenes de datos en APD o PDL, de un solo vistazo podremos ver el error de conexión entre cualquiera de los hosts del clúster y los datastores:

Una vez que habilitemos y configuremos DRS veremos la parte de Proactive HA, pero es requisito indispensable tener habilitado el DRS en nuestro clúster:

DRS – Distributed Resource Scheduler

Ahora veremos cómo se configura y gestiona un clúster vSphere DRS
Hace un balanceo automático de las máquinas virtuales, es decir, balancea las cargas de trabajo para evitar que cualquiera de los hosts ESXi del clúster, esté saturado a nivel de CPU, RAM y RED.
Utiliza vMotion para reubicar las máquinas virtuales entre los distintos hosts del clúster, por lo que tenemos que crear una red de vMotion (esto lo vimos en el post dedicado a redes virtuales).
Necesita almacenamiento compartido SAN o NAS.
Las CPUs de los hosts miembros del clúster han de ser del mismo fabricante.
Es necesario vCenter

Para habilitar y configurar el clúster para DRS, nos situamos sobre el Clúster > Configurar > Servicios > vSphere DRS > EDITAR:

Habilitamos vSphere DRS:

Sobre la opción de Automatización, vamos a configurar los siguientes parámetros:
Nivel de automatización, aquí tenemos tres niveles:
1) Manual, DRS recomendará migrar las máquinas virtuales para equilibrar la carga entre nuestros hosts ESXi, pero nunca va a migrar las máquinas de manera automatizada, simplemente nos mostrará las recomendaciones y seremos nosotros como administradores del entorno de VMware vSphere quién migremos las máquinas.
2) Parcialmente automatizado, es exactamente igual que el Manual dónde el DRS recomendará migrar las máquinas virtuales para equilibrar la carga entre nuestros hosts ESXi, pero nunca va a migrar las máquinas de manera automatizada, en lo que si se diferencia es que si iniciamos una máquina virtual que se encuentra apagada o desplegamos una nueva máquina, DRS la va a ubicar en el host ESXi con menos carga.
3) Totalmente automatizado, DRS migrará las máquinas virtuales de forma automatizada sin intervención del administrador de la infraestructura de VMware vSphere, para así equilibrar la carga entre nuestros hosts ESXi, también cuando iniciemos una máquina que se encontraba apagada o desplegamos una nueva máquina, DRS la ubicará en el host con menos carga de trabajo, nosotros vamos a elegir esta opción.

Umbral de migración, aquí tenemos los distintos niveles de migraciones, se dividen en 5 niveles, del más conservador (nivel 1) al más agresivo (nivel 5), nosotros vamos a elegir el nivel 3, en este nivel vSphere DRS va a aplicar las recomendaciones que suponen una mejora en el equilibrio de la carga de nuestro clúster:

Sobre Opciones adicionales podemos configurar la Distribución de las máquinas virtuales, Métricas de memoria, Sobreasignación de CPU, todo ello según queramos nosotros equilibrar las cargas de trabajo de nuestro clúster, en este caso lo vamos a dejar todo como viene por defecto:

La opción Administración de energía nos va a permitir habilitar DPM (Distributed Power Management), la función de DPM una vez habilitada va a permitir apagar host ESXi de forma automatizada, estos hosts los apagará cuando tienen poca carga de trabajo y las máquinas virtuales que están corriendo sobre él pueden ser migradas a otros hosts del clúster y sin llegar a saturarlos, DPM utiliza Wake on LAN, IPMI, ILO, iDRAC, iRMC, etc…, en nuestro caso no lo habilitamos:

Sobre Opciones avanzadas, podemos configurar opciones que afectan al comportamiento del clúster vSphere DRS, en este caso no configuramos nada, pulsamos sobre ACEPTAR para validar todas las configuraciones realizadas:

Aquí podemos ver que ya tenemos vSphere DRS activado y configurado:

Ahora vamos a crear reglas de afinidad y antiafinidad, según nos interese agrupar a nuestras máquinas virtuales, nosotros nos crearemos dos servicios llamados Services01 y Services02.
Services01: DC01, Mail01, MX01 Siempre permanecerán juntas (mismo host)
Services02: DC02, Mail02, MX02 Siempre permanecerán juntas (mismo host)
DC01 y DC02: permanecerán separadas (diferentes hosts)
MAIL01 y MAIL02: permanecerán separadas (diferentes hosts)
MX01 y MX02: permanecerán separadas (diferentes hosts)
Para ello, nos vamos al Clúster > Configurar > Configuración > Reglas de host/máquina virtual > Agregar:

Configuramos el Services01, donde mantenemos juntas a las máquinas virtuales para este servicio:

Aquí tenemos la regla configurada:

Configuramos el Services02, donde mantenemos juntas a las máquinas virtuales para este servicio:

Aquí tenemos la regla configurada:

Configuramos los controladores de dominio para que permanezcan separados:

Aquí tenemos la regla configurada:

Configuramos los servidores de correo para que permanezcan separados:

Aquí tenemos la regla configurada:

Configuramos los intercambiadores de correo para que permanezcan separados:

Aquí tenemos la regla configurada:

Para ver que todas estas reglas están funcionando correctamente, arrancamos todas nuestras máquinas y vemos como automáticamente se ubican según las reglas que hemos definido en el clúster:

También podemos crear grupos de hosts ESXi o grupos de máquinas virtuales, estos grupos los podemos usar para crear reglas de afinidad y antiafinidad, para ello, nos vamos al Clúster > Configurar > Configuración > Grupos de host/máquina virtual > Agregar:

Nos vamos a crear tres grupos de máquinas virtuales, uno para los DOMAIN CONTROLLERS:

Otro para los MAILS:

Y otro para los MXS:

Aquí tenemos los tres grupos de máquinas virtuales creados:

Ahora vamos a crear un grupo de hosts ESXi:

Aquí tenemos el grupo de hosts ESXi creado:

Estos grupos que hemos creado, los podemos utilizar para crear reglas de afinidad y antiafinidad en nuestro clúster, aquí podemos ya configurar lo que nos vaya interesando en nuestra infraestructura:

Otra opción interesante es la de Reemplazos de máquina virtual, esta opción nos va a permitir anular las configuraciones del clúster a nivel de HA y DRS, y personalizar la configuración a nivel de máquina virtual, según nos interese que haga una cosa u otra:

Por ejemplo, vamos a seleccionar la máquina DC01:

Y le configuramos, que la prioridad del reinicio si HA entra en acción sea la más alta:

Como podemos ver aquí tenemos el reemplazo de configuración de clúster creado:

Para monitorizar vSphere DRS, nos vamos al Clúster > Supervisar > vSphere DRS:

Opción Recomendaciones, aquí vamos a ver las recomendaciones de vSphere DRS cuando nuestro clúster está en modo Manual o Parcialmente automatizado:

Opción Errores, aquí veremos los errores producidos en vSphere DRS, porque ha fallado, elementos afectados, etc…

Opción Historial, aquí nos encontraremos con las operaciones realizadas por vSphere DRS:

Opción Uso de CPU, nos muestra el uso de la CPU en tiempo real, en cada uno de nuestros hosts ESXi del clúster:

Opción Utilización de memoria, nos muestra el uso de la memoria en tiempo real, en cada uno de nuestros hosts ESXi del clúster:

Opción Utilización de red, nos muestra el uso de la red en tiempo real, en cada uno de nuestros hosts ESXi del clúster:

PROACTIVE HA

Una vez que hemos habilitado y configurado vSphere DRS, ya podemos habilitar y configurar Proactive HA, que nos va a permitir detectar posibles fallos en el hardware de los hosts ESXi (fuentes de alimentación, memoria, red, almacenamiento y ventiladores), y migrar las máquinas virtuales a otros hosts del clúster antes de que se produzca un fallo en el hardware, evitando así una pérdida del servicio.
Para habilitar y configurar PROACTIVE HA, nos situamos sobre el Clúster > Configurar > Servicios > vSphere Availability > Proactive HA > EDITAR:

Habilitamos Proactive HA:

Si nos situamos sobre Errores y respuestas, podemos configurar la forma en que Proactive HA responde cuando un proveedor notifica la degradación de su estado a vCenter, lo que indica un error parcial en ese host. En el caso de un error parcial, vCenter Server puede migrar de forma proactiva las máquinas virtuales en ejecución del host a un host con un mejor estado, aquí tenemos estas dos opciones:
1) Nivel de automatización, aquí podemos configurar:
Manual, DRS va a sugerir recomendaciones para las máquinas virtuales y los hosts:

Automatizado, las máquinas virtuales se migrarán a hosts en buen estado y los hosts degradados se pondrán en cuarentena o en modo de mantenimiento según el nivel de automatización configurado de Proactive HA:

2) Corrección, aquí podemos configurar:
Modo mixto, equilibra el rendimiento y la disponibilidad; para ello, evita usar los hosts parcialmente degradados siempre que el rendimiento de las máquinas virtuales no se vea afectado:

Modo de cuarentena, equilibra el rendimiento y la disponibilidad; para ello, evita usar los hosts parcialmente degradados siempre que el rendimiento de las máquinas virtuales no se vea afectado:

Modo de mantenimiento, se asegura de que las máquinas virtuales no se ejecuten en hosts con errores parciales:

En nuestro caso lo vamos a dejar el Nivel de automatización Manual y Correción en Modo de cuarentena:

En Proveedores, podemos añadir fallos específicos de los proveedores del hardware:

Saludos y espero que os resulte de ayuda 😉

Relacionado

Jose Ramon Ramos Gata

Técnico Superior STI

Pingback: Infraestructura virtualizada con VMware vSphere 6.7 – RAGASYS SISTEMAS
Responder

22/05/2020
Alexander

Gracias Ramon.
Según veo este tema de Vmware es realmente muy extenso, tendremos que dedicarle mucho tiempo para aprender ehh.

Muy agradecido por la información que publicas, ya con esto afinaremos mas nuestro conocimiento.

Saludos

Cargando...
Responder

27/05/2020
Pavan Ayyagari

Hello Ramon,
Thank you for the blog series.
Just want to check what hardware specs are you using for this lab please?

Cargando...
Responder

08/08/2020
EDGAR

Excelente explicación.
Gracias por compartir el conocimiento.
Saludos

Cargando...
- Responder
  
  08/08/2020
  jramos
  
  Gracias Edgar
  
  Cargando...
Responder

03/05/2021
Juan Carlos Aguirre

Excelente Tuto, felicitaciones.

Cargando...
- Responder
  
  03/05/2021
  jramos
  
  Gracias Juan Carlos
  
  Cargando...
Responder

12/06/2023
Henrry Diaz

Excelente muy util, esto ynuevo en esto y me a ayudado full , tengo una consulta , como podria si es posible, configurar cuando falle un host se apague o se pierda, muea o migre solo cierta virtuales que necesite, es decir, no todas las virtuales.

Cargando...