CATEGORIA DE MANTENIMIENTO DEL SOFTWARE "SUN CLUSTER"

Este capítulo explica los conceptos claves relacionados con los componentes de hardware y software del sistema Sun Cluster, los cuales son las categorías íntimamente relacionadas y que es necesario comprender para comenzar a trabajar con los sistemas Sun Cluster.

Estos divide en los siguientes apartados:

Nodos del clúster
Interconexión del clúster
Pertenencia al clúster
Depósito de configuración del clúster
Supervisores de errores
Dispositivos del quórum
Dispositivos
Servicios de datos

Nodos Del Clúster

Un nodo del clúster es una máquina que ejecuta los softwares Solaris y Sun Cluster. Éste permite tener de dos a ocho nodos por clúster.

Los nodos del clúster se acoplan generalmente a uno o más discos; aquellos que no lo están usan el sistema de archivos del clúster para acceder a los discos multisistema. Los nodos en configuraciones de bases de datos paralelas comparten acceso simultáneo a algunos de los discos o a todos ellos.

Todos los nodos del clúster reciben información de cuándo un nodo se une al clúster o deja éste, conocen también los recursos que se están ejecutando tanto localmente como en los otros nodos del clúster.

Los nodos del mismo clúster deben tener capacidades de procesamiento, memoria y E/S similares para permitir que la recuperación de fallos se produzca sin que haya una degradación importante en el rendimiento. Debido a la posibilidad de la recuperación de un fallo, cada nodo debe tener capacidad suficiente para cumplir con los acuerdos de los niveles de servicios si un nodo falla.

Interconexión Del Clúster

La interconexión del clúster es la configuración física de dispositivos que se utiliza para la transferencia de comunicaciones privadas de clústers y comunicaciones de servicios de datos entre los nodos de los clústers.

Las interconexiones redundantes permiten que continúe el funcionamiento en las interconexiones que queden, mientras los administradores de los sistemas aíslan los fallos y restablecen la comunicación. Sun Cluster detecta, repara y reinicia automáticamente la comunicación en una interconexión restablecida.

Pertenencia Al Clúster

El Supervisor de pertenencia al clúster (CMM) es un conjunto distribuido de agentes que intercambian mensajes en una interconexión de clústers con el fin de terminar las tareas siguientes:

Forzar una vista de miembros uniforme en todos los nodos (quórum)
Controlar una reconfiguración sincronizada en respuesta a los cambios en la pertenencia
Gestionar las particiones del clúster
Asegurar una total contectividad entre todos los miembros de los clústers, dejando los nodos dañados fuera del clúster hasta que se reparen

La función principal del CMM es establecer la pertenencia al clúster, lo cual requiere un acuerdo en todo el clúster en el conjunto de nodos que forman parte del clúster en cualquier momento. El CMM detecta cambios importantes en el estado de los clústers en cada nodo, como, por ejemplo, una pérdida de comunicación entre uno o más nodos; confía en el módulo del núcleo de transporte para generar pulsos en el medio de transporte con otros nodos del clúster y, si no detecta un pulso de un nodo en un período concreto, considera que el nodo ha fallado e inicia una reconfiguración del clúster para renegociar la pertenencia a éste.

Para determinar ésta y para asegurar la integridad de los datos, el CMM efectúa las tareas siguientes:

Registrar los cambios en la pertenencia al clúster, como la incorporación o el cese de un nodo en el clúster
Asegurarse de que el nodo dañado deje de estar en el clúster
Asegurarse de que un nodo dañado permanezca inactivo hasta que se repare
Evitar que el clúster se particione en subgrupos de nodos

Depósito De Configuración Del Clúster

El Depósito de configuración del clúster (CCR) es una base de datos privada, distribuida en todo el clúster para almacenar la información que pertenece a la configuración y al estado del clúster. Con el fin de evitar el deterioro de los datos de la configuración, cada nodo debe tener información sobre el estado actual de los recursos de los clústers. El CCR se asegura de que todos los nodos tengan una visión coherente del clúster, para ello se actualiza cuando se produce un error o una recuperación de un fallo o cuando el estado general del clúster cambia.

Las estructuras del CCR contienen los tipos siguientes de información:

Nombres de los nodos y de los clústers
Configuración para el transporte de los clústers
Los nombres de los conjuntos de discos Solaris Volume Manager o los grupos de discos VERITAS
Una lista de los nodos que puede controlar cada grupo de discos
Valores operativos de parámetros para los servicios de datos
Rutas a los métodos de rellamada de los servicios de datos
Configuración de dispositivos DID
Estado actual del clúster

Supervisores De Errores

El sistema Sun Cluster permite que todos los componentes de la “ruta” entre los usuarios y los datos queden totalmente disponibles, al supervisar las aplicaciones, el sistema de archivos y las interfaces de la red.

Sun Cluster detecta rápidamente un fallo en el nodo y crea un servidor equivalente para los recursos en el nodo que ha fallado. Sun Cluster se asegura de que los recursos que no resulten afectados por el nodo incorrecto estén siempre disponibles durante la recuperación y que los recursos del nodo defectuoso queden disponibles tan pronto como se recuperen.

Supervisión de los servicios de datos

Cada servicio de datos de Sun Cluster proporciona un supervisor de fallos que explora periódicamente el servicio de datos para determinar su buen estado. Un supervisor de errores comprueba que el daemon de la aplicación o los daemons se estén ejecutando y que los clientes reciban servicio. Basándose en la información proporcionada por los análisis, se pueden iniciar acciones predefinidas como el reinicio de los daemons o la activación de la recuperación de un fallo.

Supervisión de las rutas de los discos

Sun Cluster admite la supervisión de las rutas de los discos (DPM, disk-path monitoring) que mejora la fiabilidad general en la recuperación de fallos y en la conmutación, al informar sobre el fallo de una ruta de discos secundaria. Para supervisar las rutas de los discos hay dos métodos disponibles. El primero, usar la orden scdpm que permite supervisar, dejar de supervisar o mostrar el estado de las rutas del disco del clúster. Consulte la página de comando man scdpm(1M) para obtener más información sobre las opciones de la línea de órdenes.

El segundo método es utilizar la interfaz gráfica del usuario (GUI) de SunPlex Manager que proporciona una visión topológica de las rutas de discos supervisadas. La vista se actualiza cada 10 minutos para incluir información sobre el número de pings que han fallado.

Supervisión de ruta múltiple de red IP

Todos los nodos del clúster tienen su propia configuración de Ruta múltiple de red IP, que puede ser distinta de la configuración de otros nodos del clúster. Ruta múltiple de red IP supervisa los siguientes errores en la comunicación a través de la red:

La ruta de transmisión y recepción del adaptador de red ha detenido la transmisión de paquetes.
El acoplamiento de los adaptadores de la red con el enlace está desactivado.
El puerto del interruptor no transmite ni recibe paquetes.
La interfaz física de un grupo no está presente en el arranque del sistema.

Dispositivos Del Quórum

Un dispositivo del quórum es un disco compartido por dos nodos o más que aporta votos que se utilizan para establecer un quórum con el fin de que se ejecute el clúster, ya que éste sólo puede funcionar cuando está disponible un quórum de votos. El dispositivo del quórum se usa cuando un clúster se particiona en distintos conjuntos de nodos, para establecer qué conjunto de nodos constituye el nuevo clúster.

Los dispositivos del quórum adquieren votos según el número de conexiones de nodo que tenga el dispositivo. Cuando se configura un dispositivo del quórum, éste adquiere un recuento máximo de votos de N-1 donde N es el número de votos conectados al dispositivo del quórum. Por ejemplo, un dispositivo del quórum conectado a dos nodos con recuentos distintos de cero, tiene un recuento del quórum igual a uno (dos menos uno).

Integridad de los datos

El sistema Sun Cluster intenta evitar el deterioro de los datos y asegurar su integridad. Puesto que los nodos de los clústers comparten datos y recursos, un clúster nunca debe dividirse en particiones que estén activas al mismo tiempo. El CMM garantiza que sólo pueda haber un clúster operativo al mismo tiempo.

Pueden surgir dos tipos de problemas derivados de las particiones del disco: esquizofrenia y amnesia. La esquizofrenia se produce cuando la interconexión del clúster entre los nodos se pierde y el clúster se divide en subclústers, cada uno de los cuales cree que es la única partición. Un subclúster que desconoce la existencia de los otros puede provocar conflictos en los recursos compartidos como direcciones de red duplicadas y deterioro de datos.

La amnesia se produce si todos los nodos dejan el clúster en grupos residuales. Un ejemplo es un clúster de dos nodos A y B. Si el nodo A queda inactivo, los datos de la configuración del CCR se actualizan solamente en el nodo B, no en el A. Si el nodo B queda inactivo posteriormente y se rearranca el nodo A, éste se ejecutará con los antiguos contenidos del CCR. Este estado recibe el nombre de amnesia y puede llevar a ejecutar un clúster con información sobre la configuración del estado.

Para evitar la esquizofrenia y la amnesia se debe dar cada nodo un voto y obligar a que haya una mayoría de votos por clúster en funcionamiento. Una partición con la mayoría de votos tiene quórum y se le permite funcionar. Este mecanismo de voto por mayoría funciona bien si en el clúster hay más de dos nodos.

Dispositivos

El sistema de archivos global permite que todos los archivos del clúster sean accesibles por igual y que estén visibles para todos los nodos. De similar modo, Sun Cluster consigue que todos los dispositivos de un clúster sean accesibles y visibles en todo el clúster. Esto es, el subsistema de E/S permite el acceso a cualquier dispositivo del clúster, desde cualquier nodo, sin tener en cuenta dónde se acopla físicamente el dispositivo. Este acceso recibe el nombre de acceso global a dispositivos.

Dispositivos globales

Los sistemas Sun Cluster utilizan dispositivos globales con el fin de proporcionar un acceso realmente disponible en todo el clúster a cualquier dispositivo del clúster, desde cualquier nodo. Por lo general, si un nodo falla a la hora de proporcionar acceso a un dispositivo global, Sun Cluster conmuta a otra ruta al dispositivo y vuelve a dirigir el acceso a esa ruta. Esta redirección es fácil con los dispositivos globales, puesto que se utiliza el mismo nombre para el dispositivo, sin tener en cuenta la ruta. El acceso a un dispositivo remoto se lleva a cabo del mismo modo que en un dispositivo local que utilice el mismo nombre. Asimismo, la API que se usa para acceder a un dispositivo global en un clúster es la misma que la que se utiliza para acceder de manera local a un dispositivo.

ID del dispositivo

El software Sun Cluster gestiona dispositivos globales a través de una estructura conocida como el controlador del ID del dispositivo (DID) que se utiliza para asignar automáticamente ID exclusivos a cada dispositivo del clúster, incluidos los discos multisistema, las unidades de cinta y los CD-ROM.

También es una pieza integral de la función de acceso global a los dispositivos del clúster. Asimismo, analiza todos los nodos del clúster y construye una lista de dispositivos exclusivos del disco. Este controlador también asigna a cada dispositivo un número menor y mayor exclusivos, coherentes en todos los nodos del clúster. El acceso a los dispositivos globales se realiza a través del DID exclusivo asignado por el controlador del DID en lugar de los DID tradicionales de Solaris.

De esta manera se asegura que cualquier aplicación que acceda a los discos, como Solaris Volume Manager o Sun Java System Directory Server, utilice una ruta coherente en todo el clúster. Esta coherencia es especialmente importante en los discos multisistema, puesto que los números locales menores y mayores de cada dispositivo pueden variar según el nodo y también pueden cambiar la convención de asignación de nombres del dispositivo Solaris.

Dispositivos locales

El software Sun Cluster gestiona también los dispositivos locales que son accesibles tan solo en un nodo que ejecute un servicio y que tenga una conexión física con el clúster. Es posible que los dispositivos locales tengan un mejor rendimiento que los globales, puesto que aquéllos no tienen que duplicar la información del estado en varios nodos simultáneamente. El fallo en el dominio del dispositivo suprime el acceso a éste a menos que varios nodos puedan compartir este dispositivo.

Grupos de dispositivos de discos

Los grupos de dispositivos de discos permiten a los grupos de discos del gestor de volúmenes convertirse en “globales”, gracias a la compatibilidad de ruta múltiple y de sistema múltiple en los discos subyacentes. Cada nodo del clúster conectado físicamente a los discos multisistema proporciona una ruta de acceso al grupo de dispositivos de disco.

En el sistema Sun Cluster, los discos de sistema múltiple pueden estar bajo el control del software Sun Cluster registrándose como grupos de dispositivos de discos. Este registro proporciona al sistema Sun Cluster información sobre qué nodos tienen una ruta a ciertos grupos de discos del gestor de volúmenes.

Servicios De Datos

Un servicio de datos es la combinación de software y archivos de configuración que permite a una aplicación ejecutarse sin modificaciones en una configuración de Sun Cluster, ya que en esta circunstancia se ejecuta como recurso bajo el control del Gestor del grupo de recursos (RGM). Un servicio de datos permite configurar una aplicación como Sun Java System Web Server o la base de datos de Oracle para ejecutarse en un clúster en lugar de un único servidor.

El software de un servicio de datos proporciona implementaciones de los métodos de gestión de Sun Cluster que efectúan las operaciones siguientes en la aplicación:

Iniciar la aplicación
Parar la aplicación
Supervisar los errores de la aplicación y recuperar después de estos fallos

Los archivos de configuración de un servicio de datos definen las propiedades del recurso que representa la aplicación en el gestor del grupo de recursos.

El RGM (gestor del grupo de recursos) controla la disposición de la recuperación de fallos y los servicios de datos escalables en el clúster y es responsable del inicio y de la parada de los servicios de datos en los nodos seleccionados del clúster, en respuesta a los cambios en la pertenencia al clúster; permite a las aplicaciones de servicios de datos utilizar la estructura del clúster.

El RGM controla los servicios de datos como recursos. Estas implementaciones las suministra Sun o las crea un desarrollador que utiliza una plantilla de servicios de datos genéricos, la API de la biblioteca de desarrollo de servicios de datos (DSDL API) o la API de la gestión de recursos (RMAPI). El administrador del clúster crea y gestiona los recursos en contenedores que reciben el nombre de grupos de recursos. Las acciones del administrador y del RGM provocan que los recursos y los grupos de recursos estén alternativamente en línea y fuera de línea.

Bibliografia

https://docs.oracle.com/cd/E19263-01/817-6910/6mm91j7t2/index.html

Post Top Ad

CATEGORIA DE MANTENIMIENTO DEL SOFTWARE "SUN CLUSTER"

Nodos Del Clúster

Interconexión Del Clúster

Pertenencia Al Clúster

Depósito De Configuración Del Clúster

Supervisores De Errores

Supervisión de los servicios de datos

Supervisión de las rutas de los discos

Supervisión de ruta múltiple de red IP

Dispositivos Del Quórum

Integridad de los datos

Dispositivos

Dispositivos globales

ID del dispositivo

Dispositivos locales

Grupos de dispositivos de discos

Servicios De Datos

Bibliografia

No hay comentarios:

Publicar un comentario

Post Top Ad

Socialize

Recent

Popular

Comment

Importante

Noticias

Datos de Estudio

Universidad

Send Quick Message