El algoritmo de Paxos es un algoritmo para llegar a consensos en sistemas distribuidos con cierto grado de tolerancia a fallos. Entendemos consenso como el proceso de ponerse de acuerdo sobre uno de los resultados entre un grupo de participantes. Este problema se hace difícil cuando los participantes o su medio de comunicación puede experimentar fallos.
El protocolo Paxos primero fue publicado en 1989 por Leslie Lamport aunque pasó desapercibido hasta 1998 cuando lo publicó en una revista especializada. Desde entonces se han publicado varias mejoras y adaptaciones.[1]
El algoritmo incluye una gama de soluciones de compensación entre el número de procesos, el número de mensajes con retraso antes de aprender el valor acordado, el nivel de actividad de los participantes, el número de mensajes enviados, y los tipos de fallos. Aunque un protocolo de consenso con tolerancia a fallos determinista no puede garantizar el progreso en una red asíncrona, Paxos garantiza la seguridad (libre de inconsistencia), y las condiciones que podrían hacer que no progrese son difíciles de ocurrir.
Funciona en el modelo de paso de mensajes con asincronía y con menos n/2 fallos (pero no con fallos bizantinos). El algoritmo de Paxos garantiza que se llegará a un acuerdo y garantiza la finalización si hay un tiempo suficientemente largo sin que ningún proceso reinicie el protocolo.
Básicamente Paxos es un algoritmo para decidir un solo valor en un clúster de nodos. Decidir múltiples valores es una extensión a este algoritmo. Hay una serie de roles que pueden tener los nodos (procesos). En las implementaciones típicas, un mismo proceso puede tener diferentes roles al mismo tiempo. Estos roles son:
Un nodo puede tener varios roles. Por ejemplo un cliente de base de datos puede ser un proponente y también un aprendiz.
Normalmente se considera un cuarto rol llamado Cliente y que es el rol de un nodo (que puede ser externo) que es el que hace la petición de cambio de estado al sistema distribuido (a un proponente) y espera una respuesta
Para que un valor se considere aceptado, tiene que haber cierto quorum de aceptadores. Típicamente, un cuórum es cualquier mayoría de aceptadores participantes. Por ejemplo, dado el conjunto de aceptadores {A, B, C, D}, un cuórum válido sería cualquiera de los tres grupos de aceptadores: {A, B, C}, {A, C, D}, {A, B, D} , {B, C, D}.
La familia Paxos define tres propiedades de seguridad que siempre han de llevarse a cabo para poder garantizar la seguridad, independientemente del patrón de fallos:
Paxos solo funciona si la mayoría de los aceptadores están activos. Si fallan más de (n/2)-1 aceptadores entonces ningún proponente puede obtener suficientes respuestas a sus mensajes 'preparar' y ningún valor será aceptado. Otro punto débil está relacionado con el momento donde los proponentes envían los mensajes. En caso de que tengamos un solo proponente siempre se aceptará el valor mayor. Cuando hay varios proponentes éstos pueden interferir entre ellos. Por ejemplo ya se podría haber escogido una elección mejor que otra que ya ha sido aceptada. A esto se le llama duelo de proponentes. En la práctica este problema normalmente se resuelve eligiendo un coordinador que implemente algún algoritmo de detección de fallos o simplemente usando un backoff exponencial (como usa ethernet )
Supongamos que la decisión consiste en tomar el número mayor. Por tanto una propuesta en una ronda i es considerada como válida si es mayor que el resto de propuestas en esa ronda. Todas aquellas propuestas para esa ronda con números más pequeños son consideradas no válidas.
El sistema funciona con dos fases: Fase de preparación y fase de aceptación. Un proponente no debe iniciar el protocolo si no se puede comunicar con al menos un quorum de aceptadores.[3]
Representaciones gráficas del protocolo.
Cliente Proponente Aceptadores Aprendices | | | | | | | X---------->| | | | | | Petición | X--------->|->|->| | | Prepara(1) | |<---------X--X--X | | Promesa(1,{Va,Vb,Vc}) | X--------->|->|->| | | Aceptar!(1,Vn) | |<---------X--X--X------->|->| Aceptado(1,Vn) |<------------------------------------X--X Respuesta | | | | | | |
Vn = mayor(Va, Vb, Vc)
Cliente Proponente Aceptadores Aprendices | | | | | | | X---------->| | | | | | Petición | X--------->|->|->| | | Prepara(1) | | | | ! | | !! FALLO !! | |<---------X--X | | Promesa(1,{null,null, null}) | X--------->|->| | | Aceptar(1,V) | |<---------X--X----------->|->| Aceptado(1,V) |<-------------------------------------X--X Respuesta | | | | | |
Cliente Proponente Aceptadores Aprendices | | | | | | | X---------->| | | | | | Petición | X--------->|->|->| | | Prepara(1) | |<---------X--X--X | | Promesa(1,{null,null,null}) | X--------->|->|->| | | Aceptar(1,V) | |<---------X--X--X-------->|->| Aceptado(1,V) | | | | | | ! !! FALLO !! |<-------------------------------------X Respuesta | | | | | |
(Reelección no mostrada, una instancia, dos rondas)
Cliente Proponente Aceptadores Aprendices | | | | | | | X-------->| | | | | | Petición | X---------->|->|->| | | Prepara(1) | |<----------X--X--X | | Promesa(1,{null, null, null}) | | | | | | | | X---------->| | | | | Aceptar(1,Va) !! FALLO DEL LÍDER DURANTE LA DIFUSIÓN !! | ! | | | | | | | | | | | | !! NUEVO LÍDER !! | X---------->|->|->| | | Prepara(2) | |<----------X--X--X | | Promesa(2,{null, null, null}) | X---------->|->|->| | | Aceptar(2,V) | |<----------X--X--X-------->|->| Aceptado(2,V) |<------------------------------------X--X Respuesta | | | | | | |
Aquí podemos ver un ejemplo del algoritmo en esas situaciones en las que pudiera darse una situación de interbloqueo que al final va a resolverse entre dos postulantes que están compitiendo y se caen o tienen retardos importantes, y que por tanto no se podría llegar a tener consenso. Esto en la práctica es imposible que se de ya que en un número de rondas (reintentos) acaba dándole tiempo a uno u a otro de hacer las dos fases seguidas sin que se le meta otro postulante entremedias.
Normalmente lo que se requiere es un flujo continuo de los valores acordados que actúan como comandos para una máquina de estado distribuido. Si cada comando es el resultado de una única instancia del protocolo básico de Paxos, obtendríamos una gran cantidad de gasto.
Si el proceso que actúa como líder es relativamente estable, la fase 1 sería innecesaria. Por lo tanto, es posible omitir la fase 1 para futuras instancias del protocolo con el mismo líder.
Para lograr esto, el número de instancia I es incluido junto con cada valor. Multi-Paxos reduce el retraso de los mensajes libres de fallos (del proponente al aprendiz) a la mitad (de 4 a 2 delays).
(Primera estancia con un nuevo líder)
Cliente Proponente Aceptadores Aprendices | | | | | | | --- Primera petición --- X---------->| | | | | | Petición | X--------->|->|->| | | Prepara(N) | |<---------X--X--X | | Promesa(N,I,{Va,Vb,Vc}) | X--------->|->|->| | | Aceptar(N,I,Vm) | |<---------X--X--X-------->|->| Aceptado(N,I,Vm) |<-------------------------------------X--X Respuesta | | | | | | |
Vm = last of (Va, Vb, Vc)
(Instancias posteriores con el mismo líder
Cliente Proponente Aceptadores Aprendices | | | | | | | --- Primera petición --- X---------->| | | | | | Petición | X--------->|->|->| | | Aceptar(N,I+1,W) | |<---------X--X--X-------->|->| Aceptado (N,I+1,W) |<-------------------------------------X--X Respuesta | | | | | | |