General Parallel File System (GPFS) es un sistema de ficheros distribuido de alto rendimiento desarrollado por IBM. GPFS proporciona un acceso concurrente de alta velocidad a aplicaciones que se encuentran ejecutando en múltiples nodos de un cluster dando una visión de un disco compartido entre todos ellos. La configuración existente de mayor tamaño superaba los 2000 nodos.
IBM GPFS | ||
---|---|---|
Desarrollador | IBM | |
Nombre completo | IBM General Parallel File System | |
Sistemas operativos compatibles | AIX, Linux, Windows Server | |
Introducción | 1998 (AIX) | |
Límites | ||
Máxima dimensión de archivo | 263-1 bytes | |
Máximo número de archivos | 231 | |
Tamaño máximo del nombre de archivo | 256 UTF-8 | |
Tamaño máximo del volumen | 299 bytes (4 PiB probado) | |
Características | ||
Atributos | POSIX | |
Permisos de acceso a archivos | POSIX y ACL (opcional) | |
Compresión transparente | No | |
Cifrado transparente | No | |
Existen versiones de GPFS para sistemas operativos AIX (desde 1998) y Linux (desde 2001). Se incluye como parte de IBM System Cluster 1350.
Desde el inicio, GPFS ha sido aplicado con éxito en multitud de aplicaciones comerciales incluyendo: servicios digitales, redes de análisis y servicios de archivos escalables. En marzo de 2008, es utilizado por muchos de los supercomputadores que forman el TOP500, entre las que se encuentran las dos más importantes de España: Magerit y Marenostrum.
El origen del GPFS es el sistema de ficheros Tiger Shark, un proyecto del centro de investigación Almaden de IBM a principios de 1993, aunque la primera versión comercial de GPFS fue publicada en 1998 para el sistema operativo AIX.
Inicialmente, GPFS se diseña para soportar altas tasas de transferencia que precisan las aplicaciones multimedia. Este diseño resultó ser muy adecuado para la computación científica.
El sistema de ficheros GPFS está compuesto de un conjunto de ordenadores que forman un cluster GPFS. Algunos de los miembros del cluster proporcionan los discos físicos accesibles por todos los nodos del sistema. La inclusión y exclusión de miembros del cluster puede realizarse en funcionamiento.
Cuando un nodo realiza una operación sobre el sistema de ficheros los datos se distribuyen en tiras ("striping") y son almacenadas en varias de las máquinas que sirven de discos. De esta forma se obtiene un mayor rendimiento al acceder a los distintos bloques en paralelo, alta disponibilidad (la información puede almacenarse en discos de dos o más servidores), recuperación en caso de fallo, seguridad, DMAPI, gestión jerárquica del almacenamiento HSM y gestión del ciclo de vida de la información ILM.
La inclusión de un nuevo servidor de discos supone una mejora del rendimiento al redistribuir la información permitiendo un mayor nivel de paralelismo en el acceso.