Fermi es el nombre en clave de una microarquitectura de unidad de procesamiento de gráficos (GPU) desarrollada por Nvidia, lanzada por primera vez al por menor en abril de 2010, como sucesora de la microarquitectura de Tesla. Fue la microarquitectura principal utilizada en las series GeForce 400 y GeForce 500. Le siguió Kepler y se usó junto con Kepler en las series GeForce 600, GeForce 700 y GeForce 800, en las dos últimas solo en GPU móviles. En el mercado de estaciones de trabajo, Fermi encontró uso en la serie Quadro x000, los modelos Quadro NVS, así como en los módulos informáticos Nvidia Tesla. Todas las GPU Fermi de escritorio se fabricaron en 40nm, las GPU Fermi móviles en 40nm y 28nm. Fermi es la microarquitectura más antigua de NVIDIA que recibió soporte para la API de renderizado de Microsoft Direct3D 12 feature_level 11.
Fermi | ||
---|---|---|
Información | ||
Tipo | Microarquitectura | |
Desarrollador | Nvidia | |
Fecha de lanzamiento | Abril de 2010 | |
La arquitectura lleva el nombre de Enrico Fermi, un físico italiano.
Las unidades de procesamiento gráfico (GPU) de Fermi cuentan con 3.000 millones de transistores y se muestra un esquema en la figura 1.
Cada SM cuenta con 32 núcleos CUDA de precisión simple, 16 unidades de carga/almacenamiento, cuatro Unidades de funciones especiales (SFU), un bloque de 64 KB de memoria en chip de alta velocidad (consulte la subsección L1+Memoria compartida) y una interfaz para la caché L2 ( consulte la subsección Caché L2).
Permita que las direcciones de origen y destino se calculen para 16 subprocesos por reloj. Cargue y almacene los datos desde/en caché o DRAM.
Ejecutar instrucciones trascendentales como seno, coseno, recíproco y raíz cuadrada. Cada SFU ejecuta una instrucción por subproceso, por reloj; una deformación se ejecuta durante ocho relojes. La canalización de SFU se desacopla de la unidad de despacho, lo que permite que la unidad de despacho emita a otras unidades de ejecución mientras la SFU está ocupada.
Unidad lógica aritmética entera (ALU - Arithmetic Logic Unit): Admite una precisión total de 32 bits para todas las instrucciones, de acuerdo con los requisitos del lenguaje de programación estándar. También está optimizado para admitir de manera eficiente operaciones de precisión extendida y de 64 bits.
Implementa el nuevo estándar de coma flotante IEEE 754-2008, que proporciona la instrucción de suma y multiplicación fusionada (FMA) para aritmética de precisión simple y doble. Se pueden realizar hasta 16 operaciones de suma y multiplicación fusionadas de doble precisión por SM, por reloj.[1]
La suma y multiplicación fusionada (FMA) realiza multiplicaciones y sumas (es decir, A*B+C) con un único paso de redondeo final, sin pérdida de precisión en la suma. FMA es más preciso que realizar las operaciones por separado.
La arquitectura Fermi utiliza un planificador de subprocesos distribuidos de dos niveles.
Cada SM puede emitir instrucciones que consuman dos de las cuatro columnas de ejecución verdes que se muestran en la Fig. 1 esquemática. Por ejemplo, el SM puede mezclar 16 operaciones de los 16 núcleos de la primera columna con 16 operaciones de los 16 núcleos de la segunda columna, o 16 operaciones de las unidades de carga/almacenamiento con cuatro de SFU, o cualquier otra combinación que especifique el programa.
Tenga en cuenta que las operaciones de coma flotante de 64 bits consumen las dos primeras columnas de ejecución. Esto implica que un SM puede emitir hasta 32 operaciones de punto flotante de precisión simple (32 bits) o 16 operaciones de punto flotante de precisión doble (64 bits) a la vez.
El motor GigaThread programa bloques de subprocesos para varios SM.
En el nivel de SM, cada programador de warp distribuye warps de 32 subprocesos a sus unidades de ejecución. Los hilos se programan en grupos de 32 hilos llamados warps. Cada SM cuenta con dos programadores warp y dos unidades de despacho de instrucciones, lo que permite emitir y ejecutar dos warps simultáneamente. El programador warp dual selecciona dos warps y emite una instrucción de cada warp a un grupo de 16 núcleos, 16 unidades de carga/almacenamiento o 4 SFU. La mayoría de las instrucciones se pueden emitir de forma dual; dos instrucciones enteras, dos instrucciones flotantes o una combinación de instrucciones enteras, de punto flotante, de carga, de almacenamiento y SFU se pueden emitir simultáneamente. Las instrucciones de precisión doble no admiten el envío doble con ninguna otra operación.
La potencia de procesamiento de precisión simple teórica de una GPU Fermi en GFLOPS se calcula como 2 (operaciones por instrucción FMA por núcleo CUDA por ciclo) × número de núcleos CUDA × velocidad de reloj del sombreador (en GHz). Tenga en cuenta que la generación anterior de Tesla podía emitir dos MAD+MUL a núcleos CUDA y SFU en paralelo, pero Fermi perdió esta capacidad ya que solo puede emitir 32 instrucciones por ciclo por SM, lo que mantiene sus 32 núcleos CUDA completamente utilizados.[2] Por lo tanto, no es posible aprovechar las SFU para alcanzar más de 2 operaciones por núcleo CUDA por ciclo.
La potencia teórica de procesamiento de doble precisión de una GPU Fermi es la mitad del rendimiento de precisión simple en GF100/110. Sin embargo, en la práctica, esta potencia de doble precisión solo está disponible en las tarjetas profesionales Quadro y Tesla, mientras que las tarjetas GeForce de consumo tienen un límite de 1/8.[3]
Caché L1 por SM y caché L2 unificado que da servicio a todas las operaciones (carga, almacenamiento y textura).
Cada SM tiene 32K de registros de 32 bits. Cada hilo tiene acceso a sus propios registros y no a los de otros hilos. El número máximo de registros que puede utilizar un núcleo CUDA es 63. La cantidad de registros disponibles se degrada gradualmente de 63 a 21 a medida que la carga de trabajo (y, por lo tanto, los requisitos de recursos) aumenta según la cantidad de subprocesos. Los registros tienen un ancho de banda muy alto: unos 8.000 GB/s.
Memoria en chip que se puede usar para almacenar en caché datos para subprocesos individuales (desbordamiento de registros/caché L1) y/o para compartir datos entre varios subprocesos (memoria compartida). Esta memoria de 64 KB se puede configurar como 48 KB de memoria compartida con 16 KB de caché L1 o 16 KB de memoria compartida con 48 KB de caché L1. La memoria compartida permite que los subprocesos dentro del mismo bloque de subprocesos cooperen, facilita la reutilización extensiva de los datos en el chip y reduce en gran medida el tráfico fuera del chip. Los subprocesos en el mismo bloque de subprocesos pueden acceder a la memoria compartida. Proporciona acceso de latencia baja (10-20 ciclos) y ancho de banda muy alto (1600 GB/s) a cantidades moderadas de datos (como resultados intermedios en una serie de cálculos, una fila o columna de datos para operaciones matriciales, una línea de vídeo, etc.). David Patterson dice que esta Memoria Compartida usa la idea del bloc de notas local[4]
La memoria local se entiende como una ubicación de memoria utilizada para contener registros "derramados". El derrame de registros ocurre cuando un bloque de subprocesos requiere más almacenamiento de registros del que está disponible en un SM. La memoria local se usa solo para algunas variables automáticas (que se declaran en el código del dispositivo sin ninguno de los calificadores __device__, __shared__ o __constant__ ). Generalmente, una variable automática reside en un registro excepto por lo siguiente: (1) Los arreglos que el compilador no puede determinar están indexados con cantidades constantes; (2) Grandes estructuras o matrices que consumirían demasiado espacio de registro; Cualquier variable que el compilador decida volcar a la memoria local cuando un kernel usa más registros de los que están disponibles en el SM.
Caché L2 unificado de 768 KB, compartido entre los 16 SM, que da servicio a todas las cargas y almacenamiento desde/hacia la memoria global, incluidas las copias hacia/desde el host de la CPU y también las solicitudes de textura. El subsistema de caché L2 también implementa operaciones atómicas, que se utilizan para administrar el acceso a los datos que deben compartirse entre bloques de subprocesos o incluso núcleos.
Accesible por todos los subprocesos, así como por el host (CPU). Alta latencia (400-800 ciclos).
Consulte Nvidia NVDEC (anteriormente llamado NVCUVID), así como Nvidia PureVideo.
La tecnología Nvidia NVENC aún no estaba disponible, pero se introdujo en el sucesor, Kepler.