Ada Lovelace, también conocida simplemente como Lovelace,[1] es el nombre en clave de una microarquitectura de unidad de procesamiento de gráficos (GPU) desarrollada por Nvidia como sucesora de la arquitectura Ampere, anunciada oficialmente el 20 de septiembre de 2022. Lleva el nombre de la matemática inglesa Ada Lovelace,[2] quien a menudo se considera la primera programadora de computadoras y es la primera arquitectura en incluir tanto un nombre como un apellido. Nvidia anunció la arquitectura junto con las nuevas GPU de consumo de la serie GeForce 40[3] y la tarjeta gráfica de estación de trabajo profesional RTX 6000 Ada Generation.[4] Se reveló que las nuevas GPU utilizan el nuevo proceso "4N" de 5 nm de TSMC, que ofrece una mayor eficiencia en comparación con los procesos anteriores de Samsung de 8 nm y TSMC N7 utilizados por Nvidia para su arquitectura Ampere de última generación.[5]
Ada Lovelace | ||
---|---|---|
Información | ||
Tipo | Microarquitectura | |
Desarrollador | Nvidia | |
Fabricante | TSMC 4N | |
Fecha de lanzamiento | 12 de octubre de 2022 (2 años) | |
Datos técnicos | ||
Memoria |
GDDR6 GDDR6X | |
Frecuencia de reloj de CPU | 735 MHz — 2640 MHz | |
Caché L1 | 128 KB (por SM) | |
Caché L2 | 32 MB a 96 MB | |
Usado en | ||
Serie GeForce 40 RTX 6000 Ada Tesla Ada (L4x) | ||
La arquitectura Ada Lovelace es una continuación de la arquitectura Ampere que se lanzó en 2020. La arquitectura Ada Lovelace fue anunciada por el CEO de Nvidia, Jensen Huang, durante un discurso de apertura de GTC 2022 el 20 de septiembre de 2022 con la arquitectura que impulsa las GPU de Nvidia para juegos, estaciones de trabajo y centros de datos.[6]
Las mejoras arquitectónicas de la arquitectura de Ada Lovelace incluyen lo siguiente:[7]
Se incluyen 128 núcleos CUDA en cada SM.
Ada Lovelace presenta núcleos RT de tercera generación. La RTX 4090 presenta 128 núcleos RT en comparación con los 84 de la generación anterior RTX 3090 Ti. Estos 128 núcleos RT pueden proporcionar hasta 191 TFLOPS de cómputo con 1,49 TFLOPS por núcleo RT.[13] Se agrega una nueva etapa en la tubería de trazado de rayos llamada Shader Execution Reordering (SER) en la arquitectura Lovelace que, según Nvidia, proporciona una mejora de rendimiento 2x en las cargas de trabajo de trazado de rayos.[6]
Los nuevos núcleos Tensor de cuarta generación de Lovelace permiten la tecnología de inteligencia artificial utilizada en las técnicas de generación de cuadros de DLSS 3. Al igual que Ampere, cada SM contiene 4 núcleos Tensor, pero Lovelace contiene una mayor cantidad de núcleos Tensor en general debido a su mayor número de SM.
Hay un aumento significativo en las velocidades de reloj con la arquitectura Lovelace, ya que la velocidad de reloj base de la RTX 4090 es más alta que la velocidad de reloj de impulso de la RTX 3090 Ti.
RTX 2080 Ti | RTX 3090 Ti | RTX 4090 | |
---|---|---|---|
Arquitectura | Turing | Ampere | Ada Lovelace |
Velocidad base del reloj (MHz) | 1350 | 1560 | 2235 |
Velocidad turbo del reloj (MHz) | 1635 | 1860 | 2520 |
RTX 2080 Ti | RTX 3090 Ti | RTX 4090 | |
---|---|---|---|
Arquitectura | Turing | Ampere | Ada Lovelace |
Caché de datos L1 | 6.375 MB (96 KB por SM) |
10.5 MB (128 KB por SM) |
16 MB (128 KB por SM) |
Caché L2 | 5.5 MB | 6 MB | 72 MB |
El chip AD102 Lovelace completamente habilitado cuenta con 96 MB de caché L2, un aumento de 16 veces desde los 6 MB en el chip GA102 basado en Ampere.[14] La GPU que tiene acceso rápido a una gran cantidad de caché L2 beneficia operaciones complejas como el trazado de rayos en comparación con la GPU que busca datos de la memoria de video GDDR, que es más lenta. Confiar menos en el acceso a la memoria para almacenar datos importantes y de acceso frecuente significa que se puede usar un ancho de bus de memoria más estrecho junto con una gran caché L2.
Cada controlador de memoria utiliza una conexión de 32 bits con hasta 12 presentes para un ancho de bus de memoria combinado de 384 bits. La arquitectura Lovelace puede usar memoria GDDR6 o GDDR6X. La memoria GDDR6X se incluye en la serie GeForce RTX 40 de escritorio, mientras que la memoria GDDR6 de mayor eficiencia energética se usa en sus versiones móviles correspondientes y en las GPU de estaciones de trabajo RTX A6000.
La arquitectura Ada Lovelace puede usar voltajes más bajos en comparación con su predecesor.[6] Nvidia reclama un aumento de rendimiento de 2x para el RTX 4090 a los mismos 450 W utilizados por el buque insignia de la generación anterior RTX 3090 Ti.[13]
La mayor eficiencia energética se puede atribuir en parte al nodo de fabricación más pequeño utilizado por la arquitectura Lovelace. La arquitectura de Ada Lovelace se fabrica en el proceso 4N de vanguardia de TSMC, un nodo de proceso diseñado a medida para Nvidia. La arquitectura Ampere de la generación anterior utilizó el nodo de proceso 8N basado en 8nm de Samsung de 2018, que tenía dos años en el momento del lanzamiento de Ampere.[15][16] El chip AD102 con sus 76.300 millones de transistores tiene una densidad de transistores de 125,5 millones por mm2, un aumento del 178 % en la densidad con respecto a los 45,1 millones por mm2 del GA102.
La arquitectura Lovelace utiliza el nuevo codificador de video Nvidia NVENC de octava generación y el decodificador de video NVDEC de séptima generación presentado por Ampere.[13]
Se agrega la codificación de hardware NVENC AV1 con soporte para una resolución de hasta 8K a 60FPS en color de 10 bits, lo que permite una mayor fidelidad de video a velocidades de bits más bajas en comparación con los códecs H.264 y H.265.[17] Nvidia afirma que su codificador NVENC AV1 incluido en la arquitectura Lovelace es un 40 % más eficiente que el codificador H.264 en la arquitectura Ampere.[18]
La arquitectura Lovelace recibió críticas por no admitir la conexión DisplayPort 2.0 que admite un mayor ancho de banda de datos de visualización y, en su lugar, utiliza el antiguo DislayPort 1.4a, que está limitado a un ancho de banda máximo de 32 Gbps.[19] Como resultado, las GPU Lovelace estarían limitadas por las frecuencias de actualización compatibles con DisplayPort 1.4a a pesar de que el rendimiento de la GPU puede alcanzar velocidades de cuadro más altas. Las GPU Intel Arc también se lanzaron en octubre de 2022, las cuales incluyen DisplayPort 2.0. Además, la arquitectura RDNA 3 de AMD fue lanzada apenas dos meses después del lanzamiento de Lovelace, y cuenta con DisplayPort 2.1.[20]
Chip[21] | AD102[22] | AD103[23] | AD104[24] | AD106[25] | AD107[26] |
---|---|---|---|---|---|
Tamaño del chip | 608 mm2 | 378,6 mm2 | 295 mm2 | 190 mm2 | 146 mm2 |
Transistores | 76.3 mil millones | 45.9 mil millones | 35.8 mil millones | Desconocido | Desconocido |
Densidad de transistores | 125,5 MTr/mm 2 | 121,1 MTr/mm 2 | 121,4 MTr/mm 2 | Desconocido | Desconocido |
Clústeres de procesamiento de gráficos (GPC) | 12 | 7 | 5 | 3 | 2 |
Transmisión de multiprocesadores (SM) | 144 | 80 | 60 | 36 | 24 |
Núcleos CUDA | 18432 | 10240 | 7680 | 4608 | 3072 |
Unidades de mapeo de texturas | 576 | 320 | 240 | 144 | 96 |
Unidades de salida de renderizado | 192 | 112 | 80 | 64 | 32 |
Núcleos tensor | 576 | 320 | 240 | 144 | 96 |
Núcleos RT | 144 | 80 | 60 | 36 | 24 |
Caché L1 | 18 MB | 10 MB | 7.5 MB | 4.5 MB | 3 MB |
128 KB por SM | |||||
caché L2 | 96 MB | 64 MB | 48 MB | 32 MB |
Modelo | Lanzamiento | Precio de lanzamiento MSRP (USD) |
Nombre en clave | Transistores (mil millones) | Tamaño del chip | Config. del núcleo[a] | Cantidad de SM[b] | Caché | Velocidades de reloj[c] | Tasa de relleno[d][e] | Memoria | Poder de procesamiento (TFLOPS) | TDP | |||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
L1 | L2 | Reloj del núcleo (MHz) |
Memoria (GB/s) |
Píxel (GPX/s) |
Textura (Gtex/s) |
Tipo | Tamaño | Ancho de banda (GB/s) | Ancho del bus | Media precisión (turbo) | Simple precisión (turbo) | Doble precisión (turbo) | Cómputo Tensor [disperso] | |||||||||
RTX 4000 SFF Ada Generation[27] RTX 4000 SFF Ada Generation[27] |
21 de marzo de 2023 | $1,250 | AD104-400 | 35.8 | 294.5 mm2 | 6144 192:80:48:192 |
48 | 6 MB | 48 MB | 1290 (1565) |
16 Gb/s | 103.2 (125.2) |
247.68 (300.48) |
GDDR6 | 20 GB | 320 | 160-bit | (19.2) |
153.4 [306.8] |
70 W | ||
RTX 6000 Ada Generation[28] RTX 6000 Ada Generation[28] |
20 de enero de 2023 | $6,799 | AD102-300 | 76.3 | 608.4 mm2 | 18,176 568:192:142:568 | 142 | 17.75 MB | 96 MB | 915 (2505) |
20 Gb/s | 175.68 (480.96) | 519.72 (1.422,84) | 48 GB | 960 | 384-bit | (91.1) |
728.5 [1457.0] |
300 W |
Modelo | Lanzamiento | Nombre en clave | Transistores (mil millones) | Tamaño del chip | Config. del núcleo[a] | Cantidad de SM[b] | Caché | Velocidades de reloj[c] | Tasa de relleno[d][e] | Memoria | Poder de procesamiento (TFLOPS) | TGP | |||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
L1 | L2 | Reloj del núcleo (MHz) |
Memoria (GB/s) |
Píxel (GPX/s) |
Textura (Gtex/s) |
Tipo | Tamaño | Ancho de banda (GB/s) | Ancho del bus | Media precisión (turbo) | Simple precisión (turbo) | Doble precisión (turbo) | Cómputo Tensor [disperso] | ||||||||
RTX 2000 Max-Q Ada Laptop |
21 de marzo de 2023 | AD107 | 146 mm2 | 3072 96:32:24:96 |
24 | 3 MB | 12 MB | 930 (1455) |
14 Gbps | 29.76 (46.56) |
89.28 (139.68) |
GDDR6 | 8 GB | 224 | 128-bit | 35 W | |||||
RTX 2000 Ada Laptop |
AD106 | 1635 (2115) |
16 Gbps | 52.32 (67.68) |
156.96 (203.04) | 256 | (14.5) |
115.8 [231.6] |
35–140 W | ||||||||||||
RTX 3000 Ada Laptop |
190 mm2 | 4608 144:48:36:144 |
36 | 4.5 MB | 32 MB | 1395 (1695) |
66.96 (81.36) |
200.88 (244.08) | (19.9) |
159.3 [318.6] | |||||||||||
RTX 3500 Ada Laptop |
AD104 | 35.8 | 294.5 mm2 | 5120 160:64:40:160 |
40 | 5 MB | 48 MB | 1290 (1665) |
18 Gbps | 82.56 (106.56) | 206.4 (266.4) |
12 GB | 432 | 192-bit | (23.0) |
184.3 [368.6] |
60–140 W | ||||
RTX 4000 Ada Laptop |
7424 232:80:58:232 |
58 | 7.25 MB | 1290 (1665) |
103.2 (133.2) |
299.28 (386.28) | (33.6) |
269.0 [538.0] |
80–175 W | ||||||||||||
RTX 5000 Ada Laptop |
AD103 | 45.9 | 378.6 mm2 | 9728 304:112:76:304 | 76 | 9.5 MB | 64 MB | 1335 (1695) |
149.52 (189.84) | 405.84 (515.28) | 16 GB | 576 | 256-bit | (42.6) |
340.9 [681.8] |
Modelo | Lanzamiento | Precio de lanzamiento MSRP (USD) |
Nombre en clave | Transistores (mil millones) | Tamaño del chip | Config. del núcleo[a] | Cantidad de SM[b] | Caché | Velocidades de reloj[c] | Tasa de relleno[d][e] | Memoria | Poder de procesamiento (TFLOPS) | TBP | |||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
L1 | L2 | Reloj del núcleo (MHz) |
Memoria (GB/s) |
Píxel (GPX/s) |
Textura (Gtex/s) |
Tipo | Tamaño | Ancho de banda (GB/s) | Ancho del bus | Media precisión (turbo) | Simple precisión (turbo) | Doble precisión (turbo) | Cómputo Tensor [disperso] | |||||||||
L4 | Desconocido | $ | AD104-??? -A1 | 35.8 | 295 mm2 | 7,680 240:80:60:240 |
60 | 7.5 MB | 48 MB | 795 (2040) |
1313 | 63.6 (163.2) | 190.8 (489.6) |
GDDR6X | 24 GB | 504.2 | 192-bit | 285 W | ||||
L40[29] | 13 de octubre de 2022 | $ | AD102-895-A1 | 76.3 | 608.4 mm2 | 18,176 568:192:142:568 | 142 | 17.75 MB | 96 MB | 735 (2490) |
2250 | 58.8 (199.2) | 176.4 (597.6) |
GDDR6 | 48 GB | 864 | 384-bit | 300 W | ||||
L40G | $ | AD102-??? -A1 | 48 MB | 1005 (2475) |
80.4 (198.0) | 241.2 (594.0) |
24 GB | |||||||||||||||
L40 CNX | $ | AD102-??? -A1 |