¿Por qué se dice que la MX440 es una tarjeta mágica?
En los sistemas de aceleración de gráficos por computadora, el mayor cuello de botella en el rendimiento no es el chip gráfico en sí (desde la era GeForce256, nVIDIA ha liberado a la CPU de la computadora de los pesados cálculos de modelado de gráficos 3D y se los ha entregado al chip gráfico. GPU del procesador), pero radica en el ancho de banda de la memoria. Cuando el chip de aceleración de imagen está en funcionamiento, el bus de memoria estará ocupado por transferencias de datos a largo plazo y altamente sostenidas, como lectura y escritura de píxeles, actualización de pantalla, transmisión de datos del bus AGP y transmisión de datos de textura. El ancho de banda de la memoria es insuficiente. ¡Esto provocará inmediatamente una caída en el rendimiento de aceleración de gráficos! Por lo tanto, Lightspeed Memory Architecture II está diseñada para resolver dichos cuellos de botella en el rendimiento. Consta de 6 módulos técnicos principales:
1. Controlador de memoria Crossbar
El controlador de memoria Crossbar garantiza la coordinación de todos los aspectos del sistema de memoria y satisface las solicitudes de GPU de manera oportuna. En teoría, la arquitectura de memoria de gráficos a la velocidad de la luz de segunda generación de NVIDIA puede proporcionar de 2 a 4 veces el ancho de banda de memoria de las arquitecturas de memoria de gráficos generales. Como todos sabemos, GeForce4 utiliza una interfaz de memoria DDR de 128 bits, lo que significa que se puede acceder a datos de 256 bits en un ciclo de memoria. Sin embargo, cada píxel generalmente contiene datos Z y módulo, lo que significa que estos dos conjuntos de datos no se pueden leer al mismo tiempo, sino que deben leerse dos veces. En los juegos populares de hoy en día, el tamaño de los triángulos es muy pequeño, normalmente sólo unos pocos píxeles. Tomando como ejemplo un triángulo con 32 bits de Z y 32 bits de datos del módulo, su cantidad de información es 32 bits × 2 = 64 bits. Si el controlador de memoria de video accede a los datos en modo de 256 bits, significa que el 75% del ancho de banda de la memoria de video se desperdicia durante el proceso de acceso.
2. Cuatro conjuntos de cachés
La arquitectura LMA II tiene un subsistema de caché llamado Quad Cache. Su principio de funcionamiento es el mismo que el de la caché de la CPU, que puede acelerar el acceso a la RAM. Quad Cahce tiene 4 buffers independientes optimizados para sus funciones, que son responsables del acceso a texturas originales, datos de vértices, materiales e información de píxeles. Dado que la información diversa es independiente entre sí, se elimina parte del trabajo innecesario durante el proceso de acceso, lo que garantiza que la información diversa ingrese al canal de gráficos a alta velocidad. Tomemos un ejemplo para ilustrar su principio de funcionamiento: para una resolución de 1280 × 1024, un ciclo de lectura y escritura de 16 bytes, utilizando filtrado trilineal y calculando dos materiales por píxel, la cantidad de información es: 1280 píxeles/ Líneas 157 MB/ fotograma, el ancho de banda de la memoria de vídeo guardada se puede utilizar para operaciones más complejas.
3. Compresión del búfer de plantilla Z sin pérdida
Esta es otra característica con la que está equipada la GeForce3. Sin embargo, en LMA II, la compresión 4:1 debería realizarse con mayor frecuencia sin problemas debido a su nuevo algoritmo de compresión.
4. Subsistema de visibilidad
Esta característica también se encuentra en GeForce3, pero para NV25 y NV17 se ha ajustado para lograr una mayor selección de píxeles con menos ancho de banda de memoria. La selección ahora se puede realizar en el chip en una caché de superficie de selección específica para evitar el uso de memoria fuera del chip.
5. Precarga automática
Cuando se trata del ancho de banda de la memoria de video, el retraso causado por la administración de páginas es un factor que fácilmente se pasa por alto. En primer lugar, la DRAM se gestiona según filas, columnas y "Bancos". Sólo se pueden leer y escribir las filas y columnas del "Banco" actualmente activo. Si la GPU quiere leer y escribir otras áreas en el chip de memoria de video, el controlador de memoria de video primero debe cerrar el "Banco" actualmente activo antes de abrir el "Banco" solicitado. Este proceso puede tardar casi 10 ciclos de DRAM, durante los cuales el bus de datos está inactivo.
La GPU de GeForce4 tiene la capacidad de consultar previamente el controlador de memoria de video, lo que le permite precargar el área de memoria de video a la que se accederá. De esta manera, el tiempo de espera se reduce a 2 o 3 ciclos de reloj y, naturalmente, mejora la eficiencia de transmisión de datos entre la GPU y la memoria de video.
6. Borrado rápido de plantilla Z
Lo he visto con Radeon hace un año. Al establecer una marca para un área determinada del búfer de cuadros, en lugar de llenar todo el búfer de cuadros, solo cuando los datos se escriben en la marca, el búfer de cuadros se llenará nuevamente, lo que puede ahorrar ancho de banda de memoria. La rápida tecnología de limpieza Z de GeForce4 puede reducir en gran medida el tiempo consumido por este proceso, aumentando la velocidad de fotogramas en casi un 10% sin perder calidad de imagen.
Sin embargo, la arquitectura de memoria de velocidad de la luz de segunda generación de GeForce4 MX es diferente de la de GeForce4 Ti. Esta última utiliza cuatro controladores de memoria de equilibrio de carga de 32 bits, mientras que la primera utiliza dos controladores de 64 bits, por lo que, en este sentido. , la diferencia entre GeForce4 MX y GeForce 4 Ti sigue siendo muy obvia.