Supercomputación en la investigación de las ciencias de la tierra
1 Introducción
Las ciencias de la tierra incluyen geología, geografía, atmósfera, océanos y muchas otras disciplinas. Es una parte de las ciencias naturales que aborda directamente la relación entre los humanos y la naturaleza. Las ciencias de la Tierra no son solo un canal para comprender las capas sólidas, líquidas y gaseosas de la Tierra y su relación con los humanos, sino que también sirven directamente a los recursos, la energía, el medio ambiente y los aspectos sociales y económicos de la prevención y reducción de desastres.
La tecnología de comunicación por satélite, la tecnología de redes y la tecnología informática han cambiado el modelo tradicional de investigación en ciencias de la tierra. Con el desarrollo de la teledetección, la tecnología de la información y diversas tecnologías de observación y análisis en tiempo real, las ciencias de la tierra han entrado en una nueva etapa que abarca el mundo y abarca círculos, es decir, la ciencia del sistema terrestre, avanzando desde la descripción de fenómenos locales hasta la exploración de mecanismos planetarios y ha obtenido información global y sistemática.
En términos de aplicaciones, el papel de las ciencias de la tierra está en casi todas partes, desde las industrias extractivas, la industria y la agricultura hasta la planificación arquitectónica, el turismo y el ejército. Además, con el desarrollo de la sociedad, el deterioro del medio ambiente y el agravamiento de las consecuencias de los desastres naturales, las ciencias de la tierra, que originalmente estaban orientadas principalmente a los recursos, se han desarrollado en la dirección del medio ambiente y la reducción y prevención de desastres, ampliando así el campo de acción. campo de las ciencias de la tierra al servicio de la sociedad.
Con la aplicación de métodos de detección modernos y tecnología de la información, se han generado datos geoespaciales de nivel PB/TB, que requieren supercomputadoras para procesar, interpretar, acceder y utilizar más de billones de veces. Por otro lado, el desarrollo del entorno de información y comunicación digital también ha cambiado los medios y métodos de la investigación tradicional de materias básicas. Los equipos de investigación multidisciplinarios son una garantía importante para completar la investigación científica y la implementación de ingeniería a gran escala. Las supercomputadoras avanzadas y las tecnologías de computación grid proporcionan una plataforma multidisciplinaria para la investigación interdisciplinaria fundamental. Desde 2002, los Estados Unidos, el Reino Unido, el Japón, Australia y la Unión Europea han iniciado proyectos de "e-investigación" o "e-ciencia", con inversiones que oscilan entre 654.380 y 654.380 millones de dólares. Su propósito es utilizar tecnología grid y tecnología middleware para conectar supercomputadoras en universidades o laboratorios de investigación nacionales o regionales para formar una plataforma virtual para la colaboración de recursos multidisciplinarios. Al mismo tiempo, los países desarrollados avanzados están estableciendo plataformas multidisciplinarias para compartir recursos con las ciencias de la tierra como núcleo.
Supercomputadora
Como lo explica la Ley de Moore, la velocidad de las computadoras está aumentando rápidamente (se duplica cada 18 meses), los costos de fabricación están cayendo drásticamente y la velocidad de la supercomputación está aumentando rápidamente. Los costos tienden a ser razonables. En la actualidad, la mayoría de las universidades nacionales pueden permitirse una supercomputadora con un billón de potencia informática. Según las últimas estadísticas de rendimiento de supercomputadores, el TOP500 muestra (en febrero de 2004, 65438), de los cuales 358 se instalaron recientemente en 2004 y 95 en 2003. En conjunto, representan más del 90% de las 500 computadoras más rápidas del mundo, como se muestra en la Tabla 1. Acelerar las computadoras no es una cuestión técnica, la clave es el desarrollo de sistemas de software, que es nuestro eslabón débil.
En el campo de la investigación de temas básicos, las ciencias de la tierra son el campo que más utiliza supercomputadoras. Según las últimas estadísticas de TOP500 (65.438 en febrero de 2004), como se muestra en la Tabla 2, entre las 500 supercomputadoras con mayor rendimiento, la geofísica representa 51, lo que representa más de 10 del total. Como la investigación meteorológica y meteorológica, la previsión meteorológica, etc. En conjunto, las ciencias de la tierra ocupan una proporción aún mayor de supercomputadoras.
Tabla 1
Tabla 2
En la actualidad, muchas universidades e instituciones de investigación nacionales también han llevado a cabo investigaciones sobre arquitectura de supercomputación, por ejemplo, basada en Linux. Sistema operativo Arquitectura informática del cluster. Esta arquitectura proporciona una solución viable para tareas de supercomputación en un momento en que las computadoras centrales y las supercomputadoras son costosas pero actualmente no pueden cumplir con los requisitos informáticos a mayor escala. Sus principales problemas son el rendimiento deficiente, la baja confiabilidad, el mantenimiento difícil, la escalabilidad deficiente y la seguridad deficiente. Los investigadores científicos gastan demasiada energía en la construcción del sistema y el costo no es necesariamente bajo.
En 2003, el Dr. Chen Shiqing, académico de la Academia Nacional de Ciencias y estrella de portada de la revista Time, regresó a China e inventó la computadora superblade en Shenzhen Shell Yingxing Company.
El Dr. Shiqing Chen también es líder en el desarrollo de las supercomputadoras CRAY-MP e Y-MP de renombre mundial.
El concepto de diseño de las palas de la computadora Super Blade es similar a las palas de la turbina de un motor a reacción. Estas "cuchillas" se pueden quitar y reemplazar en cualquier momento y, cuando se atornillan, crean un poder poderoso. La computadora Super Blade aprovecha al máximo este concepto de diseño, es simple y simple y adopta nueva tecnología. Las actualizaciones de nodos de cómputo solo requieren agregar "blades" sin necesidad de volver a cablear ni configurar. Este tipo de computadora es como un motor lleno de "cuchillas". Cada "cuchilla" es una unidad informática que, en teoría, puede expandirse infinitamente y puede agregarse y reemplazarse en cualquier momento sin tiempo de inactividad. La computadora Super Blade adopta un nuevo concepto de diseño y arquitectura de sistema, y su velocidad de computación puede exceder los 50 billones de números de punto flotante por segundo, alcanzando el nivel de las supercomputadoras en países avanzados como Estados Unidos y Japón. La computadora Super Blade tiene vitalidad, seguridad y confiabilidad duraderas, rendimiento de costos razonables y modo de colaboración en tiempo real.
Tres cuestiones de supercomputación en la investigación de las ciencias de la tierra
Las cuestiones de la supercomputación en la investigación de las ciencias de la tierra incluyen: procesamiento e interpretación de datos sísmicos, procesamiento e interpretación de información de teledetección y sistemas de información geográfica a gran escala. procesamiento y visualización de datos geoespaciales, simulación dinámica de diversos fenómenos naturales como la tierra, la atmósfera y el océano, como terremotos, inundaciones, tormentas de arena, simulación de estructuras geológicas de ingeniería, simulación de dinámica molecular de materiales, etc. Además, en la investigación de las ciencias de la Tierra, existen muchas cuestiones de supercomputación que implican problemas multidisciplinarios e interdisciplinarios. Algunos problemas son modelos de flujo de trabajo colaborativos en tiempo real.
4 Supercomputación basada en redes de alto rendimiento
Con el desarrollo y aplicación de las computadoras y la tecnología de la información, especialmente la construcción y aplicación de redes de alta velocidad y equipos relacionados, ha tenido un profundo impacto La ciencia afectada Los métodos de investigación han cambiado los medios de investigación y también han conducido al surgimiento de los conceptos de e-Investigación y e-Ciencia.
La E-Ciencia es la definición de una infraestructura de investigación científica a muy gran escala que requiere la cooperación de científicos de todo el mundo y el uso de Internet y tecnologías relacionadas. Una característica típica de esta investigación científica colaborativa es que los científicos necesitan acceder a conjuntos de datos masivos, utilizar instalaciones de investigación científica únicas, consumir una gran cantidad de recursos informáticos científicos y realizar análisis, modelado y visualización de alto rendimiento. Otro aspecto importante de esta investigación a gran escala es proporcionar una plataforma interdisciplinaria para el intercambio de información y la germinación de nuevos conceptos entre científicos y sujetos interdisciplinarios.
E-Research es una definición más general y un resumen de e-Ciencia, que incluye comportamientos y actividades de investigación no científica. Por ejemplo, la investigación electrónica incluye investigaciones antropológicas y sociológicas. La investigación electrónica también se caracteriza por el uso de recursos informáticos distribuidos para trabajar juntos y disfrutar del conocimiento.
La tecnología de redes ha jugado un papel importante en el desarrollo de la investigación y la ciencia electrónica. Así como los clientes y las empresas tienen acceso a la electricidad, las redes permiten a los investigadores e instituciones acceder a almacenes de datos, equipos científicos especializados, servicios de conocimiento y potentes capacidades informáticas distribuidas por la red. Pueden lograr un intercambio de conocimientos flexible y seguro y coordinar la solución de problemas de investigación científica en una combinación dinámica de investigadores individuales, instituciones de investigación y recursos. Este enfoque también suele denominarse organización virtual.
La infraestructura de red representa un nuevo entorno virtual de conocimiento de ciencia e ingeniería formado por computadoras distribuidas y tecnologías de la información y la comunicación. Permite una plataforma eficiente para muchas formas de investigación científica.
Los científicos lideran cambios en las instalaciones de investigación científica básica mediante la extracción de nuevos conocimientos, el modelado interactivo, el uso de herramientas de simulación y la colaboración entre ellos para resolver problemas complejos de tecnología científica y de ingeniería. Los complejos problemas científicos y de ingeniería requieren que nuestras nuevas instalaciones de investigación en ciencias básicas sean interdisciplinarias, distribuidas e integradas. La astronomía, la biología, las ciencias de la tierra, la salud pública y los nanomateriales a menudo requieren integración de información, análisis de datos e intercambio seguro de conocimientos. Todos requieren acceso seguro, operable y continuo a dispositivos físicos (como computadoras, conjuntos de discos, instrumentos, etc.). ), datos e información (grandes conjuntos de datos, bases de datos comerciales y científicas, bibliotecas de información y software, bibliotecas de vídeos e imágenes) y expertos y académicos seleccionados.
El middleware E-Research es un software con funciones específicas que proporciona sistemas de aplicaciones, recursos informáticos, gestión del conocimiento, intercambio de conocimientos y colaboración de tareas entre instituciones de investigación e individuos en toda la infraestructura informática. Proporciona herramientas y servicios comunes estándar. . Es una parte importante de la infraestructura informática de investigación electrónica.
Estados Unidos, Reino Unido, Europa, Japón, etc. Ambos han implementado un programa masivo de investigación de infraestructura informática e-Research con la esperanza de que el programa aumente la prosperidad económica del país a largo plazo y aproveche plenamente las habilidades de distribución de conocimientos proporcionadas por la infraestructura. Muchos proyectos de investigación han desarrollado middleware importante, algunos de los cuales son proyectos de cooperación o proyectos de intercambio entre países y el desarrollo de middleware común en todos los continentes.
Con el apoyo de la Fundación Nacional de Ciencias (NSF), Estados Unidos está considerando invertir $654,38 mil millones adicionales por año en planes para construir y desarrollar infraestructura de red avanzada, un tercio de los cuales (aproximadamente $395 millones) invertirán en investigación de tecnología middleware y las correspondientes actividades de desarrollo. La Tabla 3 enumera algunos planes importantes de RD de infraestructura de investigación electrónica y algunos fondos invertidos en RD de middleware.
Tabla 3
Aunque China ha logrado grandes avances en la construcción de infraestructura de red, se necesita cierta financiación para la investigación. Se ha invertido dinero, pero los informes muestran que utilizarlo eficazmente para adquirir recursos de investigación es ineficiente, consume mucho tiempo y requiere más mano de obra. Los usuarios se ven obligados a utilizar métodos manuales poco fiables para encontrar recursos adecuados; a veces es necesario negociar con los propietarios de los recursos; a veces es necesario utilizar estos recursos de forma ineficiente, lenta y costosa; a veces incluso es necesario volar a través de continentes; . La falta de una comprensión adecuada del acceso a recursos, dispositivos, servicios y datos en línea de alta velocidad resulta en la pérdida de muchas oportunidades. Además, los usuarios aportan mucha incertidumbre a la seguridad del sistema y es necesario evitar que personal no autorizado invada los recursos. Debido a las imperfecciones en la estandarización, el soporte y mantenimiento del sistema y las interfaces de usuario, los investigadores necesitan invertir más tiempo y esfuerzo en el soporte y mantenimiento del software.
Las ciencias de la Tierra necesitan un entorno de recursos de confianza mutua, cooperación, interacción y redes de alta velocidad, y el middleware que respalde los servicios de software puede lograr este objetivo. Aunque los investigadores chinos de TIC (tecnología de la información y la computación) han realizado muchas investigaciones sobre muchas tecnologías y servicios clave de middleware, la mayoría de ellos son grupos de investigación y empresas unidisciplinares, que carecen de coordinación central y de un impulso de aplicación dedicado. Por lo tanto, deberían establecerse más mecanismos de coordinación dentro de los proyectos de investigación de middleware chinos y con proyectos de investigación de middleware internacionales. Actualmente, la financiación para la investigación de infraestructura de middleware en China es limitada y fragmentada, lo que genera duplicación e ineficiencia en algunos proyectos.
China necesita un programa de middleware abierto que pueda garantizar la integración y coordinación general de estas actividades de investigación, expandir y transformar el middleware tradicional existente en una arquitectura OMP (programa de middleware abierto) que cumpla con los estándares internacionales y brindar servicios en Áreas de aplicación especiales. El plan de investigación de middleware también identificará y llenará las brechas entre nosotros y las tecnologías de investigación de middleware internacionales, y actualizará el software de los proyectos de investigación actuales en software que pueda ser aplicado por instituciones de investigación de e-Research.
El middleware del servicio grid actual (gestión de identidad, control de acceso, gestión de aprovisionamiento, servicio de reservas, servicio de notificación) es muy frágil y poco fiable cuando se ejecuta en la infraestructura informática existente. Los componentes del servicio de red deben diseñarse para hacerlos más robustos y confiables. Los usuarios tienen acceso totalmente transparente a los equipos, recursos informáticos y de datos de los que disfruta la red. Necesitamos aumentar la investigación y la inversión en middleware de servicios de red y mejorar su estandarización, solidez y disponibilidad.
Uno de los propósitos importantes de implementar el plan de middleware abierto es resolver y mejorar las interfaces entre los servicios grid de OGSA, el middleware a nivel de aplicación basado en Internet, los servicios de gestión de información y biblioteca digital y la gestión de servicios de conocimiento. En los últimos años, el GGF (Global Grid Forum) ha desarrollado especificaciones de infraestructura de red como Globus Toolkit y Open Grid Services Architecture (OGSA).
La Global Grid Alliance (que incluye Globus Alliance, HP e IBM) desarrolla conjuntamente servicios de red en forma de WSRF (WS-Resource Framework). Esto también permitirá al Grid Research Institute influir en las tecnologías y herramientas desarrolladas por el W3C y OASIS, que ahora ha atraído importantes inversiones industriales. WSRF y los requisitos técnicos relacionados aún no son estándares de la industria. Una de las funciones de OMP es realizar un seguimiento de estos desarrollos y garantizar que reflejen y comprendan el estado actual de la investigación electrónica y la tecnología de redes en China.
Las herramientas y servicios de middleware existentes deben recomprenderse para hacerlos más confiables y prácticos.
Las herramientas y servicios de middleware existentes deberían ser más operables, interesantes, personalizables e integrados con marcos y entornos grid más grandes.
Por lo tanto, es necesario desarrollar nuevas herramientas y servicios middleware. En ausencia de las siguientes capacidades, deberíamos considerar el desarrollo de nuevo middleware: seguridad de red, gestión y ensamblaje de red, calidad de adaptación de servicios, motores de flujo de trabajo, herramientas de colaboración, indexación semántica multimedia, descubrimiento de servicios inteligentes, soporte de decisiones y software de prueba de hipótesis, datos y verificación y revisión de conocimientos, mecanismos de representación automatizados, visualización colaborativa, simulación e interfaces de usuario de red de alta gama diseñadas para científicos de sistemas aplicados.
Existe una gran cantidad de conjuntos de datos heterogéneos en almacenes de datos científicos especiales, como datos espaciales, datos temporales, imágenes, vídeos, audios, 3D, espectros, gráficos y multimedia, etc. Estos conjuntos de datos deben Ser capaz de compararse con aquellos de otros campos. Acceder, compartir e integrar recursos de información, bibliotecas digitales (artículos y tesis publicados) y sitios web.
Es necesario agregar la capa de red de conocimiento a la red de datos e informática existente, lo que implicará definir la interfaz entre los servicios de gestión de conocimiento y la gestión de red, e implementar el servicio de red de conocimiento y la integración del entorno de red.
Fortalecer la coordinación del trabajo de investigación y aumentar la inversión financiera puede evitar la duplicación del trabajo y reducir la brecha con la comunidad internacional.
5 Middleware de computación colaborativa
En teoría, el middleware se produce entre usuarios, entre sistemas de aplicaciones o entre recursos utilizados para resolver problemas científicos y de ingeniería complejos (ver imagen a continuación). El middleware proporciona un conjunto común de servicios y herramientas que permiten a los investigadores y los sistemas de aplicaciones manejar la informática, los almacenes de datos y otros recursos distribuidos como si fueran una instalación virtual muy grande. El middleware coloca un conjunto básico de servicios requeridos por una aplicación en un contenedor estándar y ubicuo. Este servicio universal simplifica el desarrollo de sistemas de aplicaciones, proporciona robustez e interoperabilidad al sistema, reduce una gran cantidad de trabajo repetitivo y mejora la eficiencia en todos los aspectos.
Diagrama de componentes clave de la infraestructura informática
Si bien el middleware se divide en tres tipos de servicios y herramientas, existen otras formas tradicionales de dividir el espacio del middleware. Además, algunos componentes (como seguridad, semántica, fuentes, etc.) en realidad abarcan las tres categorías.
Middleware de gestión de recursos y servicios de red: este middleware incluye una instalación de servicios de red abierta OGS (infraestructura de servicios de red abierta), que conecta datos de red y recursos informáticos y utiliza estos recursos. , Se proporcionan servicios de contabilidad y coordinación entre servicios de aplicaciones de alta gama. Las redes informáticas y de datos dependen del middleware de servicios de red, por lo que también se denominan middleware de gestión de recursos.
Middleware de gestión del conocimiento: este middleware proporciona una gran cantidad de servicios y herramientas para indexar, archivar, consultar, analizar, integrar, gestionar y representar varios tipos de grandes almacenes de datos y almacenes de almacenamiento de información de vídeo. Estas herramientas permiten la integración e indexación automática de conjuntos de datos multidisciplinarios para análisis, modelado y visualización interactivos. Las herramientas también pueden extraer, adquirir y publicar nuevos niveles de conocimiento y disfrutar de nuevas anotaciones.
Middleware colaborativo: este middleware proporciona servicios y herramientas para respaldar actividades colaborativas formales e informales, en tiempo real y no real, que pueden ocurrir entre científicos, instituciones de investigación o recursos remotos (organizaciones virtuales dinámicas y escalables). ).
La Tabla 4 enumera las funciones básicas de estos middlewares que generalmente necesitan integrarse y desarrollarse en este proyecto de investigación.
Tabla 4
Continuación
6 Conclusiones
El desarrollo de la ciencia del sistema terrestre juega un papel importante en el desarrollo sostenible de la economía y papel de la sociedad.
La investigación sobre la ciencia del sistema terrestre requiere la aplicación de instrumentos científicos a gran escala e instalaciones informáticas de gran escala para procesar petabytes y terabytes de conjuntos de datos espaciales geológicos.
La investigación científica moderna del sistema terrestre implica una gran cantidad de resolución de problemas multidisciplinarios e interdisciplinarios, por lo que se necesita una plataforma colaborativa multidisciplinaria para compartir recursos y estándares y especificaciones técnicas para el uso de la plataforma.
La investigación sobre la ciencia del sistema terrestre no debe ser un acto aislado, sino que debe estudiarse junto con el mundo. Las plataformas de intercambio de recursos pueden participar en la investigación electrónica mundial y en la construcción de redes Geo Grid.
Las instalaciones de supercomputación de mi país para la investigación básica sobre la ciencia del sistema terrestre son deficientes, especialmente en las universidades, que necesitan aumentar la inversión e integrar nuestros recursos de investigación básica.
Establecer una plataforma de investigación básica para la supercomputación de las ciencias de la tierra y el procesamiento de datos geoespaciales.
Un entorno multidisciplinario de intercambio de recursos y un entorno de computación grid de ciencias de la tierra para fines de investigación básica en ciencias de la tierra.
Realizar la investigación y el desarrollo de middleware con computación superparalela, procesamiento colaborativo distribuido y recursos multidisciplinares, así como la investigación básica relacionada sobre aplicaciones.
Sentar las bases para participar en una red de investigación científica de RD más amplia a nivel nacional e incluso mundial.
Referencia
Wang, Zhao, Qiu y Yin Hongfu. 2003. Mirando el futuro de la educación en ciencias de la tierra en China desde la perspectiva de la implementación de estrategias de desarrollo sostenible. Dictamen Pericial del Comité de Ciencia y Tecnología del Ministerio de Educación, N° 11 (N° 25 en total).
Lin Hui y Gong Jianhua. 2001. Entornos geográficos virtuales: una perspectiva geográfica de la realidad virtual en línea. Fronteras de la ciencia contemporánea. Beijing: Prensa de educación superior.
Jiang Bin, Huang Bo, Feng Lu. 2002. Análisis espacial y visualización geográfica en entorno SIG. Fronteras de la ciencia contemporánea. Beijing: Prensa de educación superior.
Wu Jianguo. 2000. Ecología del paisaje: patrones, procesos, escalas y jerarquías. Fronteras de la ciencia contemporánea. Beijing: Prensa de educación superior.
Pu Duanliang, Gong Peng. 2000. La teledetección hiperespectral y sus aplicaciones. Fronteras de la ciencia contemporánea. Beijing: Prensa de educación superior.
Zhang Youxue, Yin An. 2002. Estructura, evolución y dinámica de la Tierra. Fronteras de la ciencia contemporánea. Beijing: Prensa de educación superior.
Chen Changsheng. 2003. Dinámica y modelos de ecosistemas marinos. Fronteras de la ciencia contemporánea. Beijing: Prensa de educación superior.
Longitud Foster, C. Kesselman 2005. Grid Computing (versión en inglés). Beijing: Prensa de la industria de maquinaria.
A. Gramma, A. Gupta, G. Karipis y V. Kumar (traducido por Zhang Wu et al.), 2005. Introducción a la computación paralela. Beijing: Prensa de la industria de maquinaria.
J. Duato, S. Alamanchili y L. Ni (traducido por Zhang Minxuan et al.), 2004. Tecnología de Internet informática paralela: un enfoque de ingeniería. Beijing: Prensa de la industria electrónica.
G.Tel (traducido por Huo Hongwei). 2004. Introducción a los algoritmos distribuidos. Beijing: Prensa de la industria de maquinaria.
W. Stallings (traducido por Qi·et al.), 2003. Red de Alta Velocidad e Internet - Rendimiento y Calidad de Servicio. Beijing: Prensa de la industria electrónica.
R. Buya (traducido por Zheng Weimin y otros 2001. Estructura y sistema informático de clúster de alto rendimiento). Beijing: Prensa de la industria electrónica.
R. Buya (traducido por Zheng Weimin y otros). Computación en clúster de alto rendimiento: programación y aplicaciones. Beijing: Prensa de la industria electrónica.