¿Qué es un modelo de lenguaje grande?
Los modelos de lenguaje a gran escala (LLM) no solo pueden generar texto en lenguaje natural, sino también comprender profundamente el significado del texto y manejar diversas tareas de lenguaje natural, como resumen de texto, preguntas y respuestas, traducción, etc. El modelo de lenguaje grande (LLM) es un modelo de aprendizaje profundo entrenado en base a datos de texto masivos.
En 2023, los grandes modelos de lenguaje y sus aplicaciones en el campo de la inteligencia artificial se han convertido en el foco de la investigación científica y tecnológica global. El crecimiento en su escala es particularmente llamativo, con un aumento en el número de parámetros. de los mil millones iniciales a las decenas de miles actuales. A medida que mejoran los parámetros, los modelos pueden capturar los matices del lenguaje humano con más detalle y obtener una comprensión más profunda de la complejidad del lenguaje humano.
Los modelos de lenguaje grandes han mejorado significativamente en la absorción de nuevos conocimientos, la división de tareas complejas y la alineación de imágenes y texto. A medida que la tecnología siga madurando, seguirá ampliando su alcance de aplicación, proporcionando a los seres humanos servicios más inteligentes y personalizados y mejorando aún más la vida y los métodos de producción de las personas.
La historia del desarrollo de modelos de lenguaje a gran escala
En septiembre de 2020, OpenAI autorizó a Microsoft a utilizar el modelo GPT-3 y Microsoft se convirtió en la primera empresa del mundo en disfrutar del capacidades de GPT-3. En 2022, Open AI lanzó el modelo ChatGPT para generar texto en lenguaje natural. El 15 de marzo de 2023, Open AI lanzó el modelo de preentrenamiento multimodal GPT4.0.
En febrero de 2023, Google anunció Bard, un robot de chat impulsado por el modelo de lenguaje grande de Google, LaMDA. El 22 de marzo de 2023, Google abrió la versión beta de Bard, que se lanzó por primera vez en los Estados Unidos y el Reino Unido, y que se lanzará gradualmente en otras regiones en el futuro.
El 7 de febrero de 2023, Baidu anunció oficialmente que lanzaría Wen Xin Yiyan y se lanzaría oficialmente el 16 de marzo. La base técnica subyacente de Wenxinyiyan es el Wenxin Big Model. La lógica subyacente es proporcionar servicios a través de Baidu AI Cloud, atraer clientes corporativos e institucionales para que utilicen API e infraestructura, * * * construir modelos de IA, desarrollar aplicaciones y realizar una IA industrial inclusiva. .
El 13 de abril de 2023, Amazon Cloud Service anunció el lanzamiento de servicios de inteligencia artificial generativa fundamentales y su propio modelo de lenguaje grande Titan en su blog oficial.
El contenido anterior se refiere al modelo de lenguaje grande de la Enciclopedia Baidu.