¿Para qué se utiliza el corpus?

Un corpus se refiere a una gran biblioteca de textos electrónicos que ha sido muestreado y procesado científicamente, que almacena materiales lingüísticos que realmente aparecen en el uso real del lenguaje.

Un corpus es una colección de oraciones, oraciones, párrafos y otros materiales lingüísticos de uso común que aparecen en algunas obras literarias, periódicos, revistas y artículos académicos, de modo que los datos puedan derivarse de ellos o apoyarse en ellos. datos al realizar una investigación científica.

Cuando escribimos artículos con colocaciones, podemos comprobar la frecuencia y el uso de la palabra buscando en el corpus. El corpus moderno se refiere a una colección de textos de corpus originales almacenados en computadoras o textos de corpus que han sido procesados ​​y anotados con información lingüística.

Hay muchos tipos de corpus. La base principal para determinar el tipo es su propósito de investigación y uso, que a menudo puede reflejarse en los principios y métodos de recopilación del corpus. Alguien una vez dividió los corpus en cuatro tipos:

1. Heterogéneo: no existe un principio de recopilación de corpus específico, y varios corpus se recopilan y almacenan ampliamente como están.

2. Recopilar únicamente corpus con contenido similar;

3. Sistematicidad: recopilar corpus de acuerdo con principios y proporciones predeterminados, de modo que el corpus sea equilibrado y sistemático y pueda representar hechos lingüísticos dentro de un cierto rango;

4. Especialización: Recopilar únicamente corpus para fines específicos.

Características del corpus

El corpus tiene tres características.

1. El corpus contiene materiales lingüísticos que realmente han aparecido en el uso real del lenguaje, por lo que la biblioteca de oraciones de ejemplo no debe contarse como un corpus;

El corpus es un recurso básico que conlleva conocimiento del idioma, pero no es igual al conocimiento del idioma;

3. El corpus real debe procesarse (analizarse) antes de que pueda convertirse en un recurso útil.

El desarrollo de los corpus ha pasado por la etapa inicial (antes de la invención de las computadoras), el corpus de primera generación, el corpus de segunda generación y el corpus de tercera generación.