¿Qué es la minería de datos? ¿Cómo hacer minería de datos?
La minería de datos se refiere al proceso automatizado de clasificar grandes conjuntos de datos para identificar tendencias y patrones a través del análisis de datos y establecer relaciones para resolver problemas comerciales. En otras palabras, la minería de datos es el proceso de extraer de grandes cantidades de datos incompletos, ruidosos, borrosos y aleatorios información y conocimiento que está implícito en ellos y que la gente no conoce de antemano, pero que es potencialmente útil.
En principio, la minería de datos se puede aplicar a cualquier tipo de repositorio de información y datos transitorios (como flujos de datos), como bases de datos, almacenes de datos, data marts, bases de datos de transacciones, bases de datos espaciales (como mapas ) etc.), datos de diseño de ingeniería (como diseño arquitectónico, etc.), datos multimedia (texto, imagen, video, audio), red, flujo de datos, base de datos de series temporales, etc. Debido a esto, la minería de datos tiene las siguientes características:
(1) El conjunto de datos es grande e incompleto
El conjunto de datos requerido para la minería de datos es muy grande cuanto más cercanas son las leyes. Cuanto más se ajusten a las leyes reales correctas, más precisos serán los resultados. De lo contrario, los datos suelen estar incompletos.
(2) Inexactitud
La minería de datos tiene imprecisiones, que son causadas principalmente por datos ruidosos. Por ejemplo, en los negocios, los usuarios pueden proporcionar datos falsos; en un entorno de fábrica, los datos normales a menudo reciben interferencias electromagnéticas o de radiación y exceden el valor normal. Estos datos anormales que es absolutamente imposible que aparezcan se denominan ruido y provocarán imprecisiones en la extracción de datos.
(3) Confusa y aleatoria
La minería de datos es confusa y aleatoria. La ambigüedad aquí puede estar asociada con la inexactitud. Debido a datos inexactos, solo es posible observar los datos en su conjunto, o debido a la información privada involucrada, es imposible obtener algún contenido específico. Si desea realizar operaciones de análisis relevantes en este momento, solo puede hacerlo. en general. Algunos análisis no pueden juzgarse con precisión.
Hay dos explicaciones para la aleatoriedad de los datos. Una es que los datos obtenidos son aleatorios; La segunda es que los resultados del análisis son aleatorios. Si los datos se entregan a la máquina para que los juzgue y aprenda, entonces todas las operaciones son operaciones de caja gris.