¿Cuáles son las limitaciones al desarrollo de big data en China?
En los últimos años, han surgido instituciones de comercio de datos y la "monetización de datos" se ha convertido en una nueva forma de ganar dinero para muchas empresas tradicionales con acumulación de datos. En la actualidad, la demanda de big data de China está dominada por las empresas de Internet y la cobertura no es amplia. Bajo la tendencia O2O, los grandes fabricantes de Internet están intentando introducir datos externos para respaldar diversos servicios como finanzas, vida, voz, turismo, salud y educación.
Sin embargo, en campos o industrias específicos, mi país generalmente no cuenta con una cadena formada de recopilación, procesamiento, análisis y aplicación de datos, y una gran cantidad de fuentes de datos no se han activado. Los propietarios de los datos no tienen la capacidad de externalizar el valor de la ruta. Por ejemplo, las aplicaciones médicas y de salud recopilan una gran cantidad de datos, pero no los venden así a compañías farmacéuticas. En comparación con países extranjeros, el gobierno, los servicios públicos y las aplicaciones agrícolas de China son básicamente inexistentes, y es incluso menos probable que las telecomunicaciones y los bancos choquen con los datos externos.
Además, el comercio de datos en sí mismo es una paradoja. Los datos, como mercancía, tienen ciertas particularidades. Puedo dárselo a otros sin consumirlo y se puede vender muchas veces en el mercado. Esto crea un problema. Si vendes estos datos en el mercado, desde un punto de vista económico, su valor es cero. Si me lo vendes, puedo vendérselo a otros a un precio más bajo, por lo que, en teoría, el comercio de datos no es factible.
Después de que el concepto de big data se hizo popular, muchas organizaciones sintieron que los datos eran un tesoro, por lo que acumularon una gran cantidad de datos fragmentados y los colocaron allí. Se desconoce qué efecto puede tener. Al trabajar con muchas organizaciones que realmente quieren hacer algo con los datos, descubrimos que incluso los poseedores de datos autorizados, como las agencias gubernamentales, tienen muchos problemas, como datos faltantes, errores en los datos y ruido.
A menudo decimos que Big Data utiliza métodos de Big Data y Small Data utiliza métodos de Small Data. Los datos perfectos nunca pueden esperar. ¿Pero qué problemas causa esto? Durante el proceso real de implementación del proyecto, nuestros científicos de datos tienen que dedicar mucho tiempo a limpiar los datos, lo que en realidad es una pérdida de personal de datos que ya es escaso.
Teóricamente hay muchos datos en nuestro país, pero los datos de diferentes departamentos existen en diferentes lugares y en diferentes formatos. La integración de datos de varios departamentos del gobierno ya es un gran problema, por no hablar de la apertura de datos a gran escala. Al mismo tiempo, un problema grave al que se enfrenta la apertura de datos es la privacidad. La desensibilización está lejos de ser suficiente y la privacidad es un pozo sin fondo. Por ejemplo, si tomamos los datos de Alipay de una persona durante tres meses, podemos saber fácilmente que esta persona compró hoy una botella de agua en la tienda de la puerta, ayer compró un sofá en Taobao y gastó 10.000 yuanes cada tres meses. . Entonces podemos inferir fácilmente que esta persona acaba de alquilar una casa en un lugar diferente y podemos comprender sus hábitos de consumo. En realidad, estos datos están completamente insensibles, sin nombre ni número, pero no nos impide utilizar el algoritmo para delinear completamente el retrato de la persona.
2. La tecnología y los negocios actuales todavía tienen un largo camino por recorrer.
Con el desarrollo de la industria del big data, todavía existe una enorme brecha entre la tecnología y los negocios. El primero es la propia tecnología de análisis de datos. Para aprovechar el valor de los datos, las empresas de fuentes de datos prueban varios métodos e incluso forman sus propios equipos de análisis de datos. Pero el análisis de datos es un trabajo técnico y un error del 1% afectará en gran medida la cuota de mercado. Hay especialidades en la industria técnica, pero la monetización de datos aún requiere talentos profesionales en análisis de datos.
Con la popularidad del concepto de big data, cada vez más empresas están haciendo big data, con una variedad de productos. Parece que cualquiera puede involucrarse en el modelado de datos, pero ahora la tecnología, los métodos, los modelos y los algoritmos de análisis de datos han mejorado enormemente. Es completamente diferente a los últimos años 60 y 70. No se trata de crear algunos programas SAAS. o software RAAS es big data. Aunque el mercado está de moda en el corto plazo, a largo plazo este camino no funcionará. Para el desarrollo de la industria de big data, la tecnología es la única.
En segundo lugar, los datos de China tienen sus propias características. Por ejemplo, en la industria financiera, la mayoría de los bancos utilizan actualmente cuadros de mando de riesgo, que utilizan la experiencia de expertos para definir variables de riesgo, calificar basándose en una comprensión cualitativa y optimizar el cuadro de mando mediante una revisión posterior al riesgo. La función de advertencia de riesgo es deficiente. Aunque el centro de crédito del banco central y algunos de los principales bancos nacionales utilizan modelos de calificación de riesgo, los métodos del modelo son relativamente antiguos. Por ejemplo, el modelo de puntuación FICO utilizado por el banco central es un sistema de puntuación basado en el algoritmo de regresión logística de la década de 1980.
El algoritmo de regresión logística es adecuado para procesar datos lineales, pero los problemas reales suelen ser no lineales, especialmente en escenarios de evaluación del riesgo crediticio. Además, el modelo FICO no subdivide los escenarios comerciales específicos de China y la lógica del modelo no se ajusta completamente a la situación real de China, lo que resulta en una precisión insuficiente y una capacidad deficiente de advertencia de riesgos. Sobre esta base, el Centro de Información Crediticia del Banco Popular de China cooperó por primera vez con una empresa nacional de big data. En esta cooperación, Pulin Technology aplicó la tecnología de análisis y modelado de big data líder en el mundo, utilizando algoritmos como el bosque aleatorio de árbol de decisión, AdaBOOST, GBDT y SVM. A través de la interpretación digital y un conocimiento profundo de los informes crediticios, podemos predecir con precisión los riesgos de incumplimiento y generar orientación para la aprobación y gestión de préstamos. La capacidad del nuevo modelo para distinguir las cuentas buenas de las malas es mucho mayor que el promedio de la industria. Esta cooperación muestra que los problemas de big data de China requieren más soluciones adaptadas a las condiciones nacionales y a los talentos técnicos locales, lo que plantea nuevas preguntas para nuestro mercado.
3. Escasez de talentos
La mayor ventaja del desarrollo de big data en nuestro país es el gran mercado. La mayor desventaja es la falta de talentos correspondientes, lo cual es muy grave. En primer lugar, en el mercado internacional, tenemos que competir con empresas extranjeras por talentos, pero la industria extranjera de big data también está muy de moda. Ya sea en casa o en el extranjero, competir con empresas por talento es una tarea ardua. Por ejemplo, en la Universidad de Princeton, una de las mejores universidades del mundo, es difícil encontrar matemáticos. Las grandes empresas cazan fácilmente talentos, y cada año las empresas cazan furtivamente talentos excelentes en análisis de datos. Por lo tanto, no se trata sólo de una charla retórica, sino de un problema urgente que debe resolverse. Big data es un tema interdisciplinario que involucra estadística, programación de gestión y otras disciplinas. Los puntos de conocimiento son complejos y faltan tutoriales de aprendizaje sistemáticos.