Análisis de Vulnerabilidades de Ciberseguridad Mediante Técnicas de Ciencia de Datos
DOI:
https://doi.org/10.61395/victec.v5i8.143Palabras clave:
ciberseguridad; naive bayes; vulnerabilidadesResumen
El análisis de ciberseguridad utilizando ciencia de datos y aprendizaje automático desempeña un papel crucial en la era digital actual, donde la seguridad de la información se ha vuelto imperativa para las organizaciones. Este estudio se enfoca en la intersección entre ciberseguridad y ciencia de datos, utilizando métodos de aprendizaje automático y análisis de texto para comprender y fortalecer las defensas contra amenazas. Se destaca la importancia del TF-IDF (Frecuencia de Términos-Inversa de Documentos) como una herramienta para evaluar la relevancia de los términos en documentos y su aplicación en la clasificación de vulnerabilidades. El clasificador Multinomial Naive Bayes se presenta como una herramienta eficiente en la clasificación de texto, calculando probabilidades de pertenencia a clases específicas basadas en la frecuencia de términos. Se detallan las fórmulas esenciales utilizadas en este algoritmo, como la probabilidad condicional y la distribución multinomial. La metodología KDD (Knowledge Discovery in Databases) guía el proceso, desde la recopilación de datos en plataformas como Kaggle hasta la selección, limpieza y transformación de datos. El uso de `TfidfVectorizer` facilita la discretización de datos de texto, y el método `GridSearchCV` optimiza los hiperparámetros del modelo, alcanzando una exactitud del 97.36%. Finalmente, La matriz de confusión revela un buen rendimiento general, aunque se identifican áreas de mejora, especialmente en la clase 'High'.
Descargas
Citas
I. V. Peña, «Gestión de Riesgos en Ciberseguridad» p. 3, 2023.
I. M. d. Diego y A. Ferández Isabel, Ciencia de datos para la ciberseguridad, Madrid: RA-MA Editorial, 2020.
G. A. Dalaorao, A. M. Sison y R. P. Medina, «Integrating Collocation as TF-IDF Enhancement to Improve Classification Accuracy» EEE 13th International Conference on Telecommunication Systems, Services, and Applications (TSSA), 2019.
S. Xu, Y. Li y W. Zheng, «Bayesian Multinomial Naïve Bayes Classifier to Text Classification» Lecture Notes in Electrical Engineering, 2017.
E. Anguiano-Hernández, «Naive Bayes Multinomial para clasificación de texto usando un esquema de pesado por clases,» 2009. [En línea].
I. H. Witten, E. Frank, M. A. Hall y C. J. Pal, Data Mining: Practical Machine Learning Tools and Techniques (Morgan Kaufmann Series in Data Management Systems), New Zealand: Morgan Kaufmann, 2016.
J. L. Dias, M. K. Sott, C. C. Ferrão, J. C. Furtado, and J. A. R. Moraes, «Data mining and knowledge discovery in databases for urban solid waste management: A scientific literature review,» Waste Management & Research, vol. 39, no. 11, pp. 1331-1340, 2021
A. R. Bruce, «Cyber security during international conflict,» Tech. Rep., 2022.
R. Esparza Tortosa, «Análisis y corrección de vulnerabilidades de un producto software con SonarQube,» 2023.
M. E. de Vega Martín, «Metodología de benchmark de herramientas SAST,» 2023.