Análisis de Vulnerabilidades de Ciberseguridad Mediante Técnicas de Ciencia de Datos

Suanny  Tigselema-Egre; Ricardo  Villarroel-Molina; Javier  Guaña-Moya; Wilson Iván  Sánchez Paredes

doi:10.61395/victec.v5i8.143

Authors

Suanny Tigselema-Egre Universidad Técnica Estatal de Quevedo https://orcid.org/0009-0000-8887-7330
Ricardo Villarroel-Molina Universidad Técnica Estatal de Quevedo https://orcid.org/0000-0002-6171-9815
Javier Guaña-Moya Instituto Superior Tecnológico Japón https://orcid.org/0000-0003-4296-0299
Wilson Iván Sánchez Paredes Universidad Técnica de Ambato https://orcid.org/0009-0009-2379-4548

DOI:

https://doi.org/10.61395/victec.v5i8.143

Keywords:

ciberseguridad; naive bayes; vulnerabilidades

Abstract

El análisis de ciberseguridad utilizando ciencia de datos y aprendizaje automático desempeña un papel crucial en la era digital actual, donde la seguridad de la información se ha vuelto imperativa para las organizaciones. Este estudio se enfoca en la intersección entre ciberseguridad y ciencia de datos, utilizando métodos de aprendizaje automático y análisis de texto para comprender y fortalecer las defensas contra amenazas. Se destaca la importancia del TF-IDF (Frecuencia de Términos-Inversa de Documentos) como una herramienta para evaluar la relevancia de los términos en documentos y su aplicación en la clasificación de vulnerabilidades. El clasificador Multinomial Naive Bayes se presenta como una herramienta eficiente en la clasificación de texto, calculando probabilidades de pertenencia a clases específicas basadas en la frecuencia de términos. Se detallan las fórmulas esenciales utilizadas en este algoritmo, como la probabilidad condicional y la distribución multinomial. La metodología KDD (Knowledge Discovery in Databases) guía el proceso, desde la recopilación de datos en plataformas como Kaggle hasta la selección, limpieza y transformación de datos. El uso de `TfidfVectorizer` facilita la discretización de datos de texto, y el método `GridSearchCV` optimiza los hiperparámetros del modelo, alcanzando una exactitud del 97.36%. Finalmente, La matriz de confusión revela un buen rendimiento general, aunque se identifican áreas de mejora, especialmente en la clase 'High'.

Downloads

Download data is not yet available.

References

I. V. Peña, «Gestión de Riesgos en Ciberseguridad» p. 3, 2023.

I. M. d. Diego y A. Ferández Isabel, Ciencia de datos para la ciberseguridad, Madrid: RA-MA Editorial, 2020.

G. A. Dalaorao, A. M. Sison y R. P. Medina, «Integrating Collocation as TF-IDF Enhancement to Improve Classification Accuracy» EEE 13th International Conference on Telecommunication Systems, Services, and Applications (TSSA), 2019.

S. Xu, Y. Li y W. Zheng, «Bayesian Multinomial Naïve Bayes Classifier to Text Classification» Lecture Notes in Electrical Engineering, 2017.

E. Anguiano-Hernández, «Naive Bayes Multinomial para clasificación de texto usando un esquema de pesado por clases,» 2009. [En línea].

I. H. Witten, E. Frank, M. A. Hall y C. J. Pal, Data Mining: Practical Machine Learning Tools and Techniques (Morgan Kaufmann Series in Data Management Systems), New Zealand: Morgan Kaufmann, 2016.

J. L. Dias, M. K. Sott, C. C. Ferrão, J. C. Furtado, and J. A. R. Moraes, «Data mining and knowledge discovery in databases for urban solid waste management: A scientific literature review,» Waste Management & Research, vol. 39, no. 11, pp. 1331-1340, 2021

A. R. Bruce, «Cyber security during international conflict,» Tech. Rep., 2022.

R. Esparza Tortosa, «Análisis y corrección de vulnerabilidades de un producto software con SonarQube,» 2023.

M. E. de Vega Martín, «Metodología de benchmark de herramientas SAST,» 2023.

Análisis de Vulnerabilidades de Ciberseguridad Mediante Técnicas de Ciencia de Datos

Authors

DOI:

Keywords:

Abstract

Downloads

References

Downloads

Published

How to Cite

Issue

Section

INDIZADA EN

Make a Submission

Information

Browse

Language