Identificador persistente para citar o vincular este elemento: http://hdl.handle.net/10662/8801
Títulos: Color sift descriptors to categorize illegal activities in images of onion domains
Otros títulos: Descriptores de tamizado de color de clasificación para categorizar actividades ilegales en imágenes de dominios de cebolla
Autores/as: Matilla, David
González Castro, Víctor
Fernández Robles, Laura
Fidalgo, Eduardo
Al-Nabki, Mhd Wesam
Palabras clave: Scale invariant feature transform (SIFT);Image classification;Onion Router (Tor);Cybersecurity;Machine learning;Transformación de características invariantes de escala (SIFT);Clasificación de imágenes;Enrutador de cebolla (Tor);Ciberseguridad;Aprendizaje automático
Fecha de publicación: 2018
Editor/a: Universidad de Extremadura
Resumen: Dark Web, i.e. the portion of the Web whose content is not indexed either accessible by standard web browsers, comprises several darknets. The Onion Router (Tor) is the most famous one, thanks to the anonymity provided to its users, and it results in the creation of domains, or hidden services, which hosts illegal activities. In this work, we explored the possibility of identifying illegal domains on Tor darknet based on its visual content. After crawling and filtering the images of 500 hidden services, we sorted them into five different illegal categories, and we trained a classifier using the Bag of Visual Words (BoVW) model. In this model, SIFT (Scale Invariant Feature Transform) or dense SIFT were used as the descriptors of the images patches to compute the visual words of the BoVW model. However, SIFT only works with gray-scale images; thus the information given by color in an image is not retrieved. To overcome this drawback, in this work we implemented and assessed the performance of three different variants of SIFT descriptors that can be used in color images, namely HSV-SIFT, RGB-SIFT and the BoVW model for image classification. The obtained results showed the usefulness of using color-SIFT descriptors instead of SIFT, whereas in our experiments the latter achieved an accuracy of 57.52%, the HSV-SIFT descriptor achieved an accuracy up to 59.44%.
Dark Web, es decir, la parte de la Web cuyo contenido no está indexado, o bien es accesible a través de navegadores web estándar, comprende varias redes oscuras. El Onion Router (Tor) es el más famoso, gracias al anonimato proporcionado a sus usuarios, y resulta en la creación de dominios, o servicios ocultos, que albergan actividades ilegales. En este trabajo, exploramos la posibilidad de identificar dominios ilegales en Tor darknet según su contenido visual. Después de rastrear y filtrar las imágenes de 500 servicios ocultos, los clasificamos en cinco categorías ilegales diferentes, y capacitamos a un clasificador utilizando el modelo de Bolsa de palabras visuales (BoVW). En este modelo, se usó SIFT (Transformación de la característica invariante de escala) o SIFT denso como los descriptores de los parches de imágenes para calcular las palabras visuales del modelo BoVW. Sin embargo, SIFT solo funciona con imágenes en escala de grises; por lo tanto, la información dada por el color en una imagen no se recupera. Para superar este inconveniente, en este trabajo implementamos y evaluamos el rendimiento de tres variantes diferentes de los descriptores SIFT que se pueden usar en imágenes en color, a saber, HSV-SIFT, RGB-SIFT y el modelo BoVW para la clasificación de imágenes. Los resultados obtenidos mostraron la utilidad de usar descriptores de SIFT de color en lugar de SIFT, mientras que en nuestros experimentos este último logró una precisión de 57.52%, el descriptor de HSV-SIFT logró una precisión de hasta 59.44%.
Descripción: Comunicación presentada a las XXXIX Jornadas de Automática, celebradas en Badajoz del 5 al 7 de Septiembre de 2018 y organizada por la Universidad de Extremadura.
URI: http://hdl.handle.net/10662/8801
ISBN: 978-84-09-044460-3
Colección:XXXIX Jornadas de Automática

Archivos
Archivo Descripción TamañoFormato 
978-84-09-04460-3_991.pdf2,54 MBAdobe PDFDescargar


Este elemento está sujeto a una licencia Licencia Creative Commons Creative Commons