Detecting textual information in images from onion domains using text spotting

Blanco, Pablo; Fidalgo, Eduardo; Alegre, Enrique; Al-Nabki, Mhd Wesam

Listar por

Estadísticas

Visualiza las estadísticas

Ayuda

Ayuda

Identificador persistente para citar o vincular este elemento: http://hdl.handle.net/10662/8796

0 0

Títulos:	Detecting textual information in images from onion domains using text spotting
Otros títulos:	Detección de información textual en imágenes de dominios de cebolla mediante la localización de texto
Autores/as:	Blanco, Pablo Fidalgo, Eduardo Alegre, Enrique Al-Nabki, Mhd Wesam
Palabras clave:	Text detection;Text recognition;Cybercrime;Machine learning;Tor network;Detección de texto;Reconocimiento de texto;Delito cibernético;Aprendizaje automático;Red Tor
Fecha de publicación:	2018
Editor/a:	Universidad de Extremadura
Resumen:	Due to the efforts of different authorities in the fight against illegal activities in the Tor networks, the traders have developed new ways of circumventing the monitoring tools used to obtain evidence of said activities. In particular, embedding textual content into graphical objects avoids that text analysis, using Natural Language Processing (NLP) algorithms, can be used for watching such onion web contents. In this paper, we present a Text Spotting framework dedicated to detecting and recognizing textual information within images hosted in onion domains. We found that the Connectionist Text Proposal Network and Convolutional Recurrent Neural Network achieve 0.57 F-Measure when running the combined pipeline on a subset of 100 images labeled manually obtained from TOIC dataset. We also identified the parameters that have a critical influence on the Text Spotting results. The proposed technique might support tools to help the authorities in detecting these activities. Debido a los esfuerzos de diferentes autoridades en la lucha contra las actividades ilegales en las redes Tor, los comerciantes han desarrollado nuevas formas de eludir las herramientas de monitoreo utilizadas para obtener evidencia de dichas actividades. En particular, la incorporación de contenido textual en objetos gráficos evita que el análisis de texto, utilizando algoritmos de Procesamiento de Lenguaje Natural (NLP), se pueda usar para ver dichos contenidos web de cebolla. En este documento, presentamos un marco de Text Spotting dedicado a detectar y reconocer información textual en imágenes alojadas en dominios de cebolla. Encontramos que la Red de propuestas de texto conexionista y la Red neuronal recurrente convolucional alcanzan 0.57 F-Measure cuando se ejecuta la tubería combinada en un subconjunto de 100 imágenes etiquetadas manualmente obtenidas del conjunto de datos TOIC. También identificamos los parámetros que tienen una influencia crítica en los resultados de Text Spotting. La técnica propuesta podría apoyar herramientas para ayudar a las autoridades a detectar estas actividades.
Descripción:	Comunicación presentada a las XXXIX Jornadas de Automática, celebradas en Badajoz del 5 al 7 de Septiembre de 2018 y organizada por la Universidad de Extremadura.
URI:	http://hdl.handle.net/10662/8796
ISBN:	978-84-09-044460-3
Colección:	XXXIX Jornadas de Automática

Archivos

Archivo	Descripción	Tamaño	Formato
978-84-09-04460-3_975.pdf		12,16 MB	Adobe PDF	Descargar

Vista completa

Este elemento está sujeto a una licencia Licencia Creative Commons