Please use this identifier to cite or link to this item: http://hdl.handle.net/10662/9278
Title: A passive learning sensor architecture for multimodal image labeling: an application for social robots
Authors: Gutiérrez Giraldo, Marco Antonio
Manso Fernández-Argüelles, Luis Jesús
Pandya, Harit
Núñez Trujillo, Pedro Miguel
Robotics Research Center. India
Universidad de Extremadura. Departamento de Tecnología de los Computadores y de las Comunicaciones
Keywords: Sensores de robot
Sensores de inteligencia ambiental
Aprendizaje profundo
Detección de objetos
Reconocimiento de objetos
Semántica
Robot sensors
Ambient intelligence sensors
Deep learning
Object detection
Object recognition
Word semantics
Issue Date: 2017
Publisher: MDPI
Abstract: La detección y clasificación de objetos tiene innumerables aplicaciones en sistemas que interactúan entre humanos y robots. Es una habilidad necesaria para los robots autónomos que realizan tareas en escenarios domésticos. A pesar de los grandes avances en el aprendizaje profundo y la visión por computadora, los robots sociales que realizan tareas no triviales usualmente pasan la mayor parte de su tiempo encontrando y modelando objetos. Trabajar en escenarios reales significa tratar con cambios constantes en el entorno y datos de sensores de calidad relativamente baja debido a la distancia a la que se encuentran los objetos a menudo. Los sistemas de inteligencia ambiental equipados con diferentes sensores también pueden beneficiarse de la capacidad de encontrar objetos, lo que les permite informar a los humanos sobre su ubicación. Para que estas aplicaciones tengan éxito, los sistemas necesitan detectar los objetos que potencialmente pueden contener otros objetos, trabajando con datos de sensores de resolución relativamente baja. Se ha diseñado una arquitectura de aprendizaje pasivo para sensores con el fin de aprovechar la información multimodal, obtenida mediante una cámara RGB-D y modelos de lenguaje semántico capacitados. La principal contribución de la arquitectura radica en la mejora del rendimiento del sensor en condiciones de baja resolución y altas variaciones de luz utilizando una combinación de etiquetado de imágenes y semántica de palabras. Las pruebas realizadas en cada una de las etapas de la arquitectura comparan esta solución con las técnicas de etiquetado de investigación actuales para la aplicación de un robot social autónomo que trabaja en un apartamento. Los resultados obtenidos demuestran que la arquitectura del sensor propuesta supera los enfoques de vanguardia.
Object detection and classification have countless applications in human–robot interacting systems. It is a necessary skill for autonomous robots that perform tasks in household scenarios. Despite the great advances in deep learning and computer vision, social robots performing non-trivial tasks usually spend most of their time finding and modeling objects. Working in real scenarios means dealing with constant environment changes and relatively low-quality sensor data due to the distance at which objects are often found. Ambient intelligence systems equipped with different sensors can also benefit from the ability to find objects, enabling them to inform humans about their location. For these applications to succeed, systems need to detect the objects that may potentially contain other objects, working with relatively low-resolution sensor data. A passive learning architecture for sensors has been designed in order to take advantage of multimodal information, obtained using an RGB-D camera and trained semantic language models. The main contribution of the architecture lies in the improvement of the performance of the sensor under conditions of low resolution and high light variations using a combination of image labeling and word semantics. The tests performed on each of the stages of the architecture compare this solution with current research labeling techniques for the application of an autonomous social robot working in an apartment. The results obtained demonstrate that the proposed sensor architecture outperforms state-of-the-art approaches.
URI: http://hdl.handle.net/10662/9278
ISSN: 1424-8220
Appears in Collections:DTCYC - Artículos

Files in This Item:
File Description SizeFormat 
s17020353.pdf4,17 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons