Identificador persistente para citar o vincular este elemento: http://hdl.handle.net/10662/19077
Títulos: A multi-objective butterfly optimization algorithm for protein encoding
Autores/as: González Sánchez, Belén
Vega Rodríguez, Miguel Ángel
Santander Jiménez, Sergio
Palabras clave: Optimización multiobjetivo;Algoritmo de optimización de mariposas;Codificación de proteínas;Bioinformática;Diseño de mútiples genes;Multi-objective optimization;Butterfly optimization algorithm;Protein encoding;Bioinformatics;Design of multiple genes
Fecha de publicación: 2023
Editor/a: Elsevier
Resumen: La integración de múltiples genes para maximizar los niveles de expresión de las proteínas representa un desafío importante en la biología sintética. Esta tarea se basa en la definición de múltiples secuencias codificadoras de proteínas, que deben ser lo más diferentes posible para evitar la pérdida de información. Las proteínas se pueden codificar de diferentes maneras, utilizando codones sinónimos que se traducen en el mismo aminoácido. Algunos codones se adaptan mejor al organismo que otros, siendo preferible el uso de los más adaptados. Sin embargo, usar sólo los codones más adaptados conduciría a secuencias codificantes muy similares. Un criterio adicional viene dado por el hecho de que las secuencias diseñadas deben contener una proporción adecuada de guanina-citosina (GC) de acuerdo con las características del organismo. Por tanto, esta tarea biológica requiere la optimización simultánea de varios objetivos conflictivos. Este trabajo propone un nuevo enfoque multiobjetivo para la codificación de proteínas, que aborda el problema según una nueva formulación basada en tres funciones objetivo: índice de adaptación de codones, distancia de Hamming entre secuencias y contenido de GC. Nuestro trabajo extiende el reciente algoritmo de optimización de mariposas a contextos multiobjetivo, integrando operadores específicos del problema para aumentar la calidad de la solución al cubrir los diferentes aspectos necesarios para una codificación precisa de proteínas. Se definen dos estructuras clave, una lista tabú y una lista de mejores soluciones, para realizar búsquedas mejoradas atendiendo a las mejoras potenciales que cada solución en la población puede promover. Los experimentos realizados con nueve proteínas del mundo real revelan la consecución de soluciones relevantes desde diferentes perspectivas de evaluación, mostrando mejoras significativas con respecto a otros métodos mono-objetivo y multiobjetivo de la literatura.
The integration of multiple genes to maximize protein expression levels represents an important challenge in synthetic biology. This task relies on the definition of multiple protein-coding sequences, which must be as different as possible to avoid information loss. Proteins can be encoded in different ways, using synonymous codons that translate into the same amino acid. Some codons are better suited to the host than others, thus being preferable the use of the most fitting ones. However, adopting only the most highly adapted codons would lead to very similar coding sequences. An additional criterion is given by the fact that the designed sequences must contain a suitable guanine–cytosine (GC) ratio in accordance with the characteristics of the host organism. Therefore, this biological task requires the simultaneous optimization of several, conflicting objectives. This work proposes a novel multi-objective approach for protein encoding, which tackles the problem according to a new formulation based on three objective functions: codon adaptation index, Hamming distance between sequences, and GC content. Our work extends the recent Butterfly Optimization Algorithm to multi-objective contexts, integrating problem-specific operators to boost solution quality by covering the different aspects required for accurate protein encoding. Two key structures, a taboo list and a best solution list, are defined to conduct improved searches attending to the potential improvements that each solution in the population can promote. Experiments conducted on nine real-world proteins reveal the attainment of relevant solutions from different evaluation perspectives, showing significant improvements over other single and multi-objective methods from the literature.
URI: http://hdl.handle.net/10662/19077
ISSN: 1568-4946
DOI: 10.1016/j.asoc.2023.110269
Colección:DTCYC - Artículos

Archivos
Archivo Descripción TamañoFormato 
j_asoc_2023_110269.pdf900,41 kBAdobe PDFDescargar


Este elemento está sujeto a una licencia Licencia Creative Commons Creative Commons