paper_1

8
Algoritmos Multiobjetivo Basados en Inteligencia Colectiva para Resolver el Problema del Descubrimiento de Motifs David L. Gonz´alez- ´ Alvarez*, Miguel A. Vega-Rodr´ ıguez*, Juan A. G´ omez-Pulido* y Juan M. S´ anchez-P´ erez* Resumen En este trabajo proponemos la resoluci´on de un problema biol´ogico importante mediante inteligencia colectiva (swarm intelligence). Descubrir motifs en conjuntos de secuencias de ADN es uno de los prob- lemas de an´ alisis de secuencias m´ as importantes hoy en d´ ıa, conocido como el Problema del Descubrimien- to de Motifs (PDM). En este trabajo resolvemos este problema aplicando dos algoritmos novedosos basados en inteligencia colectiva: la Colonia Artificial de Abe- jas (ABC), un algoritmo de optimizaci´on basado en el comportamiento de las abejas recolectoras de miel; y el Algoritmo de B´ usqueda Gravitacional (GSA), un algoritmo reciente basado en las leyes gravita- cionales y de interacciones entre masas. En la res- oluci´ on del PDM hemos aplicado optimizaci´ on multi- objetivo (MOO), maximizando tres objetivos en con- flicto: el tama˜ no, el soporte y la similaridad del mo- tif. Por ello, hemos tenido que adaptar nuestros dos algoritmos al contexto multiobjetivo, obteni´ endose dos nuevos algoritmos multiobjetivo. Para demostrar que el funcionamiento de estos algoritmos es correc- to, hemos aplicado diferentes indicadores y estad´ ısti- cas, comparando los resultados obtenidos con los con- seguidos por otros catorce m´ etodos biol´ ogicos bien conocidos. Como ya veremos, los nuevos resultados mejoran significativamente aquellos publicados en in- vestigaciones previas. Palabras clave Inteligencia colectiva, Colonia Artificial de Abe- jas, Algoritmo de B´ usqueda Gravitacional, ADN, de- scubrimiento de motifs, optimizaci´ on multiobjetivo. I. Introducci´ on Actualmente existen muchos problemas de opti- mizaci´ on que requieren un enorme esfuerzo computa- cional para su resoluci´ on. Estos problemas son cono- cidos como NP-completos. Los algoritmos utiliza- dos para resolver problemas NP-completos requieren grandes tiempos de ejecuci´ on y por ello es muy habit- ual la utilizaci´ on de t´ ecnicas como las metaheur´ ısti- cas. Dentro del gran mundo de las metaheur´ ısticas se encuentra definido el concepto de inteligencia colec- tiva (swarm intelligence). Esta disciplina est´ a direc- tamente relacionada con el comportamiento colecti- vo resultado de interacciones entre los individuos de un determinado entorno. Estos algoritmos se pueden organizar en dos grupos: aquellos basados en el com- portamiento animal y aquellos basados en fen´ omenos ısicos o de la naturaleza. En los ´ ultimos a˜ nos mu- Universidad Extremadura, Dept. Tecnolog´ ıas de los Com- putadores y de las Comunicaciones, Escuela Polit´ ecni- ca. Campus Universitario s/n, 10003, C´aceres, Espa˜ na. {dlga,mavega,jangomez,sanperez}@unex.es chos algoritmos basados en estos comportamientos colectivos se han aplicado con ´ exito en problemas de optimizaci´ on de diferentes campos. Debido a es- to, hemos optado por aplicar algoritmos basados en inteligencia colectiva en este trabajo, seleccionando dos algoritmos novedosos como la Colonia Artificial de Abejas (ABC) [1], el cual es un algoritmo de op- timizaci´ on basado en el comportamiento de las abe- jas recolectoras de miel; y el Algoritmo de B´ usque- da Gravitacional (GSA) [2], un nuevo algoritmo de optimizaci´ on basado en las leyes gravitatorias y las leyes de interacci´ on entre masas. De esta forma apli- camos un algoritmo de cada grupo: uno basado en el comportamiento animal (ABC) y otro basado en leyes f´ ısicas (GSA). El objetivo principal de este tra- bajo es resolver el Problema del Descubrimiento de Motifs (PDM). Este es un problema de optimizaci´ on NP-completo aplicado a la tarea espec´ ıfica de des- cubrir nuevos Puntos de Uni´ on de Factores de Tran- scripci´ on en secuencias de ADN [3]. Predecir motifs es uno de los problemas de an´ alisis gen´ etico m´ as im- portantes que a´ un no ha sido resuelto de una man- era eficiente. En este trabajo hemos modificado la formulaci´ on del problema a˜ nadi´ endole varias restric- ciones que adaptan mejor el proceso de b´ usqueda hacia soluciones biol´ ogicas m´ as relevantes. El PDM maximiza tres objetivos en conflicto: el tama˜ no, el soporte y la similaridad del motif. Por ello debe- mos aplicar t´ ecnicas multiobjetivo para su resolu- ci´ on, adaptando el funcionamiento de nuestros al- goritmos a este nuevo contexto. Tambi´ en queremos destacar que para demostrar que las soluciones de- scubiertas son biologicamente relevantes hemos re- alizado diferentes an´ alisis utilizando indicadores bi- ol´ ogicos como la Sensibilidad, el Valor de Predic- ciones Positivas, el Coeficiente de Rendimiento o el de Correlaci´ on. En la Secci´ on II describimos el PDM en detalle. La Secci´ on III presenta las metaheur´ ısticas apli- cadas para resolver el problema, explicando el fun- cionamiento y las adaptaciones multiobjetivo real- izadas sobre cada uno de ellos. En la Secci´ on IV mostramos las mejores configuraciones de los algo- ritmos, junto con los resultados obtenidos. En esta secci´ on tambi´ en incluimos las comparativas con al- goritmos est´ andar multiobjetivo y con los m´ etodos biol´ ogicos. Finalmente, resumimos las conclusiones e incluimos el trabajo futuro en la Secci´ on V.

Upload: olha-sharhorodska

Post on 17-Aug-2015

220 views

Category:

Documents


0 download

DESCRIPTION

criptografia

TRANSCRIPT

Algoritmos Multiobjetivo Basados enInteligencia Colectiva para Resolver elProblema del Descubrimiento de MotifsDavidL.Gonzalez-Alvarez*,MiguelA.Vega-Rodrguez*,JuanA.G omez-Pulido*yJuanM.S anchez-Perez*ResumenEneste trabajo proponemos la resolucionde unproblemabiologicoimportantemedianteinteligenciacolectiva (swarmintelligence). Descubrir motifs enconjuntosdesecuenciasdeADNesunodelosprob-lemasdeanalisisdesecuenciasmasimportanteshoyenda,conocidocomoelProblemadelDescubrimien-todeMotifs(PDM).Enestetrabajoresolvemosesteproblema aplicando dos algoritmos novedosos basadoseninteligenciacolectiva:laColoniaArticialdeAbe-jas (ABC), unalgoritmodeoptimizacionbasadoenelcomportamientodelasabejasrecolectorasdemiel;y el Algoritmo de B usqueda Gravitacional (GSA),un algoritmo reciente basado en las leyes gravita-cionales y de interacciones entre masas. Enla res-oluci ondelPDMhemosaplicadooptimizaci onmulti-objetivo(MOO),maximizandotresobjetivosencon-icto: el tama no, el soporteylasimilaridaddel mo-tif. Porello, hemostenidoqueadaptarnuestrosdosalgoritmos al contexto multiobjetivo, obteniendosedosnuevosalgoritmosmultiobjetivo.Parademostrarqueel funcionamientodeestosalgoritmosescorrec-to,hemosaplicadodiferentesindicadoresyestadsti-cas,comparandolosresultadosobtenidosconloscon-seguidos por otros catorce metodos biol ogicos bienconocidos. Comoyaveremos, los nuevos resultadosmejoransignicativamenteaquellospublicadosenin-vestigacionesprevias.PalabrasclaveInteligencia colectiva, Colonia Articial de Abe-jas,AlgoritmodeB usquedaGravitacional,ADN,de-scubrimientodemotifs, optimizaci onmultiobjetivo.I. Introducci onActualmenteexistenmuchos problemas deopti-mizacion que requieren un enorme esfuerzo computa-cional para su resolucion. Estos problemas son cono-cidos como NP-completos. Los algoritmos utiliza-dos para resolver problemas NP-completos requierengrandes tiempos de ejecucion y por ello es muy habit-uallautilizaciondetecnicascomolasmetaheursti-cas. Dentro del gran mundo de las metaheursticas seencuentradenidoelconceptodeinteligenciacolec-tiva(swarmintelligence).Estadisciplinaestadirec-tamenterelacionadaconelcomportamientocolecti-vo resultado de interacciones entre los individuos deun determinado entorno. Estos algoritmos se puedenorganizar en dos grupos: aquellos basados en el com-portamiento animal y aquellos basados en fenomenosfsicosodelanaturaleza. Enlos ultimosa nosmu-UniversidadExtremadura, Dept. TecnologasdelosCom-putadores y de las Comunicaciones, Escuela Politecni-ca. Campus Universitario s/n, 10003, Caceres, Espa na.{dlga,mavega,jangomez,sanperez}@unex.eschos algoritmos basados enestos comportamientoscolectivos se hanaplicadoconexitoenproblemasdeoptimizaciondediferentescampos. Debidoaes-to,hemosoptadoporaplicaralgoritmosbasadoseninteligenciacolectivaenestetrabajo, seleccionandodosalgoritmosnovedososcomolaColoniaArticialdeAbejas(ABC)[1],elcualesunalgoritmodeop-timizacionbasadoenelcomportamientodelasabe-jasrecolectorasdemiel; yel AlgoritmodeB usque-daGravitacional (GSA)[2], unnuevoalgoritmodeoptimizacionbasadoenlasleyesgravitatoriasylasleyes de interaccion entre masas. De esta forma apli-camosunalgoritmodecadagrupo: unobasadoenel comportamientoanimal (ABC)yotrobasadoenleyes fsicas (GSA). El objetivo principal de este tra-bajoesresolverel Problemadel DescubrimientodeMotifs (PDM). Este es un problema de optimizacionNP-completoaplicadoalatareaespeccadedes-cubrir nuevos Puntos de Union de Factores de Tran-scripcionensecuenciasdeADN[3].Predecirmotifses uno de los problemas de analisis genetico mas im-portantesquea unnohasidoresueltodeunaman-eraeciente. Enestetrabajohemos modicadolaformulacion del problema a nadiendole varias restric-ciones que adaptanmejor el procesode b usquedahaciasolucionesbiologicasmasrelevantes.ElPDMmaximizatresobjetivosenconicto: el tama no, elsoporte yla similaridaddel motif. Por ello debe-mos aplicar tecnicas multiobjetivoparasuresolu-cion, adaptandoel funcionamientode nuestros al-goritmosaestenuevocontexto. Tambienqueremosdestacarqueparademostrarquelassolucionesde-scubiertas sonbiologicamenterelevantes hemos re-alizadodiferentesanalisisutilizandoindicadoresbi-ologicos como la Sensibilidad, el Valor de Predic-cionesPositivas, el CoecientedeRendimientooeldeCorrelacion.EnlaSeccionII describimosel PDMendetalle.La Seccion III presenta las metaheursticas apli-cadaspararesolverel problema, explicandoel fun-cionamientoylas adaptaciones multiobjetivoreal-izadas sobre cada uno de ellos. Enla SeccionIVmostramoslasmejoresconguracionesdelosalgo-ritmos, juntoconlosresultadosobtenidos. Enestasecciontambienincluimoslascomparativasconal-goritmosestandarmultiobjetivoyconlosmetodosbiologicos. Finalmente, resumimos las conclusiones eincluimoseltrabajofuturoenlaSeccionV.II. ProblemadeldescubrimientodemotifsEneste trabajoresolvemos el PDMdescubrien-dopatrones de ADNbiologicamente relevantes ensecuenciasdeseresvivos.Paradescubrirmotifsconcierta relevancia biologica debemos satisfacer una se-riedeobjetivosespeccosalavezquecumplimosciertas restricciones biologicas. El PDMlo hemosabordado deniendo tres objetivos: el tama no, elsoporteylasimilaridad. Dadounconjuntodese-cuencias S ={Si|i =1, 2, ..., D} de nucleotidosdenidos en el alfabeto B ={A, C, G, T}. Si={Sji|j =1, 2, ..., wi}es unasecuenciade nucleoti-dos,dondewieseltama nodelasecuencia.Elcon-juntodetodaslassubsecuenciascontenidasenSes{sjii |i =1, 2, ..., D, ji=1, 2, ..., wi l+ 1}, dondejies el punto de unionde unposible motif can-didatosjidelasecuenciaSi, yl es el tama nodelmotif, primer objetivo a maximizar. Para obten-er los valores de los otros dos objetivos tenemosqueconstruirlaMatrizdeIndicadoresporPosicion(PIM) A={Ai|i =1, 2, ..., D} del motif, dondeAi= {Aji|j =1, 2, ..., wi}esel vectorladeindi-cadoresdelasecuenciaSi. Ajies1si laposicionjenSiesunpuntodeunion, y0encasocontrario.Nosreferimosaln umerodemotifscandidatoscomo|A| =

Di=1

wij=1 Aji. En este proceso tambien nece-sitamos obtener el motif consenso extrado de losmotifscandidatos.Enestetrabajoconsideramosunsolomotif candidatoporsecuencia, ysoloaquellosquetenganunaciertacalidadconrespectoalmotifconsenso se tendran en cuenta en la construccion delmotifnal.Estoseindicaatravesdelsoporte.Ademas, S(A) = {S(A)1, S(A)2, ..., S(A)|A|}es el conjunto de |A| motifs candidatos, dondeS(A)i= S(A)1iS(A)2i...S(A)lies el i-esimo mo-tif candidatode |A|. S(A) puede extenderse tam-bien como (S(A)1, S(A)2, ..., S(A)l), donde S(A)j=S(A)j1S(A)j2...S(A)j|A|eslalistadenucle otidosdelmotifcandidatodelaposicionj-esima.Acontinuacionconstruimos laMatriz de Cuen-tas por Posicion (PCM) N(A) conel n umero de nu-cleotidosencadaposiciondelosmotifscandidatos(A) que hayan superado el umbral correspondi-entealsoporte.N(A) = {N(A)1, N(A)2, ..., N(A)l}y N(A)j={N(A)jb|b B}, donde N(A)jb=|{S(A)ji|S(A)ji=b}|. El valor obtenidopor el nu-cleotidodominanteencadaunadelasposicionessenormalizaenlaMatrizdeFrecuenciasporPosicion(PFM) N=N(A)|A|. Finalmentecalculamosel valordelasimilaridadconlamediaaritmeticadetodoslos valores dominantes encadaposiciondel PFM,talycomoindicalasiguienteexpresion:Similaridad(Motif) =

li=1 maxb{f(b, i)}l(1)dondef(b, i)esel valorobtenidoporel nucleotidobenlacolumnaidelaPFMymaxb{f(b, i)}eselvalorobtenidoporelnucleotidodominantedei.Para guiar la b usqueda de soluciones hacia motifsbiologicamente relevantes, hemos incorporado variasrestriccionesquedebensersatisfechasportodaslassoluciones. En el descubrimiento de motifs, estos sonnormalmente muy peque nos [3], por ello, si buscamossoluciones de gran tama no estamos perdiendo untiempo computacional muy valioso. Para abordar es-tarestriccion, hemos restringidoel tama node losmotifs enel rango [7,64]. Enel segundo objetivotambienhemos restringidoel valor mnimode so-portepermitido, asignandounmnimode2enlosconjuntosdedatosformadospor4omenossecuen-cias, y de 3 en las demas (mas de 4 secuencias). Nor-malmente los puntos de union estan compuestos pormotifscandidatosdetodasocasi todaslassecuen-cias, ysi noconsiderasemos estarestriccion, seramuyfacil descubrirsolucionescongrandessimilar-idades (inclusodel 100 %) formadas, por ejemplo,porunsolocandidato. Finalmente, hemosincorpo-rado el concepto de complejidad [4]. La complejidaddelosmotifscandidatosdebeserconsideradaparaevitar laprediccionde soluciones pococomplejas,porejemplo, loscandidatosAAAA yAAAA sonmuyparecidos, de hechosoniguales, peronofor-manunmotifbiologicamenterelevante.Calculamoselvalordecomplejidaddecadamotifatravesdelaecuacion2, dondelacomplejidadnal deunmotifes el valor medio de complejidad obtenido por todosloscandidatosquelocomponen.Complejidad = logNl!

(ni)!(2)dondeN= 4ensecuenciasdeADN,leseltama nodelmotif,ynieseln umerodenucleotidosdeltipoi {A, C, G, T}. Por ejemplo, si consideramos el mo-tif AAAA (nA=4, nT=0, nG=0ynC=0)obtendramos la mnima complejidad, ya que obten-emosel valormaximoen

(ni)!. Porel contrario,si tenemos, porejemplo, el motifACGT (nA=1,nT=1, nG=1ynC=1) obtendramos el val-or maximo de complejidad. Ademas, como podemosver en la ecuacion 2, si no normalizamos las comple-jidadesobtenidascuandocomparamosmotifs, ten-emos que las complejidades maximas son extremada-mentedependientes del tama nodelos motifs. Porestemotivo,ladeniciondeesteconceptosereviso,calculandoelvalormaximodecomplejidadparaca-da solucion antes de ejecutar los algoritmos. Durantela ejecucion de los mismos, cada complejidad obteni-dasenormalizaenel intervalo[0,1] dondelacom-plejidadmaximaes1yas, comparamossolucionesenigualdaddecondiciones. Estamejorasedetallaampliamenteen[5].EjemploLaTablaImuestraunPDMarticialconunmo-tif de tama no 7. Utilizando los motifs candidatosdelasTablasIayIcobtenemosel motif consenso:A[GT]TTGAA. Ya que, como podemos ver, tenemosTABLAIUnPDMartificial.Muestralassecuenciasen(a),laMatrizdeIndicadoresporPosici onen(b),losmotifscandidatosen(c),lastasasdeconcordanciaentremotifscandidatosyelmotifconsensoen(d),laMatrizdeCuentasporPosici onen(e)y(f)incluyelaMatrizdeFrecuenciasporPosici on.(a) (b) (c) (d) (e)aaAGTGAAAtaataa 001000000000000 AGTGAAA 4/7 A:6110135gtggaATTGGAAttg 000001000000000 ATTGGAA 6/7 C:0000110tctAGTTTGAaaaca 000100000000000 AGTTTGA 4/7 G:0302410tttctaTATTGAAag 000000100000000 TATTGAA 5/7 T:1365122tgacAGTTGTAacaa 000010000000000 AGTTGTA 5/7 aATATGCTgtcaaca 010000000000000 ATATGCT 4/7 (f)tgtgATTTCTTgcaa 000010000000000 ATTTCTT 4/7 A:0.860.140.140.000.140.430.71gggatatATAATGGt 000000010000000 ATAATGG 2/7X C:0.000.000.000.000.140.140.00caaaTTTAAGGgagt 000010000000000 TTTAAGG 2/7X G:0.000.430.000.290.570.140.00ataaTAATCCTgtat 000010000000000 TAATCCT 1/7X T:0.140.430.860.710.140.290.29unempateenlasegundaposiciondelosmotifs,se-leccionamos unodelos dos deformaaleatoria, enestecasohemosoptadoporelnucleotidoT.Conelmotif consensohallado, calculamos el valor del se-gundoobjetivoenlaTablaId.Lassecuenciascuyosmotifscandidatosexcedanel valorumbral del 50 %establecidoparaelsoportesetendranencuentaenesteobjetivo,enesteejemplotenemossoporte =7.El ultimopasoesconstruirlaPCMylaPFMuti-lizandolosnucleotidosdelosmotifscandidatosquehan superado el umbral de concordancia. Hecho esto,podemosobtenerel valornal desimilaridadapli-cando la ecuacion 1. En este ejemplo obtenemos unasimilaridad = 0,65.III. Descripci ondelosalgoritmosEnestasecciondescribimoselfuncionamientodelosalgoritmosdesarrolladosenestetrabajo, detal-landolas modicaciones yadaptaciones realizadassobrecadaunodeellos.Larepresentaciondelosin-dividuos en todos nuestros algoritmos es la mostradaenlaFigure1, dondeincluimosel tama nodel mo-tif y las posiciones iniciales de las subsecuencias quecomponenelmotifnal.Sec.0 Sec.1 Sec.2 Sec.nLongitudMotif S0S1S2... SnFig.1Representaci ondeunindividuo.A. ColoniaArticial deAbejasMultiobjetivoLa Colonia Articial de Abejas (ABC) es un algo-ritmoevolutivodenidoporDervisKaraboga[1]en2005motivadoporel comportamientocolectivodelasabejasrecolectorasdemiel.EnelABC,lacolo-niadeabejascontienetrestiposdeabejas:lasabe-jas obreras, las observadoras y las exploradoras. Lasabejas obreras, tras ir a explotar las diversas fuentesde alimento, vuelven a la colmena y danzan para co-municar a las demas abejas la calidad de la fuente ex-plotada. Las abejas obreras cuyas fuentes de alimen-toestenyavacas, seconvertiranenabejas explo-radoraseiniciaranlab usquedadeunanuevafuentedealimento.Porotrolado,lasabejasobservadoras,trasanalizarlasdanzasdelasabejasobreras, esco-genlas fuentes de alimentoque explotaran. EnelABCel n umerototal deabejasesigual al n umerodesolucionesdelapoblacion. Comoel PDMesunproblemamultiobjetivo, hemostenidoqueadaptarelfuncionamientodelalgoritmoABCaestecontex-to, deniendo un nuevo algoritmo denominado Colo-nia ArticialdeAbejasMultiobjetivo(MOABC),elfuncionamientogeneral deestenuevoalgoritmosemuestraenelAlgoritmo1.El primer paso a realizar por el algoritmo es la gen-eracion inicial de la poblacion (lnea 2 del Algoritmo1). Como vemos, tansolo se inicializa la primeramitaddelapoblacion, correspondientealasabejasobreras. Traslainicializacion, lacoloniaserasuje-taaunaseriedeprocesosdeb usquedaatravesdetrestiposdeabejas: lasobreras, lasobservadorasylas exploradoras (lneas 4 a 23). Para ello generamoslasfuentesdealimentocorrespondientesalasabe-jasobrerasyobservadoras(lneas5a8y12a16,Algoritmo1PseudocodigodelMOABC1: frenteDePareto 2: coloniaC crearAbejasObreras(#obreras)3: evaluarNuevasAbejas(C)4: mientrasnoalcancemosellmitedetiempohacer5: parai=0to#obrerashacer6: obrera producirNuevaSolutionObrera(C[i],mutacion)7: C[i] procesoSeleccionAvariciosa(C[i],obrera)8: npara9: vectorProbabilidad calcularProbabilidades(C)10: parai=#obrerashastaTamCol.hacer11: abeja seleccionarObrera(vectorProbabilidad,C)12: observad. producirNuevaObservadora(abeja,mutacion)13: C[i] procesoSeleccionAvariciosa(abeja,observad.)14: npara15: parai=TamCol.hastaTamCol.+#explorad.hacer16: C[i] generarAbejaExploradora()17: npara18: C ordenacionNoDominadaColonia(C)19: C asignacionDistanciaCrowding(C)20: frenteDePareto actualizarFrenteDePareto(C)21: nmientrasrespectivamente). Tras estos dos procesos de gen-eracion,elalgoritmoaplicaunaseleccionavariciosamultiobjetivodondeseescogelamejorsolucionen-tre dos dadas (lafuente de alimentoantiguaylagenerada)tal ycomosepuedeverenlaslneas7y15. Enestafuncionaplicamosel conceptodedom-inanciaparaseleccionarel mejormotif. Al nal decadageneracion, lacoloniatrabajamuchasfuentesde alimentosimultaneamente (soluciones del algo-ritmo), ysolamentelasmejoresfuentessemanten-dranenlasiguientegeneraciondel algoritmo. Paraasegurarnosdequeel algoritmoescogelasmejoresfuentesdealimentoaplicamosciertoscriteriosmul-tiobjetivo que nos permitenordenar yseleccionarlasnuevassolucionesencadageneracion.Elalgorit-moMOABCincorporadosfuncionesdel algoritmoestandarNSGA-II[6]:laordenacionno-dominadayelcalculodeladistanciadecrowding.Enlaslneas21y22ordenamoslapoblacionhaciendousodees-tasdosfunciones, calculandolosvalorescorrespon-dientes de distancia crowding para las soluciones delfrente de Pareto en conicto, y escogiendo las fuentesde alimento que mejores valores obtienen. Todo esteprocesoserepitehastaalcanzarel tiempodenal-izacion.B. Alg.MultiobjetivodeB usquedaGravitacionalEl AlgoritmodeB usquedaGravitacional (GSA)esunanuevaheursticaintroducidaporRashedi etal. [2]. Estealgoritmobasasucomportamientoenteoras fsicas, siendo sus agentes (individuos) unconjuntodemasas. As, lapoblaciondel algoritmoformaunsistemade masas que se atraenyrepe-lendebidoaunafuerzagravitacional. Estafuerzacausaportantounmovimientoglobal detodoslosAlgoritmo2PseudocodigodelMO-GSA1: frenteDePareto 2: //GeneramoslasmasasinicialesP= {X1,X2,...,XN}3: P generarMasasIniciales(#poblacion)4: mientrasnoalcancemosellmitedetiempohacer5: P ordenacionNoDominadaMasas(P)6: P asignacionDistanciaCrowding(P)7: P calculoMOFitnessUtilizandoBias(P)8: G,Kbest,mejor,peor actualizarParametrosAlgoritmo()9: parai=0hasta#poblacionhacer10: Xi.m (Xi.MOFitness-peor)/(mejor-peor)11: Xi.M (Xi.m)/(

Nj=1 Xj.m)12: npara13: parad=1hasta#dhacer14: parai=1hasta#poblacionhacer15: paraj=1toKbesthacer16: Rij ||Xi, Xj||217: Fdij G*((Xi.M*Xj.M)/(Rij+))*(Xdj-Xdi )18: npara19: Xi.Fd

NjKbest,j=i rand[0, 1] Fdij20: Xi.acedXi.Fd/Xi.M21: npara22: npara23: parad=1hasta#dhacer24: parai=1hasta#poblacionhacer25: Xi.veldrand[0,1]*Xi.veld+Xi.aced26: XdiXdi+Xi.veld27: npara28: npara29: frenteDePareto actualizarFrenteDePareto(C)30: nmientrasobjetoshaciaaquellosconmayoresmasas(mejoressoluciones). Deestaformalasmasascooperanysecomunican.ComoelPDMesunproblemamultiob-jetivo, hemos tenidoqueadaptar el funcionamien-to del algoritmo GSAa este contexto, deniendounnuevoalgoritmodenominadoAlgoritmoMulti-objetivodeB usquedaGravitacional (MO-GSA), elfuncionamientogeneral deestenuevoalgoritmosemuestraenelAlgoritmo2.Primerogeneramoslapoblacionmultiobjetivodeformaaleatoria(lnea3del Algoritmo2). Acon-tinuacion, el algoritmocomienzasuejecucionhas-taalcanzareltiempodenalizacion.Enestepuntodebemostenerencuentaque, parael correctofun-cionamiento del algoritmo, cada solucion debe poseerunvalor detness unico, facilitandoas las tareasderankingyselecciondel mejorypeor individuo.Estenuevoalgoritmoprimeroordenalapoblacionen distintos frentes de Pareto, teniendo en cuen-talos frentes alos que pertenece cadasolucionylos correspondientes valores de distanciacrowding(lneas5y6), dosconceptosobtenidosdel algorit-mo NSGA-II. Para obtener un valor unico de tness,aplicamos entonces un bias lineal br(lnea 7) a cadaelementor esimodelapoblacionhaciendousodelaexpresion: br=1/r, obteniendosevaloresdet-nessdeentre1y1/N(siendoNel n umerodeindi-viduo).Trasesteprocesoactualizamoslasvariablesdel algoritmo(todas ellas tomanlos valores prop-uestosporlosautoresen[2]).Unavezactualizadoslosparametrosyevaluadoslosindividuos, procede-mos al calculo de las masas asignadas a cada solucion(lneas9a12), lasfuerzasqueact uanentreellasyensuconjunto(lneas15a18y19), lasnuevasve-locidadesquetomanlasmasas(lneas20y25)ylanuevaposicionqueocuparacadasolucionenladi-mensioncorrespondiente(lnea26).Comopodemosverenlalnea13, todoesteprocesoserealizaparacadadimension(cromosomade nuestros individu-os), deniendose as las nuevas posiciones de nuestrasmasasenelespaciodeb usqueda.Todoesteprocesose repite hasta alcanzar el tiempo de nalizacion delalgoritmo.IV. ResultadosexperimentalesycomparativasEnestaseccionexplicamoslametodologasegui-daparacongurarcadaalgoritmo, describimoslasinstancias utilizadas ennuestraexperimentacionymostramoslosresultadosobtenidospornuestrosal-goritmos.Enestepuntocompararemostambienlosresultados obtenidos por nuestras heursticas con losobtenidos por dos algoritmos estandar multiobjetivo(NSGA-II[6] ySPEA2[7])yconlosobtenidosporcatorcemetodosbiologicosbienconocidos.Encadaexperimentohemos realizado30ejecu-ciones independientes para asegurar la relevancia es-tadsticadelosdatos.Losresultadoslosmostramosa traves del indicador hipervolumen [8] para facilitarTABLAIIPropiedadesdelasinstanciasutilizadas.Instancia Secuencias Tama no Tiempo(sg.)Instanciasdelamoscadm01g 4 1500 15dm04g 4 2000 15dm05g 3 2500 15Instanciasdelserhumanohm03r 10 1500 25hm04m 13 2000 25hm16g 7 3000 15Instanciasdelratonmus02r 9 1000 15mus03g 5 500 15mus07g 4 1500 25Instanciasdelalevadurayst03m 8 500 15yst04r 7 1000 15yst08r 11 1000 25las comparativas, mostrandose los valores medios lo-gradosenlas30ejecuciones.Elvolumendereferen-cia se calcula con los valores maximos de cada objeti-vo en cada instancia, por ejemplo, una instancia concinco secuencias tendra: Soporte=5, Tama no=64ySimilaridad=1. Paracompararel comportamien-to de los algoritmos hemos utilizado tambien laRelaciondeCobertura[9] quees util paraanalizarque algoritmos obtienen los mejores frentes de Pare-to. Las conguraciones delos parametros seorga-nizanteniendoencuentalainuenciadecadaunodeellosencadaalgoritmo. TodoslosexperimentossehanrealizadosobreunPentium4(2.8GHz)con1GBdeRAM; ylosalgoritmossehancompiladoutilizandogcc sinopcionesdeoptimizaci on. Comobenchmark hemos utilizado doce instancias realesseleccionadasdelabasededatosbiologicaTRANS-FAC[10]. LaTablaII muestralas propiedades decadaunadeellas.Lostiemposdeejecucionestable-cidos paracadainstanciaseincluyenenla ultimacolumnadelaTablaII.Por ultimodestacarqueencadaalgoritmodesarrolladoenestetrabajohemosajustado el valor de todos los parametros para obten-er la mejor conguracion posible para este problema.En la Tabla III incluimos las conguraciones de cadaalgoritmo.Conlosalgoritmosconguradosylosexperimen-tosrealizadospodemoscomenzarconel analisisdelos datos. El primer analisis se ha realizado uti-lizandoel indicadorhipervolumen. EnlaTablaIVmostramoslosresultadosycomportamientosdelosalgoritmos en todas las instancias utilizadas. Si anal-izamoslatablaporespecies, podemosnotarcomo,para las instancias correspondientes a la mosca,los algoritmosque mejores hipervol umenesobtienensonMOABCySPEA2(superandoel MOABCalSPEA2), estos resultados demuestran que ambos al-goritmossoncapacesdedescubrirbuenosmotifseninstancias peque nas (con no demasiados nucleoti-dos). Por otro lado, si analizamos los resultadosTABLAIIIMejoresconfiguracionesencontradasparacadaalgoritmo.ParametrosutilizadosenMOABCTama nodelaPoblacion 200ProbabilidaddeMutacion 8 %CantidaddeMutacion 30 %delvalormaximoAbejasExploradoras 1ParametrosutilizadosenMO-GSATama nodelaPoblacion 200G0 100 20 0.01ParametrosutilizadosenNSGA-II[6]Tama nodelaPoblacion 200Cruce SPXprobabilidaddel60 %ProbabilidaddeMutacion 50 %CantidaddeMutacion 30 %delvalormaximoElecciondePadres TorneoBinarioParametrosutilizadosenSPEA2[7]Tama nodelaPoblacion 200Cruce SPXprobabilidaddel90 %ProbabilidaddeMutacion 90 %CantidaddeMutacion 30 %delvalormaximoobtenidos en las instancias del ser humano vemos co-mo los mejores algoritmos son MOABC y MO-GSA,nuestras dos propuestas. Pudiendose decir que nues-tras heursticas logran obtener los mejores resultadosenlastresinstanciasmascomplicadasdelasdoceque hemos utilizado en nuestra experimentacion.En lo referente a los resultados de las instanciasdel raton, los mejores motifs sondescubiertos porMOABC, conlaexcepciondelainstanciamus07g,instanciadondedominaelalgoritmoSPEA2.Final-mente para el caso de la levadura, es de nuevo el algo-ritmo MOABC el que obtiene los mejores resultadosenlas instancias yst03myyst04r. Enlainstanciayst08r es el algoritmo MO-GSA el que obtiene may-ores hipervol umenes. En resumen, podemos concluirque los resultados de nuestros algoritmos son buenosyaquelograndominarenoncedelasdoceinstan-ciasquehemosprobadoadosalgoritmosestandarencomputacionmultiobjetivocomosonNSGA-IIySPEA2.TABLAIVHipervol umenesmediosobtenidosporlosalgoritmos.MOABC MO-GSA NSGA-II SPEA2dm01g 83,24%0,006 81,79 %0,015 81,56 %0,006 83,17 %0,005dm04g 84,14%0,009 81,82 %0,014 81,06 %0,008 82,67 %0,007dm05g 86,43%0,007 84,26 %0,013 84,41 %0,007 86,13 %0,007hm03r 61,48 %0,019 61,86%0,019 47,40 %0,027 53,22 %0,010hm04m 56,50%0,018 53,38 %0,019 43,32 %0,024 46,59 %0,008hm16g 81,91%0,035 77,83 %0,032 68,12 %0,012 72,40 %0,017mus02r 64,17%0,019 61,13 %0,020 59,24 %0,011 59,68 %0,012mus03g 79,69%0,006 76,35 %0,029 77,18 %0,004 77,69 %0,004mus07g 88,29 %0,021 83,57 %0,025 87,01 %0,017 89,50%0,004yst03m 69,73%0,019 63,30 %0,029 65,52 %0,012 66,45 %0,011yst04r 75,57%0,010 71,12 %0,024 74,80 %0,004 71,72 %0,004yst08r 61,81 %0,023 66,20%0,022 64,87 %0,012 57,22 %0,011Media 74,41% 71,88 % 69,54 % 70,54 %TABLAVRelaci ondeCobertura(AB).A MOABC MO-GSA NSGA-II SPEA2B MO-GSA NSGA-II SPEA2 MOABC NSGA-II SPEA2 MOABC MO-GSA SPEA2 MOABC MO-GSA NSGA-IIdm01g 64,52 % 82,35 % 41,03 % 50,00 % 61,76 % 46,15 % 27,08 % 35,48 % 38,46 % 56,25 % 51,61 % 79,41 %dm04g 62,86 % 100,0 % 88,37 % 43,14 % 90,24 % 65,12 % 9,80 % 22,86 % 11,63 % 29,41 % 28,57 % 92,68 %dm05g 96,15 % 96,55 % 70,37 % 18,75 % 72,41 % 25,93 % 15,63 % 34,62 % 18,52 % 62,50 % 76,92 % 93,10 %hm03r 2,56 % 100,0 % 100,0 % 87,10 % 97,62 % 100,0 % 0,00 % 0,00 % 47,27 % 0,00 % 0,00 % 35,71 %hm04m 35,90 % 100,0 % 100,0 % 54,55 % 100,0 % 100,0 % 0,00 % 0,00 % 41,33 % 0,00 % 0,00 % 65,75 %hm16g 27,78 % 100,0 % 100,0 % 65,38 % 97,50 % 95,83 % 0,00 % 0,00 % 33,33 % 0,00 % 0,00 % 60,00 %mus02r 63,24 % 100,0 % 100,0 % 33,85 % 98,63 % 98,46 % 0,00 % 1,47 % 26,15 % 0,00 % 1,47 % 69,86 %mus03g 48,48 % 100,0 % 92,73 % 62,86 % 82,14 % 72,73 % 14,29 % 24,24 % 50,91 % 30,00 % 31,82 % 73,21 %mus07g 81,82 % 100,0 % 85,71 % 54,05 % 78,26 % 67,86 % 0,00 % 13,64 % 7,14 % 27,03 % 40,91 % 95,65 %yst03m 80,46 % 94,44 % 96,34 % 27,27 % 93,06 % 81,71 % 0,00 % 5,75 % 46,34 % 0,00 % 12,64 % 45,83 %yst04r 58,33 % 93,22 % 100,0 % 45,10 % 88,14 % 95,35 % 5,88 % 5,56 % 93,02 % 0,00 % 0,00 % 8,47 %yst08r 0,00 % 92,86 % 100,0 % 97,96 % 98,81 % 100,0 % 2,04 % 0,00 % 96,08 % 0,00 % 0,00 % 2,38 %media 51,84% 96,62% 89,55% 53,33% 88,21% 79,09% 6,23% 11,97% 42,52% 17,10% 20,33% 60,17%Tras el estudio de los hipervol umenes hemos anal-izadotambienlosmotifsdescubiertosporlosalgo-ritmos(lassolucionesno-dominadas)utilizandounsegundoindicador, laRelaciondeCobertura. Esteconceptoespresentadopor[9] ensuestudiodeop-timizacionmultiobjetivoutilizandoalgoritmosevo-lutivos. Considerando dos soluciones x1y x2, laRelacion de Cobertura considera que x1 cubre a x1 siy solo si x1x2 o x1 = x2. Este concepto se aplica atodas las soluciones no-dominadas obtenidas por losalgoritmos y se utiliza como criterio de comparacion.LaTablaVmuestralosresultadosdeestacompar-ativa. Podemos observar comolos mayores valoresmedios ( ultima la de la Tabla V) son obtenidos pornuestrasdospropuestas, porejemplo, vemoscomolassolucionesno-dominadasdel MOABCcubrenel96,62 %delassolucionesdel NSGA-IIyel 89,55 %de las soluciones del SPEA2. Mientras que estos dosalgoritmos (NSGA-II y SPEA2) solo logran cubrir el6,23 % y el 17,10 % de las soluciones del MOABC re-spectivamente.LomismoocurrecuandoanalizamoslosresultadosobtenidosporelalgoritmoMO-GSA,sus soluciones no-dominadas son capaces de cubrir el88,21 %yel 79,09 %delassolucionesdel NSGA-IIySPEA2,mientrasqueellossolocubrenel11,97 %y el 20,33 % de las soluciones del MO-GSA. Por otrolado, si comparamos las soluciones obtenidas pornuestrasdosheursticasvemoscomolosresultadosson muy similares ya que las soluciones del MOABCcubren el 51,84 % de las soluciones del MO-GSA y lassoluciones de este cubren el 53,33 % de las solucionesdel MOABC. Enresumen, lamayoradelosmotifsdescubiertospornuestraspropuestasdominanalosmotifs descubiertos por los algoritmos NSGA-II ySPEA2, porello, losfrentesdeParetoconseguidospornuestraspropuestassondemayorcalidad.En esta seccion hemos comparado tambien losmotifsdescubiertospornuestraspropuestasconlasprediccionesdeotrosmetodos. Masconcretamente,hemoscomparadolosmejoresmotifsdenuestrosal-goritmos(solucionesno-dominadas)conlasmejoressoluciones descubiertas por catorce metodos biologi-cos bien conocidos. As, demostramos que las predic-ciones de nuestras propuestas tienen una impor-tante relevancia biologica. Los metodos biologicosconlos quehemos comparadosonAlignACE[11],ANNSpec [12], Consensus [13], GLAM[14], Im-probizer [15], MEME[16], MEME3 [16], MITRA[17], MotifSampler [18], oligo/dyad-analysis [19] y[20], QuickScore[21], SeSiMCMC[22], Weeder[23]y YMF [24]. Una breve descripcion de cada uno se in-cluye en [25]. Para cada metodo My cada instanciaD tenemos un conjunto de puntos de union predichosy un conjunto de puntos de union conocidos. La cor-recciondeMenDseasegura, anivel denucleoti-dos, deniendo: verdaderospositivos(nTP), falsosnegativos (nFN), verdaderos negativos (nTN) y fal-sospositivos(nFP).Pudiendosedenirvariosindi-cadoresbiologico/estadsticoscomo: laSensibilidad(nSn), quemidelaproporcionactual depositivoscorrectamenteidenticados:nSn =nTP(nTP+ nFN)(3)El ValordePrediccionesPositivas(nPPV )tam-bienconocidocomotasadeprecision,siendolapro-porciondepositivosrealescorrectamentepredichos:nPPV=nTP(nTP+ nFP)(4)ElCoecientedeRendimiento(nPC):nPC=nTP(nTP+ nFN+ nFP)(5)Y nalmente, el Coeciente de Correlacion (nCC)el cual es el Coeciente de Correlacion de Pearson enelcasoparticulardedosvariablesbinarias,tambienconocidocomoCoecientedeCorrelacionPhi.Lasdos variables binarias analizadas son vectores carac-tersticadelasposicionesdelosnucleotidosconoci-dosydelasposicionesdelosnucleotidospredichos,deestaformaesteindicadormidelacorrelacionex-istente entre ambos vectores. El valor de nCCvadesde-1(indicandounaperfectaanti-correlacion)a+1(indicandounaperfectacorrelacion).nCC=nTP nTN nFN nFPPN NP PP NN(6)donde PN=nTP+ nFN, NP =nTN+ nFP,PP =nTP+ nFP yNN=nTN+ nFN. Paramas informacion sobre estos indicadores ver [25]. LaTablaVImuestralosresultadosdecompararnues-tras propuestas conlos metodos biologicos previa-mente denidos utilizando los cuatro indicadores bi-ologico/estadsticos:nSn,nPPV ,nPCynCC.Dichoestoprocedemos aanalizar los resultadosobtenidos. En la Tabla VI(a) vemos como solo en lasinstancias yst03m y yst08r (2 instancias de 12), nues-trasheursticasnologransuperarlosresultadosdelmejor metodo biologico (de entre los 14), obteniendonuestromejoralgoritmoelseptimomejorresultado.LomismoocurreconlosindicadoresnPCynCC.Sin embargo, los motifs descubiertos por el mejor denuestrosalgoritmosencadamomento, soncapacesdelograrenestasdosinstanciaslaquintayterceramejorsolucionparaelindicadornPC(MOABCenyst03myyst08r); ylacuartayterceramejorsolu-cionpara el indicador nCC(MOABCenyst03myMO-GSAenyst08r). Si comparamos las TablasVI(a), VI(b), VI(c)yVI(d)conlaTablaIV, pode-mos notar comoenlas instancias hm03r yyst08r,donde el algoritmo MO-GSAobtena los mejoreshipervol umenes, logratambienlas mejores predic-ciones.Esimportantedestacarquelasinstanciasdelalevadura(yst) sonlas mas trabajadas biologi-camente, yporello, anuestrosalgoritmoslescues-tamas distanciarse de los demas metodos, siendoConsensusyMotifSamplerlosmetodosquemejoresprediccionesrealizanenellas. Si analizamosende-tallelosresultadosmostradosenestastablaspode-mosdecirqueconseguimosunincrementomediodesensibilidaddeun23 %conrespectoalmejormeto-do biologico. Lo mismo ocurre con los otros tresindicadores consiguiendounincrementomediodel19 %,59 %yun30 %,respectivamente.Estosresul-tados demuestranque, ademas de obtener buenosresultados desde el punto de vista informatico (atraves de indicadores como el hipervolumen o laRelacion de Cobertura), conseguimos predecir motifsbiologicamente relevantes. Es tambien importantedestacar que los mejores resultados son normalmenteobtenidos siempre por el mismo metodo biologico encadainstancia, porejemplo, enlainstanciadm01glosmejoresresultadossonsiempreconseguidosporSeSiMCMC, opor ejemplo, enhm03r los mejoresresultadossonconseguidosporMEME. Sinembar-go,nuestrosalgoritmoslogranbuenosresultadosentodaslasinstanciasyapertenezcanaunauotraes-pecie (mosca, ser humano, ratono levadura). Es-to hace esperar que nuestras versiones multiobjetivodelaColoniaArticial deAbejasydel AlgoritmoTABLAVIComparativasdeSensibilidad(nSn),ValordePrediccionesPositivas(nPPV ),CoeficientedeRendimiento(nPC)ydeCorrelaci on(nCC).(N/Asining unm etodologradescubrirnada)ResultadosnSnInstancia Mejormetodo MOABC MO-GSAdm01g SeSiMCMC 0,344000 0,488000 0,472000dm04g MotifSampler 0,022222 0,370370 0,333333dm05g MEME 0,037500 0,293750 0,287500hm03r MEME 0,063726 0,274510 0,289216hm04m AlignACE 0,005952 0,321429 0,291667hm16g N/A 0,000000 0,390244 0,335366mus02r MEME 0,094828 0,323276 0,275862mus03g AlignACE 0,281690 0,500000 0,457746mus07g ANNSpec 0,040000 0,560000 0,550000yst03m Improbizer 0,340136 0,272109 0,272109yst04r Consensus 0,335878 0,551402 0,626168yst08r AlignACE 0,387097 0,308244 0,283154ResultadosnPPVInstancia Mejormetodo MOABC MO-GSAdm01g SeSiMCMC 0,344000 1,000000 1,000000dm04g MotifSampler 0,032967 1,000000 0,666667dm05g MEME 0,026667 1,000000 0,833333hm03r MEME 0,108333 0,714286 0,507576hm04m AlignACE 0,006061 0,388889 0,395833hm16g N/A 0,000000 0,666667 0,666667mus02r MEME 0,142857 0,750000 0,642857mus03g AlignACE 0,256410 1,000000 1,000000mus07g ANNSpec 0,020942 1,000000 0,794118yst03m YMF 0,700000 0,750000 0,904762yst04r MITRA 0,357143 0,750000 0,500000yst08r MotifSampler 0,786408 0,558442 0,626984ResultadosnPCInstancia Mejormetodo MOABC MO-GSAdm01g SeSiMCMC 0,207730 0,404762 0,398438dm04g MotifSampler 0,013453 0,295181 0,191083dm05g MEME 0,015831 0,207048 0,201754hm03r MEME 0,041801 0,208955 0,222642hm04m AlignACE 0,003012 0,183099 0,160656hm16g N/A 0,000000 0,290909 0,243363mus02r MEME 0,060440 0,214058 0,195122mus03g AlignACE 0,155039 0,408284 0,352601mus07g ANNSpec 0,013937 0,465517 0,361702yst03m oligodyad 0,261905 0,198925 0,186047yst04r Consensus 0,202765 0,390244 0,343590yst08r MotifSampler 0,269103 0,247839 0,242331ResultadosnCCInstancia Mejormetodo MOABC MO-GSAdm01g SeSiMCMC 0,330043 0,628460 0,616266dm04g MotifSampler 0,013401 0,468291 0,351703dm05g MEME 0,006491 0,367374 0,331194hm03r MEME 0,063601 0,344511 0,364109hm04m AlignACE -0,000400 0,305036 0,272252hm16g MEME -0,005204 0,452594 0,393088mus02r MEME 0,097480 0,370738 0,317711mus03g AlignACE 0,222480 0,578040 0,512006mus07g ANNSpec 0,006056 0,640559 0,524117yst03m oligodyad 0,437304 0,356815 0,335172yst04r Consensus 0,322430 0,575254 0,511442yst08r MotifSampler 0,470596 0,404018 0,411904deB usquedaGravitacional puedanobtenerbuenosresultadosengenomasdeotrosseres.V. ConclusionesytrabajofuturoEneste trabajo hemos aplicado dos algoritmosnovedososbasadoseninteligenciacolectiva(swarmintelligence): la Colonia de Abejas Articiales (ABC)yel AlgoritmosdeB usquedaGravitacional (GSA),para resolver el Problema del Descubrimiento deMotifs (PDM). Ademas hemos adaptadoestos al-goritmos al contexto multiobjetivo dando lugar ados nuevos algoritmos multiobjetivo. En este trabajohemoscombinadoaspectoscomputacionalesconas-pectos biologicos, demostrando a traves de varios in-dicadores y estadsticas que los resultados obtenidospor nuestros algoritmos son relevantes en amboscampos.Paraterminar,destacamoscomocontribu-cionesdeestetrabajo: laadaptacion, dise noeim-plementaciondedosnuevosalgoritmosmultiobjeti-vobasados eninteligenciacolectiva, el analisis de-talladodelosresultadosobtenidosylageneracionde nuevos resultados que mejoran signicativamenteaquellospublicadosenlaliteratura.Evaluar,implementaryprobarnuevosalgoritmospararesolverel PDMesunatareapendienteparael futuro. Ademas, tambieninvestigaremoslaapli-caciondetecnicasparalelasydistribuidasquenospermitanabordarconjuntosdedatosmayores.AgradecimientosEste trabajo esta parcialmente nanciado porel Ministerio de Ciencia e Innovacion y el FED-ER(FondoEuropeodeDesarrolloRegional), bajoel proyectoTIN2008-06491-C04-04(proyectoM*).Gracias tambien a la Fundacion Valhondo por elapoyo economico ofrecido a David L. Gonzalez-Alvarezparahacerposibleestetrabajo.Referencias[1] D. Karaboga, Anideabasedonhoneybeeswarmfornumericaloptimization, Technical report-tr06, ErciyesUniversity,Turkey,2005.[2] E. Rashedi, H. Nezamabadi-pouryS. Saryazdi, GSA:A gravitational search algorithm, Information Sciences,vol.179,no.13,pp.22322248,2009.[3] P.Dhaeseleer, WhatareDNAsequencemotifs?,Na-tureBiotechnology,vol.24,no.4,pp.423425,2006.[4] G.B.Fogel,D.G.Weekes,G.Varga,E.R.Dow,H.B.Harlow, J. E. OnyiayC. Su, Discoveryof sequencemotifs related to coexpression of genes using evolutionarycomputation, NucleicAcidsResearch, vol. 32, no. 13,pp.38263835,2004.[5] G. B. Fogel, V. W. Porto, G. Varga, E. R. Dow, A. M.Craven, D. M. Powers, H. B. Harlow, E. W. Su, J. E.Onyia y C. Su, Evolutionary computation for discoveryofcompositetranscriptionfactorbindingsites,NucleicAcidsResearch,vol.36,no.21,pp.e142,2008.[6] K.Deb,A.Pratap,S.AgarwalyT.Meyarivan, Afastandelitistmultiobjectivegeneticalgorithm: NSGA-II,IEEETransactionsonEvolutionaryComputation, vol.6,pp.182197,2002.[7] E. Zitzler, M. Laumanns y L. Thiele, SPEA2: Improvingthestrengthparetoevolutionaryalgorithm, Technicalreporttik-report103,SwissFederalInstituteofTechnol-ogyZurich,Switzeland(2001).[8] L. While, P. Hingston, L. Barone y S. Huband, A fasteralgorithmforcalculatinghypervolume,IEEETransac-tionsonEvolutionaryComputation, vol. 10, no. 1, pp.2938,2006.[9] E. Zitzler, K. DebyL. Thiele, Comparisonof mul-tiobjective evolutionaryalgorithms: empirical results,Evolutionary Computation, vol. 8, no. 2, pp. 173195,2000.[10] E. Wingender, P. Dietze, H. Karas y R. Knuppel,TRANSFAC: adatabaseontranscriptionfactors andtheirDNAbindingsites, NucleicAcidsResearch, vol.24,no.1,pp.238241,1996.[11] F.P.Roth,J.D.Hughes,P.W.EstepyG.M.Church,FindingDNAregulatorymotifswithinunalignednon-coding sequences clustered by whole-genome mRNAquantitation,NatureBiotechnology,vol.16,no.10,pp.939945,1998.[12] C.T.WorkmanyG.D.Stormo, ANN-Spec:amethodfor discovering transcription factor binding sites with im-provedspecicity, PacicSymposiumonBiocomput-ing,pp.467478,2000.[13] G. Z. Hertz yG. D. Stormo, Identifying DNAandproteinpatternswithstatisticallysignicantalignmentsofmultiplesequences,Bioinformatics,vol.15,no.7-8,pp.563577,1999.[14] M.C.Frith,U.Hansen,J.L.SpougeyZ.Weng, Find-ingfunctionalsequenceelementsbymultiplelocalalign-ment, NucleicAcidsResearch,vol.32,no.1,pp.189200,2004.[15] W. Ao, J. Gaudet, W. J. Kent, S. Muttumuy S. E.Mango, Environmentallyinducedforegut remodelingbyPHA-4/FoxAandDAF-12/NHR,Science,vol.305,no.5691,pp.17431746,2004.[16] T.L.BaileyyC.Elkan, Unsupervisedlearningofmul-tiplemotifsinbiopolymersusingexpectationmaximiza-tion, Machine Learning, vol. 21, no. 1-2, pp. 5180,1995.[17] E. Eskin y P. A. Pevzner,Finding composite regulatorypatterns inDNAsequences, Bioinformatics, vol. 18(Suppl1),pp.S354S363,2002.[18] G. Thijs, M. Lescot, K. Marchal, S. Rombauts,B. DeMoor, P. RouzeyY. Moreau, Ahigher-orderbackgroundmodel improves the detectionof promoterregulatoryelementsbyGibbssampling, Bioinformat-ics,vol.17,no.12,pp.11131122,2001.[19] J. vanHelden, B. AndreyJ. Collado-Vides, Extract-ingregulatorysites fromtheupstreamregionof yeastgenes bycomputational analysis of oligonucleotidefre-quencies,JournalofMolecularBiology,vol.281,no.5,pp.827842,1998.[20] J.vanHelden,A.F.RiosyJ.Collado-Vides, Discover-ing regulatory elements in non-coding sequences by anal-ysisof spaceddyads, NucleicAcidsResearch, vol. 28,no.8,pp.18081818,2000.[21] M. RegnieryA. Denise, Rareeventsandconditionalevents onrandomstrings, DiscreteMathematics andTheoreticalComputerScience, vol. 6, pp. 191214, 2004.[22] A. V. Favorov,M. S. Gelfand, A. V. Gerasimova,D. A.Ravcheev, A. A. MironovyV. J. Makeev, AGibbssampler for identicationof symmetricallystructured,spacedDNAmotifswithimprovedestimationofthesig-nal length, Bioinformatics, vol. 21, no. 10, pp. 22402245,2005.[23] G. Pavesi, G. Mauri yG. Pesole, Analgorithmforndingsignals of unknownlengthinDNAsequences,Bioinformatics,vol.17(Suppl1),pp.S207S214,2001.[24] S. SinhayM. Tompa, YMF: Aprogramfordiscoveryof novel transcriptionfactorbindingsitesbystatisticaloverrepresentation,Nucleic Acids Research, vol. 31, no.13,pp.35863588,2003.[25] M. Tompa, N. Li, T. L. Bailey, G. M. Church,B. De Moor, E. Eskin, A. V. Favorov, M. C. Frith, Y. Fu,W.J.Kent,V.J.Makeev,A.A.Mironov,W.S.Noble,G. Pavesi, G. Pesole, M. Regnier, N. Simonis, S. Sinha,G. Thijs, J. vanHelden, M. Vandenbogaert, C. Weng,Z. Workman, C. YeyZ. Zhu, Assessingcomputation-altoolsforthediscoveryoftranscriptionfactorbindingsites,NatureBiotechnology, vol. 23, no. 1, pp. 137144,2005.