Diseño y control de un robot de pez pangasius biomimético suave utilizando el efecto de rayos de aleta y el aprendizaje por refuerzo

Scientific Reports volumen 12, número de artículo: 21861 (2022) Citar este artículo

3055 Accesos

1 Citas

8 altmétrico

Detalles de métricas

Los robots blandos proporcionan una vía para imitar con precisión a las criaturas biológicas y integrarse en su entorno con una mínima invasión o alteración de su ecosistema. Estos robots fabricados con materiales blandos y deformables poseen propiedades estructurales y comportamientos similares a los cuerpos y órganos de los seres vivos. Sin embargo, son difíciles de desarrollar en términos de actuación y detección integradas, modelado preciso y control preciso. Este artículo presenta un pez robótico híbrido blando-rígido inspirado en el pez Pangasius. El robot emplea una estructura de cola de rayos de aleta flexible impulsada por un servomotor, para actuar como el cuerpo blando del robot y proporcionar el movimiento ondulatorio a la aleta caudal del pez. Para abordar los desafíos de modelado y control, se propone el aprendizaje por refuerzo (RL) como una estrategia de control sin modelos para que el pez robot nade y alcance un objetivo específico. Al entrenar e investigar el RL mediante experimentos con hardware real, ilustramos la capacidad de los peces para aprender y realizar la tarea requerida.

Las profundidades submarinas han demostrado ser entornos muy desafiantes para los humanos. Los investigadores e ingenieros se esfuerzan por construir sistemas robóticos submarinos para lograr esta peligrosa empresa. Desde la investigación oceánica y la exploración de la vida marina hasta la ejecución de misiones submarinas y la recolección de muestras, pasando por el monitoreo y mantenimiento de estructuras submarinas y costa afuera, es necesario realizar muchas tareas complejas en condiciones duras e impredecibles. Estas tareas acuáticas se llevan a cabo comúnmente utilizando vehículos submarinos como vehículos operados a distancia (ROV) y vehículos submarinos autónomos (AUV). Sin embargo, los AUV se limitan actualmente a operaciones exploratorias de profundidad media, mientras que los ROV son más adecuados para la investigación de los fondos marinos, pero están limitados por el requisito de amarre y pilotaje manual. Además, estos sistemas están fabricados principalmente con piezas rígidas que limitan su maniobrabilidad, su capacidad para interactuar de forma segura con su entorno y su adaptabilidad al imprevisible clima acuático1. Aprovechar los nuevos avances tecnológicos en biomimética y robótica blanda proporciona soluciones prometedoras para construir sistemas robóticos capaces de operar de forma más natural y resistir estos entornos hostiles2,3.

El estudio de las diversas criaturas biológicas marinas ofrece información sobre las características que les permiten vivir y poblar vastas regiones oceánicas. Inspirándose en las morfologías de los organismos vivos submarinos, sus técnicas de natación y locomoción y sus capacidades sensoriales, se ayuda al desarrollo de sistemas robóticos bioinspirados similares a estas criaturas, lo que hace que estos robots sean más adecuados para aplicaciones submarinas. El movimiento de natación entre criaturas submarinas muestra una variedad de técnicas de locomoción, guiadas por las estructuras y formas morfológicas de dichas criaturas4. La mayoría de las criaturas acuáticas poseen cuerpos dóciles y dependen de la deformación de su cuerpo para generar el empuje necesario para la locomoción. La clasificación más común del movimiento de natación de los peces se ha adoptado según la anatomía del pez y sus propulsores5. Al mover su cuerpo y sus aletas con diferentes frecuencias ondulantes u oscilatorias, los peces pueden generar el empuje necesario para avanzar, girar y realizar maniobras de escape. Si bien esta clasificación se refiere principalmente a la natación de peces y batoides, otras criaturas marinas como medusas, tortugas, equinodermos y crustáceos utilizan diferentes tipos de locomoción, como propulsión a chorro, natación inducida por arrastre y rastreo. Además, varios estudios se centraron en los comportamientos individuales y grupales de los peces, y sus interacciones sociales con peces robots biomiméticos6,7,8,9,10. Estas investigaciones brindan información sobre el uso de robots similares a peces para interactuar y estudiar el comportamiento de los peces, y los mecanismos responsables de las agregaciones de fenotipos mixtos, además de proporcionar estímulos biohíbridos para análisis sociales adicionales, como el tratamiento de la ansiedad y la transferencia de información.

El campo de la robótica blanda ofrece enfoques exitosos para construir sistemas robóticos bioinspirados en general11,12,13,14 y, más específicamente, robots inspirados en criaturas biológicas marinas15. El uso de materiales blandos para desarrollar robots con cuerpos dóciles y grandes grados de libertad puede acercarnos un paso más a la imitación de criaturas marinas con locomoción compleja16. Se han realizado varios intentos de explotar su deformabilidad para diseñar robots blandos biomiméticos capaces de imitar el movimiento biológico de natación17. Un enfoque utilizó elastómeros hidráulicos para desarrollar un pez robótico blando capaz de realizar varias maniobras de natación2. Alternativamente, un pez robótico bioinspirado utiliza actuadores compuestos de polímero iónico y metal (IPMC) como aletas pectorales y caudales18. Otro equipo pudo imitar a los moluscos cefalópodos utilizando actuadores hidráulicos inteligentes de flexión suave para construir los tentáculos que ayudan al cefalópodo en sus maniobras19. Un frágil robot blando inspirado en una estrella utiliza veinte cables de aleación con memoria de forma (SMA) para accionar cinco patas flexibles y gatear bajo el agua20. Una medusa robótica utiliza la estructura de rayos de las aletas para imitar los suaves tentáculos de la medusa y su movimiento21. Algunos de estos robots blandos se probaron en entornos submarinos reales, como el robot pez caracol accionado mediante elastómeros dieléctricos (DE), que era capaz de operar a grandes profundidades3.

Uno de los mayores desafíos de la robótica blanda es el modelado y control de estos sistemas complejos no lineales22. La investigación ha abordado estos desafíos utilizando diversos enfoques23. Algunos enfoques se basan en técnicas de control basadas en modelos; sin embargo, desarrollar estas técnicas ha demostrado ser una tarea difícil debido a la complejidad del desarrollo de modelos para sistemas robóticos blandos de alta dimensión24. Se proponen varias teorías de modelado, modelos de aproximación y técnicas de reducción de dimensionalidad para simplificar la tarea de modelado. Por el contrario, el control sin modelo no requiere un modelo o información previa sobre el sistema, sino que se basa principalmente en el comportamiento de entrada-salida recopilado directamente del sistema para aprender una representación aproximada del mismo. El aprendizaje por refuerzo (RL) es una de estas técnicas de control sin modelos que está proporcionando resultados prometedores en los últimos años25. RL es un proceso de aprendizaje basado en datos que depende de que el agente interactúe con su entorno realizando ciertas acciones y observando su nuevo estado. Luego, el agente recibe una recompensa basada en la tarea que debe completar y el algoritmo RL aprende una política para mapear los pares estado-acción.

En particular, la RL se ha implementado para el control de la robótica blanda en general y específicamente en el caso de la robótica blanda submarina26. Un grupo utilizó un algoritmo Q-learning con repetición de experiencia para maximizar la velocidad de natación de un robot blando de sepia accionado por una membrana DE27. También se utilizó el actor crítico suave (SAC) para aprender una estrategia de control para una anguila robótica con cuerpos dóciles que le permitieran nadar eficientemente en línea recta28. También se utilizaron SMA para accionar un robot blando mediante el empleo de Q-learning para desarrollar una política de control para la locomoción del efector final29. Además, un robot blando inspirado en un pulpo utilizó aprendizaje q profundo (DQN) para controlar la postura de los brazos blandos del robot30. Un enfoque utilizó un algoritmo de gradiente de política determinista profundo (DDPG) para aprender una política de control para brazos continuos blandos31. Sin embargo, entrenar agentes RL es un proceso costoso en términos de tiempo y recursos de cálculo, y se vuelve más complejo para los robots blandos debido a su dinámica no lineal y propiedades elásticas. Para resolver este problema, un grupo de investigación implementó un método RL que ignora las propiedades de los materiales blandos y la estructura del robot, y se aplicó al robot blando Honeycomb PneuNets32. Una técnica diferente para simplificar el proceso de RL es el uso de métodos de aprendizaje a partir de demostración (LfD) y aprendizaje por imitación, como en el caso del brazo robótico STIFF-FLOP33, donde los patrones de movimiento de un brazo de pulpo se transfirieron al brazo robótico. como guía para acelerar el proceso de aprendizaje. Combinar un modelo con algoritmos RL podría ayudar al proceso de aprendizaje de políticas. Una investigación propone un RL basado en modelos para el control de circuito cerrado de manipuladores robóticos blandos34. El enfoque propuesto utiliza una red neuronal recurrente (RNN) para aprender el modelo dinámico directo, que luego se utiliza para desarrollar un controlador predictivo de bucle cerrado. Los estudios mencionados investigaron el uso de diferentes algoritmos RL para el control de la robótica suave, incluida su combinación con el aprendizaje por imitación. Sin embargo, el éxito de RL en tareas de alto nivel de robots blandos, como la navegación submarina, sigue siendo una cuestión. Además, no se han discutido las comparaciones entre el desempeño de varios algoritmos RL para la misma tarea.

En este artículo, proponemos un diseño para un pez robot biomimético inspirado en el pez Pangasius, utilizando el efecto de rayos de aleta (FRE) para la actuación del cuerpo suave para imitar la ondulación del cuerpo y la cola del pez (Fig. 1). Investigamos el uso de tres algoritmos RL para enseñar al robot a nadar hacia un objetivo específico. Al lograr la tarea de navegación submarina y alcanzar los objetivos previstos, el pez robot biomimético desarrollado en este trabajo podría integrarse en entornos acuáticos reales en el futuro. La principal aplicación de estos robots es realizar exploración submarina, investigar la vida marina, monitorear los arrecifes de coral y recolectar muestras sin alterar ni destruir el medio ambiente. Esta investigación es importante para estudiar el cambio en el sistema ecológico submarino y el efecto del cambio climático sobre él, dando una idea de las acciones necesarias para mitigar este efecto.

Robot de pez Pangasius biomimético suave. Prototipo de robot (izquierda). CAD completo del robot (derecha).

Para construir un robot submarino blando que imite la locomoción de los peces, se estudia un pez real mediante análisis de movimiento visual para obtener información y parámetros relevantes para el diseño y control del pez robot biomimético equivalente. El pez Pangasius fue grabado usando una cámara web durante varios períodos para obtener videos de su movimiento de natación. Existen dos enfoques principales para realizar la captura y el seguimiento del movimiento: el seguimiento basado en marcadores y el seguimiento sin marcadores35. Los métodos tradicionales basados en marcadores se basan en tener marcadores en los diferentes puntos que serán rastreados. Estos marcadores podrían ser partes retrorreflectantes adheridas al sujeto que se sigue o partes de diferentes colores o, en algunos casos, unidades de medición inercial integradas y sus datos ayudan a estimar el movimiento de ciertos puntos. Estos métodos requieren preparativos de hardware, pero no se necesitan más anotaciones. Por otro lado, los métodos de seguimiento sin marcadores dependen de haber etiquetado la verdad del terreno realizada por humanos, luego se entrenan modelos de aprendizaje automático, como redes neuronales convolucionales (CNN) y redes residuales (ResNets) para estimar el movimiento en función de los puntos clave etiquetados.

Para realizar el análisis de movimiento para este experimento, se utilizó el enfoque sin marcadores mediante la preparación de una configuración de captura de movimiento. Está compuesto por un tanque de agua de dimensiones 120 \(\times\) 70 cm. Los peces registrados para el análisis pertenecen al género Pangasius, una clase de agua dulce de bagres tiburones de tamaño mediano a muy grande. Las dimensiones de los peces en el estudio son aproximadamente 21 cm de longitud total del cuerpo, 2,5 cm de ancho y 1,5 cm de longitud de la cabeza “Lf”36. El pez tiene siete aletas a lo largo de su cuerpo, como se muestra en la Fig. 2, dos aletas pectorales, una aleta dorsal, una aleta pélvica, una aleta anal, una aleta adiposa y una aleta caudal en el extremo de la cola37. La adquisición de datos se realiza a través de una cámara monocular visual Logitech C920. La cámara se montó en la parte superior del tanque para proporcionar una vista superior completa del área del tanque. Se capturaron secuencias de vídeo de la secuencia de natación de los peces a 30 fotogramas por segundo (fps) utilizando la cámara.

Anatomía real del pez Pangasius capturada mediante un sistema de movimiento de procesamiento de imágenes que presenta la dimensión real y la estructura morfológica del pez.

Estudiar los patrones de natación y el movimiento de los peces requiere realizar una estimación de la postura en los datos de video grabados para rastrear la deformación y el movimiento de las diferentes partes del cuerpo del pez durante sus secuencias de natación. El paso de estimación de la pose se realizó utilizando DeepLabCut, una plataforma de aprendizaje profundo para la estimación de la pose de animales sin marcadores38.

Durante el proceso de estimación de la postura (Fig. 3), se definen tres partes del cuerpo del pez para ser rastreadas: la cabeza, el centro de las aletas pectorales y la aleta caudal. Se tomaron varias muestras de los videos capturados y se anotaron las partes del cuerpo. Se entrena una red neuronal ResNet con 152 capas utilizando transmisiones de video para estimar la posición de estos puntos. La red fue entrenada durante 200.000 épocas alcanzando errores de entrenamiento y prueba de aproximadamente 3 y 6 píxeles, respectivamente.

Resultados de la estimación de pose y trazado de trayectoria tanto para el pez como para el robot. (a) Estimación de la pose de los peces. (b) Estimación de la pose del robot.

Después de obtener las posiciones de las partes del cuerpo necesarias, se realizan análisis adicionales sobre la pose prevista del pez para investigar los parámetros importantes responsables del movimiento de natación del pez, lo que debería ayudar a diseñar el pez biomimético. Estos parámetros cruciales incluyen la frecuencia y amplitud de la cola del pez y la velocidad resultante a la que el pez puede nadar debido a su movimiento ondulante. Durante la natación carangiforme, la locomoción se basa principalmente en el movimiento ondulado del cuerpo y la aleta caudal, mientras que las aletas pectoral, pélvica y dorsal ayudan al pez a mantener el equilibrio y nadar hacia arriba y hacia abajo.

Analizando varios vídeos de muestra de la natación del pez, el seguimiento del movimiento de la cola nos permite obtener la frecuencia de ondulación del cuerpo del pez. Mientras estaba estacionaria, la frecuencia de la cola oscilaba entre 0,7 y 2 hercios (Hz). Durante la natación a baja velocidad, la frecuencia osciló entre 1 y 2,5 Hz, mientras que alcanzó hasta 4,5 Hz durante la natación a alta velocidad. La velocidad alcanzada durante la natación de baja velocidad estuvo en el rango de 5 a 6 cm/s, y hasta 65 cm/s para la natación de alta velocidad.

El pez Pangasius biomimético rígido y blando está diseñado en función de las dimensiones del pez real que se captura utilizando el sistema de visión, como se describió anteriormente. Las dimensiones del robot están escaladas para duplicar las dimensiones del pez real. El diseño se distribuye en tres partes principales: cabeza rígida del pez, cola flexible del pez y aleta caudal, como se muestra en la Fig. 4. El cuerpo del pez es responsable del movimiento ondulatorio necesario para moverse en el agua. Se diseña una cola blanda para imitar la cola del pez y su movimiento, basándose en el efecto de rayo de aleta (FRE), que está inspirado en las aletas caudales de los peces, lo que la convierte en una opción adecuada para proporcionar un movimiento de natación similar39. Se elige la estructura compatible con los rayos de la aleta debido a su gran similitud con la cola ósea naturalmente eficiente del pez. El actuador se basa en una fuerza de compresión simple que hace que el rayo de la aleta se doble en la dirección de la fuerza, deformando la cola en una forma cóncava que encierra un gran volumen de agua y luego la acelera hacia atrás. Este movimiento da como resultado un empuje hacia adelante altamente eficiente del robot, análogo al de los peces nadando.

El rayo de aleta consta de un cuerpo exterior flexible, enlaces rígidos entre su segmentación y conexiones rígidas entre el servomotor (la fuente de actuación) y los puntos de actuación en el rayo de aleta mismo. La actuación es impulsada por un servomotor impermeable que aplica fuerza a los lados del rayo de aleta haciéndolo doblar en la dirección de la fuerza. Al girar en un movimiento oscilatorio, el servo aplica fuerza en ambos lados del actuador, funcionando como un mecanismo subactuado y dando como resultado el movimiento ondulatorio necesario. Sin embargo, el par limitado del servomotor de actuación dificulta generar suficiente empuje para realizar maniobras rápidas y las posibles frecuencias de batido de cola también están limitadas por la velocidad del servo. Además, la ausencia de aletas pectorales en el robot limita la capacidad de nadar con un movimiento hacia adelante estable.

Para producir el robot biomimético Pangasius40 se siguen diferentes técnicas de fabricación basadas en la fabricación aditiva. Debido a la gran complejidad de la parte de la cabeza de pescado, se opta por la sinterización selectiva por láser (SLS) para la producción con Sinterit Lisa Pro. El material utilizado para la impresión SLS es PA12 Smooth, un material a base de Nylon seleccionado por su alta durabilidad. Para el rayo de aleta flexible, se necesita un material altamente hiperelástico para su construcción debido a la baja complejidad del diseño. Se selecciona la impresora 3D de modelado por deposición fundida (FDM) para fabricar esta pieza utilizando la Felix 4Tec con un material flexible: el material medio Extrudr FLEX. Finalmente, se necesita un material de alta rigidez para que los eslabones rígidos y los conectores rígidos resistan las fuerzas de tensión ejercidas por el servomotor. El material que se utiliza es un material laminado epoxi reforzado con vidrio (FR-4) y se corta con una máquina láser de CO2.

Diseño detallado y dimensiones del diseño del robot con una escala doble aproximada de las dimensiones reales de los peces.

La natación del robot se logra principalmente mediante la ondulación de la suave cola del rayo de la aleta. Al mantener constante la frecuencia de la ondulación, el robot es capaz de nadar hacia adelante y, dependiendo de si la frecuencia es baja o alta, el robot nadará más lento o más rápido, respectivamente. Sin embargo, realizar una secuencia de diferentes frecuencias seguidas haría que el pez cambiara de dirección. Además, el efecto de la perturbación del fluido y su interacción con el robot también afecta su natación. El rendimiento de natación del robot se evalúa utilizando el mismo método que el de los peces. Al seguir la cabeza y la cola del robot, se obtienen la velocidad de nado y la frecuencia del latido de la cola. Observamos que la relación entre la velocidad de nado del robot, representada como la longitud del cuerpo del pez por segundo (BL/s), y la frecuencia del latido de su cola (Hz) es similar a un polinomio de segundo orden, como se muestra en la Fig. 5. Al aplicar la transformada de Fourier al movimiento de la cola del robot a varias velocidades, las frecuencias de natación ondulatorias dominantes del robot se pueden ver en la Fig. 6.

Velocidad de nado del robot versus frecuencia de latido de la cola.

Análisis en el dominio del tiempo y en el dominio de la frecuencia de las velocidades de nado del robot. Cada señal representa una velocidad de nado definida por el tiempo para realizar un solo golpe de cola en ms, que oscila entre 110 y 200 ms. El dominio del tiempo muestra las amplitudes del movimiento ondulatorio de la cola, mientras que el dominio de la frecuencia muestra la frecuencia dominante en cada velocidad.

La comparación de la natación del pez con la del robot muestra la similitud entre las frecuencias de los golpes de la cola en la natación lenta y rápida, como se muestra en la Fig. 7. La amplitud de oscilación de la cola del robot se escala según la relación entre las dimensiones del robot y del pez, para tener en cuenta la diferencia. en las desviaciones de sus cuerpos. Las frecuencias de los latidos de la cola del robot se eligieron para que estuvieran dentro del mismo rango de la natación lenta del pez, de 1 a 2,5 Hz. Además, se calculó el coste de transporte (COT) del robot como indicación de su eficiencia de locomoción. COT se define como la energía necesaria para mover una unidad de masa una unidad de distancia41, según la siguiente ecuación:

donde E es la energía de entrada del robot, m es la masa del robot (0,422 kg), g es la aceleración gravitacional (9,8 m/s\(^2\)), d es la distancia recorrida (m), P es la potencia del robot en términos de voltaje de entrada (12 V) y corriente de entrada (2 A), y v es la velocidad del robot (entre 0,02 y 0,06 m/s). A través de pruebas, el COT del robot se mide entre 95 y 315 para diferentes frecuencias de cola y velocidades del robot, siendo el mejor COT la velocidad más alta de 6 cm/s y la frecuencia de batido de cola más alta de 2,3 Hz, lo que indica una natación más eficiente. y COT a velocidades de nado más altas.

Comparación entre las frecuencias de latido de la cola del pez y del robot. (a) Frecuencias durante la natación lenta (tiempo de movimiento de la cola del robot a 190 ms). (b) Frecuencias durante la natación rápida (tiempo de brazada de la cola del robot a 110 ms).

El objetivo principal de este experimento es hacer que el robot nade hasta una determinada ubicación predeterminada en el tanque. La configuración se muestra en la Fig. 8. El tanque y el robot se monitorean utilizando una cámara Logitech Brio a 60 fps que captura el entorno y envía los fotogramas a DeepLabCut para realizar una estimación de la pose. La red neuronal entrenada pudo proporcionar una estimación precisa de la postura del robot con una pérdida de postura mínima después del entrenamiento. Además, la alta tasa de captura de 60 fps en comparación con el lento movimiento de natación del robot permite ignorar la pérdida del punto de pose de algunos fotogramas durante el entrenamiento RL. Además, la red genera una probabilidad de predicción, que da una indicación de oclusión o pérdida de pose de los puntos rastreados. Si el valor de probabilidad de una predicción de punto de pose es inferior a un cierto umbral durante el cuadro actual, esta pose se descarta y se mantiene la última pose conocida con probabilidad por encima del umbral. El umbral de probabilidad elegido durante el entrenamiento RL es 0,8.

Esquema de la configuración del experimento.

Para realizar el entrenamiento de RL, generalmente, primero se utilizan herramientas de simulación para entrenar al agente y luego el aprendizaje se transfiere al robot real. Sin embargo, debido a la complejidad de simular materiales blandos que exhiben una alta deformación y la interacción fluido-estructura entre el robot y el entorno, el algoritmo de entrenamiento RL se implementó directamente en la configuración experimental. Al utilizar líneas de base estables 342 sobre OpenAI Gym43, el entorno de RL se construye definiendo los espacios de observación y acción para el agente.

Las acciones reales posibles para el robot podrían describirse como un espacio continuo de diferentes velocidades y ángulos del servo, hasta los valores máximos según las especificaciones del servo. Sin embargo, tener un espacio de acción continuo podría hacer que el problema sea más complejo de resolver para el algoritmo RL. Por tanto, la discretización de las acciones ayudaría a simplificar la tarea. Por lo tanto, la oscilación del servo se fija como el recorrido máximo del servo, que es \(130^\circ\) según las especificaciones del fabricante. La velocidad de oscilación del servo se convierte en la única variable para las acciones. Utilizando el análisis de la natación de los peces como base, se eligieron varias frecuencias oscilatorias de la cola para aplicarlas como velocidad variable del servomotor de actuación. Estas velocidades comprenden el espacio de acción del robot. Se definen un total de 10 acciones que oscilan entre 110 y 200 milisegundos (ms) para realizar un golpe de cola, con un paso de 10 ms.

El espacio de observación se compone de varios parámetros relacionados con el robot y su entorno. Primero, las posiciones xey se obtienen a partir de la estimación del estado realizada a través de DeepLabCut para 3 puntos del robot: la cabeza, la bocina del servo y la cola. También se suman las distancias en las direcciones xey entre la cabeza del robot y el punto objetivo previsto. Finalmente, se agrega al estado una cola de acciones anteriores.

donde s es el espacio de observación. \(p_1(x, y), p_2(x, y), p_3(x,y)\) son las coordenadas xey para la cabeza, la bocina del servo y la cola en el paso t, respectivamente. \(\delta x\) y \(\delta y\) son las distancias x e y entre el punto de la cabeza del robot y el objetivo actual. a es el espacio de acción que consta de 10 acciones del 0 al 9, correspondiente a la velocidad del servo que oscila entre 110 y 200 ms, con un incremento de 10 ms. k se toma como 100, que es la duración máxima predefinida del episodio para este experimento.

Se definen dos objetivos en los dos extremos del tanque. La tarea del robot es alcanzar el objetivo actual, luego el objetivo cambia al otro extremo una vez que el robot lo logra. Para simplificar la tarea, se define una tolerancia al error y se considera que el robot logra alcanzar el objetivo si nada a una distancia de 50 píxeles del objetivo. La función de recompensa r definida para lograr la tarea es:

donde la recompensa es el exponencial de la distancia euclidiana entre el punto de la cabeza del robot y la meta, y un término de penalización como un factor de la distancia y el paso i del episodio. \(\beta\) es un factor de disminución de recompensa, \(\alpha\) es un multiplicador de recompensa y \(\phi\) es un factor de penalización. Se agrega una recompensa adicional cuando el robot alcanza el punto objetivo. Dado que el único estado terminal de un episodio es alcanzar la meta sin un estado de falla específico, se define un límite máximo de pasos por episodio y la penalización aplicada a la recompensa depende del número de pasos transcurridos durante el episodio, aumentando a medida que avanza el episodio. más extenso. El límite de pasos y los factores variables en la función de recompensa se eligieron mediante prueba. Los pasos máximos por episodio, \(\alpha\), \(\beta\), \(\phi\) y la recompensa objetivo se establecen en 100, 10, 200, \(10^{-5}\), y 200, respectivamente.

Recompensa media del episodio durante el entrenamiento inicial de los tres algoritmos para 25.000 pasos.

Para entrenar al robot, se utilizan tres algoritmos RL para comparar su rendimiento. Los dos primeros son algoritmos basados en políticas: optimización de políticas próximas (PPO)44 y ventaja actor-crítica (A2C)45, que son métodos de gradiente de políticas. El tercero es la red q profunda (DQN)46, un método basado en valores fuera de la política. La realización de capacitación en el robot real se ve afectada por las limitaciones del hardware, como la durabilidad de los materiales utilizados y la incapacidad de operar el servomotor durante períodos prolongados. Por lo tanto, el entrenamiento se llevó a cabo durante períodos limitados, ya que cada algoritmo fue entrenado durante unos 25.000 pasos para comparar su rendimiento. La recompensa media por episodio para los tres algoritmos durante los pasos de entrenamiento inicial se muestra en la Fig. 9. Podemos observar que la recompensa y el comportamiento del robot durante este entrenamiento inicial son más consistentes usando PPO, en comparación con A2C y DQN. Teniendo en cuenta estos resultados, se elige el algoritmo PPO para su uso en entrenamiento posterior. Se entrenaron tres agentes de PPO con diferentes semillas aleatorias para aproximadamente 50 000 pasos cada uno, con los parámetros de entrenamiento que se muestran en la Tabla 1. La recompensa y las pérdidas medias del episodio de los agentes durante el entrenamiento se muestran en la Fig. 10.

Recompensa media del episodio y pérdidas de valor y gradiente de políticas durante el entrenamiento de los tres agentes de PPO durante 50.000 pasos.

El mejor agente se prueba en la tarea de alcanzar la meta en el menor número de pasos. La Figura 11 muestra el camino y las frecuencias de oscilación de actuación que toma el robot para alcanzar los dos objetivos definidos. Durante la prueba, el robot comienza en una ubicación aleatoria en el tanque y nada hacia el objetivo 1. Alcanzar el primer objetivo recompensa al robot y cambia el objetivo al objetivo 2. El robot puede cambiar de dirección y nadar hacia el segundo objetivo, obteniendo otra recompensa y finalizar el episodio de prueba. Se considera que el robot ha logrado alcanzar el objetivo si se encuentra a una distancia de 50 píxeles del mismo, lo que supone aproximadamente un \(95\%\) de precisión.

Resultados de la ejecución de la prueba. (a) El camino seguido por el robot para alcanzar los dos objetivos. (b) La secuencia de acciones representada como variar el tiempo de carrera de la cola cambiando la velocidad del servo.

Desarrollar algoritmos de control para sistemas de robótica blanda submarinos es una tarea desafiante debido a la dinámica no lineal del cuerpo blando y la complejidad de la interacción fluido-estructura en entornos submarinos. Este trabajo exploró el uso del aprendizaje por refuerzo como un enfoque sin modelos para aprender una política de control para un pez robótico biomimético híbrido rígido y blando. La Tabla 2 muestra una comparación entre nuestro trabajo y otros artículos de la literatura en términos de modelado y control de robots submarinos blandos.

En este trabajo, uno de los principales desafíos fue ejecutar la capacitación RL directamente en el hardware robótico. El número de episodios de entrenamiento y la posibilidad de entrenar a múltiples agentes se vuelven limitados ya que el entrenamiento requiere mucho tiempo y afecta la vida útil, la durabilidad y las propiedades del material blando, cambiando su comportamiento con el tiempo. Una solución sería el desarrollo de un simulador de física adecuado capaz de simular y realizar RL en robots blandos multicuerpo en entornos submarinos, optimizando luego el aprendizaje mediante técnicas sim2real. Algunos estudios ya trabajaron en el uso de simuladores acelerados y síntesis de diseño computacional para cooptimizar conjuntamente el diseño y control de robots blandos55, desarrollar técnicas sim2real basadas en datos56 o desarrollar gramática espacial y de formas junto con el uso de RL y algoritmos de optimización para codiseñar. morfología y actuación57,58. Estos avances en la simulación de robótica blanda ayudarían a avanzar y mejorar el proceso de formación de los agentes de RL de los robots blandos. Otra posible solución sería aprovechar las ventajas de las técnicas basadas en modelos y sin modelos para lograr técnicas de control híbridas combinadas con mayor precisión y eficiencia59. Otra limitación de este trabajo radica en el método de actuación que utiliza un servomotor para lograr una deformación blanda del cuerpo. Introduce un componente rígido de tamaño significativo en el robot, afectando su suavidad y limitando el tipo de maniobras que puede realizar y cómo puede adaptarse a su entorno. Otros tipos de actuación, como músculos artificiales hechos de materiales dieléctricos o actuadores de microfluidos, podrían ayudar a crear nadadores biohíbridos blandos más eficientes60,61.

Finalmente, creemos que resolver el problema de control en robótica blanda va de la mano con resolver el problema de modelado considerando la alta dimensionalidad de estos modelos y su aplicabilidad en control en tiempo real. Los enfoques prometedores incluyen la explotación de la suavidad del robot a través de inteligencia incorporada y computación morfológica, el uso de modelos de orden reducido junto con un control robusto y un control dimensional infinito24.

En conclusión, este artículo propuso un diseño para un pez robótico biomimético con una cola dócil inspirada en el pez Pangasius. El robot utiliza una estructura de rayos de aletas hecha de materiales elásticos suaves y accionada por un servomotor. La deformación de la cola suave del pez robot imita el movimiento ondulatorio del pez Pangasius durante la natación carangiforme. La frecuencia variable de ondulación de la cola permite al robot realizar una locomoción bajo el agua similar a la de un pez real. También investigamos la posibilidad de aprender una política de control para enseñar al robot una determinada tarea, que en este caso es alcanzar un objetivo específico. Al utilizar el aprendizaje por refuerzo (RL), el robot pudo aprender a alcanzar dos objetivos diferentes en lugares opuestos del tanque. Entrenar el algoritmo RL directamente en el prototipo real elimina la necesidad de utilizar cualquier método de transferencia sim2real. A pesar de la complejidad de la dinámica suave del robot, la interacción fluido-estructura y las fuerzas hidrodinámicas, el proceso de aprendizaje proporciona buenos resultados para la tarea especificada. Entrenar al agente para que dé más pasos posiblemente le permitiría explotar más el entorno y aprender comportamientos de natación más complejos.

Creemos que RL podría implementarse de manera similar en un robot blando con actuadores blandos integrados, ya que no tiene conocimiento ni modelo previo del sistema. Cambiar el método de actuación a un actuador suave cambiaría la formulación del espacio de acción. Suponiendo que el rendimiento del actuador sea consistente para proporcionar el comportamiento de actuación previsto, el algoritmo RL debería poder aprender una política de control, como se ha demostrado anteriormente en la literatura. El siguiente paso es seguir investigando con diferentes sistemas robóticos blandos y de accionamiento.

En trabajos futuros, aprovecharemos los avances actuales para incorporar simulación diferenciable y simulación hidrodinámica de redes neuronales para permitir el entrenamiento de RL en simulación y luego aplicar técnicas de transferencia sim2real.

No se realizaron experimentos con el pez real descrito en el artículo, solo se registró con una cámara monocular visual Logitech C920. Se rastreó utilizando un enfoque de seguimiento sin marcadores basado en visión por computadora de aprendizaje profundo a través de la biblioteca de análisis del comportamiento animal DeepLabCut, como se describe en la sección "Estimación de pose".

Todos los datos generados o analizados durante este estudio se incluyen en este artículo publicado [y sus archivos de información complementaria].

Aracri, S. et al. Robots blandos para exploración oceánica y operaciones costa afuera: una perspectiva. Robot blando. 20, 20 (2021).

Google Académico

Katzschmann, RK, DelPreto, J., MacCurdy, R. & Rus, D. Exploración de la vida submarina con un pez robótico blando controlado acústicamente. Ciencia. Robot. 3, 14 (2018).

Artículo de Google Scholar

Li, G. y col. Robot blando autopropulsado en la fosa de las marianas. Naturaleza 591, 66–71 (2021).

Artículo ADS CAS Google Scholar

Maddock, L. y col. La mecánica y fisiología de la natación animal (Cambridge University Press, ***, 1994).

Reservar Google Académico

Sfakiotakis, M., Lane, DM y Davies, JBC Revisión de los modos de natación de los peces para la locomoción acuática. IEEE J. Océano. Ing. 24, 237–252 (1999).

ADS del artículo Google Scholar

Romano, D. y Stefanini, C. La interacción robot-pez ayuda a desencadenar la amortiguación social en tetras de neón: el papel potencial de la robótica social en el tratamiento de la ansiedad. En t. J. Soc. Robot. 14, 963–972 (2022).

Artículo de Google Scholar

Romano, D. y Stefanini, C. Los tetras de neón individuales (paracheirodon innesi, myers) optimizan su posición en el grupo dependiendo de contextos selectivos externos: lección aprendida de una escuela híbrida de peces y robots. Biosistema. Ing. 204, 170–180 (2021).

Artículo CAS Google Scholar

Romano, D. y Stefanini, C. Cualquier color que te guste: los peces que interactúan con robots bioinspirados desentrañan mecanismos que promueven agregaciones de fenotipos mixtos. Bioinspiración. Biomimética 20, 20 (2022).

Google Académico

Worm, M., Landgraf, T. & von der Emde, G. Sincronización de señales eléctricas como estrategia conductual para generar atención social en pequeños grupos de peces mormíridos débilmente eléctricos y un pez robot móvil. Biol. Cibern. 20, 1-15 (2021).

MATEMÁTICAS Google Scholar

Brown, AA, Brown, MF, Folk, SR y Utter, BA Archerfish responden a un robot de caza de su misma especie. Biol. Cibern. 115, 585–598 (2021).

Artículo MATEMÁTICAS Google Scholar

Kim, S., Laschi, C. y Trimmer, B. Robótica blanda: una evolución bioinspirada en la robótica. Tendencias Biotecnología. 31, 287–294 (2013).

Artículo CAS Google Scholar

Pastor, RF y col. Robot blando multimarcha. Proc. Nacional. Acad. Ciencia. 108, 20400–20403 (2011).

Artículo ADS CAS Google Scholar

Lin, H.-T., Leisk, GG & Trimmer, B. Goqbot: un robot rodante de cuerpo blando inspirado en una oruga. Bioinspiración. Biomimética 6, 026007 (2011).

ADS del artículo Google Scholar

Soliman, M., Mousa, MA, Saleh, MA, Elsamanty, M. & Radwan, AG Modelado e implementación de tortugas biomiméticas blandas utilizando una red de estado de eco y actuadores neumáticos blandos. Ciencia. Rep. 11, 1-11 (2021).

ADS del artículo Google Scholar

Youssef, SM et al. Robótica blanda submarina: una revisión de la bioinspiración en diseño, actuación, modelado y control. Micromáquinas 13, 110 (2022).

Artículo de Google Scholar

Hermes, M., Ishida, M., Luhar, M. y Tolley, MT Robots blandos que cambian de forma bioinspirados para la locomoción submarina: actuación y optimización para gatear y nadar. Robot blando submarino con control de actuación y sensores bioinspirados. Sistema. 20, 7–39 (2021).

Artículo de Google Scholar

Ming, A. & Zhao, W. Diseño de robots submarinos blandos biomiméticos. En Mechatronic Futures 91–111 (Springer, ***, 2016).

Google Académico

Yang, T. y Chen, Z. Desarrollo de peces robóticos maniobrables 2D propulsados por múltiples aletas artificiales compuestas de polímero iónico y metal. En 2015, Conferencia Internacional IEEE sobre Robótica y Biomimética (ROBIO), 255–260 (IEEE, 2015).

Shen, Z., Na, J. y Wang, Z. Un robot blando submarino biomimético inspirado en moluscos cefalópodos. Robot IEEE. Automático. Letón. 2, 2217–2223 (2017).

Artículo de Google Scholar

Patterson, ZJ, Sabelhaus, AP, Chin, K., Hellebrekers, T. y Majidi, C. Un robot blando inspirado en una estrella frágil y sin ataduras para la locomoción submarina de circuito cerrado. En 2020, Conferencia internacional IEEE/RSJ sobre robots y sistemas inteligentes (IROS), 8758–8764 (IEEE, 2020).

Gatto, VL, Rossiter, JM & Hauser, H. Medusas robóticas accionadas por tentáculos estructurados con efecto de rayos de aletas suaves. En 2020, tercera conferencia internacional IEEE sobre robótica blanda (RoboSoft), 144–149 (IEEE, 2020).

Rus, D. & Tolley, MT Diseño, fabricación y control de robots blandos. Naturaleza 521, 467–475 (2015).

Artículo ADS CAS Google Scholar

George Thuruthel, T., Ansari, Y., Falotico, E. y Laschi, C. Estrategias de control para manipuladores robóticos blandos: una encuesta. Robot blando. 5, 149-163 (2018).

Artículo de Google Scholar

Della Santina, C., Duriez, C. & Rus, D. Control basado en modelos de robots blandos: un estudio del estado del arte y los desafíos abiertos. arXiv:2110.01358 (preimpresión de arXiv) (2021).

Sutton, RS y Barto, AG Aprendizaje por refuerzo: una introducción (MIT press, ***, 2018).

MATEMÁTICAS Google Scholar

Bhagat, S., Banerjee, H., Ho Tse, ZT & Ren, H. Aprendizaje por refuerzo profundo para robots blandos y flexibles: breve revisión con desafíos inminentes. Robótica 8, 4 (2019).

Artículo de Google Scholar

Yang, T. y col. Un robot suave impulsado por músculos artificiales con aprendizaje por refuerzo. Ciencia. Representante 8, 1–8 (2018).

Anuncios Google Scholar

Wang, Q., Hong, Z. y Zhong, Y. Aprenda a nadar: control de movimiento en línea de una anguila robótica infraaccionada basado en un aprendizaje por refuerzo profundo. Inteligencia biomimética. Robot. 2, 100066 (2022).

Artículo de Google Scholar

Liu, W. y col. Objetivo dirigido a distancia que busca un robot blando impulsado por servo sma visual profundo mediante aprendizaje por refuerzo. J. Ing. Biónico. 17, 1126-1138 (2020).

Artículo de Google Scholar

Wu, Q. y col. Caminata bípeda de un robot blando submarino basado en un modelo basado en datos inspirado en el pulpo. Frente. Robot. AI 9, 25 (2022).

ADS del artículo Google Scholar

Satheeshbabu, S., Uppalapati, NK, Fu, T. y Krishnan, G. Control continuo de un brazo continuo suave mediante aprendizaje por refuerzo profundo. En 2020, tercera conferencia internacional IEEE sobre robótica blanda (RoboSoft), 497–503 (IEEE, 2020).

Zhang, H., Cao, R., Zilberstein, S., Wu, F. y Chen, X. Hacia un control eficaz del robot blando mediante el aprendizaje por refuerzo. En Conferencia internacional sobre aplicaciones y robótica inteligente, 173–184 (Springer, 2017).

Malekzadeh, MS, Calinon, S., Bruno, D. y Caldwell, DG Aprendizaje por imitación con el robot quirúrgico rígido: un enfoque biomimético inspirado en los movimientos del pulpo. Robot. Biomimética 1, 1-15 (2014).

Google Académico

Thuruthel, TG, Falotico, E., Renda, F. & Laschi, C. Aprendizaje por refuerzo basado en modelos para el control dinámico de circuito cerrado de manipuladores robóticos blandos. Traducción IEEE. Robot. 35, 124-134 (2018).

Artículo de Google Scholar

Mathis, A., Schneider, S., Lauer, J. & Mathis, MW Introducción a la captura de movimiento con aprendizaje profundo: principios, trampas y perspectivas. Neurona 108, 44–65 (2020).

Artículo CAS Google Scholar

Abbaspour, M. & Vaghefi, A. Imágenes experimentales de hidrodinámica y ecuación de movimiento ondulatorio de peces que nadan constantemente (Pangasius sanitwongsei). INGENIO Trans. Ecológico. Reinar. 160, 171–181 (2012).

Artículo de Google Scholar

Sahu, B. y col. Rasgos de la canal de dos clases de tamaño comercializables de Pangasius pangasius (Hamilton, 1822). J. Aplica. Ictiol. 29, 226–229 (2013).

Artículo de Google Scholar

Mathis, A. et al. Deeplabcut: estimación de postura sin marcadores de partes del cuerpo definidas por el usuario con aprendizaje profundo. Nat. Neurociencias. 20, 20 (2018).

Google Académico

Bannasch, R. & Kniese, L. Herramienta manipuladora y herramienta de sujeción y/o expansión con al menos una herramienta manipuladora (2012). Patente de EE.UU. 8.333.417.

Yap, YL, Sing, SL y Yeong, WY Una revisión de los procesos y materiales de impresión 3D para robótica blanda. Creación rápida de prototipos J. 20, 20 (2020).

Google Académico

Christianson, C. y col. Robot blando inspirado en medusas impulsado por actuadores robóticos orgánicos dieléctricos de electrodos fluidos. Frente. Robot. AI 6, 126 (2019).

ADS del artículo Google Scholar

Raffin, A. y col. Líneas de base estables3: implementaciones confiables de aprendizaje por refuerzo. J. Mach. Aprender. Res. 22, 1–8 (2021).

MATEMÁTICAS Google Scholar

Brockman, G. y col. Gimnasio Openai (2016). arXiv:1606.01540.

Schulman, J., Wolski, F., Dhariwal, P., Radford, A. y Klimov, O. Algoritmos de optimización de políticas proximales. arXiv:1707.06347 (preimpresión de arXiv) (2017).

Mnih, V. y col. Métodos asincrónicos para el aprendizaje por refuerzo profundo. En Conferencia internacional sobre aprendizaje automático, 1928-1937 (PMLR, 2016).

Mnih, V. y col. Control a nivel humano a través del aprendizaje por refuerzo profundo. Naturaleza 518, 529–533 (2015).

Artículo ADS CAS Google Scholar

Kopman, V., Laut, J., Acquaviva, F., Rizzo, A. y Porfiri, M. Modelado dinámico de un pez robótico propulsado por una cola dócil. IEEE J. Océano. Ing. 40, 209–221 (2014).

Artículo de Google Scholar

El Daou, H., Salumäe, T., Chambers, LD, Megill, WM y Kruusmaa, M. Modelado de un pez robótico de inspiración biológica impulsado por piezas compatibles. Bioinspiración. Biomimética 9, 016010 (2014).

ADS del artículo Google Scholar

Renda, F., Giorgio-Serchi, F., Boyer, F. y Laschi, C. Modelado de locomoción de chorro pulsado inspirada en cefalópodos para robots blandos submarinos. Bioinspiración. Biomimética 10, 055005 (2015).

Artículo CAS Google Scholar

Wang, J., McKinley, PK y Tan, X. Modelado dinámico de peces robóticos con una cola flexible accionada por una base. J.Dyn. Sistema. Medidas. Control 137, 25 (2015).

Artículo de Google Scholar

Zhong, Y., Li, Z. & Du, R. Un novedoso pez robot con cuerpo activo accionado por cables y cola dócil. Trans. IEEE/ASME. Mecatrón. 22, 1633-1643 (2017).

Artículo de Google Scholar

Lin, Y.-H. et al. Modelado y control de un pez robótico blando con soft sensing integrado. Adv. Intel. Sistema. 20, 2000244 (2021).

Artículo de Google Scholar

Huang, W., Patterson, Z., Majidi, C. y Jawed, MK Modelado de robots de natación blanda utilizando el método de varilla elástica discreta. En Detección, actuación y control bioinspirados en sistemas robóticos blandos submarinos 247–259 (Springer, ***, 2021).

Capítulo Google Scholar

Obayashi, N., Bosio, C. y Hughes, J. Optimización suave del nadador pasivo: de la simulación a la realidad mediante la transformación basada en datos. En 2022, quinta conferencia internacional de IEEE sobre robótica blanda (RoboSoft), 328–333 (IEEE, 2022).

Ma, P. y col. Diffaqua: un proceso de diseño computacional diferenciable para nadadores submarinos blandos con interpolación de formas. Transmisión ACM. Grafico. 40, 1-14 (2021).

Artículo de Google Scholar

Du, T., Hughes, J., Wah, S., Matusik, W. & Rus, D. Modelado y control de robots blandos submarinos con simulación diferenciable. Robot IEEE. Automático. Letón. 6, 4994–5001 (2021).

Artículo de Google Scholar

Van Diepen, M. & Shea, K. Un método de gramática espacial para la síntesis de diseño computacional de robots virtuales de locomoción suave. J. Mech. Des. 141, 25 (2019).

Google Académico

van Diepen, M. & Shea, K. Codiseño de la morfología y actuación de robots blandos para la locomoción. J. Mech. Des. 144, 083305 (2022).

Artículo de Google Scholar

Sun, B. y col. Avances recientes en el modelado y control de robots de peces bioinspirados. J. Mar. Ciencias. Ing. 10, 773 (2022).

Artículo de Google Scholar

Rothemund, P., Kellaris, N., Mitchell, SK, Acome, E. y Keplinger, C. Hasel músculos artificiales para una nueva generación de robots realistas: avances recientes y oportunidades futuras. Adv. Madre. 33, 2003375 (2021).

Artículo CAS Google Scholar

Filippi, M., Yasa, O., Kamm, RD, Raman, R. y Katzschmann, RK ¿Los microfluidos permitirán robots biohíbridos funcionalmente integrados? Proc. Nacional. Acad. Ciencia. 119, e2200741119 (2022).

Artículo CAS Google Scholar

Descargar referencias

Los autores desean agradecer a la Academia de Investigación Científica y Tecnología (ASRT) por financiar el proyecto \(\#\)4779 y a la Universidad del Nilo por facilitar todos los procedimientos necesarios para completar este estudio.

Financiamiento de acceso abierto proporcionado por la Autoridad de Financiamiento de Ciencia, Tecnología e Innovación (STDF) en cooperación con el Banco Egipcio de Conocimiento (EKB).

Laboratorio de robótica blanda biohíbrida (BHSRL), Universidad del Nilo, ciudad de Sheikh Zayed, 12588, Egipto

Samuel M. Youssef, MennaAllah Soliman y Mahmood A. Saleh

Centro de innovación, Universidad del Nilo, ciudad de Sheikh Zayed, 12588, Egipto

Ahmed H. Elsayed

Departamento de Ingeniería, Matemáticas y Física, Universidad de El Cairo, Giza, 12613, Egipto

Ahmed G. Radwan

Centro de Sistemas Integrados de Nanoelectrónica (NISC), Universidad del Nilo, ciudad de Sheikh Zayed, 12588, Egipto

Ahmed G. Radwan

También puedes buscar este autor en PubMed Google Scholar.

SMY concibió el concepto, diseñó el experimento, desarrolló los códigos principales y escribió el manuscrito. MS analizó los resultados y participó en el trabajo experimental. MAS y AHE diseñaron la configuración mecánica y fueron responsables de las actividades de creación de prototipos. AGR lidera el grupo de investigación, analizó los resultados y revisó el manuscrito. Todos los autores han leído y aceptado la versión publicada del manuscrito.

Correspondencia a Samuel M. Youssef.

Los autores declaran no tener conflictos de intereses.

Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado al autor(es) original(es) y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Youssef, SM, Soliman, M., Saleh, MA et al. Diseño y control de un robot de pez pangasius biomimético suave utilizando el efecto de rayos de aleta y el aprendizaje por refuerzo. Representante científico 12, 21861 (2022). https://doi.org/10.1038/s41598-022-26179-x

Descargar cita

Recibido: 18 de mayo de 2022

Aceptado: 12 de diciembre de 2022

Publicado: 18 de diciembre de 2022

DOI: https://doi.org/10.1038/s41598-022-26179-x

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.

Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.

Blog

Diseño y control de un robot de pez pangasius biomimético suave utilizando el efecto de rayos de aleta y el aprendizaje por refuerzo