Archive

Archive for the ‘Estado del Arte’ Category

ReacTIVision VS D-touch

Tanto ReacTIVision como D-touch son sistemas para el seguimiento de la ubicación y la orientación de marcadores (fiducials) en tiempo real.

ReacTIVision surge como una continuación de d-touch principalmente debido a los bajos tiempos de los frame rates alcanzados con d-touch.

D-touch utiliza una topología única para todos los fiduciales en un set.

El set consta de 120 fiduciales únicos que se diferencian mediante un código de permutación expresado por el número de hojas negras en el grafo de adyacencia. En el siguiente ejemplo el código de permutación es  (1,2,3,6,5,4).

d-touch asocia el código de permutación de las regiones de hojas negras a un conjunto específico de fiduciales.

En segundo lugar, el d-touch original no prescribe un determinado método para calcular la ubicación y orientación de los fiduciales.

Por último, las geometrías simples de los fiduciales (que por cierto tienen la ventaja de ser fácilmente dibujados a mano) no fueron diseñados para minimizar el tamaño de los mismos.

Por otra parte el sistema de reacTIVision admite conjuntos de fiduciales de distintos tamaños y topologías sin ningún cambio de código.

Consideramos que esta es una mejora significativa respecto a d-touch en nuestro contexto, donde queremos experimentar con fiduciales más pequeños.

El set consta de 128 fiduciales exclusivos, logrando tener una superficie del casi 50% menos que las del set de 120 fiduciales de d-touch.

A continuación mostramos una comparación de performance entre las diferentes librerías.

Figura 1

La figura 1 compara el uso de la CPU y el frame rate obtenido con reactTivision (libfidtrack) y dos versiones de d-touch: una versión reciente (libdtouch) y la versión original (dtouch_old)

Podemos ver que la actual implementación de reacTivision es 4 veces mas rápido que la versión actual de d-touch y mas de 16 veces mas rápido que la versión original.

Podemos resumir entonces las mejoras conseguidas por la reacTIVision frente a d-touch en tres áreas:

Funcionamiento, tamaño de los fiduciales y escalabilidad para diferentes topologías de fiduciales y tamaños establecidos.

Categorías:Estado del Arte

Estado del Arte VI

Audio d-touch

Es un sistema desarrollado por Enrico Costanza, S.B. Shelley y J. Robinson del Media Engineering Group la University of York (York, UK) en el 2003, y presentado como una “interfaz de usuario tangible para la composición y performance de música“.

Para su demostración, se implementaron tres aplicaciones musicales distintas: Augmented Musical Stave, Tangible Drum Machine y Physical Sequencer. Las dos últimas continuaron siendo mejoradas después de su presentación y actualmente se pueden descargar de la web official del sistema, junto con muy claras instrucciones sobre cómo construirlo y probarlo uno mismo.

La configuración general para las tres aplicaciones es la misma: está compuesta por un área interactiva y un conjunto de bloques marcados. El área es una superficie plana observada por una webcam (sostenida por el soporte de una lámpara de mesa) conectada a un PC, de la cual no se necesita el monitor.

El feedback al usuario es provisto tanto por el audio como por la disposición física de los bloques (que actúan como dispositivos de entrada y salida). El área interactiva, está cubierta por una hoja de papel con cuatro marcadores especiales en las esquinas, que son utilizados por el sistema para el calibrado automático, y algunas marcas visuales destinadas al usuario.

En cuanto a la implementación del sistema lo más interesante es el sistema de visión, el cual fue precursor del reacTIVision. Básicamente permite al implementador diseñar sus propios marcadores, de forma que tengan algún sentido para el usuario. Además, es posible construir el sistema en distintos tamaños, con la única restricción impuesta por la resolución de la webcam que determina la relación que se debe mantener entre el tamaño del área interactiva y el de los objetos. Hablaremos de este sistema más adelante ya que será uno de los posibles frameworks de visión a utilizar. La síntesis de audio se realiza utilizando el Syntehsis ToolKit (STK).

Parte del trabajo de los autores, fue testear las aplicaciones con un conjunto de usuarios con distintos grados de formación musical. Si bien obtuvieron mayormente resultados positivos, algunos usuarios señalaron que muchas veces les fue difícil saber que punto del loop estaba siendo reproducido en un momento dado, y que esto podría ser resuelto agregando feedback visual o de audio, extra. Esto es algo que también notamos al probar el sistema y es algo que el diseño de YARMI tiene en cuenta, por lo que será interesante evualuar el resultado en este sentido luego de construido.

Como trabajo a futuro, sugieren adaptar la interfaz para su utilización contra un instrumento de tiempo real genérico. Esto es, generar una salida de audio en algún protocolo estándar (como MIDI u OSC) para controlar aplicaciones de audio como Ableton Live o módulos desarrollados en PD o Max/MSP. Si bien YARMI va a estar comunicándose con un módulo PD o similar utilizando alguno de estos protocolos, queda a definir si va a ofrecer soporte para aplicaciones del estilo de Live, algo que sería muy interesante.

Las aplicaciones

A continuación se describen brevemente las tres aplicaciones y se muestran algunas imágenes del sistema armado por nosotros.

La primer aplicación mencionada es la Augmented Musical Stave, la representación física de un compás en partitura clásica sobre la que se dispondrán los distintos marcadores que simbolizan notas y silencios de diferente duración (blancas, negras, corcheas, semicorcheas…). La altura determina, así, la nota a reproducir.

La segunda aplicación es la Drum Machine, un secuenciador de sonidos de batería en loop. Existen dos tipos de marcador para las intensidades de sonido alta y baja. La altura en el compás indica el sonido de batería a reproducir.

La última aplicación es el Sequencer, donde los usuarios pueden grabar audio de entrada (conectado a la tarjeta de sonido) y asignándolo a los distintos bloques, que luego podrán ser reproducidos en algún punto del compás. La altura en el mismo representa para esta aplicación el volumen del sample. Es posible luego agregarle distintos efectos preestablecidos a la pista.

La diseño de la interacción para las tres aplicaciones está muy bien trabajado. Puede leerse con más detalle en el paper original.

Estado del Arte V

abril 30, 2010 1 comentario

AudioPad

AudioPad es una interfaz tangible para hacer musica en vivo. El centro del estudio es encontrar una manera simple y poderosa de interactuar con el secuenciador a través de la interfaz tangible, permitiendo una comunicación mayor entre el performer y el público.

El performer comienza mapeando piezas con grupos de sonidos, poniéndo las piezas sobre los grupos de sonidos mostrados en una esquina del espacio de proyección.

El volúmen es regulado con la rotación de la pieza. Después, utilizando una pieza especial (el “Selector”) se puede seleccionar qué sonidos reproducir.

Presionando el botón que tienen las piezas se despliegan los parámetros de efecto, y moviendo la pieza se modifican contínuamente sus parámetros.

El sistema de tracking de las piezas (basado en Sensetable, un proyecto previo de Patten) es de radio frecuencia en vez de procesamiento de imágenes.

La implementación de AudioPad envía señales MIDI al software Ableton Live, quien se encarga de la síntesis y reproducción del sonido. Estas señales son: disparar nuevos sonidos y hacer cambios en volúmenes o parámetros de efectos.

Fue desarrollado por Patten, Recht e Ishii del MIT Media Lab, Cambridge, Massachusetts.

Link al paper.

Un video de uno de los autores contándonos sobre el sistema:

Categorías:Estado del Arte

Estado del Arte IV

abril 25, 2010 Deja un comentario

mixiTUI

mixiTUI es un secuenciador tangible que permite a los músicos importar música compuesta previamente para hacer la performance pública.

Su diseño fue basado en entrevistas realizadas con 3 músicos electrónicos, e intenta ayudar en la reproducción y performance pública de música compuesta previamente, a diferencia de otros proyectos como la reacTable que están centrados en la creación en vivo de la música (instrumentos tangibles).

Interface mixiTUI Con este objetivo, mixiTUI permite agregar loops previamente compuestos y efectos de audio, o modificar sus parámetros, de una manera sencilla y sin estresar al músico, manteniendo la música previamente compuesta intacta.

Concentrándose en la mayor pre composición de música posible, mixiTUI permite estructurar previamente sesiones, cada una con diferentes loops asociados a los mismos tokens, de forma de poder cambiar muchos parámetros en vivo con solo cambiar la sesión.

A su vez intenta dar la mayor expresividad posible frente a la audiencia, desplegando la onda del sonido saliendo de los tokens de loops y modificándose en los tokens de efecto. Como también proyectando diferentes colores de acuerdo a la sesión vigente.

La implementación es utilizando reacTIVision de manera similar a la reacTable, pero no utiliza una pantalla sensible al tacto.

Es desarrollado por Esben Pedersen y Kasper Hombaek del Department of Computer Science en la University of Copenhagen.

Link al paper.

Link a un video de una permormance en vivo.

Pedersen, Kasper Hornbæk
affiliation: Department of Computer Science, University of Copenhagen
Categorías:Estado del Arte

Estado del Arte III

abril 25, 2010 2 comentarios

waveTable

Desarrollado por Gerard Roma y Anna Xambó del Music Technology Group en la Universitat Pompeu Fabra de Barcelona, waveTable es presentado como:

Un editor de ondas de audio que es operado en tiempo real a través de una interfaz de mesa (tabletop interface). El sistema combina técnicas multi-touch y de interfaz tangible, con el propósito de implementar la métafora de un juego de herramientas (toolkit) que permite la manipulación directa de una muestra de sonido.

Lo resultante, es un instrumento musical adecuado para presentaciones en vivo basadas en la creación de loops de audio que van siendo modificados en el correr del show mediante una interfaz intuitiva que provee feedback tanto al performer como a la audiencia.

Herramientas operando sobre la waveTableEsto último, es uno de los objetivos principales del diseño de YARMI: re-introducir visualmente al espectador en la interacción del músico con el instrumento, algo perdido en la música en vivo generada desde un PC o notebook.

Los autores estudian varios proyectos, desde los orígenes del dibujo de ondas de audio utilizando un lápiz, en el Fairlight CMI, hasta secuenciadores y sistemas similares más recientes: d-touch, Music Table, reactable, scoreTable y Scrapple. A partir de este estudio, observan que estos sistemas principalmente utilizan los objetos tangibles como representaciones físicas de datos (samples, presencia de efectos), dónde manipularlos se traduce a realizar modificaciones en el modelo mismo (sacar un objeto representando un sample en un determinado punto del compás, hace que el sample deje de reproducirse).

Dada esta asignación de significado a los objetos tangibles, sostienen que una gran desventaja es que como los objetos físicos no pueden crear de la nada ni pueden ser duplicados, la naturalieza física de la interfaz restringe la interacción con el sistema. Proponen entonces, en cambio, utilizar los objetos tangibles como herramientas que representen funciones que operan sobre los datos. Así, el conjunto de objetos tangibles se convierten en una serie de herramientas (toolkit), que permiten “esculpir el sonido de una manera conveniente de modo que el diseño de sonido se transforma en un proceso de composición en tiempo real”.

Esto, si bien no es explícitamente considerado en el diseño original de YARMI, puede ser una muy buena idea a aplicar.

El conjunto de herramientas propuesto para operar sobre las ondas de audio, puede verse explicado en detalle en el paper.

En cuanto a la implementación, waveTable tiene una arquitectura de hardware prácticamente idéntica al reactable, dado que utiliza el software reacTIVision como sistema de visión. Además, utiliza SuperCollider para la síntesis de audio en tiempo real. Ambas son alternativas que evaluaremos en su momento para utilizar en YARMI. Los distintos módulos de software, se comunican utilizando protocolos basados en OSC, como el TUIO impuesto por el sistema de visión.

Un video de demostración:

Estado del Arte II

abril 24, 2010 2 comentarios

Reactable

Reactable es un instrumento musical electrónico pensado para crear música cooperativamente mediante una interfaz tangible.

De forma simplificada se podría decir que es un sintetizador modular clásico provisto de una potente y creativa interfaz tangible y multi-táctil.

Más en concreto Reactable es una mesa redonda de superficie translúcida, que hace las veces de pantalla para un proyector que reside en su interior y que proyecta sobre la misma diversas formas y patrones de onda en respuesta a la interacción de los usuarios. Estos controlan la mesa situando objetos de diversas formas y con distintos efectos sonoros sobre la superficie de la mesa.

Cada uno de los objetos representa un componente de un sintetizador modular.

La mesa está iluminada desde abajo mediante luz infrarroja cuyo reflejo en la superficie interior de la mesa es captado por una cámara que detecta la posición de los objetos, su codificación distintiva y la situación y movimiento de los dedos de los usuarios cuando tocan la superficie. De esta forma la información visual proyectada y la que se capta de la interacción van por canales de frecuencias espectrales distintas y no se interfieren.

Esto podría ser de gran utilidad a la hora de diseñar el Yarmi

Variando la orientación y la situación del objeto se puede cambiar su comportamiento, por ejemplo la frecuencia del sonido que produce o las propiedades de su rango de actuación lo que hace no es producir una onda sonora sino modificar o filtrar el sonido que se está produciendo.

Un arco luminoso que rodea al objeto en cuanto se coloca sobre la mesa indica en que punto de su rango de frecuencias o de actuación está situado el output del sintetizador. Un punto luminoso que se puede “capturar” con el dedo permite aumentar o disminuir el volumen de sonido que emite. Todo ello se dibuja dinámicamente en tiempo real de modo que, por ejemplo, las ondas vibran y los pulsos se transfieren de unos lugares a otros de forma realista.

Reactable detecta la posición de los dedos cuando tocan la superficie de la mesa, lo que permite modificar el “dial” de cada objeto, como ya hemos visto, pero también se puede dibujar el tipo de onda que queremos obtener sin más que mover el dedo apropiadamente al lado del generador de ondas deseado.

También se puede parar temporalmente el flujo de sonido colocando la punta del dedo encima de la imagen de una onda o “cortar” permanentemente una conexión entre dos objetos cruzando con el dedo por encima de la misma.

Los objetos pueden ser láminas planas con distintas formas en su periferia o bien simples cubos. Hay cuadrados, cuadrados de puntas romas, pentágonos, y otras formas. Cada objeto lleva un icono en la parte superior que lo identifica para los humanos y una codificación en la parte inferior, visible para el sistema cuando posicionamos el objeto sobre la mesa. Los cubos tienen un identificador distinto en cinco de sus caras (la sexta es para el icono reconocible por humanos) y son como un almacén de funcionalidades ya que actúan de forma diferente según qué cara esté en contacto con la mesa.

Algunos objetos se pueden programar colocando a su lado un papel con el código correspondiente de forma que el objeto es reconocido en adelante con la funcionalidad que se le acaba de adscribir, por ejemplo una muestra de piano o cualquier otro instrumento.

El objetivo declarado de Reactable es, entre otras cosas, ser intuitivo y no necesitar manual de instrucciones.

Como esta diseñado ?

Figura 1: Esquema ReacTable

ReacTiVision (mtg.upf.es/reactable/) es una herramienta de software desarrollada por Sergi Jordà, Martin Kaltenbrunner, Günter Geiger y Marcos Alonso, quienes conforman el Grupo de Tecnología Musical dentro del Instituto Audiovisual en la Universidad Pompeu Fabra (Barcelona España). Esta tecnología permite reconocer patrones fiducials (llamados “fiducials”) impresos a piezas de interfaces tangibles que funcionan sobre una pantalla sensible al tacto.

Como muestra la figura 1, ReacTiVision permite hacer el reconocimiento de patrones fiducials, a través de un sistema óptico, que en el caso de la ReacTable se implementa con luces y cámara infrarrojas. La pantalla es un acrílico con superficie esmerilada, las imágenes se retro-proyectan desde abajo usando un cañón de video, a su vez una luz infrarroja permite iluminar los patrones que serán captados por una cámara, también infrarroja.

Dicha luz y cámara son infrarrojas para no interferir la luz del proyector de video (que pertenece al rango visible de la luz), y para que la cámara no vea a su vez las proyecciones.

Uno de los aspectos más interesantes de ReacTiVision es que está construido como un software independiente, que envía datos respecto de los parámetros de los “fiducials”: la ubicación, identificación, rotación y otros; vía el protocolo OSC (Open Sound Control). Esto permite que cualquier otro software que reciba mensajes en OSC, pueda comunicarse con ReacTiVision e interpretar información respecto del estado de cada uno de los patrones fiducials ubicados sobre la pantalla. Debido a esto, existe en el sitio de ReacTiVision, ejemplos de conexión de este software con lenguajes como: C++, Java, C#, Processing, Pure Data, Max/MSP, Flash y otros.

Creo que de este proyecto surgen algunas ideas muy interesantes que podrían ser aplicadas o discutidas para el diseño del Yarmi.

Sería una buena opción iluminar la mesa desde abajo mediante una luz infrarroja cuyo reflejo sobre la mesa (acrílico) sea captado por la cámara ubicada también debajo de la mesa que detecta la posición de los objetos, de esta forma se evitarían posibles problemas en el uso del Yarmi en lugares con mala iluminación.

Esto también nos ahorraría problemas para la proyección de las imágenes, ya que la información visual proyectada y la que se capta de la interacción van por canales de frecuencias espectrales distintas y no se interfieren.

Link al paper

Categorías:Estado del Arte Etiquetas:

Estado del Arte I

abril 20, 2010 1 comentario

Arrancando a ver un poco qué proyectos de temática similar a la de YARMI hay en la vuelta, encontramos la web de Martin Kaltenbrunner (uno de los creadores de la Reactable), que nos facilita una larga lista de proyectos relacionados con interfaces tangibles, realidad aumentada y música, a la vez. De esa lista, seleccionamos los más relevantes para nuestro proyecto.

Scrapple

Este sistema, desarrollado por Golan Levin en la School of Art de la Carnegie Mellon University en el 2005, es una instalación que consta de una superficie similar a la de un pizarrón de marcador, una cámara, una software corriendo sobre Windows y un proyector.

La interfaz proyecta algo similar a un espectrograma, sobre el cual se colocan (o dibujan) objetos que son “reproducidos” secuencialmente una y otra vez. La posición horizontal especifica el tiempo en el compás, mientras que la vertical define el tono del sonido, que se expande en un rango de 8 octavas. Un indicador se proyecta sobre el espectrograma indicando la posición actual de la reproducción en el loop, mientras que una especie de brillo se puede ver alrededor de los objetos reconocidos.

La superficie con los objetos y la proyección

La cámara y el proyector no están colocadas en ninguna posición particular: la imagen captada es transformada de forma que la superficie se vea desde arriba y en proyección ortogonal. Esta imagen es sobre la cual trabaja el algoritmo de reconocimiento de objetos. Para proyectar la interfaz sobre la superficie, se hace una transformación inversa.

Tal vez el aporte más importante que pueda hacer a YARMI, es del mecanismo utilizado para evitar la retroalimentación de la proyección hacia el sistema de visión de computadora (que puede llegar a ser un problema en este modo de funcionamiento). Éste consiste iluminar la superficie y los objetos con una fuente de luz infraroja, y utilizar una cámara con un filtro IR optimizado para dejar pasar luz de frecuencias algo mayores a 750 nanómetros. De esta forma se puede lograr, aprovechando el hecho de que los proyectores emiten muy poca luz en esa porción del espectro, que el sistema de visión de la máquina y la percepción visual del usuario no se vean afectados mutuamente.

El paper puede verse acá.

Un video:

Music Table

Desarrollado en el 2003 en el ATR Media Information Science Laboratories, en Japón, este secuenciador de música es más “portable” que el anterior. Consiste también en una cámara y un conjunto de fichas (fiducials en este caso) que se colocan sobre una superficie plana, a diferencia que en este caso la imagen se genera en un monitor, sobre el feed de video original.

Fue desarrollado utilizando la ARToolkit (uno de los frameworks de visión para realidad aumentada) y PD (un lenguaje de programación gráfica orientado a la creación musical interactiva), dos herramientas que seguramente nos serán de utilidad.

El sistema Music TableEl concepto más interesante viene por el lado del diseño de la interacción. Una ficha especial llamada copy card, puede ser usada para asignar el patrón musical creado y actualmente en reproducción a una phrase card. De esta manera, las fichas que lo conformaban y el espacio que ocupaba quedan libres para crear nuevos patrones, mientras la phrase card donde quedó salvado puede usarse en cualquier momento para reproducir el patrón original. Además, una phrase-edit card puede ser utilizada  para modificar distintos parámetros de las notas que componen el patrón almacenado.

Link al paper.