La transmission audiovisuelle sur IP est nécessairement un exercice d’équilibre entre trois facteurs : la qualité (résolution et cadence), la latence et le débit de transmission des flux. Ces facteurs sont principalement affectés par l’étape d’encodage et de décodage, soit la compression des flux audio, mais surtout, vidéo, afin de les transmettre via l’internet. Si on veut minimiser la latence de transmission, la fiabilité de la transmission pourrait en être affectée. Et si l’on souhaite minimiser la consommation de la bande passante en réduisant le débit de transmission, la qualité du flux risque de se dégrader.
Le fait d’employer un système d’encodage et de décodage matériel, plutôt que logiciel, permet notamment de maintenir la latence à un niveau inférieur à 1 seconde, voire même 50 ms, tout en maintenant la qualité vidéo à un niveau optimal. Toutefois, ce type d’équipement est assez coûteux et donc rarement employé alors qu’il existe de nombreuses autres solutions logicielles gratuites. Ces dernières, en contrepartie, fonctionnent nécessairement au sein d’un système informatique qui introduit inévitablement une certaine latence.
Le format d’encodage logiciel pour la vidéo le plus répandu est actuellement le H.264 (AVC). Normalement, ce type d’encodage/décodage logiciel peut contribuer à hauteur de 100 à 125 ms à la latence de transmission totale.
Le débit binaire est une mesure de la quantité de données numériques (en bits) transmises par unité de temps (en secondes). Bien que l’encodage numérique consiste d’abord à convertir un signal entrant en données numériques, ce processus est communément appelé « compression », puisqu’il permet aussi de réduire la quantité de données transmises par unité de temps, soit le débit, avec ou sans perte de qualité dudit signal. La réduction de données permet notamment de transmettre plus rapidement – avec un minimum de latence – un flux de données qui, autrement, nécessiterait beaucoup plus de temps, comme un signal vidéo, par exemple.
La plupart des logiciels ou appareils d’encodage permettent soit de fixer manuellement un débit binaire (en Mbps) constant (DBC, en anglais CBR) ou, autrement, de le faire varier algorithmiquement (DBV, en anglais VBR), selon le contenu. Si le DBV est utile pour optimiser l’espace de stockage occupé par un contenu, il est peu recommandable pour les usages en temps réel, tels que la téléprésence, où la bande passante peut être limitée à un niveau deçà des variations possibles du débit, en plus d’augmenter la latence de transmission. Le DBC, en contrepartie, permet de fixer le débit à un niveau stable et prévisible en fonction de la bande passante disponible et, de plus, il engendre moins de latence que le DBV.
Bien que les algorithmes d’encodage audio et vidéo s’appuient essentiellement sur la perception humaine, afin de minimiser l’apparence de dégradation de la qualité des signaux, avec le DBC, il revient tout de même à l’utilisateur d’ajuster le débit à une valeur adéquate pour permettre une transmission stable et ininterrompue, sans pour autant négliger la qualité apparente du signal. Le débit doit alors être ajusté en fonction de plusieurs contraintes : la bande passante momentanément disponible; le type de routage réseau (unicast, multicast, webcast, etc.) et de protocole internet (RTP, RTMP, etc.) employé pour la transmission; le type de signal à transmettre (audio, vidéo ou données); ainsi que leur quantité. Ce type d’ajustement s’ajoute à l’ensemble des autres stratégies techniques disponibles pour optimiser la qualité, la quantité et la rapidité des flux transmis.
D’autre part, certaines applications destinées à la diffusion de contenu en direct sur le web (webcast) proposent un encodage dynamique permettant d’établir une échelle de débits adaptable (DBA, en anglais ABR ou ABS) à la bande passante disponible, et ce, en temps réel. Il faut alors prédéterminer une fourchette de débits constants (DBC), du plus faible au plus élevé, qui générera autant de flux qui seront simultanément transmis en parallèle, et donc, consommera autant de bande passante sortante que la somme des valeurs binaires (par seconde) attribuées à chacun de ces flux.
Lors du visionnement, chaque utilisateur aura alors l’option de choisir un débit constant particulier, ou de simplement laisser le système automatiquement adapter le débit en fonction de la bande passante momentanément disponible en téléchargement. C’est notamment l’une des options offertes aux visionneurs des plateformes Youtube Live, Facebook Live, ou encore, Vimeo Livestream, pour ne nommer que ceux-là. L’image suivante présente un exemple de menu offrant au visionneur le soin de choisir entreLa transmission audiovisuelle sur IP est nécessairement un exercice d’équilibre entre trois facteurs : la qualité (résolution et cadence), la latence et le débit de transmission des flux. Ces facteurs sont principalement affectés par l’étape d’encodage et de décodage, soit la compression des flux audio, mais surtout, vidéo, afin de les transmettre via l’internet. Si on veut minimiser la latence de transmission, la fiabilité de la transmission pourrait en être affectée. Et si l’on souhaite minimiser la consommation de la bande passante en réduisant le débit de transmission, la qualité du flux risque de se dégrader.
Il est important de bien comprendre les différents types de transmission de flux, selon le type d’application, afin d’adopter la stratégie qui sera la plus optimale et adaptée pour répondre aux besoins, tout en tenant compte des contraintes matérielles, le nombre de partenaires, la latence de transmission et la bande passante disponible. En général, chaque application vise à répondre à un usage de télécommunication bien spécifique, telle que la téléprésence immersive, la visioconférence, la diffusion web, etc. Chaque type de cardinalité de la transmission présente des avantages et des inconvénients :
Consiste en la transmission directe, de pair à pair (peer-to-peer), des données vers une seule destination déterminée.
Exemple : visiophonie ou vidéotéléphonie (FaceTime)
Reprend le principe de l’unicast mais le multiplie par un nombre de client déterminé (P2P), simulant ainsi une stratégie de diffusion multicast, mais s’établissant au niveau de l’application et non du réseau. Dans ce cas, chaque flux est transmis indépendamment et autant de fois vers chacune des destinations.
Cette stratégie a pour avantage d’optimiser la qualité des flux transmis et de déterminer les destinataires qui pourront les recevoir simultanément. En contrepartie, elle accapare une part de la bande passante d’autant plus élevée qu’il y a de destinataire et de flux à transmettre, rendant cette solution plus contraignante pour les infrastructure réseau ayant une bande passante peu élevée. Il est toutefois possible d’exploiter le débit binaire sortant plus élevé d’un serveur-relai.
Par exemple, si 5 lieux différents veulent respectivement se partager 1 flux vidéo et 1 flux audio stéréo (5 Mbps + 3 Mbps = 7 Mbps), selon une stratégie de type multi-unicast, chaque flux serait envoyé 4 fois pour chaque lieu, multipliant ainsi leur débit sortant respectif par 4 (4 x 7 Mbps = 28 Mbps). Mais, si l’un des lieux dispose d’une bande passante sortante suffisamment élevé (ex : + 50 Mbps), chaque lieu pourrait alors transmettre chacun de ses flux qu’une seule fois vers celui-ci qui les relaierait ensuite vers les autres lieux, à la manière d’un serveur
Le broadcast consiste en une diffusion unidirectionnelle vers un grand nombre de destinataire, à la manière de la télédiffusion. De ce fait, contrairement à une transmission de type Unicast, qui vise à prioriser la performance au détriment de la qualité, le broadcast emploi une technique de transmission - le plus souvent en RTMP - qui permet de maintenir la qualité et la fiabilité du signal audiovisuel, tout en pouvant le dupliquer vers un grand nombre de destinataire. Ce type de transmission s’effectue cependant au détriment de la performance - soit une latence de transmission de plusieurs secondes.
L’application SCENIC permet notamment d’interconnecter – en transmission de type Multi-Unicast, tout en offrant également une diffusion web (Broadcast) – plusieurs salles de spectacle, permettant ainsi la création d’œuvres d’art vivant en téléprésence.