068 | Redundancia de enlaces a Internet (para servicios web y centros de datos) | BigMike.help - Soporte IT para empresas, startups y desarrolladores

Concluimos nuestro ciclo sobre la redundancia de canales de comunicación, analizando quizá el escenario más crítico para la mayoría de las empresas modernas: asegurar el acceso continuo a Internet para servicios web, aplicaciones y el centro de datos (CD). Si su sitio, tienda en línea, servicios en la nube o API no están accesibles desde el exterior, ello provoca de inmediato pérdida de clientes, ingresos y daños reputacionales.

Asegurar la tolerancia a fallos a este nivel es una tarea compleja, pero absolutamente necesaria, que requiere un profundo entendimiento de protocolos y arquitecturas de red.

Especificidad del problema: disponibilidad global

Cuando se trata del acceso a Internet, se enfrentan riesgos de alcance global:

Fallos a gran escala de los proveedores: Fallos de hardware, de enrutamiento o de segmentos enteros de la red de su proveedor.
Cortes de cables troncales: Cables submarinos o terrestres que conectan continentes y regiones.
Ataques DDoS: Ataques dirigidos para saturar su canal o servidores hasta dejarles inalcanzables.
Problemas con DNS: Indisponibilidad o funcionamiento incorrecto de servidores DNS.

Soluciones típicas para acceso resiliente a Internet

Para asegurar la máxima disponibilidad de sus servicios externos se utilizan las siguientes soluciones:

1. Múltiples proveedores de Internet independientes (Multi-homing)

Esto es la base de cualquier estrategia seria de respaldo del canal a Internet. Su CD o nodo de red debe estar conectado al menos a dos proveedores de Internet independientes.

Diferentes entradas físicas: Los cables de cada proveedor deben entrar al edificio por rutas distintas para evitar daños simultáneos (por ejemplo, por obras).
Diferentes sistemas autónomos (AS): Asegúrese de que sus proveedores pertenezcan a distintos sistemas autónomos. Esto garantiza que utilicen rutas globales distintas y no dependan de la misma infraestructura subyacente.

2. BGP (Border Gateway Protocol)

Si usa varios proveedores, probablemente necesitará su propio sistema autónomo (ASN) y el protocolo BGP (Border Gateway Protocol). BGP es el protocolo empleado para intercambiar información de enrutamiento entre sistemas autónomos en Internet.

Anunciar sus propias direcciones IP: Con BGP puede anunciar su bloque de IP públicas (que obtiene, por ejemplo, de RIPE NCC) a través de ambos proveedores.
Failover automático: En caso de fallo de un proveedor, BGP retirará automáticamente las rutas a través de él y el tráfico empezará a fluir por el segundo proveedor. Esto ocurre sin intervención manual.
Balanceo de carga (Active/Active): Puede configurar BGP para que el tráfico se distribuya entre ambos proveedores, optimizando la carga o empleándolos para distintos tipos de tráfico. Esto se logra manipulando atributos de BGP (por ejemplo, AS-Path Prepending, Local Preference, MED).
Requisitos: BGP requiere equipo dedicado (router BGP), su propio ASN, un bloque de IP públicas y un ingeniero de red cualificado.

3. Respaldo DNS (DNS Failover / GSLB)

Si no dispone de su propio ASN y BGP, o desea complementarlos, el respaldo mediante DNS es una excelente opción:

Varias entradas DNS: Para su dominio (por ejemplo, yourcompany.com) puede crear varias entradas A que apunten a diferentes direcciones IP (por ejemplo, IPs provistas por distintos proveedores). Los servidores DNS las devolverán por turno (Round Robin).
Servicios de DNS Failover: Proveedores DNS especializados (como Cloudflare, Amazon Route 53, DNS Made Easy) ofrecen el servicio de DNS Failover. Monitorizan constantemente la disponibilidad de sus IP. Si la IP principal deja de estar disponible, la eliminan automáticamente de las respuestas DNS y empiezan a devolver la IP del canal de respaldo.
GSLB (Global Server Load Balancing): Sistemas más avanzados que pueden redirigir usuarios no solo en función de la disponibilidad, sino también según la ubicación geográfica o la carga del servidor.

4. CDN (Content Delivery Network)

Una CDN es una red de servidores distribuidos por todo el mundo que cachean su contenido estático (y a veces dinámico) y lo sirven al usuario final desde el punto más cercano.

Reducción de la carga en el canal principal: La mayor parte del tráfico (imágenes, CSS, JS, vídeo) será servida por la CDN, reduciendo la carga en su canal de Internet principal.
Aumento de la resiliencia: Si su CD o canal principal queda inaccesible, la CDN seguirá sirviendo contenido cacheado, y aunque no pueda obtener contenido nuevo, parte de su sitio permanecerá disponible. Algunas CDN también ofrecen funciones avanzadas de DNS Failover y WAF (Web Application Firewall) para protección.

5. Soluciones en la nube (Multi-AZ / Multi-Region)

Para empresas que usan plataformas en la nube (AWS, Azure, Google Cloud):

Múltiples zonas de disponibilidad (Availability Zones): Aloje sus aplicaciones y bases de datos en diferentes zonas de disponibilidad dentro de una misma región. Cada zona tiene infraestructura independiente, incluidos canales de comunicación.
Múltiples regiones (Multi-Region): Para máxima resiliencia y disponibilidad global, despliegue servicios en distintas regiones geográficas. En caso de fallo de una región completa, el tráfico se redirigirá a otra.
Balanceadores de carga en la nube: Use load balancers en la nube que puedan distribuir tráfico entre distintas instancias, incluso en distintas zonas o regiones, y excluir automáticamente las defectuosas.

6. Protección contra DDoS

Aunque la protección contra DDoS no es directamente redundancia de canal, es un componente crítico para garantizar la disponibilidad. Un ataque DDoS a gran escala puede saturar la capacidad incluso de canales redundantes.

Use servicios especializados de mitigación de DDoS (por ejemplo, Cloudflare, Akamai, o soluciones de los proveedores). Estos filtran el tráfico malicioso y permiten solo el legítimo.

7. Uso de Dual-Stack (IPv4/IPv6)

Desplegar servicios con soporte para ambos protocolos (IPv4 e IPv6) puede añadir una capa adicional de resiliencia. En caso de problemas de enrutamiento por un protocolo, los usuarios pueden ser dirigidos por el otro.

¿Qué falla a este nivel?

Fallos masivos de proveedores de Internet: Caídas de AS completos o de enlaces troncales.
Ataques DDoS: Saturación del ancho de banda o de recursos.
Problemas con sesiones BGP: Fallo de las conexiones de peering.
Errores de configuración DNS: Registros incorrectos que apunten a IPs inaccesibles.
Fallos en balanceadores de carga o servicios GSLB.

Escenarios de conmutación

BGP automático: El método más rápido y transparente; ocurre en segundos.
DNS Failover automático: La conmutación puede tardar desde segundos hasta varios minutos, según el TTL (Time To Live) de los registros DNS.
Conmutación manual: En el peor de los casos, si la automatización falla.

Monitorización

La monitorización constante y abarcadora es clave para un respaldo efectivo en Internet:

Monitoreo sintético: Comprobaciones de disponibilidad de sus servicios desde distintos puntos del mundo (por ejemplo, con UptimeRobot, New Relic Synthetics).
Monitoreo de sesiones BGP: Estado del peering con los proveedores.
Monitoreo de latencias y pérdida de paquetes: Para cada canal de Internet.
Monitoreo de registros DNS: Asegurarse de que se actualizan correctamente.
Monitoreo del tráfico: Detección de anomalías que indiquen ataques DDoS o problemas.

Conclusión

La redundancia de los canales de comunicación hacia Internet es la cúspide de la tolerancia a fallos en redes. Requiere un enfoque integral que puede incluir conexiones múltiples con BGP, respaldo DNS inteligente, uso de CDN, despliegues en múltiples zonas/regiones en la nube y, por supuesto, una protección DDoS fiable. Una estrategia bien implementada garantiza que su negocio siga accesible para clientes y socios en todo el mundo, independientemente de las fallas de red.

068 | Redundancia de enlaces a Internet (para servicios web y centros de datos)