Contrario a la creencia popular de que todo lo que está en línea permanece en línea, Internet no tiene registro de todo. En una publicación anterior de esta serie, examinamos nada menos que nueve escenarios en los que podrías perder el acceso al contenido en línea. También proporcionamos una guía detallada sobre la información de la que es absolutamente necesario (y preferiblemente rápido) crear una copia de seguridad en tu ordenador y cómo hacerlo. Hoy, analizaremos cómo guardar páginas web de manera sencilla en el ordenador, cómo organizar estos archivos y qué hacer si tu sitio favorito desapareció.
Supongamos que deseas guardar una publicación de blog con una receta, compilar una bibliografía para tu trabajo de investigación o incluso preservar una publicación en línea específica con fines legales. Todo lo anterior se encuentra publicado en forma de páginas web, que tienden a desaparecer en momentos inoportunos. ¿Deseas recordar rumores y noticias sobre música de 2005? Qué tengas suerte: el sitio de MTV News cerró, y todos sus artículos y entrevistas ya no se encuentran disponibles. ¿Debes comprobar enlaces de Wikipedia? El 11 % de ellos no tienen un destino, a pesar de que funcionaban cuando se publicó el artículo. Este fenómeno de “descomposición de enlaces” (eliminación gradual o reubicación del contenido en línea) se está convirtiendo rápidamente en un problema considerable. En la actualidad, ya no se puede acceder al 38 % de las páginas que existían hace diez años. Por lo tanto, si hay una página web que te gusta o que necesitas, lo más inteligente sería crear una copia de seguridad.
Cómo guardar una página web en tu ordenador
Como una página web consta de decenas o hasta cientos de archivos, crear una copia de seguridad requerirá cierto esfuerzo. Las siguientes son las formas principales de hacerlo:
Guarda solo el texto como un archivo HTML. Elije el botón o comando de menú “Guardar página como…” en el navegador y, luego, selecciona “Página web, solo HTML”. Mediante esta acción, solo se guardará el texto de la página web, sin gráficos ni otros atractivos visuales.
Guarda texto e imágenes. Mediante la opción “Página web, completa”, además de un archivo HTML, se creará una carpeta con el mismo nombre que contendrá todos los elementos gráficos, estilos y scripts de la página. Una desventaja de esta opción es que guardar una gran cantidad de archivos auxiliares ocupará la memoria de la unidad. La opción “Página web, archivo único” es más conveniente, ya que agrupa la página web y todos sus recursos en un solo archivo .mhtml. Este se abrirá sin problemas en Chrome y Edge, pero puede que otros navegadores experimenten problemas. Esta opción no está disponible en todos los navegadores, pero si instalas la extensión SingleFile (disponible para la mayoría de los navegadores), podrás guardar la página web completa y su contenido multimedia como un único archivo HTML que se abre sin inconvenientes en todos los navegadores modernos.
Imprime en formato PDF. Para conservar el contenido principal de la página, pero eliminar los menús y los banners, la mejor opción es Imprimir en formato PDF. El archivo resultante se podrá abrir en cualquier equipo.
Con cualquiera de estas opciones, asegúrate de que el texto principal que en verdad deseas conservar sea legible cuando abras el documento.
Una forma más sencilla de guardar una página web
Los métodos antes descritos requieren cierto tiempo y ocupan la memoria del disco duro. Para mayor comodidad, usa un servicio dedicado como Pocket (antes llamado Read It Later), wallabag o Raindrop.io. Todos funcionan de la misma manera: envías un enlace mediante el cual el servicio recupera un documento con todas las ilustraciones, limpia la página de todos los elementos innecesarios y lo guarda en tu almacenamiento personal en línea. Incluso si se elimina o modifica la página original, la versión que deseas se conservará en tu archivo. Estos servicios te permiten agrupar y ordenar los enlaces, buscar texto en su interior y ver las páginas guardadas en cualquier dispositivo. Para equipos de sobremesa, hay una extensión disponible para los principales navegadores; y para dispositivos móviles, existe una aplicación.
Todos estos servicios ofrecen un archivo “eterno” solo con una suscripción premium, lo que significa que tendrás que pagar para tu comodidad. Dicho esto, Wallabag es de código abierto: puedes instalarlo en tu propio servidor y no pagar por servicios de terceros ni preocuparte por el cierre del servicio.
Algunas aplicaciones para tomar notas también pueden guardar páginas web completas. Entre estas se incluye Evernote, donde la función se llama “Web Clipper”.
Cómo guardar una página web para terceros
Si no solo necesitas una copia para ti, sino para compartir una versión determinada de la página con terceros, necesitarás un servicio de archivo público.
El más conocido es Internet Archive (archive.org) y su Wayback Machine. Otras opciones incluyen archive.today (también conocido como archive.is), perma.cc y megalodon.jp. Funcionan con un principio similar: ya sea por una solicitud del usuario o de forma automática, visitan páginas web y guardan una copia en sus servidores.
Para solicitar el archivado de una página web, dirígete a web.archive.org e introduce la dirección completa en el cuadro Guardar página ahora. Después de hacer clic en Guardar, aparecerá una ventana en la que se describen todos los componentes cargados de la página, seguida de un enlace permanente al sitio en su estado conservado. Tiene el siguiente aspecto: https://web.archive.org/web/20240918234814/https://www.kaspersky.com/blog. En el enlace, se muestran la dirección de la página guardada y la fecha exacta en que se guardó, lo que resulta perfecto para fines de archivo.
El registro en archive.org te permite administrar una colección de dichos enlaces, tomar capturas de pantalla de los sitios guardados y descargar copias de ellos en el formato especial WACZ de archivo web.
Al abrir el enlace del archivo, verás la página guardada con una marca de tiempo que indica cuándo se capturó la instantánea. Esta función es útil para realizar un seguimiento y demostrar cambios en los datos de sitios web: fluctuaciones de precios, actualizaciones de descripciones de productos, ediciones de informes de noticias y la eliminación de información. Esta última función es de particular importancia para los investigadores históricos y culturales que se basan en sitios web desaparecidos. A continuación, puedes consultar una de las primeras versiones de GeoCities, un servicio de alojamiento web que solía ser popular y te permitía crear “páginas de inicio”, expresarte y encontrar amigos con intereses compartidos mucho antes que las redes sociales. Es solo gracias a Wayback Machine que ahora podemos verlo (el sitio cerró la tienda en 2016).
Cómo encontrar contenido de Internet eliminado o una versión anterior de un sitio web
Para ver una versión anterior de cualquier sitio web, haz lo siguiente:
- Abre archive.org.
- Introduce la dirección completa del sitio web o una página específica en la casilla junto al logotipo y pulsa Entrar. Si se desconoce la URL exacta, puedes introducir el nombre del sitio web o palabras que lo describan bien.
- Elije el sitio web deseado de la lista. En los resultados, se muestra de un vistazo cuántas copias se encuentran en el archivo y a qué período corresponden.
- Usa el calendario para elegir cuál de las copias guardadas del sitio deseas ver. Las fechas de las que hay una copia guardada están marcadas con un círculo. Cuanto más grande es el círculo, más copias se realizaron de ese día.
- Haz clic en la fecha deseada e inspecciona el sitio guardado. Ten en cuenta que cargar una copia del archivo puede demorar unos minutos.
- El gráfico del calendario sobre la copia del sitio te permite navegar a copias más antiguas y más nuevas.
Puedes copiar el enlace a la copia recuperada desde la barra de direcciones para acceder al sitio archivado de forma directa y omitir la interfaz de búsqueda.
Qué ocurre si archive.org no puede ayudar
La base detrás de archive.org a veces cumple con las solicitudes de los propietarios de derechos de autor y otras partes autorizadas para excluir ciertos sitios de Wayback Machine. Además, el servicio nunca tuvo como objetivo conservar la totalidad de Internet, por lo que puede suceder que la página que necesitas nunca se haya indexado. En tales casos, intenta buscarla en otras cápsulas del tiempo.
Archive.today (también conocido como archive.is) no guarda páginas de forma automática, solo a petición de los usuarios. Entre otros aspectos, esto evita tener que seguir las instrucciones de los robots de búsqueda (robots.txt) y significa que el archivo contiene documentos que no están disponibles en Wayback Machine.
Otro proyecto importante de archivo web es perma.cc, creado por un consorcio de las principales bibliotecas del mundo. Sin embargo, solo es gratis para las organizaciones participantes. Los usuarios particulares pueden suscribirse a un plan pago, con precios basados en la cantidad de enlaces archivados.
Una buena alternativa a los archivos especializados es el contenido en caché de los motores de búsqueda. Para indexar cualquier página web, los motores de búsqueda recuperan su texto, por lo que allí se puede encontrar una versión rudimentaria pero legible de casi todas las páginas. Durante mucho tiempo, la memoria caché de Google fue la más accesible. Sin embargo, a principios de 2024, el gigante de las búsquedas eliminó el enlace directo a su caché de los resultados de búsqueda. El servicio sigue funcionando, pero acceder directamente a él es muy difícil.
Por lo tanto, es mejor usar extensiones de navegador que faciliten el trabajo con archivos de Internet. Por ejemplo, si un enlace te dirige a una página eliminada o un sitio web desaparecido, la extensión de Archivos web te redirigirá directamente a una copia archivada de esta página en web.archive.org, archive.today o perma.cc, o te mostrará una versión guardada en la caché de Google, Bing o Yandex.
Cómo guardar datos de otros servicios en línea
Además de las páginas web, hay muchos otros servicios en línea, desde álbumes de fotografías y notas hasta redes sociales, que contienen datos que también querrás guardar. Por supuesto, las recomendaciones varían para los distintos tipos de datos y servicios específicos. Sin embargo, para tu comodidad, agrupamos todas las instrucciones relacionadas bajo la etiqueta “copia de seguridad”. Puedes leer sobre la creación de copias de seguridad para:
- Notion
- Telegram
- Aplicaciones de autenticación de dos factores
- Otros servicios
No olvides proteger tus copias de seguridad contra el ransomware y el spyware.