10. Archivos, formatos y extensiones - EVO READERS" /> 10. Archivos, formatos y extensiones - EVO READERS" />

10. Archivos, formatos y extensiones

Archivos, formatos
& extensiones

Una vez tras descargar libros gratis o comprarlos en internet, puede que en ocasiones te lleves la sorpresa de que no están en el formato del que más provecho vas a sacar: eBook (ePUB, KWZ, Mobi, FB, etc.). En este artículo se presenta como introducción para saber qué es un archivo, qué es un formato y qué es una extensión de archivo para que puedas elegir y utilizar las herramientas que prefieras para convertirlo o manipularlo.

Un archivo es, técnicamente, un recurso de almacenamiento de paquetes de información (registros). Según la naturaleza de la información que almacenan, es decir, según el uso que vayamos a hacer de ellos, pueden clasificarse de diversas formas. Además. el uso de la voz «archivo» para describir estos registros, no es inocente. Veámoslo un poco más al detalle. 

1.1. Aproximación histórica

La voz «archivo» proviene del latín archīvum y ésta, a su vez, del griego ‘αρχεīον (archeīon). Esta voz, junto a otras (chartarium, scrinium, tabulárium), designaba el conjunto de documentos escritos y guardados por una determinada institución o persona. En épocas más actuales, desde la modernidad y la creación de archivos bibliográficos y gestión biblioteconómica, el archivo puede estar compuesto documentos de tan diversa naturaleza (fotos, revistas, diarios, recortes, diapositivas, etc.) como establezca la administración de dicho de archivo.

1.2. El archivo informático

En el campo de la informática (la nueva gestión biblioteconómica, en sentido amplio), un «archivo» es un registro de datos que deben ser accesibles por algún programa, para ser utilizados, modificados o sencillamente interpretados por una persona humana a través de una máquina. La forma de identificar un archivo es por su nombre y una ruta de acceso que enlaza al directorio (carpeta) en el que está almacenado ese registro.

1.3. Tipos de archivos

Aunque la forma más frecuente de referirse a los archivos es su formato o extensión, no es ni la única ni la mejor de las maneras (vid. infra § 3.) porque no permite que conozcamos la naturaleza de ese archivo. Por un lado, los archivos pueden clasificarse por la naturaleza de la información que contienen (ejecutables, contenedores, imágenes, vídeos, audio, texto plano, texto enriquecido, etc.). Por otro, pueden clasificarse de acuerdo a la naturaleza de la programación que define sus reglas (es decir, su formato). Podemos referirnos a ellos por su extensión pero, en algunos sistemas, la extensión puede llegar a ser muy arbitraria (esto es, convencional). Para realizar una tipología de archivos cómoda, aquí utilizaremos la que se basa en la naturaleza de la información que contienen.

1.3.1. Archivos ejecutables

Tradicionalmente, un «archivo ejecutable» es el código de uno o varios programas que deben realizar una tarea específica y lo consiguen por sí mismos. Seguro que te suenan las extensiones *.exe, *.dll, *.bat, etcétera. 

1.3.2. Archivos de texto

Un archivo de texto es un documento que contiene únicamente caracteres legibles por humanos (letras, números, signos de puntuación) cuya información también es comprensible sin ayuda de intérprete. Los archivos de texto pueden ser planos (no tienen formato) o admitir diferentes niveles de formato (márgenes, tipo de fuente, tamaño de letra, orientación, interlineado, espaciado, inclusión de imágenes, etc.), cuyo nombre es texto enriquecido

1.3.3. Archivos de imagen

Un archivo de imagen es una representación informática en montones de subpixeles RGB (rojo, verde, azul) que, al combinarse, nos devuelven la ilusión de una imagen que podemos interpretar. Por supuesto, hay diferentes formatos que siguen diferentes algoritmos de compresión, consiguiendo mayor o menor detalle.

1.3.4. Archivos de video

De forma parecida a lo que ocurre con los archivos de imagen, éstos reciben un formato de compresión (contenedor) para incluir todos los fotogramas de una cinta digital junto a los archivos de audio que la acompañan.

1.3.5. Archivos de audio

Suelen seguir también algoritmos de compresión para registrar todo la información de audio que pueden almacenar. Dependiendo precisamente de la compresión y pérdida de sonido, podrán ofrecer mayor riqueza o no dependiendo de la compresión utilizada.

1.3.6. Documentos & Archivos contenedores

En realidad, todos los archivos anteriores son una suerte de contenedor que comprime la información según un algoritmo. Cada uno de estos documentos pueden incluir o no metadata para ser clasificados y detallados con mayor información en algún indeterminado momento. Piensa en un archivo *.zip *.rar, en cuyo interior se encuentran varios otros archivos… El concepto es parecido y cierto para casi todos los formatos de audio, imagen y video.

2. Qué es un formato

El formato de un archivo son las reglas que definen cómo se va a organizar y codificar toda la información que almacena un archivo. Cuando hablamos de convertir archivos, en realidad lo que estamos buscando es transformar su formato a otro que nuestro dispositivo o programa pueda interpretar, para devolvernos la información que contiene de una manera legible.

2.1. Tipos de formato

Existen tantos tipos de formatos como archivos y documentos. Estos formatos pueden ser estándar, pero no necesariamente. Lo que hará que un formato sea estándar lo determinará el uso masivo de ese formato. Por ejemplo, BBeB (Broad Band eBook) fue un formato de libro electrónico desarrollado por Sony y Canon para sus propios eReaders. Sin embargo, a partir de 2010 dejaron de darle soporte en favor del ePUB (2007). Dado que una lista completa de formatos puede ser sorprendentemente ilimitada, aquí pondremos los presumiblemente más conocidos.

2.1.1. Formatos de texto

Son archivos enriquecidos con algún marcado que permite el formato. Los CHM (Compiled HTML Help File), son propietarios de Microsoft y están compuestos de páginas formateadas en HTML para ofrecer ayuda. ¿Sabes esos cuadraditos de ayuda en los programas desarrollados por Microsoft? Pues están escritos en CHM.

También de Microsoft, RTF, DOC y DOCX tienen una interesante historia. RTF (Rich Text Format) fue publicado en 1987 como Formato de Texto Enriquecido multiplataforma. La idea era un archivo de texto enriquecido que pudiese ser interpretado en cualquier computador y todavía se sigue actualizando (2008). Por otro lado DOC (abreviación de documento) nació como archivo para procesar textos planos y terminó procesando formato a partir de 1983. A finales de 2005, Microsoft anunciaba el desarrollo cooperativo de un nuevo formato abierto basado en XML (Office Open XML o OOXML) y que solemos llamar por su extensión DOCX o DOCM. Apenas un año más tarde (2006), Sun Microsystems (ahora propiedad de Oracle), desarrollaba las especificaciones de ODF (Open Document Format) que serían después complementadas por OASIS (Organization for the Advancement of Structured Information Standards) para OOXML.

Como vemos, el formato puede o no coincidir con su extensión. En el último caso, ODF es el formato que soporta diferentes archivos (ODT es Open Document Text; ODS es Open Document SpreadSheet, ODP es Open Document Presentation, etc.). Por último, no debemos olvidar los archivos de texto formateados en lenguaje de marcado (como HTML). HTML significa HyperText Markup Language: el hipertexto se definió por primera vez en 1965, haciendo referencia a textos enlazados entre sí a través de hiperenlances. Sin embargo, HTML no existió hasta 1992 y desde entonces ha evolucionado muchísimo, ofreciendo cada vez más mejoras (HTML 5.3, 2018). En HTML pueden encontrarse los primeros libros electrónicos del Proyecto Gutenberg (1971), con un marcado sencillo pero funcional. Incluso hoy se utiliza HTML para editar eBooks en formato libro electrónico, como ePUB.

2.1.2. Formatos de imagen

Puedes encontrar tanto formatos de imagen rasterizada (mapa de bits) como de imagen vectorial. Los mapas de bits están compuestos por pixeles que dan soporte a la calidad de la imagen: a mayor cantidad de pixeles (resolución), mayor será el detalle que podrán ofrecer. Sin embargo, tienen la desventaja de que al ampliarse pierden esa calidad. Las imágenes vectoriales, en cambio, se componen de líneas y formas escalables que se adapta a cualquier resolución, en cualquier dispositivo, sin perder detalle.

Los formatos de mapa de bits posiblemente más conocidos, son BMP, JPEG (Joint Photographic Experts Group)PNG (Portable Network Graphics)TIFF (Tagged Image File Format), GIFF (Graphics Interchange Format)RAW (literalmente, «en crudo»)

En cuanto a los formatos de imagen vectorial más conocidos, tenemos SVG (Scalable Vector Graphics)EPS (Encapsulated PostScript)PDF (Portable Document Format)ODG (Open Document Graphic File), DjVu y largo etcétera. ¿Cómo que PDF es un archivo de imagen? Pues sí, es un formato de imagen vectorial basado, además, en PostScript (un lenguaje de Adobe, pensado para preparar páginas para impresión gráfica).

2.1.3. Formatos de audio

Los formatos de audio son el conjunto de reglas necesarias para contener la grabación en crudo (raw audio data), el audio codec (que codifica y descodifica la grabación en crudo) y el propio código del formato. Al igual que pasa con las imágenes, puede comprimirse (a menudo perdiendo calidad en el caso de los audios) o sin compresión alguna.

Posiblemente, el formato más conocido sin compresión es WAV (Waveform Audio File Format), desarrollado por IBM y Microsoft a principios de 1990s. Dentro de los formatos que comprimen la información de audio, algunos lo hacen mejor y otros peor. La compresión sin pérdida permite reconstruir a la perfección los datos originales: FLAC, ALAC y MPEG-4. Por otro lado, la compresión con pérdida es la más conocida y extendida: MP3, WMA, AAC.

¿Y qué pasa con AA, AAX y m4B? El apartado merecía hablar de estos tipos de formato antes y, en lo que respecta a audiolibros (audiobooks), es posible encontrarlos en mp3 de muy buena calidad. Aunque las posibilidades de un audiolibro todavía no han sido del todo explotadas, el MP3 es el formato que más va a empatizar con la capacidad de almacenamiento y actualmente sobra para disfrutar de un audiolibro. Pero en lo que respecta a los formatos propietarios de Audible (AA, AAX), estos son un equivalente del eBook en formato audio: permiten añadir metadatos (autoría, índices, etc.) y también sincronizar la reproducción de imágenes en el dispositivo a medida que se avanza en la historia. Por otro lado, regresando al párrafo anterior, el formato M4B es formato de audiolibro basado en MPEG-4 (es decir, compresión sin pérdida), también el análogo del eBook en audio con similares ventajas a los formatos de Audible. M4B también puede reproducir imágenes como AAX.

2.1.4. Formatos de video

La reproducción de video en eReaders, todavía está lejos. No porque no puedan reproducir los videos, sino porque la tecnología de tinta electroforética no es lo suficientemente rápida como para ofrecer un metraje suave. Sin embargo, los comentaremos brevemente ya que ocurre lo mismo que con el audio, sólo que ésta vez la cantidad de cosas que debe contener el archivo es mayor: imágenes (fotogramas), audio (banda sonora, pistas de sonidos), texto (subtítulos) y en cuanto a los dos últimos, tantos archivos como idiomas. Por lo demás es parecido al audio: por un lado tenemos el formato que contiene todo, por otro la grabación en crudo y después el codec.

El archiconocido formato AVI (Audio Visual Interleave) es un formato de compresión muy pesado pero compatible con la mayoría de sistemas operativos. MPG (MPEG video stream) comprime con baja pérdida y es ampliamente compatible. Su resolución está limitada por la compresión utilizada MPEG-1 (ofrece una calidad comparable al antiguo VHS), MPEG-2 (hizo posible que el video en DVD fuese un éxito), MPEG-3 acabó utilizándose para MP3 y finalmente MPEG-4 (MP4), que permite la mayor calidad. WMP (Windows Media Player) tiene codecs propios de Microsoft y el detalle es enorme, al igual que el archivo. Otro archivo que habrás visto un montón es el MKV (MatrosKa Video), un estándar abierto y gratuito en crudo (raw), lo que hace un archivo bastante pesado.

2.1.5. Formatos de eBook

Los libros digitales no son un desarrollo reciente: desde enciclopedias y diccionarios programados como software y almacenados en diferentes unidades, como el CD-ROM, hasta los actuales estándares de formato eBook han transcurrido años de actualizaciones en los diferentes lenguajes de programación, adaptaciones de diseño gráfico y mejoras en casi todos los aspectos a un ritmo casi paralelo al desarrollo tecnológico de las computadoras.

Quizá la primera aproximación a crear un estándar de formato de libro electrónico fue el OeB (Open eBook), un formato que fue lanzado en 1999 y terminó siendo remplazado por ePUB (electronic PUBlication) en 2007. Mobipocket, por su parte, había lanzado su propio formato a principios del año 2000. Cinco años más tarde, Amazon compraba la compañía y aplicaba al formato Mobipocket una protección anticopia propia: fue el nacimiento de KFF (Kindle File Format, *.azw). En 2008 lanzaba una versión de prueba que en 2011 se convertía en el ahora conocido KF8 (*.azw3), un formato muy similar al del ePUB (HTML5 + CSS3), con su propio DRM (protección anticopia). 

3. Qué es una extensión de archivo

Las extensiones de los archivos son, técnicamente, una cadena de caracteres que se añaden al nombre del archivo para identificarlo y distinguirlo en base a la naturaleza de su contenido. Puede guardar relación con el formato (ePUB es un formato, *.epub es una extensión), pero no tiene por qué. De igual modo, estamos acostumbrados a encontrar este sufijo precedido por un punto y formado de tres o cuatro caracteres (algo que no pasa en sistemas Unix). 

Esta es la razón por la que no basta con cambiar el sufijo de un archivo para convertirlo en otro formato. De igual modo, podemos convertir un formato a otro y dejarlo con el mismo identificador (extensión) que tenía antes. En el primer caso, el programa leerá el identificador y después no podrá interpretarlo. En el segundo, el error se dará porque reconoce el identificador como un archivo no válido.

Por suerte, aunque con limitaciones obvias, muchos procesadores de texto permiten exportar los archivos directamente al formato deseado. En otros casos deberemos recurrir a un software que nos permita realizar esa acción como una aplicación web o de escritorio, aunque lo ideal sería no tener que cambiar nada, claro.

¿TE HA GUSTADO
ESTE ARTÍCULO?

¡ADELANTE!
COMPÁRTELO EN TUS REDES

¡TÚ ERES
Evo Readers!

EVO READERS
Logo
Enable registration in settings - general