Herramientas para convertir archivos a formato abierto y reutilizable
Te presentamos 6 herramientas para convertir archivos cerrados en datos abiertos, que podrás usar para tus visualizaciones de datos.
Disponible en:
Por Sasha Muñoz Vergara. Publicado: 19 de julio de 2021
El periodismo de datos es un trabajo minucioso y de gran cuidado. Los errores no se permiten. Un solo número cambia y podemos caer en informar con datos mentirosos y cálculos erróneos.
Aunque el fact checking es indispensable, hay otro tipo de herramientas que pueden ayudarnos a copiar la información exacta de un documento, intentando minimizar al máximo los errores de pasar datos a mano.
Una de las tareas que los periodistas de datos deben realizar es convertir datos cerrados, aquellos donde las especificaciones no están disponibles públicamente porque el formato no es accesible o porque su reutilización es limitada, en datos abiertos, que están disponibles para cualquier persona, de forma gratuita y sin limitación alguna.
Para esto, existe un procedimiento llamado reconocimiento óptico de caracteres (OCR por sus siglas en inglés), para la digitalización de textos, los cuales se identifican automáticamente a partir de una imagen, símbolos o caracteres que pertenecen a un determinado alfabeto, para luego almacenarlos en forma de datos, según la definición de Wikipedia. De esta forma es posible interactuar con dichos datos a través de un programa de edición o similar.
A continuación encontrarás una selección de herramientas para extraer información de documentos cerrados, que te compartimos desde Datasketch.
1. iLovePDF
Este software permite digitalizar archivos, editar un PDF y convertir archivos al formato que se requiera como Word, Excel, PowerPoint y jpg. También, ayuda a organizar y optimizar archivos fusionando, dividiendo, comprimiendo, rotando y anotando documentos. Incluye una función para traducir documentos en varios idiomas y utilizar la interfaz de arrastrar y soltar para procesar varios archivos al mismo tiempo desde una plataforma unificada.
2. Zamzar
Es un software online para convertir archivos a formatos como Word, Excel, PowerPoint, MP4 y MP3, entre muchos otros. Entre las cualidades de esta herramienta está que no necesitas descargar ningún programa para utilizarla. Si hay un archivo que no puedes convertir, puedes escribir un e-mail e ingenieros especializados te ayudarán a lograrlo. Además, admite más de 1200 tipos de formato.
3. Onlineocr.net
Esta herramienta no necesita instalación en la computadora. Puede reconocer textos y caracteres de documentos escaneados en PDF, fotografías e imágenes captadas por cámaras digitales, tablas, columnas y gráficos en formato abierto y editable. Este software permite convertir 15 archivos por hora y 15 páginas de un archivo que tenga más en el mismo tiempo, sin registrarte.
4. Pdftoexcel
Este software permite transformar cualquier PDF (normal o escaneado) e importarlo para su conversión directamente desde Google Drive, Dropbox o OneDrive. La aplicación web convierte documentos de todos los tamaños. Es uno de los softwares con menos errores. No importa lo complejas que sean sus tablas de datos, se transcribirán con precisión, sin necesidad de formatearlas. La estructura de filas y columnas será la misma que en el archivo original, pero editable y lista para su reutilización.
5. Tabula
Es un software descargable que debes instalar en tu computadora. Tabula permite extraer datos de un PDF y convertirlos en una hoja de cálculo CSV o Microsoft Excel mediante una interfaz sencilla y fácil de usar. Tabula funciona en Mac, Windows y Linux.
Cargas un archivo PDF que contenga una tabla de datos. Para extraerla debes ir a la página que desees y seleccionar la tabla haciendo clic, arrastrando para dibujar un recuadro alrededor de esta. Luego, tienes que hacer clic en “Vista previa y exportación de los datos extraídos”.
Tabula intentará extraer los datos y mostrará una vista previa. Si faltan datos, puedes volver a ajustar la selección. Al exportarlos, tendrás una tabla en formato abierto y reutilizable.
6. Lighten Software
Es un programa que permite convertir archivos PDF a 16 formatos de documento, incluidos Microsoft Office e iWork. Es un software especializado para Mac. Conserva el estilo de fuente original del PDF, el color, los gráficos, las tablas y los diseños de página con precisión. Además, ofrece otro tipo de aplicaciones que pueden servirte en tu labor periodística, como las que pueden verse aquí:
Esta versión es pagada, pero puedes acceder a la prueba gratis desde aquí.
Puedes encontrar todas estas herramientas y más en la página web de Datasketch. Visítanos y pruébalas.