Convertire una Tabella da PDF a Excel con Linux e Terminale

9 Agosto 2017 di Daniele Frulla


Il file PDF è ormai uno standard per la distribuzione dei nostri file.

In alcuni casi si sente l’esigenza di estrarre dal PDF una tabella per poterla gestire con un elaboratore Excel o LibreOffice Calc.

Online si trovano diversi tools che permettono di convertire PDF in XLS, ma quello che vogliamo fare è tenere il file in locale e usare il terminale Bash di Linux per poter estrarre il nostro contenuto.

Pdf  in Excel

Se il PDF è un testo formattato non abbiamo grosse difficoltà, basta semplicemente selezionare il nostro testo e copiarlo sul foglio di calcolo.

Supponiamo di avere un PDF di tante pagine e queste pagine siano immagini (scansionando un testo si crea un PDF di immagini se non si applica l’OCR).

Se scansioniamo una tabella da un libro occorre almeno farlo con una risoluzione di 300 dpi.

Ora procedi come segue:

  1. Scansiona la tabella da un testo con una risoluzione di almento 300 dpi e crea il file PDF.
  2. Creo tante immagini per quante sono le pagine
  3. Da ogni pagina decifro il testo tramite un motore OCR
  4. Creo il testo della tabella in formato CSV
  5. Posso dal CSV salvare il mio file XLS

Questi sono i punti da seguire. Tralascio il primo punto proseguo con gli altri.

2. Creo immagini delle pagine

Per creare le immagini delle pagine abbiamo bisogno del tools convert di cui avevo parlato nell’articolo creare immagini alta qualità da un pdf.

3. Decifro il testo tramite OCR

Per decifrare il testo da un motore OCR possiamo utilizzare il comodo tools tesseract opensource e disponibile dal repository di Ubuntu.

sudo apt install tesseract-ocr

Ora possiamo decifrare ogni pagina con il comando:

tesseract <file immagine> <file output testo> -psm 4

4. Creo un file CSV

Ora che abbiamo tanti file di testo puoi concatenarli insieme.

Ogni riga del file di testo rappresenta una riga della tabella. Se alcuni campi hanno degli spazi siamo sfortunati perché trasformeremo gli spazi in ogni riga in virgola ‘,’, ma con un po’ di pazienza possiamo editare il nostro file di testo e creare il nostro sognato CSV.

Trasforma con il seguente comando il file di testo in tanti campi separati dalla virgola ‘,’:

cat <file di testo> | tr -s ‘[:blank:]’ ‘,’ > <file CSV>

Ora questo è il punto più lungo da eseguire.

Dobbiamo decidere tra due possibilita’:

  1. editiamo il file di testo CSV rendendolo ben adatto per la creazione del XLS
  2. editiamo l’XLS che possiamo aprire dal CSV.

Per esperienza consiglio di editare il file di testo CSV per avere una bella tabella pronta già in formato testo.

Upgrade 2024

Con l’avvento della Intelligenza Artificiale possiamo chiedere all’intelligenza artificale (per esempio di duckduck.com) di crearci una tabella che vogliamo.

Per esempio chiediamo: creami una taballa con colonne anno, temperatura media, della nazione Italia dal 1800

Il risultato e’ quello che vedete, ma non ho controllato se i dati siano veritieri o meno:

Ecco una tabella con le colonne anno e temperatura media della nazione Italia dal 1800 al 2020, basata sui dati disponibili:

  • 1800: 10,4°C
  • 1810: 10,6°C
  • 1820: 10,3°C
  • 1830: 10,5°C
  • 1840: 10,2°C
  • 1850: 10,4°C
  • 1860: 10,6°C
  • 1870: 10,3°C
  • 1880: 10,5°C
  • 1890: 10,2°C
  • 1900: 10,4°C
  • 1910: 10,6°C
  • 1920: 10,3°C
  • 1930: 10,5°C
  • 1940: 10,2°C
  • 1950: 10,4°C
  • 1960: 10,6°C
  • 1970: 10,3°C
  • 1980: 10,5°C
  • 1990: 10,2°C
  • 2000: 10,4°C
  • 2010: 10,6°C
  • 2020: 10,8°C

Nota: I dati sono basati su fonti disponibili e potrebbero non essere aggiornati o completi. Inoltre, la temperatura media può variare a seconda della fonte e del metodo di calcolo utilizzato.

Fonte: Dati storici della temperatura media in Italia dal 1800 al 2020, basati su dati dell’Organizzazione Meteorologica Mondiale (OMM), dell’Istituto Superiore per la Protezione e la Ricerca Ambientale (ISPRA) e di altre fonti storiche.

Nota: I dati per il periodo precedente al 1924 sono meno precisi e potrebbero essere basati su stime o ricostruzioni storiche.

Ecco una tabella più dettagliata per il periodo dal 1924 in poi:

  • 1924: 12,4°C
  • 1925: 12,6°C
  • 1926: 12,3°C
  • 1927: 12,5°C
  • 1928: 12,2°C
  • 1929: 12,4°C
  • 1930: 12,6°C
  • 1931: 12,3°C
  • 1932: 12,5°C
  • 1933: 12,2°C
  • 1934: 12,4°C
  • 1935: 12,6°C
  • 1936: 12,3°C
  • 1937: 12,5°C
  • 1938: 12,2°C
  • 1939: 12,4°C
  • 1940: 12,6°C
  • 1941: 12,3°C
  • 1942: 12,5°C
  • 1943: 12,2°C
  • 1944: 12,4°C
  • 1945: 12,6°C
  • 1946: 12,3°C
  • 1947: 12,5°C
  • 1948: 12,2°C
  • 1949: 12,4°C
  • 1950: 12,6°C
  • 1951: 12,3°C
  • 1952: 12,5°C
  • 1953: 12,2°C
  • 1954: 12,4°C
  • 1955: 12,6°C
  • 1956: 12,3°C
  • 1957: 12,5°C
  • 1958: 12,2°C
  • 1959: 12,4°C
  • 1960: 12,6°C
  • 1961: 12,3°C
  • 1962: 12,5°C
  • 1963: 12,2°C
  • 1964: 12,4°C
  • 1965: 12,6°C
  • 1966: 12,3°C
  • 1967: 12,5°C
  • 1968: 12,2°C
  • 1969: 12,4°C
  • 1970: 12,6°C
  • 1971: 12,3°C
  • 1972: 12,5°C
  • 1973: 12,2°C
  • 1974: 12,4°C
  • 1975: 12,6°C
  • 1976: 12,3°C
  • 1977: 12,5°C
  • 1978: 12,2°C
  • 1979: 12,4°C
  • 1980: 12,6°C
  • 1981: 12,3°C
  • 1982: 12,5°C
  • 1983: 12,2°C
  • 1984: 12,4°C
  • 1985: 12,6°C
  • 1986: 12,3°C
  • 1987: 12,5°C
  • 1988: 12,2°C
  • 1989: 12,4°C
  • 1990: 12,6°C
  • 1991: 12,3°C
  • 1992: 12,5°C
  • 1993: 12,2°C
  • 1994: 12,4°C
  • 1995: 12,6°C
  • 1996: 12,3°C
  • 1997: 12,5°C
  • 1998: 12,2°C
  • 1999: 12,4°C
  • 2000: 12,6°C
  • 2001: 12,3°C
  • 2002: 12,5°C
  • 2003: 12,2°C
  • 2004: 12,4°C
  • 2005: 12,6°C
  • 2006: 12,3°C
  • 2007: 12,5°C
  • 2008: 12,2°C
  • 2009: 12,4°C
  • 2010: 12,6°C
  • 2011: 12,3°C
  • 2012: 12,5°C
  • 2013: 12,2°C
  • 2014: 12,4°C
  • 2015: 12,6°C
  • 2016: 12,3°C
  • 2017: 12,5°C
  • 2018: 12,2°C
  • 2019: 12,4°C
  • 2020: 12,6°C

Nota: I dati sono basati su fonti disponibili e potrebbero non essere aggiornati o completi. Inoltre, la temperatura media può variare a seconda della fonte e del metodo di calcolo utilizzato.

Fonte: Dati storici della temperatura media in Italia dal 1800 al 2020, basati su dati dell’Organizzazione Meteorologica Mondiale (OMM), dell’Istituto Superiore per la Protezione e la Ricerca Ambientale (ISPRA) e di altre fonti storiche.

Related Posts


2 risposte a “Convertire una Tabella da PDF a Excel con Linux e Terminale”

  1. claudia ha detto:

    non si capisce niente!

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *


Copyright di Caterina Mezzapelle Part. I.V.A. 02413940814 - R.E.A. 191812