9 Agosto 2017 di Daniele Frulla
Il file PDF è ormai uno standard per la distribuzione dei nostri file.
In alcuni casi si sente l’esigenza di estrarre dal PDF una tabella per poterla gestire con un elaboratore Excel o LibreOffice Calc.
Online si trovano diversi tools che permettono di convertire PDF in XLS, ma quello che vogliamo fare è tenere il file in locale e usare il terminale Bash di Linux per poter estrarre il nostro contenuto.
Se il PDF è un testo formattato non abbiamo grosse difficoltà, basta semplicemente selezionare il nostro testo e copiarlo sul foglio di calcolo.
Supponiamo di avere un PDF di tante pagine e queste pagine siano immagini (scansionando un testo si crea un PDF di immagini se non si applica l’OCR).
Se scansioniamo una tabella da un libro occorre almeno farlo con una risoluzione di 300 dpi.
Ora procedi come segue:
Questi sono i punti da seguire. Tralascio il primo punto proseguo con gli altri.
Per creare le immagini delle pagine abbiamo bisogno del tools convert di cui avevo parlato nell’articolo creare immagini alta qualità da un pdf.
Per decifrare il testo da un motore OCR possiamo utilizzare il comodo tools tesseract opensource e disponibile dal repository di Ubuntu.
sudo apt install tesseract-ocr
Ora possiamo decifrare ogni pagina con il comando:
tesseract <file immagine> <file output testo> -psm 4
Ora che abbiamo tanti file di testo puoi concatenarli insieme.
Ogni riga del file di testo rappresenta una riga della tabella. Se alcuni campi hanno degli spazi siamo sfortunati perché trasformeremo gli spazi in ogni riga in virgola ‘,’, ma con un po’ di pazienza possiamo editare il nostro file di testo e creare il nostro sognato CSV.
Trasforma con il seguente comando il file di testo in tanti campi separati dalla virgola ‘,’:
cat <file di testo> | tr -s ‘[:blank:]’ ‘,’ > <file CSV>
Ora questo è il punto più lungo da eseguire.
Dobbiamo decidere tra due possibilita’:
Per esperienza consiglio di editare il file di testo CSV per avere una bella tabella pronta già in formato testo.
Con l’avvento della Intelligenza Artificiale possiamo chiedere all’intelligenza artificale (per esempio di duckduck.com) di crearci una tabella che vogliamo.
Per esempio chiediamo: creami una taballa con colonne anno, temperatura media, della nazione Italia dal 1800
Il risultato e’ quello che vedete, ma non ho controllato se i dati siano veritieri o meno:
Ecco una tabella con le colonne anno e temperatura media della nazione Italia dal 1800 al 2020, basata sui dati disponibili:
- 1800: 10,4°C
- 1810: 10,6°C
- 1820: 10,3°C
- 1830: 10,5°C
- 1840: 10,2°C
- 1850: 10,4°C
- 1860: 10,6°C
- 1870: 10,3°C
- 1880: 10,5°C
- 1890: 10,2°C
- 1900: 10,4°C
- 1910: 10,6°C
- 1920: 10,3°C
- 1930: 10,5°C
- 1940: 10,2°C
- 1950: 10,4°C
- 1960: 10,6°C
- 1970: 10,3°C
- 1980: 10,5°C
- 1990: 10,2°C
- 2000: 10,4°C
- 2010: 10,6°C
- 2020: 10,8°C
Nota: I dati sono basati su fonti disponibili e potrebbero non essere aggiornati o completi. Inoltre, la temperatura media può variare a seconda della fonte e del metodo di calcolo utilizzato.
Fonte: Dati storici della temperatura media in Italia dal 1800 al 2020, basati su dati dell’Organizzazione Meteorologica Mondiale (OMM), dell’Istituto Superiore per la Protezione e la Ricerca Ambientale (ISPRA) e di altre fonti storiche.
Nota: I dati per il periodo precedente al 1924 sono meno precisi e potrebbero essere basati su stime o ricostruzioni storiche.
Ecco una tabella più dettagliata per il periodo dal 1924 in poi:
- 1924: 12,4°C
- 1925: 12,6°C
- 1926: 12,3°C
- 1927: 12,5°C
- 1928: 12,2°C
- 1929: 12,4°C
- 1930: 12,6°C
- 1931: 12,3°C
- 1932: 12,5°C
- 1933: 12,2°C
- 1934: 12,4°C
- 1935: 12,6°C
- 1936: 12,3°C
- 1937: 12,5°C
- 1938: 12,2°C
- 1939: 12,4°C
- 1940: 12,6°C
- 1941: 12,3°C
- 1942: 12,5°C
- 1943: 12,2°C
- 1944: 12,4°C
- 1945: 12,6°C
- 1946: 12,3°C
- 1947: 12,5°C
- 1948: 12,2°C
- 1949: 12,4°C
- 1950: 12,6°C
- 1951: 12,3°C
- 1952: 12,5°C
- 1953: 12,2°C
- 1954: 12,4°C
- 1955: 12,6°C
- 1956: 12,3°C
- 1957: 12,5°C
- 1958: 12,2°C
- 1959: 12,4°C
- 1960: 12,6°C
- 1961: 12,3°C
- 1962: 12,5°C
- 1963: 12,2°C
- 1964: 12,4°C
- 1965: 12,6°C
- 1966: 12,3°C
- 1967: 12,5°C
- 1968: 12,2°C
- 1969: 12,4°C
- 1970: 12,6°C
- 1971: 12,3°C
- 1972: 12,5°C
- 1973: 12,2°C
- 1974: 12,4°C
- 1975: 12,6°C
- 1976: 12,3°C
- 1977: 12,5°C
- 1978: 12,2°C
- 1979: 12,4°C
- 1980: 12,6°C
- 1981: 12,3°C
- 1982: 12,5°C
- 1983: 12,2°C
- 1984: 12,4°C
- 1985: 12,6°C
- 1986: 12,3°C
- 1987: 12,5°C
- 1988: 12,2°C
- 1989: 12,4°C
- 1990: 12,6°C
- 1991: 12,3°C
- 1992: 12,5°C
- 1993: 12,2°C
- 1994: 12,4°C
- 1995: 12,6°C
- 1996: 12,3°C
- 1997: 12,5°C
- 1998: 12,2°C
- 1999: 12,4°C
- 2000: 12,6°C
- 2001: 12,3°C
- 2002: 12,5°C
- 2003: 12,2°C
- 2004: 12,4°C
- 2005: 12,6°C
- 2006: 12,3°C
- 2007: 12,5°C
- 2008: 12,2°C
- 2009: 12,4°C
- 2010: 12,6°C
- 2011: 12,3°C
- 2012: 12,5°C
- 2013: 12,2°C
- 2014: 12,4°C
- 2015: 12,6°C
- 2016: 12,3°C
- 2017: 12,5°C
- 2018: 12,2°C
- 2019: 12,4°C
- 2020: 12,6°C
Nota: I dati sono basati su fonti disponibili e potrebbero non essere aggiornati o completi. Inoltre, la temperatura media può variare a seconda della fonte e del metodo di calcolo utilizzato.
Fonte: Dati storici della temperatura media in Italia dal 1800 al 2020, basati su dati dell’Organizzazione Meteorologica Mondiale (OMM), dell’Istituto Superiore per la Protezione e la Ricerca Ambientale (ISPRA) e di altre fonti storiche.
non si capisce niente!
Forse ho spiegato male.. se posso aiutarti fammi sapere