Utilisation des flux WFS depuis R

R
géomatique

Un tutoriel rapide pour

Auteur·rice

Frédéric Grelot

Date de publication

10 décembre 2024

OCR, de quoi parle-t-on ?

OCR est l’acronympe pour optical character recognition. Il s’agit de reconnaître des caractères à partir de leur représentation graphique. L’idée est de pouvoir transformer en texte des images.

Utilisation avec R

Installation nécessaire

sudo apt install libpoppler-cpp-dev libtesseract-dev libleptonica-dev
sudo R -e "install.packages('magick')"
sudo R -e "install.packages('tesseract')"

Exemple d’utilisation

library(magick)
library(tesseract)
input = image_read("N_19900469-11_69-85.pdf") |>
    image_convert(type = 'Grayscale') |>
    image_deskew() |>
    image_resize("2000x") |>
    ocr()
write(input, 'sample.txt')
input = readLines("sample.txt")
Retour au sommet