sudo apt install libpoppler-cpp-dev libtesseract-dev libleptonica-dev
sudo R -e "install.packages('magick')"
sudo R -e "install.packages('tesseract')"
Utilisation des flux WFS depuis R
R
géomatique
Un tutoriel rapide pour
OCR, de quoi parle-t-on ?
OCR est l’acronympe pour optical character recognition. Il s’agit de reconnaître des caractères à partir de leur représentation graphique. L’idée est de pouvoir transformer en texte des images.
Utilisation avec R
Installation nécessaire
Exemple d’utilisation
library(magick)
library(tesseract)
= image_read("N_19900469-11_69-85.pdf") |>
input image_convert(type = 'Grayscale') |>
image_deskew() |>
image_resize("2000x") |>
ocr()
write(input, 'sample.txt')
= readLines("sample.txt") input