Як скопіювати текст із будь-якого ПДФ-файлу - спосіб

Чи бувало у вас, що потрібно терміново скопіювати текст із PDF-файлу, але замість цього виділяється лише картинка? Таке трапляється, якщо документ створено шляхом сканування, а не збережено в текстовому форматі. На щастя, є способи перетворити такий PDF, зробивши текст доступним для копіювання та пошуку.

Як скопіювати текст у PDF-документі за допомогою OCRmyPDF

Сучасні програми для сканування використовують оптичне розпізнавання символів (OCR), щоб зробити текст доступним для пошуку і виділення, але іноді зустрічаються документи, де цього немає.

У таких випадках чудово підійде OCRmyPDF – безкоштовний і з відкритим вихідним кодом додаток, який додає OCR у PDF-документи. Це консольна утиліта, яка перетворює будь-який PDF-файл у PDF/A з підтримкою пошуку за текстом. І що найприємніше – програма повністю безкоштовна.

Встановити OCRmyPDF найпростіше через менеджер пакетів на пристроях з Linux і через Homebrew на Mac. Користувачі Windows також можуть встановити додаток, але для цього знадобиться Python і кілька додаткових залежностей – якщо готові трохи розібратися, то це можливо.

Після встановлення додатка ви можете використовувати його, набравши “ocrmypdf”, потім ім’я документа, до якого ви хочете додати OCR, і після цього ім’я документа, який ви хочете створити. Наприклад, команда “ocrmypdf before.pdf after.pdf” візьме файл “before.pdf”, додасть розпізнавання символів і створить новий документ під назвою “after.pdf”.

Обробка може зайняти деякий час, залежно від розміру документа. Якщо якість зображення низька, OCR може працювати не зовсім точно. Однак, навіть зі старими і погано стиснутими PDF-файлами програма показує хороші результати.

Додатково OCRmyPDF підтримує безліч корисних функцій:

Стиснення зображень усередині PDF можна ввімкнути, додавши прапор –pdfa-image-compression jpeg
Автоматичний поворот сторінок з бічним текстом виконується за допомогою –rotate-pages
Якщо в PDF вже є неякісний OCR, можна видалити його і виконати розпізнавання заново, додавши –redo-ocr

Докладний посібник із додатковими можливостями можна знайти в документації OCRmyPDF.

Джерело