Как да извлечете текст от PDF документ

Може да е много разочароващо да опитате да извлечете текста от PDF файл, за да го използвате в друго приложение.

Извлечете текста, като използвате Acrobat Reader

Стъпка 1

Отворете файла в Acrobat Reader. В Windows изберете "Файл -> Експортиране на текстов документ", наименувайте документа и го запишете.

Стъпка 2

В операционна система Mac или Linux копирайте текста, като отворите менюто "Преглед" и изберете "Непрекъснато" или "Непрекъснато ориентиране". (Първата опция ще ви даде текста в една колона, а втората опция ще форматира текста като странични страници). Отворете "Редактиране -> Избор на всички" и след това "Редактиране -> Копиране".

Стъпка 3

Използвайте инструмента за избор, ако искате само да извлечете част от текста. Кликнете върху инструмента "Избиране на текст" и след това изберете желаната от Вас информация. В документ с формат на няколко колони ще трябва да използвате първия инструмент "Избор на колона". Отидете на "Редактиране -> Копиране"

Конвертиране на PDF в HTML

Стъпка 1

Използвайте Gmail като пряк път. Прикачете PDF файла към имейл и го изпратете в своя Gmail акаунт. Когато отворите имейла, ще видите серия от опции до прикачения файл. Изберете опцията "Преглед като HTML" и запазете файла, който се отваря в отделен прозорец. Въпреки че няма да можете да видите графиките, HTML файлът запазва формата на текстовия документ.

Стъпка 2

Извличане и конвертиране на файловете в командния ред. Потребителите на Linux могат да използват основна команда за преобразуване, която ще промени .pdf файла в .txt файл: "Pdftotext filename.pdf". Не забравяйте да промените името на файла с името на PDF файла.

Стъпка 3

Изтеглете програма за преобразуване на PDF текст. Има редица програми с отворен код и безплатни програми, като PDFBox и Easy PDF to Text Converter. Много от тези програми също могат да конвертират PDF файлове в HTML.