Как да извлечете текст от PDF документ
Извлечете текста, като използвате Acrobat Reader
Стъпка 1
Отворете файла в Acrobat Reader. В Windows изберете "Файл -> Експортиране на текстов документ", наименувайте документа и го запишете.
Стъпка 2
В операционна система Mac или Linux копирайте текста, като отворите менюто "Преглед" и изберете "Непрекъснато" или "Непрекъснато ориентиране". (Първата опция ще ви даде текста в една колона, а втората опция ще форматира текста като странични страници). Отворете "Редактиране -> Избор на всички" и след това "Редактиране -> Копиране".
Стъпка 3
Използвайте инструмента за избор, ако искате само да извлечете част от текста. Кликнете върху инструмента "Избиране на текст" и след това изберете желаната от Вас информация. В документ с формат на няколко колони ще трябва да използвате първия инструмент "Избор на колона". Отидете на "Редактиране -> Копиране"
Конвертиране на PDF в HTML
Стъпка 1
Използвайте Gmail като пряк път. Прикачете PDF файла към имейл и го изпратете в своя Gmail акаунт. Когато отворите имейла, ще видите серия от опции до прикачения файл. Изберете опцията "Преглед като HTML" и запазете файла, който се отваря в отделен прозорец. Въпреки че няма да можете да видите графиките, HTML файлът запазва формата на текстовия документ.
Стъпка 2
Извличане и конвертиране на файловете в командния ред. Потребителите на Linux могат да използват основна команда за преобразуване, която ще промени .pdf файла в .txt файл: "Pdftotext filename.pdf". Не забравяйте да промените името на файла с името на PDF файла.
Стъпка 3
Изтеглете програма за преобразуване на PDF текст. Има редица програми с отворен код и безплатни програми, като PDFBox и Easy PDF to Text Converter. Много от тези програми също могат да конвертират PDF файлове в HTML.