whycomputer.com >> Rangkaian komputer >  >> Perisian

Cara Mengekstrak Teks dari dokumen PDF

Sangat sukar untuk mencuba mengekstrak teks dari fail PDF untuk digunakan dalam aplikasi lain. Tidak jarang grafik dapat menghalangi atau susun atur dokumen sehingga menyukarkan ujian dipindahkan dalam ayat yang bermakna. Walaupun tidak mustahil untuk mengekstrak teks dengan pendekatan copy-paste, ini boleh memakan masa dan tidak membenarkan teks fail PDF dieksport sebagai format yang berbeza. Disana ada, namun, beberapa cara untuk mengekstrak teks dari fail PDF.

Ekstrak Teks Menggunakan Acrobat Reader

Langkah 1

Buka fail di Acrobat Reader. Di Windows, pilih "Fail -> Eksport Dokumen ke Teks, "beri nama dokumen dan simpannya.

Langkah 2

Salin teks pada Mac atau Linux OS dengan mengakses menu View dan memilih "Continuous" atau "Continuous-Facing." (Yang pertama akan memberi anda teks dalam satu lajur, sementara yang terakhir akan memformat teks sebagai halaman bersebelahan.) Pergi ke "Edit -> Pilih Semua "dan kemudian" Edit -> Salinan."

Gunakan alat Pilih jika anda hanya ingin mengekstrak sebahagian teks. Klik pada alat "Pilih Teks" dan kemudian pilih maklumat yang anda mahukan. Dalam dokumen yang diformat dalam beberapa lajur, anda mesti menggunakan alat "Pilih Lajur" terlebih dahulu. Pergi ke "Edit -> Salinan."

Tukar PDF ke HTML

Langkah 1

Gunakan Gmail sebagai jalan pintas. Lampirkan fail PDF ke e-mel dan hantarkan ke akaun Gmail anda. Apabila anda membuka e-mel, anda akan melihat sejumlah pilihan di sebelah lampiran. Pilih "Lihat sebagai HTML" dan simpan fail yang dibuka di tetingkap yang berasingan. Walaupun anda tidak dapat melihat grafik, fail HTML akan mengekalkan format teks dokumen.

Langkah 2

Ekstrak dan tukar fail pada baris arahan. Pengguna Linux dapat menggunakan perintah penukaran asas yang akan mengubah file .pdf menjadi file .txt:"pdftotext filename.pdf." Pastikan untuk mengganti nama fail dengan nama fail PDF.

Muat turun program penukaran PDF ke teks. Terdapat sejumlah program sumber terbuka dan perisian percuma yang tersedia seperti PDFBox dan Easy PDF to Text Converter (lihat Sumber di bawah). Sebilangan besar program ini juga dapat menukar fail PDF ke HTML juga.

Petua

  • Tentukan sama ada dokumen itu diformat untuk mengandungi teks dan grafik. Pendekatan Adobe Acrobat hanya akan berfungsi jika fail PDF mengandungi kedua-duanya; ia tidak akan berfungsi untuk fail dengan gambar sahaja. Dalam beberapa kes, teks dalam dokumen PDF sebenarnya diformat sebagai gambar. Ini sering berlaku apabila dokumen asal diimbas dan fail PDF dibuat dari gambar yang diimbas.
  • Bersedia untuk memformat semula sebahagian teks semasa menggunakan Acrobat Reader. Cara pengekstrakan ini hanya mengeksport fail PDF ke fail teks - ia tidak akan dapat mengekalkan formatnya. Walau bagaimanapun, jika anda hanya perlu menggunakan kata-kata ini tidak seharusnya menjadi masalah.

Item yang anda perlukan

  • Fail PDF
  • Pembaca Adobe Acrobat
  • Akaun Gmail (pilihan)
  • Perisian penukaran PDF ke teks (pilihan)

URL:https://ms.whycomputer.com/perisian/1015000187.html

Perisian
  • Cara Membuat Dokumen Word ke dalam PDF

    Format Dokumen Mudah Alih Adobe dirancang untuk mengekalkan pemformatan dokumen tidak kira di mana ia dilihat atau dicetak. Microsoft Word tidak termasuk pilihan untuk membuat fail PDF secara lalai. Walau bagaimanapun, terdapat beberapa cara untuk membuat fail PDF dari dokumen Word atau menambahkan

  • Cara Menghapus Perlindungan Dari Fail PDF

    Sekiranya anda mempunyai fail PDF di komputer anda yang dilindungi sehingga anda tidak dapat membuka atau mengeditnya, anda perlu mengeluarkan perlindungan dari fail PDF tersebut. Sekiranya anda tidak membuat fail PDF pada asalnya, anda perlu menggunakan beberapa perisian pihak ketiga untuk membuang

  • Cara Mengeluarkan Bingkai Dari Dokumen Word Teks

    Bingkai teks dalam dokumen Microsoft Word digunakan untuk menanamkan fungsi dalam dokumen atau untuk penempatan blok teks tertentu. Kadang kala dokumen yang diimbas akan menghasilkan bingkai teks secara automatik apabila perisian pengecam watak menukar dokumen tersebut ke format MS Word. Mengeluarka

Rangkaian komputer © https://ms.whycomputer.com