PythonでpyPDFを使用する方法
PythonでPDFを操作する方法
Pythonで既存のPDFファイルを操作するには、PyPDF2パッケージを使用することができます。PyPDF2は、さまざまな種類のPDF操作に使用できる純粋なPythonパッケージです。
この記事では、Pythonで以下の操作を行う方法を詳しく説明します。
- PDFからドキュメント情報を抽出する方法
- ページを回転させる方法
- PDFを結合する方法
- PDFを分割する方法
- ウォーターマークを追加する方法
- PDFを暗号化する方法
それでは、始めましょう!
pyPdf、PyPDF2、PyPDF4の歴史
最初のpyPdfパッケージは、2005年にリリースされました。最後の公式リリースは2010年でした。その約1年後、Phasitという会社がpyPdfのフォークであるPyPDF2をスポンサードしました。PyPDF2は、元のpyPdfとの互換性を維持するように書かれ、2016年まで非常にうまく機能しました。
PyPDF2の後継であるPyPDF3というパッケージが一時的にリリースされ、その後、プロジェクトはPyPDF4に改名されました。これらのプロジェクトはほぼ同じことを行いますが、pyPdfとPyPDF2+の最大の違いは、後者のバージョンにPython 3のサポートが追加されたことです。Python 3向けの別のpyPdfのフォークもありますが、それは長い間メンテナンスされていません。
PyPDF2は2016年に放棄されましたが、2022年に復活し、現在も積極的にメンテナンスされています。PyPDF4はPyPDF2と完全な下位互換性を持っていません。この記事のほとんどの例はPyPDF4でも問題なく動作しますが、一部は動作しないものもあります。そのため、PyPDF2の代わりにPyPDF4のインポートを使用して試してみることができます。
代替となるpdfrw
Patrick Maupinはpdfrwというパッケージを作成しました。pdfrwはPyPDF2と同じようなことができます。この記事でPyPDF2で学ぶことと同じ種類のタスクについて、pdfrwを使用することができます。ただし、暗号化については対応していません。
pdfrwの最大の違いは、ReportLabパッケージと統合されていることです。これにより、既存のPDFを使用して、一部またはすべての既存のPDFを使用して新しいPDFを作成することができます。
インストール方法
PyPDF2をインストールするには、通常のPythonを使用している場合はpipまたはcondaを使用することができます。Anacondaを使用している場合は、condaを使用することもできます。
pipを使用してPyPDF2をインストールする方法は次のとおりです。
PyPDF2には依存関係がないため、インストールは非常に迅速です。パッケージをダウンロードする時間と同じくらいしかかかりません。
さらに詳しい情報や、ステップバイステップのサンプルコードを含んだ内容は以下のリンクから参照してください。
【リンク省略】