コンテンツにスキップ

PythonでpyPDFを使用する方法

[

PythonでPDFを操作する方法

Pythonで既存のPDFファイルを操作するには、PyPDF2パッケージを使用することができます。PyPDF2は、さまざまな種類のPDF操作に使用できる純粋なPythonパッケージです。

この記事では、Pythonで以下の操作を行う方法を詳しく説明します。

  • PDFからドキュメント情報を抽出する方法
  • ページを回転させる方法
  • PDFを結合する方法
  • PDFを分割する方法
  • ウォーターマークを追加する方法
  • PDFを暗号化する方法

それでは、始めましょう!

pyPdfPyPDF2PyPDF4の歴史

最初のpyPdfパッケージは、2005年にリリースされました。最後の公式リリースは2010年でした。その約1年後、Phasitという会社がpyPdfのフォークであるPyPDF2をスポンサードしました。PyPDF2は、元のpyPdfとの互換性を維持するように書かれ、2016年まで非常にうまく機能しました。

PyPDF2の後継であるPyPDF3というパッケージが一時的にリリースされ、その後、プロジェクトはPyPDF4に改名されました。これらのプロジェクトはほぼ同じことを行いますが、pyPdfPyPDF2+の最大の違いは、後者のバージョンにPython 3のサポートが追加されたことです。Python 3向けの別のpyPdfのフォークもありますが、それは長い間メンテナンスされていません。

PyPDF2は2016年に放棄されましたが、2022年に復活し、現在も積極的にメンテナンスされています。PyPDF4PyPDF2と完全な下位互換性を持っていません。この記事のほとんどの例はPyPDF4でも問題なく動作しますが、一部は動作しないものもあります。そのため、PyPDF2の代わりにPyPDF4のインポートを使用して試してみることができます。

代替となるpdfrw

Patrick Maupinはpdfrwというパッケージを作成しました。pdfrwPyPDF2と同じようなことができます。この記事でPyPDF2で学ぶことと同じ種類のタスクについて、pdfrwを使用することができます。ただし、暗号化については対応していません。

pdfrwの最大の違いは、ReportLabパッケージと統合されていることです。これにより、既存のPDFを使用して、一部またはすべての既存のPDFを使用して新しいPDFを作成することができます。

インストール方法

PyPDF2をインストールするには、通常のPythonを使用している場合はpipまたはcondaを使用することができます。Anacondaを使用している場合は、condaを使用することもできます。

pipを使用してPyPDF2をインストールする方法は次のとおりです。

ターミナルウィンドウ
$ pip install pypdf2

PyPDF2には依存関係がないため、インストールは非常に迅速です。パッケージをダウンロードする時間と同じくらいしかかかりません。

さらに詳しい情報や、ステップバイステップのサンプルコードを含んだ内容は以下のリンクから参照してください。

【リンク省略】