Jupytextしたい(jupytext

// notebooksをmarkdownに変換
$ jupytext --set-formats ipynb,md:myst ファイル.ipynb
$ jupytext --sync ファイル.ipynb
$ jupytext --sync ファイル.md

jupytextでノートブック(.ipynb)をテキスト形式(.py.md)のファイルに変換/ペアリングできます。 ノートブックの使い勝手を保ちつつ、 Gitなどのバージョン管理ツールでの運用を快適にするためのツールです。

注釈

Pythonのコーディングをするときにノートブックは欠かせません。 しかし、ノートブックの中身はJSON形式であるため、Gitで管理していてもその差分の確認は(人間には)とても難解です。 マージコンフリクトが生じたときの修正は、とてもとても大変です。

また、実行結果に図などが含まれたままにしておくと、ipynb形式のファイルはすぐに肥大化してしまいます。 ある程度のサイズになると、Git LFSに追加する必要がでてきます。

Jupytextは、そのような課題を解決してくれます。

インストールしたい(jupytext

  • pipxでインストール

$ pipx install jupytext
  • poetryでインストール

$ poetry add jupytext --group=dev
  • uvでインストール

$ uv tool install jupytext

双方向に同期したい(--set-formats

$ jupytext --set-formats ipynb,md:myst ファイル.ipynb
[jupytext] Reading ファイル.ipynb in format ipynb
[jupytext] Updating notebook metadata with '{"jupytext": {"formats": "ipynb,md:myst"}}'
[jupytext] Updating ファイル.ipynb
[jupytext] Updating ファイル.md

--set-formatsオプションで形式を指定することで、 ファイルとファイルをペアリングし、双方向に同期できます。

上記サンプルではipynb形式のノートブックと md:myst形式のテキストファイルをペアリングしています。

片方向に変換したい(--to / --from

// .ipynbから.mdに変換
$ jupytext --to md:myst ファイル名.ipynb

// .ipynbから.pyに変換
$ jupytext --to py:percent ファイル名.ipynb

指定したフォーマットに変換できる --to フォーマット(や--from フォーマット)オプションもあります。 このオプションはただの変換するだけで、ファイル間のペアリングはされません。 Jupytextを使うのであれば--set-formatsオプションを使えばよいと思います。

ディレクトリ分割したい

$ jupytext --set-formats notebooks//ipynb,markdowns//md:myst notebooks/*.ipynb

ノートブック用、Markdown用、スクリプト用に ディレクトリを分割したまま、ペアリングすることもできます。

参考

僕はノートブックは機能の確認や単体テスト用に作成することが多く、とりあえずnotebooksという専用のディレクトリの中で管理することにしています。 この中に同名の.mdファイルなどが作成されると、ファイルを開くときに難儀します。 なので、Jupytextで連携したファイルたちはディレクトリを分割して管理することにしています。

同期したい(--sync

$ jupytext --sync ファイル.ipynb
[jupytext] Reading ファイル.ipynb in format ipynb
[jupytext] Loading ファイル.md
[jupytext] Unchanged ファイル.ipynb
[jupytext] Updating ファイル.md

--syncオプションでファイル間の同期をとることができます。 ペアリングしたファイルであれば、どのファイルを編集してもOKです。

全体設定したい(jupytext.toml

 1# ペアリングの設定
 2# ディレクトリを分割して連携
 3[formats]
 4"notebooks/" = "ipynb"
 5"markdowns/" = "md:myst"
 6"scripts/" = "py:light"
 7
 8# ノートブックのメタデータの設定
 9notebook_metadata_filter = ""
10
11# セルのメタデータの設定
12cell_metadata_filter = ""

jupytext.tomlに、プロジェクト単位のJupytextの全体設定を記述できます。 この設定ファイルはプロジェクトルートに配置します。 もしくはpyproject.toml[tool.jupytext]セクションに記述します。

notebook_metadata_filterで、 ノートブックのメタデータに残す情報を設定できます。 cell_metadata_filterで セルのメタデータに残す情報を設定できます。

それぞれを空文字列("")にすることで、すべてのメタデータを除去できます。 Gitで管理するときに最適です。

Markdownフォーマット

  • md: 標準的なMarkdown形式

  • md:myst: MyST Markdown形式。Sphinxとの連携向き

  • Rmd: R Markdown形式

  • qmd: Quarto形式

Pythonフォーマット

  • py:percent: パーセント形式。# %%でセルを区切る形式

  • py:light: ライト形式

  • py:hydrogen: Hydrogen形式

Notebookフォーマット

  • ipynb: Jupyter Notebook形式

メタデータしたい(notebook_metadata_filter / cell_metadata_filter

1# デフォルト値
2notebook_metadata_filter="kernelspec,jupytext"
3cell_metadata_filter="all,-autoscroll,-collapsed,-scrolled,-trusted,-ExecuteTime"

notebook_metadata_filtercell_metadata_filterで メタデータの扱い方を設定できます。 デフォルト値は上記のように設定されています。 除外する項目は先頭に-(マイナス)をつけます。

注釈

メタデータフィルターの設定は、記述する順序の影響を受けません。 読みやすさを優先して記述して大丈夫です。

1# Markdownを中心とする推奨設定
2notebook_metadata_filter = "jupytext,-kernelspec,-jupytext.text_representation"
3cell_metadata_filter = "-all"

Markdownを中心にGit管理する場合の推奨設定です。 メタデータを最小限にすることで、差分を確認しやすくなります。

Notebookのメタデータ

  • jupytext: Jupytext固有の設定情報。ファイル形式の同期設定などが含まれます。

  • kernelspec: Kernel情報。除外してOK

  • language_info: 言語情報

  • widgets: Widgetの設定

  • varInspector: Variable Inspectorの設定

Cellのメタデータ

  • ExecuteTime: 実行時刻(デフォルト除外)

  • autoscroll: 自動スクロール(デフォルト除外)

  • collapsed: セルの折りたたみ(デフォルト除外)

  • scrolled: スクロール状態(デフォルト除外)

  • trusted: 信頼状態(デフォルト除外)

  • hide_input / hide_output: 表示制御

コミットフックしたい

# .pre-commit-config.yaml
repos:
- repo: ...
- repo: https://github.com/mwouts/jupytext
  rev: v1.16.4b
  hooks:
  - id: jupytext
    args: [--sync]

pre-commit-hookも用意されています。 .pre-commit-config.yamlに追加することで、 コミット直前に自動的にファイル間の同期をとることができます。

リファレンス