multiprocessingモジュールは何に使われますか？

multiprocessingモジュールは、Pythonで並列処理を行うために使われ、複数のプロセスを生成してCPUのマルチコアを活用することができます。

multiprocessingとマルチスレッドの違いは何ですか？

マルチスレッドは同じプロセス内でスレッドを並行実行しますが、multiprocessingはプロセスごとにメモリ空間が分かれており、PythonのGILの影響を受けないため、CPUバウンドな処理に適しています。

Pythonで並列処理を使うとどんな利点がありますか？

並列処理を使うことで、CPUバウンドなタスクを高速化でき、複数のプロセスが同時に実行されるため、マルチコアCPUの能力を最大限に引き出すことが可能です。

【Python】multiprocessing - 並列処理について

multiprocessingモジュールとは？

Pythonはシングルスレッドで動作する場合、グローバルインタープリタロック（GIL）によってマルチコアCPUを十分に活用できないという制約があります。特にCPUバウンドな処理では、GILの制約を回避し、マルチコアの力をフルに活用するためには並列処理が必要です。Python標準ライブラリのmultiprocessingモジュールは、この並列処理を簡単に実装するための強力なツールを提供します。 multiprocessingモジュールは、マルチプロセスを用いて複数のプロセスを生成し、並列にタスクを実行するための方法を提供します。このモジュールは、プロセスごとに独立したメモリ空間を持ち、GILの影響を受けないため、CPUバウンドな処理に適しています。

マルチスレッドとマルチプロセスの違い

まず、並列処理を理解する上で、マルチスレッドとマルチプロセスの違いを整理しておきましょう。

マルチスレッド
同じプロセス内で複数のスレッドを実行し、並行して動作しますが、PythonではGILにより同時に1つのスレッドしか動作できないため、CPUバウンドなタスクの並列処理にはあまり適していません。
マルチプロセス
各プロセスが独立したメモリ空間を持ち、並列に動作します。multiprocessingモジュールでは、複数のプロセスを生成し、各プロセスが独立して実行されるため、GILの影響を受けずにマルチコアCPUをフル活用できます。

マルチプロセスの利点

GILの制約を回避できる
各プロセスは独自のPythonインタプリタを持つため、GILの影響を受けずに並列に動作します。
CPUバウンドなタスクの高速化
計算量の多い処理（数値計算、画像処理など）では、複数のプロセスを使って並列に計算を行うことで、処理速度を大幅に改善できます。

multiprocessingモジュールの基本的な使い方

それでは、multiprocessingモジュールを使って並列処理を実装する基本的な方法を見ていきます。

プロセスの作成と実行

まずは、multiprocessing.Processを使ってプロセスを生成し、実行する方法です。次の例では、複数のプロセスを作成し、それぞれが独立して動作します。

import multiprocessing
import time
def worker(num):
    """別プロセスで実行される関数"""
    print(f"Worker {num} started")
    time.sleep(2)
    print(f"Worker {num} finished")
if __name__ == '__main__':
    # 5つのプロセスを生成
    processes = []
    for i in range(5):
        p = multiprocessing.Process(target=worker, args=(i,))
        processes.append(p)
        p.start()
    # すべてのプロセスが終了するのを待つ
    for p in processes:
        p.join()
    print("すべてのプロセスが終了しました")

解説

multiprocessing.Process
Processクラスは、新しいプロセスを作成します。target引数にはプロセス内で実行したい関数を指定し、argsにはその関数に渡す引数を指定します。
start()
start()メソッドを呼び出すことで、プロセスが開始されます。
join()
join()メソッドは、プロセスが終了するまで待機します。このメソッドを呼び出さないと、親プロセスが先に終了してしまう可能性があります。上記の例では、5つのプロセスが並列にworker関数を実行します。それぞれのプロセスが2秒間スリープし、その後終了します。join()によってすべてのプロセスが終了するまで待機するため、最終的に「すべてのプロセスが終了しました」というメッセージが表示されます。

プロセス間のデータ共有

multiprocessingモジュールでは、プロセス間でデータを共有するための仕組みも提供されています。共有メモリやQueue、Pipeを使うことで、プロセス間で安全にデータをやり取りできます。

Queueを使ったプロセス間通信

multiprocessing.Queueは、プロセス間でデータをやり取りするためのスレッドセーフなキューです。次の例では、親プロセスから子プロセスにデータを送り、処理結果を受け取ります。

import multiprocessing
def worker(q):
    """キューから値を取得して処理"""
    while True:
        item = q.get()
        if item is None:
            break
        print(f"Processing {item}")
        q.task_done()
if __name__ == '__main__':
    queue = multiprocessing.JoinableQueue()
    # プロセスを作成
    p = multiprocessing.Process(target=worker, args=(queue,))
    p.start()
    # キューにデータを追加
    for i in range(5):
        queue.put(i)
    # 処理終了のためのマーカーとしてNoneを送信
    queue.put(None)
    # すべてのタスクが完了するのを待機
    queue.join()
    # プロセス終了
    p.join()
    print("処理完了")

解説

Queueの使用
multiprocessing.Queueはプロセス間でデータを安全にやり取りするためのキューで、put()でデータをキューに入れ、get()でキューから取り出します。
終了マーカーとしてのNone
ここでは、Noneをキューに入れることで、プロセスに終了を通知しています。Noneを受け取ったプロセスはbreakでループを抜け、処理を終了します。
JoinableQueue
JoinableQueueは、キューに入れたタスクがすべて完了するまで待機するためのメソッドtask_done()やjoin()を提供します。

Poolを使った並列処理の簡略化

multiprocessing.Poolは、複数のプロセスで同時に関数を適用できる機能を提供します。Poolを使うと、並列処理をより簡単に実装できます。

import multiprocessing
def square(x):
    return x * x
if __name__ == '__main__':
    with multiprocessing.Pool(4) as pool:
        results = pool.map(square, [1, 2, 3, 4, 5])
    print(results)  # -> [1, 4, 9, 16, 25]

解説

Pool.map()
map()メソッドは、リストの各要素に対して指定した関数を並列で適用し、その結果をリストとして返します。この場合、square()関数が並列に実行され、各要素を2乗しています。
プロセス数の指定
Pool(4)のように、4つのプロセスを使って並列処理を行います。CPUのコア数に応じてプロセス数を調整することで、効率的な並列処理を実現できます。
コンテキストマネージャ
with文を使ってPoolを管理することで、close()やjoin()の呼び出しを自動で処理し、リソース管理をシンプルに行います。

並列処理を使う際の注意点

CPUバウンド vs I/Oバウンド
並列処理が最も効果を発揮するのは、計算リソースを多く消費するCPUバウンドなタスクです。一方で、ネットワークやファイル入出力のようなI/Oバウンドなタスクの場合、asyncioやマルチスレッドの方が効果的な場合があります。
プロセス間のオーバーヘッド
プロセス間でデータをやり取りする際、データのシリアライズやデシリアライズが必要になるため、プロセス間通信には一定のオーバーヘッドが発生します。大量のデータをやり取りする場合、このオーバーヘッドに注意する必要があります。
Windowsでの注意点
Windowsでは、プロセスの生成方法が異なるため、if __name__ == '__main__':でメインブロックを囲む必要があります。これを怠ると、無限にプロセスが生成される問題が発生します。

まとめ

Pythonのmultiprocessingモジュールは、GILの制約を回避してCPUバウンドな処理を効率的に並列化するための強力なツールです。ProcessクラスやPool、Queueを活用することで、複数のプロセスを用いた並列処理を簡単に実装できます。特に、計算量の多いタスクやマルチコアCPUを最大限に活用したい場合には、multiprocessingモジュールを使うことでパフォーマンスを大幅に向上させることができます。

今回学んだ主なポイント

multiprocessingの基本: Processクラスを使ってプロセスを生成し、並列にタスクを実行する方法を紹介しました。
プロセス間通信: Queueを使ってプロセス間でデータを安全にやり取りし、複数のプロセスを協調させる方法を学びました。
Poolによる並列処理の簡略化: Pool.map()を使って、リストの要素に対して並列に処理を適用することで、シンプルかつ効率的な並列処理を実現しました。
GILの回避: multiprocessingモジュールを使うことで、PythonのGIL（グローバルインタープリタロック）による制約を回避し、CPUバウンドなタスクのパフォーマンスを最大限に引き出せることを確認しました。

並列処理の適用領域

CPUバウンドなタスク: 複雑な計算処理やデータ解析、画像処理など、CPUリソースを大量に消費するタスクに適しています。
非同期I/Oタスク: ネットワークやファイル操作などのI/Oバウンドなタスクの場合、asyncioやthreadingモジュールがより適しています。

multiprocessingを正しく活用することで、PythonのマルチコアCPUの能力を引き出し、複雑な計算処理を高速化できます。今後、より大規模なシステム開発やデータ処理プロジェクトにおいて、この技術を活かして効率的な並列処理を実現してください。

参照:

Python公式ドキュメント - multiprocessing