Python
の filter()
関数は、リストやタプルといったイテラブルから、指定した条件に合う要素を効率的に抽出するための便利な組み込み関数です。データの中から特定の条件を満たす要素だけを取り出したい場合に、 filter()
を使うと、シンプルで読みやすいコードを書けます。この記事では、 filter()
の使い方やリスト内包表記との違い、実際の応用例について詳しく解説します。
filter()関数とは?
filter()
関数は、イテラブル(リストやタプルなど)の各要素に対して指定された関数を適用し、条件を満たす要素のみを抽出します。抽出された要素は イテレータ として返され、必要に応じてリストやタプルに変換できます。
基本的な構文
filter(function, iterable)
- function:各要素に対して適用する関数。この関数は真偽値を返す必要があります。
- iterable:フィルタをかけたいリスト、タプル、セットなどのイテラブル。
filter()
は、指定された関数がTrue
を返した要素のみを抽出し、イテレータとして返します。
filter()の使用例
偶数だけを抽出する例
まず、基本的な使用例として、リストから 偶数 だけを抽出する例を見てみましょう。
# 偶数判定関数
def is_even(n):
return n % 2 == 0
numbers = [1, 2, 3, 4, 5, 6]
even_numbers = filter(is_even, numbers)
print(list(even_numbers)) # 出力: [2, 4, 6]
ここでは、is_even()
関数が各要素に対して適用され、True
を返した要素(偶数)のみが filter()
によって抽出されます。
無名関数(lambda)を使う
短い関数であれば、lambda
(無名関数)を使うことで、コードをさらに簡潔にできます。
numbers = [1, 2, 3, 4, 5, 6]
even_numbers = filter(lambda x: x % 2 == 0, numbers)
print(list(even_numbers)) # 出力: [2, 4, 6]
lambda
関数を使うことで、is_even()
のような別途定義する関数が不要になり、シンプルに記述できます。
複雑な条件でフィルタリングする例
filter()
を使えば、より複雑な条件でフィルタリングすることも可能です。たとえば、リストから 3以上の偶数 を抽出したい場合は次のようにします。
numbers = [1, 2, 3, 4, 5, 6, 7, 8]
filtered_numbers = filter(lambda x: x % 2 == 0 and x >= 3, numbers)
print(list(filtered_numbers)) # 出力: [4, 6, 8]
ここでは、lambda
関数の中で複数の条件(偶数かつ3以上)を設定しています。
filter()の結果をリストやタプルに変換する
filter()
の結果はイテレータとして返されるため、直接リストやタプルのようなコレクション型に変換する必要があります。
リストに変換する
numbers = [1, 2, 3, 4, 5, 6]
even_numbers = list(filter(lambda x: x % 2 == 0, numbers))
print(even_numbers) # 出力: [2, 4, 6]
list()
関数を使うことで、filter()
の結果をリストに変換できます。
タプルに変換する
同様に、tuple()
関数を使えば、結果をタプルに変換できます。
numbers = [1, 2, 3, 4, 5, 6]
even_numbers = tuple(filter(lambda x: x % 2 == 0, numbers))
print(even_numbers) # 出力: (2, 4, 6)
filter()とリスト内包表記の比較
Python
には、 リスト内包表記 というシンプルな構文でリストのフィルタリングを行う方法もあります。filter()
とリスト内包表記は、どちらも条件に基づいて要素を抽出できますが、それぞれの違いがあります。
リスト内包表記を使ったフィルタリング
numbers = [1, 2, 3, 4, 5, 6]
even_numbers = [x for x in numbers if x % 2 == 0]
print(even_numbers) # 出力: [2, 4, 6]
リスト内包表記は、リストの作成と条件に合う要素の抽出を一行で行うことができ、filter()
よりも簡潔に書けることがあります。
違い
- メモリ使用量:
filter()
はイテレータを返すため、大規模なデータセットを扱う際にメモリ効率が良いです。一方、リスト内包表記は最初からリストを返すため、大きなリストを作成するとメモリを多く消費する可能性があります。 - 可読性:リスト内包表記は、シンプルな条件ならば
filter()
よりも可読性が高い場合があります。ただし、複雑な条件の場合はfilter()
とlambda
関数を組み合わせた方がわかりやすくなることもあります。
filter()の応用例
文字列のフィルタリング
次に、文字列のリストから特定のパターンを持つ文字列だけを抽出する例を見てみましょう。
words = ["apple", "banana", "cherry", "date"]
filtered_words = filter(lambda word: "a" in word, words)
print(list(filtered_words)) # 出力: ['apple', 'banana', 'date']
この例では、"a"
を含む単語のみをフィルタリングしています。
Noneを使ったフィルタリング
filter()
に None
を渡すと、 True
と評価される要素だけを抽出することができます。たとえば、リストから None
や空文字列、False
などの 偽の値 を除去することが可能です。
items = [0, 1, None, 2, "", 3, False, 4]
filtered_items = filter(None, items)
print(list(filtered_items)) # 出力: [1, 2, 3, 4]
このように、filter(None, iterable)
という形式で使うと、リスト内の有効な値だけを残すことができます。
辞書のフィルタリング
filter()
を使って、辞書のキーや値を条件に応じてフィルタリングすることも可能です。たとえば、値が特定の条件を満たすキーだけを抽出したい場合、次のように記述できます。
scores = {'Alice': 85, 'Bob': 75, 'Charlie': 95, 'David': 65}
# 80点以上のスコアを持つ生徒を抽出
filtered_scores = filter(lambda item: item[1] >= 80, scores.items())
print(dict(filtered_scores)) # 出力: {'Alice': 85, 'Charlie': 95}
この例では、scores.items()
で辞書のキーと値のペアを取得し、lambda
関数を使って80点以上のスコアを持つ要素だけをフィルタリングしています。
まとめ
Python
の filter()
関数は、リストやタプルなどのイテラブルから特定の条件を満たす要素を効率的に抽出する便利なツールです。lambda
関数を使って複雑な条件を指定したり、リスト内包表記と使い分けることで、状況に応じて柔軟なフィルタリングが可能です。また、filter()
の結果はイテレータとして返されるため、メモリ効率が良く、大規模なデータ処理にも適しています。
必要に応じてリストやタプルに変換することができ、シンプルな条件から複雑なフィルタリングまで幅広く活用できる filter()
を使いこなして、Pythonでのデータ操作を効率化してみてください。