Faster categorical column names selection #1

Neronuser · 2021-11-09T16:44:38Z

Change slow and redundant dataframe query by select_dtypes into a dataframe.dtypes list comprehension

import pandas as pd
import random
temp_df = pd.DataFrame({str(a):[random.random() for _ in range(100)] for a in range(200)})
temp_df[["100", "121", "115"]] = temp_df[["100", "121", "115"]].astype("category")

%timeit temp_df.select_dtypes("category").columns->23.1 ms ± 1.04 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

VS

%timeit [col for col, t in zip(temp_df.columns, temp_df.dtypes) if isinstance(t, CategoricalDtype)] ->167 µs ± 16.4 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

Change slow and redundant dataframe query by select_dtypes into a dataframe.dtypes list comprehension

Neronuser added 2 commits November 9, 2021 18:41

Faster categorical column names selection

da14662

Change slow and redundant dataframe query by select_dtypes into a dataframe.dtypes list comprehension

rename variable

8ee25d3

Neronuser merged commit 20ee631 into master Nov 9, 2021

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Faster categorical column names selection #1

Faster categorical column names selection #1

Neronuser commented Nov 9, 2021

Faster categorical column names selection #1

Faster categorical column names selection #1

Conversation

Neronuser commented Nov 9, 2021