deduplicate is slow #617

jovan-stojanovic · 2023-06-23T13:31:02Z

Describe the bug

deduplicate function is very slow even on relatively small datasets.

Steps/Code to Reproduce

from skrub.datasets import make_deduplication_data
from skrub import deduplicate

duplicated = make_deduplication_data(examples=['black', 'white', 'red', 'blue', 'green'], entries_per_example=[500, 500, 500, 500, 500], prob_mistake_per_letter=0.3)

deduplicate(duplicated)

Expected Results

Faster results with parallelization, there are some for loops that are not optimal

Actual Results

Slow, takes ~4 minutes on my laptop for the example above.

Versions

Current unreleased version

The text was updated successfully, but these errors were encountered:

jovan-stojanovic added the bug Something isn't working label Jun 23, 2023

jovan-stojanovic mentioned this issue Jun 23, 2023

FEA Parallelize deduplicate function #618

Merged

GaelVaroquaux closed this as completed in #618 Jul 18, 2023

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

deduplicate is slow #617

deduplicate is slow #617

jovan-stojanovic commented Jun 23, 2023

deduplicate is slow #617

deduplicate is slow #617

Comments

jovan-stojanovic commented Jun 23, 2023

Describe the bug

Steps/Code to Reproduce

Expected Results

Actual Results

Versions