CUDA `vector_add` sample project #2160

ericniebler · 2024-08-01T02:00:38Z

Description

This adds a sample project for cudax, initially populated with the standard CUDA vector_add sample. We will morph this into something beautiful using cudax.

closes #2159

cudax/samples/vector_add/vector_add.cu

github-actions · 2024-08-01T03:18:35Z

🟨 CI finished in 1h 16m: Pass: 96%/56 | Total: 2h 42m | Avg: 2m 54s | Max: 11m 09s | Hits: 96%/2650

🟨 cudax: Pass: 96%/55 | Total: 2h 31m | Avg: 2m 45s | Max: 8m 32s | Hits: 96%/2650

🔍 cpu: amd64 🔍
  🔍 amd64              Pass:  96%/51  | Total:  2h 21m | Avg:  2m 46s | Max:  8m 32s | Hits:  96%/2450  
  🟩 arm64              Pass: 100%/4   | Total: 10m 17s | Avg:  2m 34s | Max:  3m 05s | Hits:  96%/200   
🚨 cxx_family: MSVC 🚨
  🟩 Clang              Pass: 100%/30  | Total:  1h 17m | Avg:  2m 34s | Max:  5m 52s | Hits:  98%/1500  
  🟩 GCC                Pass: 100%/22  | Total: 55m 07s | Avg:  2m 30s | Max:  5m 12s | Hits:  94%/1100  
  🟩 Intel              Pass: 100%/1   | Total:  2m 40s | Avg:  2m 40s | Max:  2m 40s | Hits:  96%/50    
  🔥 MSVC               Pass:   0%/2   | Total: 16m 28s | Avg:  8m 14s | Max:  8m 32s
🔍 jobs: Build 🔍
  🔍 Build              Pass:  95%/47  | Total:  1h 53m | Avg:  2m 25s | Max:  8m 32s | Hits:  96%/2250  
  🟩 Test               Pass: 100%/8   | Total: 37m 44s | Avg:  4m 43s | Max:  5m 52s | Hits:  97%/400   
🔍 std: 20 🔍
  🟩 17                 Pass: 100%/31  | Total:  1h 16m | Avg:  2m 28s | Max:  5m 52s | Hits:  95%/1550  
  🔍 20                 Pass:  91%/24  | Total:  1h 14m | Avg:  3m 06s | Max:  8m 32s | Hits:  97%/1100  
🟨 cxx
  🟩 Clang9             Pass: 100%/2   | Total:  4m 26s | Avg:  2m 13s | Max:  2m 14s | Hits:  97%/100   
  🟩 Clang10            Pass: 100%/2   | Total:  4m 07s | Avg:  2m 03s | Max:  2m 11s | Hits:  96%/100   
  🟩 Clang11            Pass: 100%/4   | Total:  8m 08s | Avg:  2m 02s | Max:  2m 13s | Hits:  98%/200   
  🟩 Clang12            Pass: 100%/4   | Total:  8m 29s | Avg:  2m 07s | Max:  2m 12s | Hits:  98%/200   
  🟩 Clang13            Pass: 100%/4   | Total:  8m 13s | Avg:  2m 03s | Max:  2m 10s | Hits:  98%/200   
  🟩 Clang14            Pass: 100%/6   | Total: 17m 44s | Avg:  2m 57s | Max:  4m 36s | Hits:  98%/300   
  🟩 Clang15            Pass: 100%/2   | Total:  4m 28s | Avg:  2m 14s | Max:  2m 16s | Hits:  98%/100   
  🟩 Clang16            Pass: 100%/6   | Total: 21m 34s | Avg:  3m 35s | Max:  5m 52s | Hits:  98%/300   
  🟩 GCC9               Pass: 100%/2   | Total:  4m 06s | Avg:  2m 03s | Max:  2m 06s | Hits:  92%/100   
  🟩 GCC10              Pass: 100%/4   | Total:  8m 20s | Avg:  2m 05s | Max:  2m 16s | Hits:  94%/200   
  🟩 GCC11              Pass: 100%/4   | Total:  7m 47s | Avg:  1m 56s | Max:  2m 03s | Hits:  94%/200   
  🟩 GCC12              Pass: 100%/12  | Total: 34m 54s | Avg:  2m 54s | Max:  5m 12s | Hits:  94%/600   
  🟩 Intel2023.2.0      Pass: 100%/1   | Total:  2m 40s | Avg:  2m 40s | Max:  2m 40s | Hits:  96%/50    
  🟥 MSVC14.36          Pass:   0%/1   | Total:  7m 56s | Avg:  7m 56s | Max:  7m 56s
  🟥 MSVC14.39          Pass:   0%/1   | Total:  8m 32s | Avg:  8m 32s | Max:  8m 32s
🟨 cudacxx_family
  🟨 nvcc               Pass:  96%/55  | Total:  2h 31m | Avg:  2m 45s | Max:  8m 32s | Hits:  96%/2650  
🟨 gpu
  🟨 v100               Pass:  96%/55  | Total:  2h 31m | Avg:  2m 45s | Max:  8m 32s | Hits:  96%/2650  
🟨 ctk
  🟨 12.0               Pass:  95%/23  | Total:  1h 03m | Avg:  2m 44s | Max:  7m 56s | Hits:  96%/1100  
  🟨 12.5               Pass:  96%/32  | Total:  1h 28m | Avg:  2m 45s | Max:  8m 32s | Hits:  96%/1550  
🟨 cudacxx
  🟨 nvcc12.0           Pass:  95%/23  | Total:  1h 03m | Avg:  2m 44s | Max:  7m 56s | Hits:  96%/1100  
  🟨 nvcc12.5           Pass:  96%/32  | Total:  1h 28m | Avg:  2m 45s | Max:  8m 32s | Hits:  96%/1550  
🟩 sm
  🟩 90                 Pass: 100%/1   | Total:  2m 10s | Avg:  2m 10s | Max:  2m 10s | Hits:  96%/50    
  🟩 90a                Pass: 100%/1   | Total:  2m 06s | Avg:  2m 06s | Max:  2m 06s | Hits:  94%/50

🟩 pycuda: Pass: 100%/1 | Total: 11m 09s | Avg: 11m 09s | Max: 11m 09s

🟩 cpu
  🟩 amd64              Pass: 100%/1   | Total: 11m 09s | Avg: 11m 09s | Max: 11m 09s
🟩 ctk
  🟩 12.5               Pass: 100%/1   | Total: 11m 09s | Avg: 11m 09s | Max: 11m 09s
🟩 cudacxx
  🟩 nvcc12.5           Pass: 100%/1   | Total: 11m 09s | Avg: 11m 09s | Max: 11m 09s
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/1   | Total: 11m 09s | Avg: 11m 09s | Max: 11m 09s
🟩 cxx
  🟩 GCC13              Pass: 100%/1   | Total: 11m 09s | Avg: 11m 09s | Max: 11m 09s
🟩 cxx_family
  🟩 GCC                Pass: 100%/1   | Total: 11m 09s | Avg: 11m 09s | Max: 11m 09s
🟩 gpu
  🟩 v100               Pass: 100%/1   | Total: 11m 09s | Avg: 11m 09s | Max: 11m 09s
🟩 jobs
  🟩 Test               Pass: 100%/1   | Total: 11m 09s | Avg: 11m 09s | Max: 11m 09s

👃 Inspect Changes

Modifications in project?

	Project
	CCCL Infrastructure
	libcu++
	CUB
	Thrust
+/-	CUDA Experimental
	pycuda

Modifications in project or dependencies?

	Project
	CCCL Infrastructure
	libcu++
	CUB
	Thrust
+/-	CUDA Experimental
+/-	pycuda

🏃‍ Runner counts (total jobs: 56)

#	Runner
41	`linux-amd64-cpu16`
9	`linux-amd64-gpu-v100-latest-1`
4	`linux-arm64-cpu16`
2	`windows-amd64-cpu16`

github-actions · 2024-08-02T00:41:59Z

🟨 CI finished in 4h 08m: Pass: 94%/56 | Total: 2h 37m | Avg: 2m 48s | Max: 12m 26s | Hits: 97%/2600

🟨 cudax: Pass: 94%/55 | Total: 2h 24m | Avg: 2m 37s | Max: 7m 51s | Hits: 97%/2600

🔍 cpu: amd64 🔍
  🔍 amd64              Pass:  94%/51  | Total:  2h 15m | Avg:  2m 39s | Max:  7m 51s | Hits:  97%/2400  
  🟩 arm64              Pass: 100%/4   | Total:  9m 26s | Avg:  2m 21s | Max:  2m 38s | Hits:  97%/200   
🟨 cxx
  🟩 Clang9             Pass: 100%/2   | Total:  3m 51s | Avg:  1m 55s | Max:  1m 58s | Hits:  98%/100   
  🟩 Clang10            Pass: 100%/2   | Total:  4m 22s | Avg:  2m 11s | Max:  2m 13s | Hits:  98%/100   
  🟩 Clang11            Pass: 100%/4   | Total:  8m 55s | Avg:  2m 13s | Max:  2m 29s | Hits:  99%/200   
  🟩 Clang12            Pass: 100%/4   | Total:  9m 27s | Avg:  2m 21s | Max:  3m 01s | Hits:  99%/200   
  🟩 Clang13            Pass: 100%/4   | Total:  8m 44s | Avg:  2m 11s | Max:  2m 16s | Hits:  99%/200   
  🟩 Clang14            Pass: 100%/6   | Total: 16m 44s | Avg:  2m 47s | Max:  4m 22s | Hits:  99%/300   
  🟩 Clang15            Pass: 100%/2   | Total:  4m 08s | Avg:  2m 04s | Max:  2m 05s | Hits:  99%/100   
  🟩 Clang16            Pass: 100%/6   | Total: 18m 27s | Avg:  3m 04s | Max:  4m 30s | Hits:  99%/300   
  🟩 GCC9               Pass: 100%/2   | Total:  3m 57s | Avg:  1m 58s | Max:  1m 59s | Hits:  94%/100   
  🟩 GCC10              Pass: 100%/4   | Total:  8m 52s | Avg:  2m 13s | Max:  2m 29s | Hits:  95%/200   
  🟩 GCC11              Pass: 100%/4   | Total:  8m 50s | Avg:  2m 12s | Max:  2m 29s | Hits:  95%/200   
  🟨 GCC12              Pass:  91%/12  | Total: 30m 46s | Avg:  2m 33s | Max:  3m 51s | Hits:  95%/550   
  🟩 Intel2023.2.0      Pass: 100%/1   | Total:  2m 46s | Avg:  2m 46s | Max:  2m 46s | Hits:  98%/50    
  🟥 MSVC14.36          Pass:   0%/1   | Total:  6m 57s | Avg:  6m 57s | Max:  6m 57s
  🟥 MSVC14.39          Pass:   0%/1   | Total:  7m 51s | Avg:  7m 51s | Max:  7m 51s
🟨 cxx_family
  🟩 Clang              Pass: 100%/30  | Total:  1h 14m | Avg:  2m 29s | Max:  4m 30s | Hits:  98%/1500  
  🟨 GCC                Pass:  95%/22  | Total: 52m 25s | Avg:  2m 22s | Max:  3m 51s | Hits:  94%/1050  
  🟩 Intel              Pass: 100%/1   | Total:  2m 46s | Avg:  2m 46s | Max:  2m 46s | Hits:  98%/50    
  🟥 MSVC               Pass:   0%/2   | Total: 14m 48s | Avg:  7m 24s | Max:  7m 51s
🟨 cudacxx_family
  🟨 nvcc               Pass:  94%/55  | Total:  2h 24m | Avg:  2m 37s | Max:  7m 51s | Hits:  97%/2600  
🟨 gpu
  🟨 v100               Pass:  94%/55  | Total:  2h 24m | Avg:  2m 37s | Max:  7m 51s | Hits:  97%/2600  
🟨 ctk
  🟨 12.0               Pass:  95%/23  | Total:  1h 02m | Avg:  2m 42s | Max:  6m 57s | Hits:  97%/1100  
  🟨 12.5               Pass:  93%/32  | Total:  1h 22m | Avg:  2m 34s | Max:  7m 51s | Hits:  97%/1500  
🟨 cudacxx
  🟨 nvcc12.0           Pass:  95%/23  | Total:  1h 02m | Avg:  2m 42s | Max:  6m 57s | Hits:  97%/1100  
  🟨 nvcc12.5           Pass:  93%/32  | Total:  1h 22m | Avg:  2m 34s | Max:  7m 51s | Hits:  97%/1500  
🟨 jobs
  🟨 Build              Pass:  95%/47  | Total:  1h 52m | Avg:  2m 23s | Max:  7m 51s | Hits:  97%/2250  
  🟨 Test               Pass:  87%/8   | Total: 32m 28s | Avg:  4m 03s | Max:  4m 30s | Hits:  97%/350   
🟩 sm
  🟩 90                 Pass: 100%/1   | Total:  1m 49s | Avg:  1m 49s | Max:  1m 49s | Hits:  94%/50    
  🟩 90a                Pass: 100%/1   | Total:  1m 53s | Avg:  1m 53s | Max:  1m 53s | Hits:  94%/50    
🟨 std
  🟨 17                 Pass:  96%/31  | Total:  1h 14m | Avg:  2m 24s | Max:  4m 30s | Hits:  97%/1500  
  🟨 20                 Pass:  91%/24  | Total:  1h 09m | Avg:  2m 54s | Max:  7m 51s | Hits:  97%/1100

🟩 pycuda: Pass: 100%/1 | Total: 12m 26s | Avg: 12m 26s | Max: 12m 26s

🟩 cpu
  🟩 amd64              Pass: 100%/1   | Total: 12m 26s | Avg: 12m 26s | Max: 12m 26s
🟩 ctk
  🟩 12.5               Pass: 100%/1   | Total: 12m 26s | Avg: 12m 26s | Max: 12m 26s
🟩 cudacxx
  🟩 nvcc12.5           Pass: 100%/1   | Total: 12m 26s | Avg: 12m 26s | Max: 12m 26s
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/1   | Total: 12m 26s | Avg: 12m 26s | Max: 12m 26s
🟩 cxx
  🟩 GCC13              Pass: 100%/1   | Total: 12m 26s | Avg: 12m 26s | Max: 12m 26s
🟩 cxx_family
  🟩 GCC                Pass: 100%/1   | Total: 12m 26s | Avg: 12m 26s | Max: 12m 26s
🟩 gpu
  🟩 v100               Pass: 100%/1   | Total: 12m 26s | Avg: 12m 26s | Max: 12m 26s
🟩 jobs
  🟩 Test               Pass: 100%/1   | Total: 12m 26s | Avg: 12m 26s | Max: 12m 26s

👃 Inspect Changes

Modifications in project?

	Project
	CCCL Infrastructure
	libcu++
	CUB
	Thrust
+/-	CUDA Experimental
	pycuda

Modifications in project or dependencies?

	Project
	CCCL Infrastructure
	libcu++
	CUB
	Thrust
+/-	CUDA Experimental
+/-	pycuda

🏃‍ Runner counts (total jobs: 56)

#	Runner
41	`linux-amd64-cpu16`
9	`linux-amd64-gpu-v100-latest-1`
4	`linux-arm64-cpu16`
2	`windows-amd64-cpu16`

github-actions · 2024-08-02T17:28:58Z

🟨 CI finished in 20h 55m: Pass: 96%/56 | Total: 2h 38m | Avg: 2m 49s | Max: 12m 26s | Hits: 97%/2650

🟨 cudax: Pass: 96%/55 | Total: 2h 25m | Avg: 2m 39s | Max: 8m 05s | Hits: 97%/2650

🔍 cpu: amd64 🔍
  🔍 amd64              Pass:  96%/51  | Total:  2h 16m | Avg:  2m 40s | Max:  8m 05s | Hits:  97%/2450  
  🟩 arm64              Pass: 100%/4   | Total:  9m 26s | Avg:  2m 21s | Max:  2m 38s | Hits:  97%/200   
🚨 cxx_family: MSVC 🚨
  🟩 Clang              Pass: 100%/30  | Total:  1h 14m | Avg:  2m 29s | Max:  4m 30s | Hits:  98%/1500  
  🟩 GCC                Pass: 100%/22  | Total: 53m 01s | Avg:  2m 24s | Max:  4m 20s | Hits:  95%/1100  
  🟩 Intel              Pass: 100%/1   | Total:  2m 46s | Avg:  2m 46s | Max:  2m 46s | Hits:  98%/50    
  🔥 MSVC               Pass:   0%/2   | Total: 15m 25s | Avg:  7m 42s | Max:  8m 05s
🔍 jobs: Build 🔍
  🔍 Build              Pass:  95%/47  | Total:  1h 52m | Avg:  2m 23s | Max:  8m 05s | Hits:  97%/2250  
  🟩 Test               Pass: 100%/8   | Total: 33m 04s | Avg:  4m 08s | Max:  4m 30s | Hits:  97%/400   
🔍 std: 20 🔍
  🟩 17                 Pass: 100%/31  | Total:  1h 15m | Avg:  2m 25s | Max:  4m 30s | Hits:  97%/1550  
  🔍 20                 Pass:  91%/24  | Total:  1h 10m | Avg:  2m 56s | Max:  8m 05s | Hits:  97%/1100  
🟨 cxx
  🟩 Clang9             Pass: 100%/2   | Total:  3m 51s | Avg:  1m 55s | Max:  1m 58s | Hits:  98%/100   
  🟩 Clang10            Pass: 100%/2   | Total:  4m 22s | Avg:  2m 11s | Max:  2m 13s | Hits:  98%/100   
  🟩 Clang11            Pass: 100%/4   | Total:  8m 55s | Avg:  2m 13s | Max:  2m 29s | Hits:  99%/200   
  🟩 Clang12            Pass: 100%/4   | Total:  9m 27s | Avg:  2m 21s | Max:  3m 01s | Hits:  99%/200   
  🟩 Clang13            Pass: 100%/4   | Total:  8m 44s | Avg:  2m 11s | Max:  2m 16s | Hits:  99%/200   
  🟩 Clang14            Pass: 100%/6   | Total: 16m 44s | Avg:  2m 47s | Max:  4m 22s | Hits:  99%/300   
  🟩 Clang15            Pass: 100%/2   | Total:  4m 08s | Avg:  2m 04s | Max:  2m 05s | Hits:  99%/100   
  🟩 Clang16            Pass: 100%/6   | Total: 18m 27s | Avg:  3m 04s | Max:  4m 30s | Hits:  99%/300   
  🟩 GCC9               Pass: 100%/2   | Total:  3m 57s | Avg:  1m 58s | Max:  1m 59s | Hits:  94%/100   
  🟩 GCC10              Pass: 100%/4   | Total:  8m 52s | Avg:  2m 13s | Max:  2m 29s | Hits:  95%/200   
  🟩 GCC11              Pass: 100%/4   | Total:  8m 50s | Avg:  2m 12s | Max:  2m 29s | Hits:  95%/200   
  🟩 GCC12              Pass: 100%/12  | Total: 31m 22s | Avg:  2m 36s | Max:  4m 20s | Hits:  95%/600   
  🟩 Intel2023.2.0      Pass: 100%/1   | Total:  2m 46s | Avg:  2m 46s | Max:  2m 46s | Hits:  98%/50    
  🟥 MSVC14.36          Pass:   0%/1   | Total:  7m 20s | Avg:  7m 20s | Max:  7m 20s
  🟥 MSVC14.39          Pass:   0%/1   | Total:  8m 05s | Avg:  8m 05s | Max:  8m 05s
🟨 cudacxx_family
  🟨 nvcc               Pass:  96%/55  | Total:  2h 25m | Avg:  2m 39s | Max:  8m 05s | Hits:  97%/2650  
🟨 gpu
  🟨 v100               Pass:  96%/55  | Total:  2h 25m | Avg:  2m 39s | Max:  8m 05s | Hits:  97%/2650  
🟨 ctk
  🟨 12.0               Pass:  95%/23  | Total:  1h 02m | Avg:  2m 43s | Max:  7m 20s | Hits:  97%/1100  
  🟨 12.5               Pass:  96%/32  | Total:  1h 23m | Avg:  2m 36s | Max:  8m 05s | Hits:  97%/1550  
🟨 cudacxx
  🟨 nvcc12.0           Pass:  95%/23  | Total:  1h 02m | Avg:  2m 43s | Max:  7m 20s | Hits:  97%/1100  
  🟨 nvcc12.5           Pass:  96%/32  | Total:  1h 23m | Avg:  2m 36s | Max:  8m 05s | Hits:  97%/1550  
🟩 sm
  🟩 90                 Pass: 100%/1   | Total:  1m 49s | Avg:  1m 49s | Max:  1m 49s | Hits:  94%/50    
  🟩 90a                Pass: 100%/1   | Total:  1m 53s | Avg:  1m 53s | Max:  1m 53s | Hits:  94%/50

🟩 pycuda: Pass: 100%/1 | Total: 12m 26s | Avg: 12m 26s | Max: 12m 26s

🟩 cpu
  🟩 amd64              Pass: 100%/1   | Total: 12m 26s | Avg: 12m 26s | Max: 12m 26s
🟩 ctk
  🟩 12.5               Pass: 100%/1   | Total: 12m 26s | Avg: 12m 26s | Max: 12m 26s
🟩 cudacxx
  🟩 nvcc12.5           Pass: 100%/1   | Total: 12m 26s | Avg: 12m 26s | Max: 12m 26s
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/1   | Total: 12m 26s | Avg: 12m 26s | Max: 12m 26s
🟩 cxx
  🟩 GCC13              Pass: 100%/1   | Total: 12m 26s | Avg: 12m 26s | Max: 12m 26s
🟩 cxx_family
  🟩 GCC                Pass: 100%/1   | Total: 12m 26s | Avg: 12m 26s | Max: 12m 26s
🟩 gpu
  🟩 v100               Pass: 100%/1   | Total: 12m 26s | Avg: 12m 26s | Max: 12m 26s
🟩 jobs
  🟩 Test               Pass: 100%/1   | Total: 12m 26s | Avg: 12m 26s | Max: 12m 26s

👃 Inspect Changes

Modifications in project?

	Project
	CCCL Infrastructure
	libcu++
	CUB
	Thrust
+/-	CUDA Experimental
	pycuda

Modifications in project or dependencies?

	Project
	CCCL Infrastructure
	libcu++
	CUB
	Thrust
+/-	CUDA Experimental
+/-	pycuda

🏃‍ Runner counts (total jobs: 56)

#	Runner
41	`linux-amd64-cpu16`
9	`linux-amd64-gpu-v100-latest-1`
4	`linux-arm64-cpu16`
2	`windows-amd64-cpu16`

jrhemstad · 2024-08-02T21:44:54Z

cudax/samples/CMakeLists.txt

+
+# Default to building for the GPU on the current system
+if(NOT DEFINED CMAKE_CUDA_ARCHITECTURES)
+  set(CMAKE_CUDA_ARCHITECTURES 86)


The problem isn't the architecture value, it's that the way this test is set up, it requires running on a GPU runner, but is ending up on a CPU runner.

@alliepiper can help you get it sorted.

pciolkosz · 2024-08-04T01:35:05Z

cudax/samples/vector_add/vector_add.cu

+  // Define the kernel launch parameters
+  constexpr int threadsPerBlock = 256;
+  int blocksPerGrid             = (numElements + threadsPerBlock - 1) / threadsPerBlock;
+  auto dims = cudax::make_hierarchy(cudax::grid_dims(blocksPerGrid), cudax::block_dims<threadsPerBlock>());


With #2001 merged we could use at_least(numElements) for the grid dimensions.
We could also try to come up with some shorthands for the entire hierarchy dimensions like that, they are super common

how about this for a shorthand:

auto dims = cudax::distribute<256>(numElements);

I like that

github-actions · 2024-08-07T21:25:48Z

🟨 CI finished in 42m 13s: Pass: 94%/56 | Total: 2h 41m | Avg: 2m 53s | Max: 11m 17s

🟨 cudax: Pass: 94%/55 | Total: 2h 30m | Avg: 2m 44s | Max: 10m 12s

🔍 cpu: amd64 🔍
  🔍 amd64              Pass:  94%/51  | Total:  2h 19m | Avg:  2m 44s | Max: 10m 12s
  🟩 arm64              Pass: 100%/4   | Total: 10m 58s | Avg:  2m 44s | Max:  3m 17s
🔍 std: 20 🔍
  🟩 17                 Pass: 100%/31  | Total:  1h 17m | Avg:  2m 29s | Max:  4m 19s
  🔍 20                 Pass:  87%/24  | Total:  1h 13m | Avg:  3m 03s | Max: 10m 12s
🟨 cxx
  🟩 Clang9             Pass: 100%/2   | Total:  4m 26s | Avg:  2m 13s | Max:  2m 23s
  🟩 Clang10            Pass: 100%/2   | Total:  4m 28s | Avg:  2m 14s | Max:  2m 23s
  🟩 Clang11            Pass: 100%/4   | Total:  8m 32s | Avg:  2m 08s | Max:  2m 16s
  🟩 Clang12            Pass: 100%/4   | Total:  8m 34s | Avg:  2m 08s | Max:  2m 25s
  🟩 Clang13            Pass: 100%/4   | Total:  8m 32s | Avg:  2m 08s | Max:  2m 12s
  🟨 Clang14            Pass:  83%/6   | Total: 17m 02s | Avg:  2m 50s | Max:  4m 07s
  🟩 Clang15            Pass: 100%/2   | Total:  4m 40s | Avg:  2m 20s | Max:  2m 25s
  🟩 Clang16            Pass: 100%/6   | Total: 18m 47s | Avg:  3m 07s | Max:  4m 19s
  🟩 GCC9               Pass: 100%/2   | Total:  4m 27s | Avg:  2m 13s | Max:  2m 16s
  🟩 GCC10              Pass: 100%/4   | Total:  7m 54s | Avg:  1m 58s | Max:  2m 04s
  🟩 GCC11              Pass: 100%/4   | Total:  9m 05s | Avg:  2m 16s | Max:  2m 34s
  🟩 GCC12              Pass: 100%/12  | Total: 34m 03s | Avg:  2m 50s | Max:  4m 17s
  🟩 Intel2023.2.0      Pass: 100%/1   | Total:  2m 51s | Avg:  2m 51s | Max:  2m 51s
  🟥 MSVC14.36          Pass:   0%/1   | Total:  6m 56s | Avg:  6m 56s | Max:  6m 56s
  🟥 MSVC14.39          Pass:   0%/1   | Total: 10m 12s | Avg: 10m 12s | Max: 10m 12s
🟨 cxx_family
  🟨 Clang              Pass:  96%/30  | Total:  1h 15m | Avg:  2m 30s | Max:  4m 19s
  🟩 GCC                Pass: 100%/22  | Total: 55m 29s | Avg:  2m 31s | Max:  4m 17s
  🟩 Intel              Pass: 100%/1   | Total:  2m 51s | Avg:  2m 51s | Max:  2m 51s
  🟥 MSVC               Pass:   0%/2   | Total: 17m 08s | Avg:  8m 34s | Max: 10m 12s
🟨 cudacxx_family
  🟨 nvcc               Pass:  94%/55  | Total:  2h 30m | Avg:  2m 44s | Max: 10m 12s
🟨 gpu
  🟨 v100               Pass:  94%/55  | Total:  2h 30m | Avg:  2m 44s | Max: 10m 12s
🟨 ctk
  🟨 12.0               Pass:  91%/23  | Total:  1h 01m | Avg:  2m 39s | Max:  6m 56s
  🟨 12.5               Pass:  96%/32  | Total:  1h 29m | Avg:  2m 47s | Max: 10m 12s
🟨 cudacxx
  🟨 nvcc12.0           Pass:  91%/23  | Total:  1h 01m | Avg:  2m 39s | Max:  6m 56s
  🟨 nvcc12.5           Pass:  96%/32  | Total:  1h 29m | Avg:  2m 47s | Max: 10m 12s
🟨 jobs
  🟨 Build              Pass:  95%/47  | Total:  1h 58m | Avg:  2m 31s | Max: 10m 12s
  🟨 Test               Pass:  87%/8   | Total: 32m 02s | Avg:  4m 00s | Max:  4m 19s
🟩 sm
  🟩 90                 Pass: 100%/1   | Total:  2m 07s | Avg:  2m 07s | Max:  2m 07s
  🟩 90a                Pass: 100%/1   | Total:  2m 15s | Avg:  2m 15s | Max:  2m 15s

🟩 pycuda: Pass: 100%/1 | Total: 11m 17s | Avg: 11m 17s | Max: 11m 17s

🟩 cpu
  🟩 amd64              Pass: 100%/1   | Total: 11m 17s | Avg: 11m 17s | Max: 11m 17s
🟩 ctk
  🟩 12.5               Pass: 100%/1   | Total: 11m 17s | Avg: 11m 17s | Max: 11m 17s
🟩 cudacxx
  🟩 nvcc12.5           Pass: 100%/1   | Total: 11m 17s | Avg: 11m 17s | Max: 11m 17s
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/1   | Total: 11m 17s | Avg: 11m 17s | Max: 11m 17s
🟩 cxx
  🟩 GCC13              Pass: 100%/1   | Total: 11m 17s | Avg: 11m 17s | Max: 11m 17s
🟩 cxx_family
  🟩 GCC                Pass: 100%/1   | Total: 11m 17s | Avg: 11m 17s | Max: 11m 17s
🟩 gpu
  🟩 v100               Pass: 100%/1   | Total: 11m 17s | Avg: 11m 17s | Max: 11m 17s
🟩 jobs
  🟩 Test               Pass: 100%/1   | Total: 11m 17s | Avg: 11m 17s | Max: 11m 17s

👃 Inspect Changes

Modifications in project?

	Project
	CCCL Infrastructure
	libcu++
	CUB
	Thrust
+/-	CUDA Experimental
	pycuda

Modifications in project or dependencies?

	Project
	CCCL Infrastructure
	libcu++
	CUB
	Thrust
+/-	CUDA Experimental
+/-	pycuda

🏃‍ Runner counts (total jobs: 56)

#	Runner
41	`linux-amd64-cpu16`
9	`linux-amd64-gpu-v100-latest-1`
4	`linux-arm64-cpu16`
2	`windows-amd64-cpu16`

cudax/samples/vector_add/vector.cuh

github-actions · 2024-08-07T23:27:55Z

🟨 CI finished in 1h 00m: Pass: 89%/56 | Total: 2h 38m | Avg: 2m 49s | Max: 11m 19s

🟨 cudax: Pass: 89%/55 | Total: 2h 27m | Avg: 2m 40s | Max: 8m 29s

🔍 cpu: amd64 🔍
  🔍 amd64              Pass:  88%/51  | Total:  2h 17m | Avg:  2m 41s | Max:  8m 29s
  🟩 arm64              Pass: 100%/4   | Total: 10m 09s | Avg:  2m 32s | Max:  3m 33s
🟨 cxx
  🟩 Clang9             Pass: 100%/2   | Total:  4m 26s | Avg:  2m 13s | Max:  2m 17s
  🟩 Clang10            Pass: 100%/2   | Total:  4m 11s | Avg:  2m 05s | Max:  2m 14s
  🟩 Clang11            Pass: 100%/4   | Total:  8m 47s | Avg:  2m 11s | Max:  2m 21s
  🟩 Clang12            Pass: 100%/4   | Total:  8m 18s | Avg:  2m 04s | Max:  2m 15s
  🟩 Clang13            Pass: 100%/4   | Total:  8m 41s | Avg:  2m 10s | Max:  2m 21s
  🟨 Clang14            Pass:  83%/6   | Total: 17m 22s | Avg:  2m 53s | Max:  4m 47s
  🟩 Clang15            Pass: 100%/2   | Total:  4m 13s | Avg:  2m 06s | Max:  2m 07s
  🟨 Clang16            Pass:  83%/6   | Total: 19m 15s | Avg:  3m 12s | Max:  4m 46s
  🟩 GCC9               Pass: 100%/2   | Total:  3m 44s | Avg:  1m 52s | Max:  1m 57s
  🟩 GCC10              Pass: 100%/4   | Total:  8m 04s | Avg:  2m 01s | Max:  2m 09s
  🟩 GCC11              Pass: 100%/4   | Total:  7m 38s | Avg:  1m 54s | Max:  2m 08s
  🟨 GCC12              Pass:  83%/12  | Total: 33m 47s | Avg:  2m 48s | Max:  4m 40s
  🟩 Intel2023.2.0      Pass: 100%/1   | Total:  2m 52s | Avg:  2m 52s | Max:  2m 52s
  🟥 MSVC14.36          Pass:   0%/1   | Total:  7m 25s | Avg:  7m 25s | Max:  7m 25s
  🟥 MSVC14.39          Pass:   0%/1   | Total:  8m 29s | Avg:  8m 29s | Max:  8m 29s
🟨 cxx_family
  🟨 Clang              Pass:  93%/30  | Total:  1h 15m | Avg:  2m 30s | Max:  4m 47s
  🟨 GCC                Pass:  90%/22  | Total: 53m 13s | Avg:  2m 25s | Max:  4m 40s
  🟩 Intel              Pass: 100%/1   | Total:  2m 52s | Avg:  2m 52s | Max:  2m 52s
  🟥 MSVC               Pass:   0%/2   | Total: 15m 54s | Avg:  7m 57s | Max:  8m 29s
🟨 cudacxx_family
  🟨 nvcc               Pass:  89%/55  | Total:  2h 27m | Avg:  2m 40s | Max:  8m 29s
🟨 gpu
  🟨 v100               Pass:  89%/55  | Total:  2h 27m | Avg:  2m 40s | Max:  8m 29s
🟨 ctk
  🟨 12.0               Pass:  86%/23  | Total:  1h 02m | Avg:  2m 42s | Max:  7m 25s
  🟨 12.5               Pass:  90%/32  | Total:  1h 24m | Avg:  2m 38s | Max:  8m 29s
🟨 cudacxx
  🟨 nvcc12.0           Pass:  86%/23  | Total:  1h 02m | Avg:  2m 42s | Max:  7m 25s
  🟨 nvcc12.5           Pass:  90%/32  | Total:  1h 24m | Avg:  2m 38s | Max:  8m 29s
🟨 jobs
  🟨 Build              Pass:  95%/47  | Total:  1h 52m | Avg:  2m 23s | Max:  8m 29s
  🟨 Test               Pass:  50%/8   | Total: 35m 08s | Avg:  4m 23s | Max:  4m 47s
🟩 sm
  🟩 90                 Pass: 100%/1   | Total:  2m 00s | Avg:  2m 00s | Max:  2m 00s
  🟩 90a                Pass: 100%/1   | Total:  1m 53s | Avg:  1m 53s | Max:  1m 53s
🟨 std
  🟨 17                 Pass:  90%/31  | Total:  1h 14m | Avg:  2m 25s | Max:  4m 46s
  🟨 20                 Pass:  87%/24  | Total:  1h 12m | Avg:  3m 00s | Max:  8m 29s

🟩 pycuda: Pass: 100%/1 | Total: 11m 19s | Avg: 11m 19s | Max: 11m 19s

🟩 cpu
  🟩 amd64              Pass: 100%/1   | Total: 11m 19s | Avg: 11m 19s | Max: 11m 19s
🟩 ctk
  🟩 12.5               Pass: 100%/1   | Total: 11m 19s | Avg: 11m 19s | Max: 11m 19s
🟩 cudacxx
  🟩 nvcc12.5           Pass: 100%/1   | Total: 11m 19s | Avg: 11m 19s | Max: 11m 19s
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/1   | Total: 11m 19s | Avg: 11m 19s | Max: 11m 19s
🟩 cxx
  🟩 GCC13              Pass: 100%/1   | Total: 11m 19s | Avg: 11m 19s | Max: 11m 19s
🟩 cxx_family
  🟩 GCC                Pass: 100%/1   | Total: 11m 19s | Avg: 11m 19s | Max: 11m 19s
🟩 gpu
  🟩 v100               Pass: 100%/1   | Total: 11m 19s | Avg: 11m 19s | Max: 11m 19s
🟩 jobs
  🟩 Test               Pass: 100%/1   | Total: 11m 19s | Avg: 11m 19s | Max: 11m 19s

👃 Inspect Changes

Modifications in project?

	Project
	CCCL Infrastructure
	libcu++
	CUB
	Thrust
+/-	CUDA Experimental
	pycuda

Modifications in project or dependencies?

	Project
	CCCL Infrastructure
	libcu++
	CUB
	Thrust
+/-	CUDA Experimental
+/-	pycuda

🏃‍ Runner counts (total jobs: 56)

#	Runner
41	`linux-amd64-cpu16`
9	`linux-amd64-gpu-v100-latest-1`
4	`linux-arm64-cpu16`
2	`windows-amd64-cpu16`

ericniebler · 2024-08-09T06:20:49Z

@miscco something seems to be going wrong with the mdspan concepts portability macros with msvc.

sccache "C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.0\bin\nvcc.exe" -forward-unknown-to-host-compiler -DLIBCUDACXX_ENABLE_EXCEPTIONS -DTHRUST_DEVICE_SYSTEM=THRUST_DEVICE_SYSTEM_CUDA -DTHRUST_HOST_SYSTEM=THRUST_HOST_SYSTEM_CPP -IC:\cccl\build\cudax-cpp20\cudax\samples\src\cudax_samples-build\_deps\cccl-src\libcudacxx\lib\cmake\libcudacxx\..\..\..\include -IC:\cccl\build\cudax-cpp20\cudax\samples\src\cudax_samples-build\_deps\cccl-src\thrust\thrust\cmake\..\.. -IC:\cccl\build\cudax-cpp20\cudax\samples\src\cudax_samples-build\_deps\cccl-src\cub\cub\cmake\..\.. -isystem C:\cccl\build\cudax-cpp20\cudax\samples\src\cudax_samples-build\_deps\cccl-src\cudax\lib\cmake\cudax\..\..\..\include -D_WINDOWS -Xcompiler="/W3 /GR /EHsc" -Xcompiler="-MDd  -Zi -Ob0 -Od /RTC1" -std=c++17 "--generate-code=arch=compute_86,code=[compute_86,sm_86]" -Xcompiler=/Zc:__cplusplus -Xcompiler=/Zc:preprocessor -MD -MT CMakeFiles\vector_add.dir\vector_add\vector_add.cu.obj -MF CMakeFiles\vector_add.dir\vector_add\vector_add.cu.obj.d -x cu -c C:\cccl\cudax\samples\vector_add\vector_add.cu -o CMakeFiles\vector_add.dir\vector_add\vector_add.cu.obj -Xcompiler=-FdCMakeFiles\vector_add.dir\,-FS
vector_add.cu
C:\cccl\build\cudax-cpp20\cudax\samples\src\cudax_samples-build\_deps\cccl-src\libcudacxx\include\cuda/std/__mdspan/default_accessor.h(75): error C4002: too many arguments for function-like macro invocation '__MDSPAN_PP_CAT_IMPL'
C:\cccl\build\cudax-cpp20\cudax\samples\src\cudax_samples-build\_deps\cccl-src\libcudacxx\include\cuda/std/__mdspan/macros.h(276): note: in expansion of macro '__MDSPAN_TEMPLATE_REQUIRES'
C:\cccl\build\cudax-cpp20\cudax\samples\src\cudax_samples-build\_deps\cccl-src\libcudacxx\include\cuda/std/__mdspan/macros.h(242): note: in expansion of macro '__MDSPAN_PP_CAT'

i get this with /std:c++17 /Zc:__cplusplus /Zc:preprocessor. see the build failure here: https://github.com/NVIDIA/cccl/actions/runs/10314338615/job/28552592563?pr=2160

miscco · 2024-08-09T06:50:33Z

@miscco something seems to be going wrong with the mdspan concepts portability macros with msvc.

sccache "C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.0\bin\nvcc.exe" -forward-unknown-to-host-compiler -DLIBCUDACXX_ENABLE_EXCEPTIONS -DTHRUST_DEVICE_SYSTEM=THRUST_DEVICE_SYSTEM_CUDA -DTHRUST_HOST_SYSTEM=THRUST_HOST_SYSTEM_CPP -IC:\cccl\build\cudax-cpp20\cudax\samples\src\cudax_samples-build\_deps\cccl-src\libcudacxx\lib\cmake\libcudacxx\..\..\..\include -IC:\cccl\build\cudax-cpp20\cudax\samples\src\cudax_samples-build\_deps\cccl-src\thrust\thrust\cmake\..\.. -IC:\cccl\build\cudax-cpp20\cudax\samples\src\cudax_samples-build\_deps\cccl-src\cub\cub\cmake\..\.. -isystem C:\cccl\build\cudax-cpp20\cudax\samples\src\cudax_samples-build\_deps\cccl-src\cudax\lib\cmake\cudax\..\..\..\include -D_WINDOWS -Xcompiler="/W3 /GR /EHsc" -Xcompiler="-MDd  -Zi -Ob0 -Od /RTC1" -std=c++17 "--generate-code=arch=compute_86,code=[compute_86,sm_86]" -Xcompiler=/Zc:__cplusplus -Xcompiler=/Zc:preprocessor -MD -MT CMakeFiles\vector_add.dir\vector_add\vector_add.cu.obj -MF CMakeFiles\vector_add.dir\vector_add\vector_add.cu.obj.d -x cu -c C:\cccl\cudax\samples\vector_add\vector_add.cu -o CMakeFiles\vector_add.dir\vector_add\vector_add.cu.obj -Xcompiler=-FdCMakeFiles\vector_add.dir\,-FS
vector_add.cu
C:\cccl\build\cudax-cpp20\cudax\samples\src\cudax_samples-build\_deps\cccl-src\libcudacxx\include\cuda/std/__mdspan/default_accessor.h(75): error C4002: too many arguments for function-like macro invocation '__MDSPAN_PP_CAT_IMPL'
C:\cccl\build\cudax-cpp20\cudax\samples\src\cudax_samples-build\_deps\cccl-src\libcudacxx\include\cuda/std/__mdspan/macros.h(276): note: in expansion of macro '__MDSPAN_TEMPLATE_REQUIRES'
C:\cccl\build\cudax-cpp20\cudax\samples\src\cudax_samples-build\_deps\cccl-src\libcudacxx\include\cuda/std/__mdspan/macros.h(242): note: in expansion of macro '__MDSPAN_PP_CAT'

i get this with /std:c++17 /Zc:__cplusplus /Zc:preprocessor. see the build failure here: https://github.com/NVIDIA/cccl/actions/runs/10314338615/job/28552592563?pr=2160

Yeah our mdspan implementation is cursed and currently requires C++20 for MSVC

I have a branch with a complete rewrite lying around, but need to implement submdspan anew

ericniebler · 2024-08-09T07:03:20Z

it doesn't seem to work with c++20 either: https://github.com/NVIDIA/cccl/actions/runs/10314858890/job/28553983052?pr=2160

halp!

miscco · 2024-08-09T11:14:44Z

@robertmaynard ~~I believe we are in trouble here. The ci failures here are referencing code that is not there anymore.~~

I recheckd and it seems that the samples are pulling in cccl main :(

It is proving difficult to handle for msvc and also the one we are using in libcu++ it much cleaner Gets NVIDIA#2160 compiling on MSVC

It is proving difficult to handle for msvc and also the one we are using in libcu++ it much cleaner Gets #2160 compiling on MSVC

…x-samples

github-actions · 2024-08-09T17:07:24Z

🟩 CI finished in 1h 48m: Pass: 100%/56 | Total: 2h 37m | Avg: 2m 48s | Max: 11m 08s | Hits: 80%/102

🟩 cudax: Pass: 100%/55 | Total: 2h 26m | Avg: 2m 39s | Max: 9m 18s | Hits: 80%/102

🟩 cpu
  🟩 amd64              Pass: 100%/51  | Total:  2h 15m | Avg:  2m 39s | Max:  9m 18s | Hits:  80%/102   
  🟩 arm64              Pass: 100%/4   | Total: 10m 36s | Avg:  2m 39s | Max:  3m 05s
🟩 ctk
  🟩 12.0               Pass: 100%/23  | Total:  1h 00m | Avg:  2m 38s | Max:  7m 42s | Hits:  80%/51    
  🟩 12.5               Pass: 100%/32  | Total:  1h 25m | Avg:  2m 40s | Max:  9m 18s | Hits:  80%/51    
🟩 cudacxx
  🟩 nvcc12.0           Pass: 100%/23  | Total:  1h 00m | Avg:  2m 38s | Max:  7m 42s | Hits:  80%/51    
  🟩 nvcc12.5           Pass: 100%/32  | Total:  1h 25m | Avg:  2m 40s | Max:  9m 18s | Hits:  80%/51    
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/55  | Total:  2h 26m | Avg:  2m 39s | Max:  9m 18s | Hits:  80%/102   
🟩 cxx
  🟩 Clang9             Pass: 100%/2   | Total:  4m 26s | Avg:  2m 13s | Max:  2m 16s
  🟩 Clang10            Pass: 100%/2   | Total:  4m 23s | Avg:  2m 11s | Max:  2m 14s
  🟩 Clang11            Pass: 100%/4   | Total:  8m 50s | Avg:  2m 12s | Max:  2m 26s
  🟩 Clang12            Pass: 100%/4   | Total:  8m 45s | Avg:  2m 11s | Max:  2m 14s
  🟩 Clang13            Pass: 100%/4   | Total:  8m 42s | Avg:  2m 10s | Max:  2m 17s
  🟩 Clang14            Pass: 100%/6   | Total: 16m 16s | Avg:  2m 42s | Max:  4m 00s
  🟩 Clang15            Pass: 100%/2   | Total:  4m 17s | Avg:  2m 08s | Max:  2m 09s
  🟩 Clang16            Pass: 100%/6   | Total: 16m 47s | Avg:  2m 47s | Max:  3m 55s
  🟩 GCC9               Pass: 100%/2   | Total:  4m 16s | Avg:  2m 08s | Max:  2m 11s
  🟩 GCC10              Pass: 100%/4   | Total:  9m 03s | Avg:  2m 15s | Max:  2m 38s
  🟩 GCC11              Pass: 100%/4   | Total:  8m 58s | Avg:  2m 14s | Max:  2m 27s
  🟩 GCC12              Pass: 100%/12  | Total: 31m 58s | Avg:  2m 39s | Max:  3m 50s
  🟩 Intel2023.2.0      Pass: 100%/1   | Total:  2m 47s | Avg:  2m 47s | Max:  2m 47s
  🟩 MSVC14.36          Pass: 100%/1   | Total:  7m 42s | Avg:  7m 42s | Max:  7m 42s | Hits:  80%/51    
  🟩 MSVC14.39          Pass: 100%/1   | Total:  9m 18s | Avg:  9m 18s | Max:  9m 18s | Hits:  80%/51    
🟩 cxx_family
  🟩 Clang              Pass: 100%/30  | Total:  1h 12m | Avg:  2m 24s | Max:  4m 00s
  🟩 GCC                Pass: 100%/22  | Total: 54m 15s | Avg:  2m 27s | Max:  3m 50s
  🟩 Intel              Pass: 100%/1   | Total:  2m 47s | Avg:  2m 47s | Max:  2m 47s
  🟩 MSVC               Pass: 100%/2   | Total: 17m 00s | Avg:  8m 30s | Max:  9m 18s | Hits:  80%/102   
🟩 gpu
  🟩 v100               Pass: 100%/55  | Total:  2h 26m | Avg:  2m 39s | Max:  9m 18s | Hits:  80%/102   
🟩 jobs
  🟩 Build              Pass: 100%/47  | Total:  1h 56m | Avg:  2m 28s | Max:  9m 18s | Hits:  80%/102   
  🟩 Test               Pass: 100%/8   | Total: 30m 13s | Avg:  3m 46s | Max:  4m 00s
🟩 sm
  🟩 90                 Pass: 100%/1   | Total:  1m 55s | Avg:  1m 55s | Max:  1m 55s
  🟩 90a                Pass: 100%/1   | Total:  2m 00s | Avg:  2m 00s | Max:  2m 00s
🟩 std
  🟩 17                 Pass: 100%/31  | Total:  1h 14m | Avg:  2m 24s | Max:  3m 55s
  🟩 20                 Pass: 100%/24  | Total:  1h 11m | Avg:  2m 59s | Max:  9m 18s | Hits:  80%/102

🟩 pycuda: Pass: 100%/1 | Total: 11m 08s | Avg: 11m 08s | Max: 11m 08s

🟩 cpu
  🟩 amd64              Pass: 100%/1   | Total: 11m 08s | Avg: 11m 08s | Max: 11m 08s
🟩 ctk
  🟩 12.5               Pass: 100%/1   | Total: 11m 08s | Avg: 11m 08s | Max: 11m 08s
🟩 cudacxx
  🟩 nvcc12.5           Pass: 100%/1   | Total: 11m 08s | Avg: 11m 08s | Max: 11m 08s
🟩 cudacxx_family
  🟩 nvcc               Pass: 100%/1   | Total: 11m 08s | Avg: 11m 08s | Max: 11m 08s
🟩 cxx
  🟩 GCC13              Pass: 100%/1   | Total: 11m 08s | Avg: 11m 08s | Max: 11m 08s
🟩 cxx_family
  🟩 GCC                Pass: 100%/1   | Total: 11m 08s | Avg: 11m 08s | Max: 11m 08s
🟩 gpu
  🟩 v100               Pass: 100%/1   | Total: 11m 08s | Avg: 11m 08s | Max: 11m 08s
🟩 jobs
  🟩 Test               Pass: 100%/1   | Total: 11m 08s | Avg: 11m 08s | Max: 11m 08s

👃 Inspect Changes

Modifications in project?

	Project
	CCCL Infrastructure
	libcu++
	CUB
	Thrust
+/-	CUDA Experimental
	pycuda

Modifications in project or dependencies?

	Project
	CCCL Infrastructure
	libcu++
	CUB
	Thrust
+/-	CUDA Experimental
+/-	pycuda

🏃‍ Runner counts (total jobs: 56)

#	Runner
41	`linux-amd64-cpu16`
9	`linux-amd64-gpu-v100-latest-1`
4	`linux-arm64-cpu16`
2	`windows-amd64-cpu16`

It is proving difficult to handle for msvc and also the one we are using in libcu++ it much cleaner Gets NVIDIA#2160 compiling on MSVC

--------- Co-authored-by: pciolkosz <[email protected]> Co-authored-by: Michael Schellenberger Costa <[email protected]>

add the CUDA vector addition sample

6634ffb

ericniebler requested review from a team as code owners August 1, 2024 02:00

ericniebler requested review from robertmaynard and griwes August 1, 2024 02:00

ericniebler marked this pull request as draft August 1, 2024 02:00

pciolkosz reviewed Aug 1, 2024

View reviewed changes

cudax/samples/vector_add/vector_add.cu Outdated Show resolved Hide resolved

Remove unnecessary sample helpers

2d9f364

ericniebler added 2 commits August 2, 2024 21:16

Merge remote-tracking branch 'origin/main' into cudax-samples

e872ca2

use a specific cuda architecture instead of native

93a82ce

jrhemstad reviewed Aug 2, 2024

View reviewed changes

ericniebler added 4 commits August 2, 2024 23:49

use cuda::launch instead of launching the kernel directly

59ea51d

use thrust's host_ and device_vector types in the cudax sample for now

e62220a

use a temporary launch_ex fn that applies an arg transform

adb634d

minor cleanup

29732bf

pciolkosz reviewed Aug 4, 2024

View reviewed changes

ericniebler added 2 commits August 7, 2024 20:38

Merge remote-tracking branch 'origin/main' into cudax-samples

6f13b40

use __launch_transform in the vector_add sample

dbd7a68

mock up a cudax::vector and the in/out annotations

9ed5532

ericniebler commented Aug 7, 2024

View reviewed changes

cudax/samples/vector_add/vector.cuh Outdated Show resolved Hide resolved

ericniebler added 5 commits August 8, 2024 02:23

a working example with vector, in/out, and launch

52e6c7e

insert a sync stream at the right place

82db01d

add missing include directory

f587bc9

i do not like cmake

4732a80

add missing header

c73f856

ericniebler added 4 commits August 9, 2024 04:40

very close now i think

87e67f3

use msvc with conforming preprocessor

b43b90b

cmake string strangeness

ab29482

here i go again

9850ef5

ericniebler added 2 commits August 9, 2024 06:24

try c++20

da3120d

only require c++20 when using msvc

505545b

Replace the mdspan concept emulation with libcu++ one

ca9d544

miscco requested a review from a team as a code owner August 9, 2024 08:09

miscco added 6 commits August 9, 2024 10:11

Fix formatting

6ffa2ae

Fix issues with concept emulation

ac8e6d8

Try and work around issue with nvcc deduction failure

9a13c77

Drop the whole macro

e2e7354

drop more concept emulation

4be1ee9

Fix one more issue with is_always_strided

bdbd29e

miscco added a commit to miscco/cccl that referenced this pull request Aug 9, 2024

Rework mdspan concept emulation

a0d3d8c

It is proving difficult to handle for msvc and also the one we are using in libcu++ it much cleaner Gets NVIDIA#2160 compiling on MSVC

miscco mentioned this pull request Aug 9, 2024

Rework mdspan concept emulation #2213

Merged

Merge branch 'main' into pr/ericniebler/2160

457e0d9

ericniebler pushed a commit that referenced this pull request Aug 9, 2024

Rework mdspan concept emulation (#2213)

8e20c9a

It is proving difficult to handle for msvc and also the one we are using in libcu++ it much cleaner Gets #2160 compiling on MSVC

ericniebler added 2 commits August 9, 2024 15:15

Merge remote-tracking branch 'origin/main' into cudax-samples

6656965

Merge branch 'cudax-samples' of github.com:ericniebler/cccl into cuda…

f9580c8

…x-samples

pciolkosz approved these changes Aug 9, 2024

View reviewed changes

ericniebler merged commit a3a5f9c into NVIDIA:main Aug 9, 2024
71 checks passed

ericniebler deleted the cudax-samples branch August 9, 2024 22:10

pciolkosz pushed a commit to pciolkosz/cccl that referenced this pull request Aug 20, 2024

Rework mdspan concept emulation (NVIDIA#2213)

4b364a1

It is proving difficult to handle for msvc and also the one we are using in libcu++ it much cleaner Gets NVIDIA#2160 compiling on MSVC

pciolkosz added a commit to pciolkosz/cccl that referenced this pull request Aug 20, 2024

CUDA vector_add sample project (NVIDIA#2160)

9a19413

--------- Co-authored-by: pciolkosz <[email protected]> Co-authored-by: Michael Schellenberger Costa <[email protected]>

CUDA vector_add sample project #2160

CUDA vector_add sample project #2160

Conversation

ericniebler commented Aug 1, 2024

Description

github-actions bot commented Aug 1, 2024

🟨 cudax: Pass: 96%/55 | Total: 2h 31m | Avg: 2m 45s | Max: 8m 32s | Hits: 96%/2650

🟩 pycuda: Pass: 100%/1 | Total: 11m 09s | Avg: 11m 09s | Max: 11m 09s

👃 Inspect Changes

Modifications in project?

Modifications in project or dependencies?

🏃‍ Runner counts (total jobs: 56)

github-actions bot commented Aug 2, 2024

🟨 cudax: Pass: 94%/55 | Total: 2h 24m | Avg: 2m 37s | Max: 7m 51s | Hits: 97%/2600

🟩 pycuda: Pass: 100%/1 | Total: 12m 26s | Avg: 12m 26s | Max: 12m 26s

👃 Inspect Changes

Modifications in project?

Modifications in project or dependencies?

🏃‍ Runner counts (total jobs: 56)

github-actions bot commented Aug 2, 2024

🟨 cudax: Pass: 96%/55 | Total: 2h 25m | Avg: 2m 39s | Max: 8m 05s | Hits: 97%/2650

🟩 pycuda: Pass: 100%/1 | Total: 12m 26s | Avg: 12m 26s | Max: 12m 26s

👃 Inspect Changes

Modifications in project?

Modifications in project or dependencies?

🏃‍ Runner counts (total jobs: 56)

jrhemstad Aug 2, 2024

Choose a reason for hiding this comment

pciolkosz Aug 4, 2024

Choose a reason for hiding this comment

ericniebler Aug 8, 2024

Choose a reason for hiding this comment

pciolkosz Aug 8, 2024

Choose a reason for hiding this comment

github-actions bot commented Aug 7, 2024

🟨 cudax: Pass: 94%/55 | Total: 2h 30m | Avg: 2m 44s | Max: 10m 12s

🟩 pycuda: Pass: 100%/1 | Total: 11m 17s | Avg: 11m 17s | Max: 11m 17s

👃 Inspect Changes

Modifications in project?

Modifications in project or dependencies?

🏃‍ Runner counts (total jobs: 56)

github-actions bot commented Aug 7, 2024

🟨 cudax: Pass: 89%/55 | Total: 2h 27m | Avg: 2m 40s | Max: 8m 29s

🟩 pycuda: Pass: 100%/1 | Total: 11m 19s | Avg: 11m 19s | Max: 11m 19s

👃 Inspect Changes

Modifications in project?

Modifications in project or dependencies?

🏃‍ Runner counts (total jobs: 56)

ericniebler commented Aug 9, 2024

miscco commented Aug 9, 2024

ericniebler commented Aug 9, 2024

miscco commented Aug 9, 2024 • edited Loading

github-actions bot commented Aug 9, 2024

🟩 cudax: Pass: 100%/55 | Total: 2h 26m | Avg: 2m 39s | Max: 9m 18s | Hits: 80%/102

🟩 pycuda: Pass: 100%/1 | Total: 11m 08s | Avg: 11m 08s | Max: 11m 08s

👃 Inspect Changes

Modifications in project?

Modifications in project or dependencies?

🏃‍ Runner counts (total jobs: 56)

CUDA `vector_add` sample project #2160

CUDA `vector_add` sample project #2160

miscco commented Aug 9, 2024 •

edited

Loading