728x90

CUDA는 계산 능력이 1.1 이상의 버전에서 원자적 연산(automic operation)을 지원한다.


하지만, 원자적 연산을 모든 블록의 쓰레드가 동시에 실행하게 되면, 그 원자에 접근하려는 수천 개의 스레드들이 치열한 다툼을 하게 되면서 오히려 성능 저하가 발생하게 된다.


그럴 때에는 공유 메모리를 사용하여, 원자에는 최대한 접근을 하지 않도록 하는 것이 좋다.





728x90

'Parallel Programming > CUDA' 카테고리의 다른 글

CUDA - 스트림(stream)  (0) 2016.03.03
CUDA - 고정 메모리(cudaHostAlloc())  (0) 2016.03.03
CUDA - 시간 측정  (0) 2016.02.26
CUDA - 2차원 배열의 할당과 이용  (0) 2016.02.25
CUDA - 그래픽스 상호운용 - 6  (0) 2016.02.24

+ Recent posts