728x90
CUDA는 계산 능력이 1.1 이상의 버전에서 원자적 연산(automic operation)을 지원한다.
하지만, 원자적 연산을 모든 블록의 쓰레드가 동시에 실행하게 되면, 그 원자에 접근하려는 수천 개의 스레드들이 치열한 다툼을 하게 되면서 오히려 성능 저하가 발생하게 된다.
그럴 때에는 공유 메모리를 사용하여, 원자에는 최대한 접근을 하지 않도록 하는 것이 좋다.
728x90
'Parallel Programming > CUDA' 카테고리의 다른 글
CUDA - 스트림(stream) (0) | 2016.03.03 |
---|---|
CUDA - 고정 메모리(cudaHostAlloc()) (0) | 2016.03.03 |
CUDA - 시간 측정 (0) | 2016.02.26 |
CUDA - 2차원 배열의 할당과 이용 (0) | 2016.02.25 |
CUDA - 그래픽스 상호운용 - 6 (0) | 2016.02.24 |