NVLink
NVLink(NV링크)는 엔비디아가 개발한 전선 기반의 직렬, 다중 레인, 근거리 통신 프로토콜 링크다. PCI 익스프레스와 달리 하나의 장치가 여러 개의 NVLink로 구성될 수 있으며, 중앙 허브/스위치 대신 메시 망을 사용하여 장치 간 통신을 할 수 있다. 이 프로토콜은 2014년 3월에 처음 발표되었으며 독자적인 고속 신호 상호 연결(NVHS)을 사용한다. 적은 수의 GPU의 경우, 단일 장치의 NVLink 레인만으로도 전체 대 전체(all-to-all) 메시 연결에 충분하다. 더 많은 수의 GPU를 수용하기 위해 2018년부터 NVLink는 패킷 교환 아키텍처를 사용하며, 여기서 중앙 스위치는 최대 32개의 2레인 포트를 지원할 수 있다. NVLink 4.0용 NVSwitch는 "SHARP" 가속기 덕분에 통신 필요성을 줄이기 위해 자체적으로 간단한 계산(예: 합계, 브로드캐스트)을 수행할 수 있다.
| 개발사 | 엔비디아 |
|---|---|
| 제조사 | |
| 종류 | 멀티 GPU 및 CPU 기술 |
| 이전 기종 | 스케일러블 링크 인터페이스 (SLI) |
NVLink(NV링크)는 엔비디아가 개발한 전선 기반의 직렬, 다중 레인, 근거리 통신 프로토콜 링크다. PCI 익스프레스와 달리 하나의 장치가 여러 개의 NVLink로 구성될 수 있으며, 중앙 허브/스위치 대신 메시 망을 사용하여 장치 간 통신을 할 수 있다. 이 프로토콜은 2014년 3월에 처음 발표되었으며 독자적인 고속 신호 상호 연결(NVHS)을 사용한다.[1]
적은 수의 GPU의 경우, 단일 장치의 NVLink 레인만으로도 전체 대 전체(all-to-all) 메시 연결에 충분하다. 더 많은 수의 GPU를 수용하기 위해 2018년부터 NVLink는 패킷 교환 아키텍처를 사용하며, 여기서 중앙 스위치는 최대 32개의 2레인 포트를 지원할 수 있다. NVLink 4.0용 NVSwitch는 "SHARP" 가속기 덕분에 통신 필요성을 줄이기 위해 자체적으로 간단한 계산(예: 합계, 브로드캐스트)을 수행할 수 있다.[2]
원리
[편집]NVLink는 CPU와 GPU 사이, 그리고 GPU와 GPU 사이의 프로세서 시스템에서 데이터 및 제어 코드 전송을 위해 엔비디아가 개발했다. NVLink는 차동 쌍(differential pair)당 20, 25, 50 Gbit/s(각각 v1.0/v2.0/v3.0+ 대응)의 데이터 속도를 갖는 점대점 연결을 규정한다. NVLink 1.0 및 2.0의 경우 8개의 차동 쌍이 하나의 "서브 링크"를 형성하고, 각 방향당 하나씩 두 개의 "서브 링크"가 하나의 "링크"를 형성한다. NVLink 3.0부터는 4개의 차동 쌍만이 하나의 "서브 링크"를 형성한다. NVLink 2.0 이상에서 서브 링크의 총 데이터 속도는 25 GB/s이며, 링크의 총 데이터 속도는 50 GB/s이다. 각 V100 GPU는 최대 6개의 링크를 지원한다. 따라서 각 GPU는 총 양방향 대역폭에서 최대 300 GB/s를 지원할 수 있다.[3][4] 현재까지 출시된 NVLink 제품은 고성능 애플리케이션 분야에 집중하고 있다. 2020년 5월 14일에 발표된 NVLink 3.0은 차동 쌍당 데이터 속도를 25 Gbit/s에서 50 Gbit/s로 높이는 동시에 NVLink당 쌍의 수를 8개에서 4개로 줄였다. 암페어 기반 A100 GPU용 12개 링크를 통해 총 대역폭은 600 GB/s에 달한다.[5] 2022년 3월에 발표된 호퍼 GPU 마이크로아키텍처는 18개의 NVLink 4.0 링크를 갖추어 총 900 GB/s의 대역폭을 가능하게 한다.[6] 따라서 NVLink 2.0, 3.0, 4.0은 모두 양방향 링크당 50 GB/s의 데이터 속도를 가지며, 각각 6개, 12개, 18개의 링크를 갖는다.
성능
[편집]다음 표는 표준 사양에 기반한 기본 지표 비교를 보여준다.
| 상호 연결 | 전송 속도 | 전송로 부호 | 변조 | 레인 또는 NVLink당 유효 페이로드 속도 (단방향) | 최대 총 레인 길이 [a] | 총 링크 수 (NVLink) | 총 대역폭 (PCIe x16 또는 NVLink) | 설계 구현 |
|---|---|---|---|---|---|---|---|---|
| PCIe 3.x | 8 GT/s | 128b/130b | NRZ | 0.99 GB/s | 50 cm (20 in)[7] | 31.51 GB/s | 파스칼, 볼타, 튜링 | |
| PCIe 4.0 | 16 GT/s | 128b/130b | NRZ | 1.97 GB/s | 20–30 cm (8–12 in)[7] | 63.02 GB/s | Xavier의 볼타, 암페어, POWER9 | |
| PCIe 5.0 | 32 GT/s[8] | 128b/130b | NRZ | 3.94 GB/s | 126.03 GB/s | 호퍼 | ||
| PCIe 6.0 | 64 GT/s | 236B/256B FLIT[9] | PAM4 FEC | 7.56 GB/s | 242 GB/s | 블랙웰 | ||
| NVLink 1.0 | 20 GT/s | NRZ | 20 GB/s | 4 | 160 GB/s | 파스칼, POWER8+ | ||
| NVLink 2.0 | 25 GT/s | NRZ | 25 GB/s | 6 | 300 GB/s | 볼타, POWER9 | ||
| NVLink 3.0 | 50 GT/s | NRZ | 25 GB/s | 12 | 600 GB/s | 암페어 | ||
| NVLink 4.0 | 50 GT/s[10] | PAM4 차동 쌍 | 25 GB/s | 18 | 900 GB/s | 호퍼, 엔비디아 Grace | ||
| NVLink 5.0[11] | 100 GT/s | PAM4 차동 쌍 | 50 GB/s | 18 | 1800 GB/s | 블랙웰, 엔비디아 그레이스 |
다음 표는 NVLink를 옵션 중 하나로 제공하는 실제 반도체들의 관련 버스 매개변수 비교를 보여준다.
| 반도체 | 보드/버스 인도 변체 | 상호 연결 | 전송 기술 속도 (레인당) | 서브 링크당 레인 (출력 + 입력) | 서브 링크 데이터 속도 (데이터 방향당)[b] | 서브 링크 또는 유닛 수 | 총 데이터 속도 (출력 + 입력)[b] | 총 레인 (출력 + 입력) | 총 데이터 속도 (출력 + 입력)[b] |
|---|---|---|---|---|---|---|---|---|---|
| 엔비디아 GP100 | P100 SXM,[12] P100 PCI-E[13] | PCIe 3.0 | 8 GT/s | 16 + 16 [c] | 128 Gbit/s = 16 GB/s | 1 | 16 + 16 GB/s[14] | 32 [d] | 32 GB/s |
| 엔비디아 GV100 | V100 SXM2,[15] V100 PCI-E[16] | PCIe 3.0 | 8 GT/s | 16 + 16 [c] | 128 Gbit/s = 16 GB/s | 1 | 16 + 16 GB/s | 32 [d] | 32 GB/s |
| 엔비디아 TU104 | 지포스 RTX 2080, 쿼드로 RTX 5000 | PCIe 3.0 | 8 GT/s | 16 + 16 [c] | 128 Gbit/s = 16 GB/s | 1 | 16 + 16 GB/s | 32 [d] | 32 GB/s |
| 엔비디아 TU102 | 지포스 RTX 2080 Ti, 쿼드로 RTX 6000/8000 | PCIe 3.0 | 8 GT/s | 16 + 16 [c] | 128 Gbit/s = 16 GB/s | 1 | 16 + 16 GB/s | 32 [d] | 32 GB/s |
| 엔비디아 GA100[17][18]
엔비디아 GA102[19] |
암페어 A100 (SXM4 및 PCIe)[20] | PCIe 4.0 | 16 GT/s | 16 + 16 [c] | 256 Gbit/s = 32 GB/s | 1 | 32 + 32 GB/s | 32 [d] | 64 GB/s |
| 엔비디아 GP100 | P100 SXM, (P100 PCI-E는 제공되지 않음)[21] | NVLink 1.0 | 20 GT/s | 8 + 8 [e] | 160 Gbit/s = 20 GB/s | 4 | 80 + 80 GB/s | 64 | 160 GB/s |
| 엔비디아 GV100 | V100 SXM2[22] (V100 PCI-E는 제공되지 않음) | NVLink 2.0 | 25 GT/s | 8 + 8 [e] | 200 Gbit/s = 25 GB/s | 6[23] | 150 + 150 GB/s | 96 | 300 GB/s |
| 엔비디아 TU104 | 지포스 RTX 2080, 쿼드로 RTX 5000[24] | NVLink 2.0 | 25 GT/s | 8 + 8 [e] | 200 Gbit/s = 25 GB/s | 1 | 25 + 25 GB/s | 16 | 50 GB/s |
| 엔비디아 TU102 | 지포스 RTX 2080 Ti, 쿼드로 RTX 6000/8000[24] | NVLink 2.0 | 25 GT/s | 8 + 8 [e] | 200 Gbit/s = 25 GB/s | 2 | 50 + 50 GB/s | 32 | 100 GB/s |
| 엔비디아 GA100[17][18] | 암페어 A100 (SXM4 및 PCIe)[20] | NVLink 3.0 | 50 GT/s | 4 + 4 [e] | 200 Gbit/s = 25 GB/s | 12[25] | 300 + 300 GB/s | 96 | 600 GB/s |
| 엔비디아 GA102[19] | 지포스 RTX 3090, 쿼드로 RTX A6000 | NVLink 3.0 | 28.125 GT/s | 4 + 4 [e] | 112.5 Gbit/s = 14.0625 GB/s | 4 | 56.25 + 56.25 GB/s | 16 | 112.5 GB/s |
| 호퍼용 NVSwitch[26] | (완전 연결된 64포트 스위치) | NVLink 4.0 | 106.25 GT/s | 9 + 9 [e] | 450 Gbit/s | 18 | 3600 + 3600 GB/s | 128 | 7200 GB/s |
| 엔비디아 그레이스 CPU[27] | 엔비디아 GH200 슈퍼칩 | PCIe-5 (4x, 16x) @ 512 GB/s | |||||||
| 엔비디아 그레이스 CPU[27] | 엔비디아 GH200 슈퍼칩 | NVLink-C2C @ 900 GB/s | |||||||
| 엔비디아 호퍼 GPU[27] | 엔비디아 GH200 슈퍼칩 | NVLink-C2C @ 900 GB/s | |||||||
| 엔비디아 호퍼 GPU[27] | 엔비디아 GH200 슈퍼칩 | NVLink 4 (18x) @ 900 GB/s |
실제 성능은 다양한 데이터 전송 오버헤드 비용과 사용률을 적용하여 결정될 수 있다. 이는 다음과 같은 다양한 원인에서 발생한다.
- 128b/130b 전송로 부호 (예: 버전 3.0 이상의 PCI 익스프레스 데이터 전송 참조)
- 링크 제어 문자
- 트랜잭션 헤더
- 버퍼링 능력
- 컴퓨터 측의 DMA 사용
이러한 물리적 제한은 일반적으로 데이터 속도를 전송 속도의 90~95% 사이로 감소시킨다. NVLink 벤치마크는 IBM 파워8 CPU 세트에 의해 구동되는 시스템에서 P100 GPU를 향한 40 Gbit/s(2개의 서브 레인 업링크) NVLink 연결에 대해 약 35.3 Gbit/s (호스트에서 장치로)의 도달 가능한 전송 속도를 보여준다.[28]
플러그인 보드에서의 사용
[편집]이 기능을 갖춘 소수의 하이엔드 게이밍 및 전문가용 그래픽 GPU 보드와 같은 다양한 버전의 플러그인 보드를 NVLink 그룹으로 묶기 위해 추가 커넥터를 노출시키는, 물리적·논리적 설계가 약간씩 다른 상대적으로 컴팩트한 PCB 기반 상호 연결 플러그들이 존재한다. 일반적으로 물리적 및 논리적 설계로 인해 동일한 유형의 보드만 서로 결합된다. 일부 설정에서는 전체 데이터 속도를 달성하기 위해 두 개의 동일한 플러그를 적용해야 한다. 현재 전형적인 플러그는 U자형이며, 사용자의 반대편을 향한 형상의 각 끝 스트로크에 미세한 그리드 엣지 커넥터가 있다. 플러그의 너비는 플러그인 카드가 호스트 컴퓨터 시스템의 메인보드에 얼마나 떨어져 배치되어야 하는지를 결정한다. 카드의 배치 거리는 일반적으로 일치하는 플러그에 의해 결정된다(알려진 사용 가능한 플러그 너비는 3~5슬롯이며 보드 유형에 따라 다르다).[29][30] 이 상호 연결은 구조적 설계와 외형 때문에 종종 2004년의 스케일러블 링크 인터페이스(SLI)라고 불리기도 하지만, 현대의 NVLink 기반 설계는 이전 설계와 비교했을 때 기본 레벨에서 기능이 다른 상당히 차별화된 기술적 성격을 갖는다. 보고된 실제 장치는 다음과 같다.[31]
- 쿼드로 GP100 (카드 한 쌍은 최대 2개의 브리지를 사용한다.[32] 이 설정은 최대 160 GB/s의 2개 또는 4개의 NVLink 연결을 구현한다.[33] - 이는 20 GT/s의 NVLink 1.0과 유사할 수 있다)
- 쿼드로 GV100 (카드 한 쌍은 최대 2개의 브리지가 필요하며 최대 200 GB/s를 구현한다.[29] - 이는 25 GT/s 및 4개 링크를 갖춘 NVLink 2.0과 유사할 수 있다)
- 지포스 RTX 2080 (TU104 기반, 단일 브리지 "GeForce RTX NVLink-Bridge" 사용[34])
- 지포스 RTX 2080 Ti (TU102 기반, 단일 브리지 "GeForce RTX NVLink-Bridge" 사용[30])
- 지포스 RTX 3090 (GA102 기반, 고유한 "GeForce RTX NVLink-Bridge (30 시리즈 제품용)" 사용)[35]
- 쿼드로 RTX 5000[36] (TU104 기반[37], 단일 브리지 "NVLink"로 최대 50 GB/s[38] - 이는 25 GT/s 및 1개 링크를 갖춘 NVLink 2.0과 유사할 수 있다)
- 쿼드로 RTX 6000[36] (TU102 기반[37], 단일 브리지 "NVLink HB"로 최대 100 GB/s[38] - 이는 25 GT/s 및 2개 링크를 갖춘 NVLink 2.0과 유사할 수 있다)
- 쿼드로 RTX 8000[36] (TU102 기반[39], 단일 브리지 "NVLink HB"로 최대 100 GB/s[38] - 이는 25 GT/s 및 2개 링크를 갖춘 NVLink 2.0과 유사할 수 있다)
서비스 소프트웨어 및 프로그래밍
[편집]테슬라, 쿼드로 및 Grid 제품군의 경우 NVML-API(엔비디아 관리 라이브러리 API)는 윈도우 및 리눅스 시스템에서 구성 요소 평가 및 버전 확인, 상태/오류 조회, 성능 모니터링 등 NVLink 상호 연결의 일부 측면을 프로그래밍 방식으로 제어하기 위한 일련의 기능을 제공한다.[40] 또한 NCCL 라이브러리(엔비디아 집합 통신 라이브러리) 제공을 통해 일반 개발자들이 인공지능 및 이와 유사한 연산 집약적인 주제를 NVLink 상에서 강력하게 구현할 수 있게 한다.[41] 엔비디아 제어판의 "3D 설정" » "SLI, Surround, PhysX 구성" 페이지와 CUDA 샘플 애플리케이션 "simpleP2P"는 이러한 API를 사용하여 NVLink 기능과 관련된 서비스를 구현한다. 리눅스 플랫폼에서는 "nvidia-smi nvlink" 하위 명령을 사용하는 명령줄 애플리케이션이 유사한 고급 정보 및 제어 세트를 제공한다.[31]
역사
[편집]2016년 4월 5일, 엔비디아는 엔비디아 테슬라 P100 제품 등에서 사용되는 파스칼 마이크로아키텍처 기반 GP100 GPU에 NVLink가 구현될 것이라고 발표했다.[42] 엔비디아 DGX-1 고성능 컴퓨터 베이스의 도입으로 단일 랙 시스템에 최대 8개의 P100 모듈을 최대 2개의 호스트 CPU에 연결할 수 있게 되었다. 캐리어 보드는 NVLink 연결 라우팅을 위한 전용 보드를 허용한다. 각 P100은 800개의 핀이 필요하며, 400개는 PCIe + 전원용, 나머지 400개는 NVLink용으로, NVLink 하나만으로도 거의 1600개의 보드 트레이스가 추가된다.[43] 각 CPU는 PCIe를 통해 4개의 P100 장치에 직접 연결되며, 각 P100은 동일한 CPU 그룹 내의 다른 3개 P100 각각에 대해 하나씩의 NVLink를 가지며, 다른 CPU 그룹의 P100 하나에 대해 하나 더의 NVLink를 갖는다. 각 NVLink(링크 인터페이스)는 양방향으로 상향 20 GB/sec, 하향 20 GB/sec를 제공하며, GP100 GPU당 4개의 링크가 있어 총 합계 대역폭은 상향 80 GB/sec 및 하향 80 GB/sec가 된다.[44] NVLink는 라우팅을 지원하므로 DGX-1 설계에서 모든 P100에 대해 나머지 7개의 P100 중 총 4개는 직접 도달 가능하고 나머지 3개는 단 하나의 홉으로 도달 가능하다. 엔비디아의 블로그 기반 출판물에 따르면 2014년부터 NVLink는 점대점 성능 향상을 위해 개별 링크의 번들링을 허용하며, 예를 들어 두 개의 P100 사이에 모든 링크가 설정된 설계는 그들 사이에서 80 GB/s의 전체 NVLink 대역폭을 허용한다.[45]
GTC2017에서 엔비디아는 볼타 세대 GPU를 선보였으며, 이 설계에서 단일 칩에 대해 총 300 GB/s의 I/O 데이터 속도를 허용하는 개정된 NVLink 버전 2.0의 통합을 시사했다. 또한 V100 유형의 GPU 모듈이 장착되고 NVLink 2.0이 네트워크 방식(4개의 V100 모듈로 구성된 두 그룹이 그룹 간 연결됨) 또는 4개의 V100 모듈로 구성된 한 그룹의 완전 상호 연결 방식으로 구현된 DGX-1 및 DGX-Station 고성능 컴퓨터의 2017년 3분기 인도를 약속하는 예약 주문 옵션을 발표했다.
2017년에서 2018년 사이, IBM과 엔비디아는 미국 에너지부를 위해 서밋 및 시에라 슈퍼컴퓨터를 인도했다.[46] 이들은 IBM의 POWER9 CPU 제품군과 엔비디아의 볼타 아키텍처를 결합했으며, CPU-GPU 및 GPU-GPU 상호 연결을 위해 NVLink 2.0을 사용하고 시스템 상호 연결을 위해 인피니밴드 EDR을 사용했다.[47]
2020년, 엔비디아는 2021년 1월 1일부터 RTX 2000 시리즈 및 그 이전 제품에 대해 새로운 SLI 드라이버 프로필을 더 이상 추가하지 않겠다고 발표했다.[48]
2022년, 에이다 러브레이스 아키텍처에서 NVLink 커넥터가 제거되었다. 엔비디아 CEO 젠슨 황은 제거를 통해 확보된 I/O가 AI 처리 능력을 위해 사용될 것이며, PCIe Gen 5.0 표준으로 전환할 의도임을 명시했다.[49][50][51] 일부 사용자들은 특정 보드에 제거된 NVLink 커넥터의 흔적이 있다고 보고했다.[52][53][54] NVLink 기술은 데이터 센터 및 엔터프라이즈 사용자들에게 계속 제공되고 있다.[55]
타 제조사의 지원
[편집]2025년, 칩 설계자가 NVLink를 라이선스하고 자사 제품에 통합할 수 있도록 하는 NVLink Fusion이 발표되었다.[56] 이후 NVLink Fusion은 데이터 센터 제품을 위해 ARM 및 SiFive에 의해 라이선스되었으며,[57][58] 아마존 웹 서비스도 차세대 Trainium4 가속기를 위해 이를 도입했다.[59]
같이 보기
[편집]각주
[편집]- ↑ Nvidia NVLINK 2.0 arrives in IBM servers next year by Jon Worrel on fudzilla.com on August 24, 2016
- ↑ Kennedy, Patrick (2022년 8월 23일). “NVIDIA NVLink4 NVSwitch at Hot Chips 34”. 《ServeTheHome》.
- ↑ “NVIDIA DGX-1 With Tesla V100 System Architecture” (PDF).
- ↑ “What Is NVLink?”. Nvidia. 2014년 11월 14일.
- ↑ Ryan Smith (2020년 5월 14일). “NVIDIA Ampere Unleashed: NVIDIA Announces New GPU Architecture, A100 GPU, and Accelerator”. AnandTech. 2020년 5월 14일에 원본 문서에서 보존된 문서.
- ↑ Jacobs, Blair (2022년 3월 23일). “Nvidia reveals next-gen Hopper GPU architecture” (영국 영어). 《Club386》. 2022년 5월 4일에 확인함.
- ↑ 가 나 “PCIe - PCI Express (1.1 / 2.0 / 3.0 / 4.0 / 5.0)”. 《www.elektronik-kompendium.de》.
- ↑ Alcorn, Paul (2019년 1월 17일). “PCIe 5.0 Is Ready For Prime Time”. 《Tom's Hardware》.
- ↑ “The PCIe 6.0 Specification Webinar Q&A: A Deeper Dive into FLIT Mode, PAM4, and Forward Error Correction (FEC) PCI-SIG”. 《pcisig.com》. PCI-SIG. 2024년 11월 28일에 확인함.
We considered various FLIT sizes and settled on 256 Bytes with 236 bytes of TLP payload and a TLP efficiency of 92%.
- ↑ “NVLink-Network Switch - NVIDIA's Switch Chip for High Communication-Bandwidth SuperPODs” (PDF). 《HotChips 34》. 2022년 8월 23일.
- ↑ “NVIDIA Blackwell Architecture Technical Overview” (영어). 《NVIDIA》. 8쪽. 2024년 11월 28일에 확인함.
Fifth-generation NVLink doubles the performance of fourth- generation NVLink in NVIDIA Hopper. While the new NVLink in Blackwell GPUs also uses two high-speed differential pairs in each direction to form a single link as in the Hopper GPU, NVIDIA Blackwell doubles the effective bandwidth per link to 50 GB/sec in each direction.
- ↑ online, heise. “NVIDIA Tesla P100 [SXM2], 16GB HBM2 (NVTP100-SXM) | heise online Preisvergleich / Deutschland”. 《geizhals.de》.
- ↑ online, heise (2023년 8월 14일). “PNY Tesla P100 [PCIe], 16GB HBM2 (TCSP100M-16GB-PB/NVTP100-16) ab € 4990,00 (2020) | heise online Preisvergleich / Deutschland”. 《geizhals.de》.
- ↑ NVLink Takes GPU Acceleration To The Next Level by Timothy Prickett Morgan at nextplatform.com on May 4, 2016
- ↑ “NVIDIA Tesla V100 SXM2 16 GB Specs”. 《TechPowerUp》. 2023년 8월 14일.
- ↑ online, heise (2023년 8월 14일). “PNY Quadro GV100, 32GB HBM2, 4x DP (VCQGV100-PB) ab € 10199,00 (2020) | heise online Preisvergleich / Deutschland”. 《geizhals.de》.
- ↑ 가 나 Morgan, Timothy Prickett (2020년 5월 14일). “Nvidia Unifies AI Compute With "Ampere" GPU”. 《The Next Platform》.
- ↑ 가 나 “Data sheet” (PDF). 《www.nvidia.com》. 2020년 9월 15일에 확인함.
- ↑ 가 나 “NVIDIA ampere GA102 GPU Architecture Whitepaper” (PDF). 《nvidia.com》. 2023년 5월 2일에 확인함.
- ↑ 가 나 “Tensor Core GPU” (PDF). 《nvidia.com》. 2023년 5월 2일에 확인함.
- ↑ Chris Williams (2016년 6월 20일). “All aboard the PCIe bus for Nvidia's Tesla P100 supercomputer grunt”. 《theregister.co.uk》.
- ↑ online, heise (2017년 6월 22일). “Nvidia Tesla V100: PCIe-Steckkarte mit Volta-Grafikchip und 16 GByte Speicher angekündigt”. 《heise online》.
- ↑ GV100 Blockdiagramm in "GTC17: NVIDIA präsentiert die nächste GPU-Architektur Volta - Tesla V100 mit 5.120 Shadere인heiten und 16 GB HBM2" by Andreas Schilling on hardwareluxx.de on May 10, 2017
- ↑ 가 나 Angelini, Chris (2018년 9월 14일). “Nvidia's Turing Architecture Explored: Inside the GeForce RTX 2080”. 《탐스 하드웨어》. 7쪽. 2019년 2월 28일에 확인함.
TU102 and TU104 are Nvidia's first desktop GPUs rocking the NVLink interconnect rather than a Multiple Input/Output (MIO) interface for SLI support. The former makes two x8 links available, while the latter is limited to one. Each link facilitates up to 50 GB/s of bidirectional bandwidth. So, GeForce RTX 2080 Ti is capable of up to 100 GB/s between cards and RTX 2080 can do half of that.
- ↑ Schilling, Andreas (2020년 6월 22일). “A100 PCIe: NVIDIA GA100-GPU kommt auch als PCI-Express-Variante”. 《Hardwareluxx》. 2023년 5월 2일에 확인함.
- ↑ “NVLINK AND NVSWITCH”. 《www.nvidia.com》. 2021년 2월 7일에 확인함.
- ↑ 가 나 다 라 “A Big Memory Nvidia GH200 Next to Your Desk: Closer Than You Think”. 2024년 2월 23일.
- ↑ Eliot Eshelman (2017년 1월 26일). “Comparing NVLink vs PCI-E with NVIDIA Tesla P100 GPUs on OpenPOWER Servers”. 《microway.com》.
- ↑ 가 나 “NVIDIA Quadro NVLink Grafikprozessor-Zusammenschaltung in Hochgeschwindigkeit”. 《NVIDIA》.
- ↑ 가 나 “Grafik neu erfunden: NVIDIA GeForce RTX 2080 Ti-Grafikkarte”. 《NVIDIA》.
- ↑ 가 나 “NVLink on NVIDIA GeForce RTX 2080 & 2080 Ti in Windows 10”. 《Puget Systems》. 2018년 10월 5일.
- ↑ [1]
- ↑ Schilling, Andreas (2017년 2월 5일). “NVIDIA präsentiert Quadro GP100 mit GP100-GPU und 16 GB HBM2”. 《Hardwareluxx》.
- ↑ “NVIDIA GeForce RTX 2080 Founders Edition Graphics Card”. 《NVIDIA》.
- ↑ “NVIDIA Reserves NVLink Support For The RTX 3090”. 《TechPowerUp》.
- ↑ 가 나 다 “NVIDIA Quadro Graphics Cards for Professional Design Workstations”. 《NVIDIA》.
- ↑ 가 나 “NVIDIA Quadro RTX 6000 und RTX 5000 Ready für Pre-Order”. 2018년 10월 1일.
- ↑ 가 나 다 “NVLink | pny.com”. 《www.pny.com》.
- ↑ “NVIDIA Quadro RTX 8000 Specs”. 《TechPowerUp》. 2023년 8월 14일.
- ↑ “NvLink Methods”. 《docs.nvidia.com》.
- ↑ “NVIDIA Collective Communications Library (NCCL)”. 《NVIDIA Developer》. 2017년 5월 10일.
- ↑ “Inside Pascal: NVIDIA's Newest Computing Platform”. 2016년 4월 5일.
- ↑ Anandtech.com
- ↑ NVIDIA Unveils the DGX-1 HPC Server: 8 Teslas, 3U, Q2 2016 by anandtech.com on April, 2016
- ↑ How NVLink Will Enable Faster, Easier Multi-GPU Computing by Mark Harris on November 14, 2014
- ↑ “Whitepaper: Summit and Sierra Supercomputers” (PDF). 2014년 11월 1일.
- ↑ “Nvidia Volta, IBM POWER9 Land Contracts For New US Government Supercomputers”. AnandTech. 2014년 11월 17일. 2014년 11월 18일에 원본 문서에서 보존된 문서.
- ↑ “RIP: Nvidia slams the final nail in SLI's coffin, no new profiles after 2020”. PC 월드. 2020년 9월 18일.
- ↑ “NVIDIA kills NVLink support for Ada Lovelace, a silent death for SLI” (미국 영어). 《TweakTown》. 2022년 9월 25일. 2026년 3월 4일에 확인함.
- ↑ published, Chuong Nguyen (2022년 9월 21일). “Nvidia kills off NVLink on RTX 4090” (영어). 《Windows Central》. 2026년 3월 4일에 확인함.
- ↑ “Jensen Confirms: NVLink Support in Ada Lovelace is Gone”. Sep 21st, 2022.
- ↑ “RTX 5090 Nvlink” (영어). 《Level1Techs Forums》. 2025년 2월 18일. 2026년 3월 4일에 확인함.
- ↑ published, Anton Shilov (2022년 10월 13일). “Gigabyte's RTX 4090 has Traces of NVLink” (영어). 《Tom's Hardware》. 2026년 3월 4일에 확인함.
- ↑ Wilson, Jason R. (2022년 10월 14일). “Gigabyte GeForce RTX 4090 PCB Shows Left Out NVIDIA NVLINK Traces” (미국 영어). 《Wccftech》. 2026년 3월 4일에 확인함.
- ↑ “NVLink & NVSwitch for Advanced Multi-GPU Communication” (미국 영어). 《NVIDIA》. 2026년 3월 4일에 확인함.
- ↑ Smith, Ryan (2025년 5월 18일). “NVIDIA Computex 2025 Keynote Live Coverage”. Serve the Home. 2026년 1월 16일에 확인함.
- ↑ Smith, Ryan (2026년 1월 15일). “SiFive To Adopt NVLInk Fusion For Future Data Center RISC-V CPU Designs”. Serve the Home. 2026년 1월 16일에 확인함.
- ↑ Robinson, Cliff (2025년 11월 17일). “Arm Joins the NVIDIA NVLink Fusion Ecosystem”. Serve the Home. 2026년 1월 16일에 확인함.
- ↑ Robinson, Cliff (2025년 12월 2일). “NVIDIA NVLink Fusion Tapped for Future AWS Trainium4 Deployments”. Serve the Home. 2026년 1월 16일에 확인함.