
[아이티비즈 김문구 기자] 키사이트테크놀로지스가 AI 클러스터 구성 요소를 실제 워크로드로 에뮬레이션하여 검증함으로써 고객이 데이터 센터 내 AI 처리 역량을 확장할 수 있는 엔드투엔드 솔루션 포트폴리오인 KAI(Keysight AI) 아키텍처를 출시했다.
이와 함께, 키사이트는 KAI 데이터 센터 빌더, 인터커넥트 및 네트워크 성능 테스터, DCA-M 샘플링 오실로스코프 등 3종의 신제품도 선보였다. 이를 통해, AI 네트워크 설계 및 구축 속도를 획기적으로 높이고, 1.6T 구성 요소의 특성 분석 및 테스트를 가능하게 하여 AI 데이터 센터 네트워크의 신뢰성과 성능 최적화를 보장한다.
AI 데이터 센터 확장을 위해서는 설계 및 구축 전반에 걸친 테스트가 필수다. 모든 칩, 케이블, 인터커넥트, 스위치, 서버, GPU등, 부품 단위는 물론 시스템 수준에서 검증되어야 한다. 물리 계층 테스트를 보완하는 전 스택 워크로드 에뮬레이션은 부품 테스트만으로는 파악할 수 없는 통찰을 제공한다. 이를 통해 고객은 AI 성능을 조기에 극대화하고, 클러스터 투자 수익을 빠르게 높일 수 있다.
KAI 아키텍처는 AI 공급업체, 반도체 제조사, 네트워크 장비 제조사가 설계, 개발, 운영 전반에서 속도를 높일 수 있도록 지원한다. 먼저, 설계 단계에서는 최첨단 고속 디지털 설계를 디버깅하고, 최신 PCIe, DDR, CXL 표준을 충족하거나 이를 초과 달성할 수 있도록 돕는다. 개발 단계에서는 고속 인터커넥트, 케이블, 칩셋 등 구성 요소의 규격을 검증하고, 시스템 수준에서 워크로드 성능을 검증할 수 있게 해준다. 마지막으로, 배포 및 운영 단계에서는 데이터 센터 전체의 시스템 성능을 검증하고 조율함으로써, 실제 운영 전에 성능 문제를 사전에 파악하고 실패 위험을 줄일 수 있도록 한다.
AI 운영자들은 AI 모델 학습을 가속화하기 위해 모델 분할이라 불리는 병렬 처리 전략을 다양하게 사용한다. 모델 분할 방식이 AI 클러스터의 토폴로지 및 구성과 잘 맞을수록 학습 성능이 향상된다.
KAI 데이터 센터 빌더는 LLM을 포함한 다양한 AI 모델 학습 워크로드를 에뮬레이션하여, 네트워크, 호스트, 가속기 등 AI 인프라 구성 요소 설계와 검증에 통합할 수 있다. 이 솔루션은 하드웨어 설계, 프로토콜, 아키텍처, AI 학습 알고리즘 간의 시너지를 높여 시스템 성능을 향상시킨다.
실제 AI 학습 작업의 네트워크 통신 패턴을 재현하는 이 워크로드 에뮬레이션 솔루션은 실험을 가속화하고 학습 곡선을 줄이며, 실제 AI 학습 작업으로는 파악하기 어려운 성능 저하 원인을 더 깊이 있게 분석할 수 있도록 한다.
수십 년간 네트워크 인터커넥트 성능 검증은 수동적이고 시간이 많이 소요되는 방식으로 진행되어 왔으며, 자동화 시스템 구축이 어려웠고, 고급 스크립팅 기술이 요구되었다. 또한 데이터와 리포트를 중앙에서 관리할 시스템이 없어 테스트 추적과 재현이 어려웠다. AI와 데이터 센터 인터커넥트의 다양성과 규모가 커짐에 따라 기존의 테스트 방식은 현재의 복잡한 프로덕션 네트워크의 신뢰성을 정확히 예측하거나 측정할 수 없다.
새로운 INPT-1600GE 인터커넥트 및 네트워크 성능 테스터와 ITS 소프트웨어를 포함한 인터커넥트 테스트 시스템은 데이터를 지능적으로 관리∙저장∙활용할 수 있는 통합 시스템으로서, 고속 이더넷 네트워크 및 AI 데이터 센터에서의 인터커넥트 검증을 자동화한다.
1.6T 광 인터커넥트를 사용하는 AI 데이터 센터 네트워크의 빠른 구축은 매우 높은 데이터 속도와 신호 무결성 요건으로 인해 측정에서 큰 과제를 안긴다. 엔지니어는 다양한 조건에서 트랜시버 성능을 특성 분석하고 검증할 수 있어야 하며, 이를 위해서는 탁월한 대역폭, 낮은 노이즈, 높은 감도를 갖춘 정밀한 테스트 장비가 필요하다. 제조 현장에서는 자동화된 테스트가 효율적이고 확장 가능하며 정밀해야 하며, 대량 생산 시에도 데이터 센터 기준을 충족하고 산업 표준을 준수해야 한다.
새로운 DCA-M 샘플링 오실로스코프는 최대 240Gbps/레인 광 신호 분석을 지원하며, 최대 120 GBaud의 통합 클럭 복구 기능과 함께 업계 최고 수준의 광 측정 감도를 제공한다. 이 장비는 R&D 및 제조 현장에서 1.6T 트랜시버의 광 테스트 요구를 충족하도록 설계되었다.
키사이트 네트워크 테스트 및 보안 솔루션 부문 부사장 겸 총괄 매니저 램 페리아카루판은 "AI 데이터 센터 확장을 위해서는 부품 수준 검증을 넘어선 접근이 필요하며, 특히, 상호운용성, 성능, 효율성은 전체 시스템 관점에서만 측정할 수 있다”며, “키사이트의 AI 솔루션은 트래픽 에뮬레이션, 부품 및 네트워크 규격 검증, 최신 산업 표준에 대한 폭넓은 전문성을 통합하여 컴퓨팅, 네트워크, 인터커넥트, 전력 등 데이터 센터 성능의 모든 측면을 에뮬레이션함으로써, AI 인프라가 진화하는 요구를 충족할 수 있도록 한다”고 강조했다.