August 07, 2023

PyTorch에서 x86 CPU용 INT8 양자화

개요 / Overview INT8 양자화(quantization)는 x86 CPU 플랫폼에서 딥러닝 추론 속도를 높이는 강력한 기법입니다. 모델의 가중치와 활성화의 정밀도를 32비트 부동소수점(FP32; 32-bit floating-point)에서 8비트 정수(INT8; 8-bit integer)로 줄임으로써 INT8 양자화는 정확도를 유지하면서도 추론 속도와 메모리 요구량을 크게 향상시킬 수 있었습니다. INT8 quantization is a powerful technique for speeding up deep learning...

더 읽어보기 →

May 03, 2023

파이토치 도카톤(Docathon) 2023 개최 안내

첫 번째 파이토치 도카톤(Docathon)을 개최하게 되어 매우 기쁩니다! 도카톤은 커뮤니티의 도움을 받아 문서를 개선하는 데 초점을 맞춘 해커톤 형식의 이벤트입니다. 문서는 모든 기술에서 매우 중요한 요소이며, 문서를 개선함으로써 사용자가 PyTorch를 더 쉽게 시작하고, 기능을 효과적으로 사용하는 방법을 이해하도록 돕고, 궁극적으로 머신러닝 분야의 연구부터 생산에 이르는 과정을 가속화할 수 있습니다. We...

더 읽어보기 →

April 19, 2023

가속화된 트랜스포머로 대규모 언어 모델 가속화하기

요약: 안드레이 카파시(Andrej Karpathy)가 GPT 모델을 컴팩트한 오픈소스로 구현한 nanoGPT를 예제로, 가속화된 파이토치 2.0 트랜스포머와 새로 도입된 torch.compile() 메서드를 사용하여 대규모 언어 모델을 가속하는 방법을 보여줍니다. 가속화된 PT2 트랜스포머와 함께 도입된 새로운 스케일드 닷 프로덕트 어텐션 연산자(scaled dot product attention operator)를 사용하여 플래시-어텐션(flash_attention) 커스텀 커널을 선택하고 배치당 훈련 시간을 ~143ms/배치...

더 읽어보기 →

April 14, 2023

파이토치 2를 사용한 가속화된 생성 디퓨전 모델

요약: PyTorch 2.0 nightly 버전은 새로운 torch.compile() 컴파일러를 사용하여 생성적 디퓨전 모델의 성능을 즉시 개선하고 PyTorch 2와 통합된 멀티헤드 어텐션의 최적화된 구현을 제공합니다. TL;DR: PyTorch 2.0 nightly offers out-of-the-box performance improvement for Generative Diffusion models by using the new torch.compile() compiler and optimized implementations of Multihead Attention integrated with PyTorch...

더 읽어보기 →