November 30, 2024

파이토치 한국 사용자 모임이 주최한 네 번째 기술 세미나 돌아보기

파이토치 한국 사용자 모임은 2018년 중순부터 PyTorch 튜토리얼 문서를 한국어로 번역하면서 시작한 PyTorch 사용자 커뮤니티입니다. 한국어 사용자들에게 PyTorch를 소개하고 함께 배우며 성장하는 것을 목표로 하고 있습니다. 더 많은 분들과 기술 트렌드를 공유하고 서로의 이야기를 나누기 위해, 2022년부터 파이토치 한국 사용자 모임 테크 세미나를 개최해 왔습니다. 2024년 11월 30일에 열린 네 번째 기술 세미나는 다섯 ...

더 읽기

August 29, 2024

AI 가속하기: 이제 더 빠른 워크로드를 위해 PyTorch 2.4에서 Intel GPU를 지원합니다

기쁜 소식을 전해드립니다! 이제 PyTorch 2.4에서 Intel® Data Center Max 시리즈와 SYCL 소프트웨어 스택을 지원하여 학습과 추론 모두에서 AI 워크플로우의 속도를더 빠르게 할 수 있습니다. 이번 업데이트를 통해 최소한의 코딩 작업으로 일관된 프로그래밍 경험을 제공하며, 스트리밍 장치(streaming device)를 원활히 지원하기 위해 장치(device) 및 스트림(stream), 이벤트(event), 생성자(...

더 읽기

July 30, 2024

토치챗(torchchat) 소개: 노트북, 데스크탑 및 모바일에서 로컬 LLM 추론 가속화하기

오늘 노트북과 데스크탑, 모바일에서 Llama 3와 3.1, 그리고 다른 대규모 언어 모델(LLM, Large Language Model)을 원활하고 고성능으로 실행하는 방법을 보여주는 라이브러리인 torchchat을 출시했습니다. Today, we’re releasing torchchat, a library showcasing how to seamlessly and performantly run Llama 3, 3.1, and ot...

더 읽기

July 11, 2024

FlashAttention-3: 비동기 및 저정밀도에서의 빠르고 정확한 어텐션 제공

어텐션(Attention)은 트랜스포머(Transformer) 구조의 핵심 계층(layer)이지만, 대규모 언어 모델(LLM, Large Language Model)과 긴-컨텍스트 애플리케이션(long-context application)의 병목(bottleneck)이기도 합니다. FlashAttention (및 FlashAttention-2)은 메모리 읽기/쓰기를 최소화하여 GPU에서 어텐션 연산을 가속화하는 방법을 개척했으며, 이제 대...

더 읽기

June 23, 2024

PyTorch로 전문가 혼합(MoE) 모델 학습 확장하기

최근 1년간 전문가 혼합(MoE, Mixture-of-Experts) 모델들의 인기가 급증했습니다. 이러한 인기는 DBRX, Mixtral, DeepSeek를 비롯하여 다양하고 강력한 오픈소스 모델들로부터 비롯된 것입니다. Databricks에서는 PyTorch 팀과 협력하여 MoE 모델의 학습을 확장했습니다. 이번 글에서는 PyTorch Distributed 및 PyTorch로 구현한 효율적인 오픈소스 MoE 구현체인 MegaBlocks...

더 읽기