728x90 반응형 dl2 [ViT] Vision Transformer 구현 -2 Encoder (완) 이전에 Vision Transformer의 Embedding까지 구현했다. [ViT] Vision Transformer 구현 -1 Class Token, Position Embedding 이전에 이미지를 패치로 나누고 프로젝션 연산까지 진행하는 코드를 작성했다. [ViT] Vision Transformer 구현 -0 Linear Projection of Flattened Pathes Vision Transformer를 모듈별로 구현하며 궁금한 점을 기록했다 yeeca.tistory.com class VisionTransformer_(nn.Module): def __init__(self,img_size,patch_size,embedd_dim,): super().__init__() self.img_size .. 2023. 4. 24. [ViT] Vision Transformer 구현 -1 Class Token, Position Embedding 이전에 이미지를 패치로 나누고 프로젝션 연산까지 진행하는 코드를 작성했다. [ViT] Vision Transformer 구현 -0 Linear Projection of Flattened Pathes Vision Transformer를 모듈별로 구현하며 궁금한 점을 기록했다. Vision Transformer(ViT)의 데이터(이미지) 처리 프로세스를 ChatGPT에게 물어봤다. 입력 이미지에서 패치 추출: 입력 이미지에서 패치를 추출 yeeca.tistory.com 다시 순서를 쓰면 다음과 같다. 1. Patch 추출 및 Embedding 2. Patch + Position Embedding 3. Encoder 4. MLP Head 순서에 따른 결과를 확인하기 위해 임시 이미지 텐서를 만든다. 나중에 V.. 2023. 4. 23. 이전 1 다음 728x90 반응형