728x90 반응형 ViT1 [ViT] Vision Transformer 구현 -2 Encoder (완) 이전에 Vision Transformer의 Embedding까지 구현했다. [ViT] Vision Transformer 구현 -1 Class Token, Position Embedding 이전에 이미지를 패치로 나누고 프로젝션 연산까지 진행하는 코드를 작성했다. [ViT] Vision Transformer 구현 -0 Linear Projection of Flattened Pathes Vision Transformer를 모듈별로 구현하며 궁금한 점을 기록했다 yeeca.tistory.com class VisionTransformer_(nn.Module): def __init__(self,img_size,patch_size,embedd_dim,): super().__init__() self.img_size .. 2023. 4. 24. 이전 1 다음 728x90 반응형