본문 바로가기
728x90
반응형

Vision Transformer3

[ViT] Vision Transformer 구현 -2 Encoder (완) 이전에 Vision Transformer의 Embedding까지 구현했다. [ViT] Vision Transformer 구현 -1 Class Token, Position Embedding 이전에 이미지를 패치로 나누고 프로젝션 연산까지 진행하는 코드를 작성했다. [ViT] Vision Transformer 구현 -0 Linear Projection of Flattened Pathes Vision Transformer를 모듈별로 구현하며 궁금한 점을 기록했다 yeeca.tistory.com class VisionTransformer_(nn.Module): def __init__(self,img_size,patch_size,embedd_dim,): super().__init__() self.img_size .. 2023. 4. 24.
[ViT] Vision Transformer 구현 -1 Class Token, Position Embedding 이전에 이미지를 패치로 나누고 프로젝션 연산까지 진행하는 코드를 작성했다. [ViT] Vision Transformer 구현 -0 Linear Projection of Flattened Pathes Vision Transformer를 모듈별로 구현하며 궁금한 점을 기록했다. Vision Transformer(ViT)의 데이터(이미지) 처리 프로세스를 ChatGPT에게 물어봤다. 입력 이미지에서 패치 추출: 입력 이미지에서 패치를 추출 yeeca.tistory.com 다시 순서를 쓰면 다음과 같다. 1. Patch 추출 및 Embedding 2. Patch + Position Embedding 3. Encoder 4. MLP Head 순서에 따른 결과를 확인하기 위해 임시 이미지 텐서를 만든다. 나중에 V.. 2023. 4. 23.
[ViT] Vision Transformer 구현 -0 Linear Projection of Flattened Pathes Vision Transformer를 모듈별로 구현하며 궁금한 점을 기록했다. Vision Transformer(ViT)의 데이터(이미지) 처리 프로세스를 ChatGPT에게 물어봤다. 입력 이미지에서 패치 추출: 입력 이미지에서 패치를 추출합니다. 일반적으로는 16x16 크기의 패치를 사용합니다. 이는 이미지의 크기에 따라 조정될 수 있습니다. 임베딩: 추출한 각 패치는 먼저 임베딩(embedding)되어 벡터로 변환됩니다. 이를 위해 일반적으로 선형 변환(linear transformation)과 사전 학습된(Pre-trained) 모델을 사용합니다. 위치 임베딩: 임베딩된 패치의 위치 정보를 제공하기 위해 위치 임베딩(Positional embedding)이 추가됩니다. 이는 각 패치의 위치에 대한 고.. 2023. 4. 21.
728x90
반응형