Qscar

Hymba - 논문 톺아보기 17

2026-01-21T07:11:33Z

INTRO 이번에 톺아볼 논문은 바로 'Hymba: A Hybrid-head Architecture for Small Language Models'[1]입니다. 본 논문은 2023년 제시된 'Efficient Streaming Language Models with Attention Sinks'[2] 논문에서 제시된 attention sink 문제를 개

Were RNNs All We Needed? - 논문 톺아보기 16

2025-06-11T09:00:00Z

INTRO 이번에 톺아볼 논문은 바로 'Were RNNs All We Needed?'입니다. 저는 개인적으로 minRNN으로 부르는 논문인데요, 아쉽게도 ICLR 2025에서는 Reject된 논문이기도 합니다. 그 이유는 기존의 유사한 연구들과 뚜렷한 차이가 확인되지 않고, 몇몇 논문들을 종합해 정리한 것에 가깝다(즉, 참신성이 부족하다)는 것이었습니

Mamba - 논문 톺아보기 15

2025-04-14T06:20:16Z

INTRO 이번에 톺아볼 논문은 바로 'Mamba: Linear-Time Sequence Modeling with Selective State Spaces'입니다. 거의 전부라고 해도 좋을 정도로, 모델 구조에 대해 다룬 논문은 보다 큰 입출력 사이즈를 다루기 위해 제시됩니다. 이로 인해 Transformer 구조를 기반으로 하는 대다수의 모델들은 어

Differenctial Transformer - 논문 톺아보기 14

2025-03-25T01:50:27Z

INTRO 오늘 톺아볼 논문은 바로 2024년 10월에 발표된 Differential Transformer[1]입니다. 본 논문은 기존 Transformer 구조의 모델이 attention을 이용한 contextual learning을 하는 과정에서 정답과 무관하거나, 불필요한 토큰에도 높은 주의력을 할당하는 주의력 분산 문제(본 논문에선 attenti

Kolmogorov Arnold Network - 논문 톺아보기 13

2025-02-05T05:07:28Z

Conclusion KAN(Kolmogorov Arnold Network)는 모델의 해석가능성을 높이는 측면에서 기존 MLP보다 뛰어나지만 결국 tree 알고리즘에 MLP를 섞은 결과물 정도로 보이며, 최초 논문[1]에서 제안한 바와 달리 MLP를 대체하기엔 어려워 보입니다. 이는 추가적인 개선이나 KAN 구조에 적합한 하드웨어의 등장 등이 기반되지 않는다

Mixture of Experts - 논문 톺아보기12

2025-04-10T00:16:27Z

Intro 최근 2년 간 봤던 모든 논문에는 MoE라는 방법론을 적용했다는 내용을 종종 확인할 수 있었습니다. 일례로 이전에 리뷰했던 Swin Transformer의 공식 github를 보면 다음과 같이 최초 논문에서는 서술되거나 적용되지는 않았으나, 사후적으로 적용된 기법들이 정리돼 있으며 그 중 하나가 바로 MoE입니다. MoE는 기존의 예측 및 정리를

Diffusion Sampler (DDPM&DDIM) - 논문 톺아보기 10, 11

2025-02-05T05:07:57Z

Intro 이번에 리뷰할 논문은 Diffusion Model의 가장 기본적인 Sampler인 DDPM[2]과 이를 개선한 DDIM[3]입니다. 이번 포스팅은 두 개의 논문을 자세히 해설한다기 보다는 이전에 포스팅한 'Understanding Diffusion Model[1]'에서 설명한 내용을 기반으로 DDPM과 DDIM 논문을 수식 기반으로 읽어보고, 이

Understanding Diffusion Models - 논문 톺아보기 9 : 생성모델의 수식적 이해

2025-02-05T05:08:11Z

Intro 이번에 리뷰할 논문은 'Understanding Diffusion Models: A Unified Perspective'입니다. 구체적으로 이미지 생성과 관련된 기본적인 사항에 대해서 수식적으로 잘 정리된 논문이어서 가져왔습니다. 이번 포스팅에서는 자체적으로 코드를 작성하는 것보다는 수식 전개를 살펴보고, 그 개념을 이해하는 것에 초점을 맞춰 진

ConvNeXt V2 - 논문 톺아보기 8 : Code Review & Test

2025-02-05T05:08:29Z

Intro 이번에 리뷰할 논문은 소위 ConvNeXt V2로 알려진 'ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders'입니다. ConvNeXt V1이 swin v1에 영감을 받은 것처럼 ConvNeXt V2 또한 Swin v2에 영감을 받은 것처럼 보이는 모습입니다. 다만 디테

Install MinkowskiEngine - with torch 2.2.1 and cuda 11.8

2024-03-04T03:55:42Z

Background ConvNext V2 논문을 읽고 코드 구현 및 테스트를 진행하던 중 FCMAE를 구현하는 과정에서 Sparse Tensor를 다루기 위한 라이브러리 및 모델 구조가 필요했습니다. torch를 이용해 구현해보려 했으나 colab을 통해 설치한 MinkowskiEngine Library로 구현한 레이어와 결과가 다르게 나오는 등의 문제가

ConvNeXt V1 - 논문 톺아보기 7 : resnet에서 convnext까지

2025-02-05T05:08:46Z

Intro 이번에 리뷰할 논문은 기존 ConvNet 모델에 현대적 기법들이 적용됨으로써 재탄생한 'A ConvNet for the 2020s'입니다. 기존의 Convolution 기반 모델들은 Transformer 기반의 모델들이 등장한 이후 상대적으로 부진한 모습을 보여왔는데요, 이는 Convolution의 구조적 문제가 아니라 AI가 발전해오며 적용된

Convolutional ViT(CvT) - 논문 톺아보기 6 : Modeling, Training + a

2025-02-05T09:10:14Z

Intro 이번에 리뷰할 논문은 Convolution의 개념을 ViT에 주입한 'CvT: Introducing Convolutions to Vision Transformers'입니다. 이는 ViT 논문에서도 제시됐었던 resnet 혹은 간단한 CNN 기반 레이어를 이용해 패치 임베딩을 실시하는 Hybrid 구조에 대한 개념에서 더욱 진화한듯한 개념입니다.

Swin Transformer V2 - 논문 톺아보기 5 : 모델링, 학습, 튜닝, 3stage

2025-02-05T05:09:21Z

Intro 이번에 리뷰할 논문은 'Swin Transformer V2: Scaling Up Capacity and Resolution'입니다. 이전에 리뷰한 Swin V1이 통해 다양한 해상도의 이미지에 적용가능하면서도, 단순 이미지 분류뿐 아니라 의미론적 분할(Semantic Segmentation) 등 다양한 태스크에 활용가능한 장점을 가지고 있었지만,

Swin Transformer V1 - 논문 톺아보기 4 : 모델링, 학습, 튜닝, 평가

2025-02-28T05:22:24Z

Intro 이번에 리뷰할 논문은 'Swin Transformer: Hierarchical Vision Transformer using Shifted Windows'입니다. 기본적으로 대부분의 AI 논문들은 더 크고 많은 데이터를 어떻게 하면 잘 다룰 수 있는지에 착안해 개선된 구조를 제안합니다. 특히 SwinT의 경우, 기존 ViT가 가진 이미지 토큰 간

An Image is Worth 16x16 words - 논문 톺아보기 3 : 모델링, 학습, 튜닝, 전이학습, 개선

2025-06-18T09:33:32Z

Intro 본 포스팅에서 리뷰할 논문은 이전까지 진행한 Transformer 논문 리뷰 및 구현의 포스팅에서 한 번씩 언급되었던 Transformer를 Computer Vision Task에 적용한 것입니다. 엄밀히 말해 Transformer 구조 전체가 적용된 것은 아니고, Transformer의 Encoder만이 활용된 형태입니다. 이를 통해 입력된

Transformer: 한영 번역기 만들기 - 논문 톺아보기 2 : 모델링, 학습, 튜닝, 시각화

2025-02-05T05:10:16Z

Intro 들어가기에 앞서 본 포스팅은 Transformer 논문에서 제시한 구조와 기능들을 이용해 한국어를 영어로 번역하는 번역기를 구현하는 일체의 과정을 담고 있습니다. 포스팅 내에서 코드를 제시하지만 보다 원활한 이해를 돕기 위해선 저자의 github를 참조하며 진행하는 것을 추천드립니다. 이번 포스팅에서는 이전 포스팅에 이어서 Transformer

Attention is All You Need - 논문 톺아보기 1 : Transformer 이해, 코드 구현

2025-02-05T05:10:28Z

Intro Transformer가 나온 배경은 간단하다. 기존에 자연어 처리를 위한 방법들(RNN, LSTM, CNN) 등이 가진 한계가 있었기 때문. 이러한 한계는 크게 두 가지로 다음과 같았다. 1. 입력의 차원이 길어질수록 최초 입력에 대한 정보가 희석된다. 2. 입력의 차원이 길어질수록 결국 마지막 입력에 대한 가중치가 높아진다. 어찌보면 하나의

Streamlit Scroll Function - Streamlit Study

2023-10-24T11:35:38Z

Streamlit을 사용하다보면 유저로 하여금 scroll을 하게 하는 것과 같이 특정 상황에 특정 위치로 이동시켜야 하는 케이스가 종종 발생한다. 이는 멀티 페이지나 멀티 탭으로 구현하는 기능과는 다르며 한 페이지 내에서 작동해야 하는데, 문제는 streamlit 자체적으로는 이러한 기능이 존재하지 않는다. 이에 대해 streamlit cummunity

lru_cache() & cache decorator - python study

2023-10-24T08:13:41Z

파이썬의 문제 파이썬이 가진 가장 큰 장점이 범용성(다른 여러 언어들로 할 수 있는 일을 파이썬 하나로 할 수 있는 것)이라면, 가장 큰 약점은 아무래도 속도가 아닐까 싶다. 특히 간단한 전처리부터 이러한 처리 문제는 속을 썩이는 경우가 종종 있는데, 이럴 때면 분산처리 방식 등을 고민하게 된다. 오늘 리뷰할 것은 굳이 복잡한 분산처리 방식 등을 쓰지 않고

[AI]Optimization Technique 04 - onnx

2024-12-27T12:41:04Z

4. Distillation + Quantization 복습 지난 시간까지 Quantization, Pruning, Distillation에 대해 알아보았습니다. 이번 포스팅에서는 이러한 최적화 기법 중 Quantization과 Distillation을 함께 사용함으로써 original 대비 얼마나 최적화가 가능한지, 추가적인 최적화 방법은 없는지 살펴