LLM(4)
-
Gemma3 - 무료 멀티모달 LLM 모델 사용하기
오랜만에 블로그에 글을 업로드 한다. 최근 굉장히 바쁜일들이 이어지고 있다. 공적으로는 하나의 프로젝트 마무리 때문에 고객사에게 많은 클레임을 받고 있다. 'AI는 완벽하지 않아요!', 'AI는 사람보다 뛰어날 수 없어요!' 라는 말을 수 백번 해보았지만 통하지 않고 AI가 더 이상 AI가 아닌 하나의 알고리즘을 만들어주기 위한 고군분투를 하고 있다. 사적으로는 개인 프로젝트를 진행중이다. 수 년을 고민하던 프로젝트를 점점 가시화 하고 있다. '주식 AI 에이전트' 관련 프로젝트이고 현재는 백 테스트 진행중이며, 고도화를 진행할 예정이다. 다양한 개발자들과 소통도 하는 중이다. 이 과정에서 블로그에 투고하고 싶은 글이 많았지만 한번 떠오르면 멈추지 못하는 버릇 때문에 개발에만 집중했다. 앞으로 차근차근 ..
2025.06.29 -
Attention Is All You Need(2 Aug 2023)
* 원문 논문 아카이브https://arxiv.org/abs/1706.03762 Attention Is All You NeedThe dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a newarxiv.org0. Abstract주요 시퀀스 변환 모델은 복잡한 순환 신경망이나 합성곱 신경망을 기반에 두고 인코더와 디코더를 ..
2025.02.28 -
Large Concept Models: Language Modeling in a Sentence Representation Space(15 Dec 2024, Meta)
* 원문 논문 아카이브https://arxiv.org/pdf/2412.08821v2 0. Abstract현재 LLM 기술을 입력을 처리하고 출력할 때 토큰 수준에서 작동.=> 단어 이상의 여러 추상화 수준에서 정보를 분석하고 창의적인 내용을 생성하는 인간과 대조적. => "Concept" 라 부르는 고차원 의미 표현에서 작동하는 아키텍처 Large Concept Model(LCM)을 제안.200개 언어에 대한 인상적인 제로샷 일반화 성능을 보이며 기존 LLM을 능가.* 제로샷 일반화 성능 : 학습하지 않은 클래스를 인식하는 것. 모델이 클래스 간의 관계나 속성을 통해 일반화할 수 있는 능력. 1. Introduction현재 LLM은 더 많은 언어 또는 양식으로 확장하기 위해서는 추가 데이터 주입...
2025.02.09 -
한국어 LLM 모델 별 요약 성능
테스트 모델모회사모델 이름모델 크기장점단점OpenAIGPT 4o mini비공개- 최고의 언어 능력.- 뛰어난 처리 속도.- 외부 GPU 리소스 사용.- 무조건 과금.- 무조건 외부 GPU 사용(기업 내부 프로젝트에서 사용 불가).- 정보의 불투명성.LG AIEXAONE 3.532B- 나온지 2개월 밖에 안된 최신 모델.- LG에서 개발.- 32B 모델은 4090에서 조차 돌아가지 않는 너무 많은 리소스 사용.- 경량화 모델이 없어서 활용도 제한.LG AIEXAONE 3.57.8BLG AIEXAONE 3.52.4BLLAMABllossom 3.23B- 공개된 모든 한국어 데이터를 학습.- 다양한 크기의 모델을 지원.- 영어 성능도 뛰어남.- 3.2 버전은 3B를 넘는 모델을 지원해주지 않음.LLAMABllo..
2025.02.03