'LLM' 태그의 글 목록

Gemma3 - 무료 멀티모달 LLM 모델 사용하기

오랜만에 블로그에 글을 업로드 한다. 최근 굉장히 바쁜일들이 이어지고 있다. 공적으로는 하나의 프로젝트 마무리 때문에 고객사에게 많은 클레임을 받고 있다. 'AI는 완벽하지 않아요!', 'AI는 사람보다 뛰어날 수 없어요!' 라는 말을 수 백번 해보았지만 통하지 않고 AI가 더 이상 AI가 아닌 하나의 알고리즘을 만들어주기 위한 고군분투를 하고 있다. 사적으로는 개인 프로젝트를 진행중이다. 수 년을 고민하던 프로젝트를 점점 가시화 하고 있다. '주식 AI 에이전트' 관련 프로젝트이고 현재는 백 테스트 진행중이며, 고도화를 진행할 예정이다. 다양한 개발자들과 소통도 하는 중이다. 이 과정에서 블로그에 투고하고 싶은 글이 많았지만 한번 떠오르면 멈추지 못하는 버릇 때문에 개발에만 집중했다. 앞으로 차근차근 ..

2025.06.29

Attention Is All You Need(2 Aug 2023)

* 원문 논문 아카이브https://arxiv.org/abs/1706.03762 Attention Is All You NeedThe dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a newarxiv.org0. Abstract주요 시퀀스 변환 모델은 복잡한 순환 신경망이나 합성곱 신경망을 기반에 두고 인코더와 디코더를 ..

2025.02.28

Large Concept Models: Language Modeling in a Sentence Representation Space(15 Dec 2024, Meta)

* 원문 논문 아카이브https://arxiv.org/pdf/2412.08821v2 0. Abstract현재 LLM 기술을 입력을 처리하고 출력할 때 토큰 수준에서 작동.=> 단어 이상의 여러 추상화 수준에서 정보를 분석하고 창의적인 내용을 생성하는 인간과 대조적. => "Concept" 라 부르는 고차원 의미 표현에서 작동하는 아키텍처 Large Concept Model(LCM)을 제안.200개 언어에 대한 인상적인 제로샷 일반화 성능을 보이며 기존 LLM을 능가.* 제로샷 일반화 성능 : 학습하지 않은 클래스를 인식하는 것. 모델이 클래스 간의 관계나 속성을 통해 일반화할 수 있는 능력. 1. Introduction현재 LLM은 더 많은 언어 또는 양식으로 확장하기 위해서는 추가 데이터 주입...

2025.02.09

한국어 LLM 모델 별 요약 성능

테스트 모델 모회사 모델 이름 모델 크기 장점 단점 OpenAI GPT 4o mini 비공개 - 최고의 언어 능력.- 뛰어난 처리 속도.- 외부 GPU 리소스 사용. - 무조건 과금.- 무조건 외부 GPU 사용(기업 내부 프로젝트에서 사용 불가).- 정보의 불투명성. LG AI EXAONE 3.5 32B - 나온지 2개월 밖에 안된 최신 모델.- LG에서 개발. - 32B 모델은 4090에서 조차 돌아가지 않는 너무 많은 리소스 사용.- 경량화 모델이 없어서 활용도 제한. LG AI EXAONE 3.5 7.8B ..

2025.02.03

태그

최근글

댓글

아카이브

LLM(4)

티스토리툴바