nlp(2)
-
Difflib, 데이터의 차이를 계산해보자
최근 긴 문자열 두개를 비교 해야하는 일이 생겼다. 기존에는 형태소 분석을 하거나 낱말(혹은 단어)로 문장을 잘라 단순 비교하는 작업으로 진행 했었다. 이 과정은 간편하지만 너무나 기계적인 방법이라 긴 문자열이 들어오거나 가변적인 상황에 적합하지 않았다. 그렇다고 자연어 처리에 LLM을 쓰기에는 그 시간이 너무 오래 걸렸다. 그러던 중 difflib라는 유용한 파이썬 기본 라이브러리를 알게 되었다. 이 라이브러리를 통해 자연어를 비교해본 나는 원숭이에서 사람으로 진화를 했다.(전 진화론을 믿습니다.) 역시 사람이 코딩을 잘하려면 기본 라이브러리를 잘 알아야 한다. 이 difflib에 대해 공부해놓으면 앞으로 데이터 다룰때에도 매우 유용할 거 같아 공식 문서를 스터디 해보겠다. https://docs.py..
2025.12.30 -
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding(24 May 2019)
* 원문 논문 아카이브https://arxiv.org/abs/1810.04805 BERT: Pre-training of Deep Bidirectional Transformers for Language UnderstandingWe introduce a new language representation model called BERT, which stands for Bidirectional Encoder Representations from Transformers. Unlike recent language representation models, BERT is designed to pre-train deep bidirectional representations from unlaarxiv.org 0. Abst..
2025.02.20