To be a NLP Data scientist, I am currently practicing NLP realated pragramming by using python. This is the repository to follow the step of my study trace :)
폴더 설명
- CodingTest
- 프로그래밍 코딩 테스트 연습 문제입니다. 문제들은 백준과 프로그래머스에 제시된 문제들이며, 문제 풀이 과정 중 특별히 어려웠거나 새로 배운점이 있을 때 기록해두었습니다.
- DACON
- 데이콘 프로젝트 중 자연어 처리와 관련된 문제를 풀어보며 공부한 자연어 처리 개념을 적용해 보기 위해 연습하고 있습니다. 현재 폴더 내에는 데이콘 문제 중 자연어 기반 기후기술분류 AI 경진대회 문제에 대한 코드가 들어 있습니다. 키워드를 추출, 형태소 분석에 관한 전처리 코드부터 Naive Bayes, GRU, CNN, LightGBM, BERT 등의 파이프 라인과 그 파이프 라인을 통해 모델을 예측한 코드가 담겨 있습니다. https://www.notion.so/AI-7629fc5767c348f89febdfc3953654e2
- ML&DLBasic
- 멀티 캠퍼스 자연어 처리 과정 수강 중에 배웠던 ML과 DL 관련 기초 코드를 정리하였습니다. 파이썬 라이브러리에서 가져올 수 있는 기본 데이터셋과 kaggle 유명 문제인 Titanic 그리고 네이버에서 크롤링한 자료들을 토대로 연습한 코드들 입니다.
- MOKAPOT
- 전처리 과정에서 필요한 모듈들을 모아서 GUI 구현을 통해 좀 더 사용이 편리하게 만들어 놓은 코드입니다. 특수문자 제거, 띄어쓰기 정제, 맞춤법, 형태소 분석등의 과정을 사용자가 직접 선택하여 순서를 정할 수 있습니다. 최종 선택 버튼을 클릭하면 자동으로 파일로 저장하여 CWD에 출력합니다.
- NLP
- 자연어 처리와 관련된 실습들을 모아두었습니다. ML과 DL과 관련된 코드들을 라이브러리를 사용하지 않고 직접 손으로 구현하며 개념을 이해하였던 코드들과 라이브러리를 활용한 코드들을 포함하고 있습니다.
- Paperstudy
- ML, DL과 관련된 논문들을 읽고 그 논문을 직접 구현해 보기 위해 만들어 둔 폴더입니다. 현재는 YoonKim의 CNN 코드를 구현 중입니다.
- Projects
- 개인적으로 진행한 프로젝트 코드입니다. 당근마켓 크롤링의 경우 중고 시장의 문제점이라고 생각했던 부분을 개선하기 위한 코드를 작성한 것이 포함되어 있습니다. 제조사가 측정한 적정가가 정해져 있는 신규 물품 시장과 다르게, 중고 시장은 판매자가 직접 가격을 정하게 되는데 이 과정이 초보자에게는 어려울 수 있습니다. 반대로 구매자의 경우도 물품에 대한 기준 가격을 알 수 없기 때문에 합리적인 거래를 어려워 합니다. 이 점을 착안하여, 기존 중고 물품 시장에 올라와 있는 물건들과 가격을 분석하여 감성 분류 사전 구축을 통해 키워드 분석을 진행하였고 점수에 따른 가격을 측정하였습니다.
- Portfolio
- 포트폴리오에 포함된 논문들과 당근마켓 크롤링 관련 PPT를 담고 있는 폴더입니다.