Main
TIL - Today I Learn
Who Am I ?
😀 김 상욱, Lawrence, Sangwook Kim, AI Engineer
📬 lswkim322@gmail.com
📕 Python
, Pytorch
, NLP
, java
, MySQL
, Spring Boot
수학과를 졸업하고 자바 개발자를 거쳐 AI 엔지니어의 꿈을 향해서 🛫
🚲History of my life
📖 Project
라이브커머스 매니지먼트 솔루션 - 📆 2021.11.29 ~ 2021.12.17 (3주)
딥러닝 모델을 활용하여 혐오발언 감지를 통한 마스킹과 시청자 반응 분석을 통한 실시간 통계자료 제공 서비스 (부스트캠프 최종 프로젝트)
주요내용
학습 데이터 수집 (공공데이터 + 라이브커머스 크롤링)
KcELECTRA 백본모델을 활용한 욕설분류 모델 구현 및 성능 개선
KoELECTRA 백본모델을 활용한 감성분석 모델 구현 및 성능 개선
Active Learning을 통한 도메인 최적화 작업
FastAPI를 사용한 백엔드 구성 / 부트스트랩, HTML5, JS를 활용한 프론트앤드
사용기술: Python, Pytorch, HuggingFace, HTML5, JS, Git, Slack
담당역할: 감성분석 모델 테스트, 데모 서비스 구현
2021 한국어 음성 자연어 인공지능 경진대회 훈민정음에 스며들다 - 📆 2021.10. ~ 2021.11. (9주)
채팅대화의 일부분을 입력으로 받아 요약된 문장을 생성하는 문제입니다. 대회진행은 역량평가 -> 예선 -> 본선으로 이루어졌으며, 역량평가는 법률, 기사에 대한 요약문을 생성하는 문제였으며, 예선과 본선은 대화요약 Task에 데이터가 추가되었습니다.
주요내용
데이터 EDA, Ai-hub 데이터설명서를 참고한 데이터 전처리 진행
BART 모델을 활용한 Pre-training + Fine-tuning 진행
화자 태깅, 스페셜토큰 추가, Beam Search 기법적용
사용기술: Python, Pytorch, HunggingFace, Git, Slack
담당역할: 데이터 전처리 작업, 모델 Fine-tuning
최종결과: 본선 7등 + 특별상(품질검증상) 수상
ODQA(Open-Domain Question Answering) - 📆 2021.10.11 ~ 2021.11.04 (4주)
ODQA에 앞서 MRC란 지문과 질문이 주어졌을 때, 질문으로부터 답변을 추론하는 문제입니다. ODQA는 지문이 주어지지 않고 사전에 구축되어있는 Knowledge resource에서 질문에 대답할 수 있는 문서를 찾아 답변을 추론하는 문제입니다. (대회)
주요내용
데이터 증강- 위키피디아 데이터와 Pororo Question Generation을 활용
Sparse Embedding(TF-IDF, BM25)와 Dense Embedding을 활용한 Retrieval 모델구현
RoBERTa-large, BERT-base, KoELECTRA를 활용한 Reader 모델구현
약 40개의 추론결과를 활용한 하드보팅 앙상블을 통해 EM Score 8점 상승
사용기술: Python, Pytorch, HuggingFace, Git, Slack
담당역할: Reader단 BERT모델 테스트 및 결과물 수집, 데이터 증강작업, 앙상블
최종결과: EM(68.330) 7/19
문장 내 개체간 관계 추출 - 📆 2021.09.27 ~ 2021.10.07 (2주)
관계 추출(Relation Extraction)은 문장의 단어(Entity)에 대한 속성과 관계를 예측하는 문제입니다. 문장이 주어지고 문장내에 subject entity와 object entity사이의 관계를 30개로 분류된 Relation중에 속하는 관계를 예측하는 인공지능 만들기 대회
주요내용
문장내의 단어들 사이의 관계를 30개의 클래스로 매핑하는 분류문제
데이터 증강 - AEDA, 단어의 속성값에 따라 리스트를 구축하고 대입
모델 테스트를 통해 RoBERTa-large를 백본모델로 선정
스페셜토큰(Typed Entity marker)를 활용한 Fine-tuning
TAPT(Task Adaptive Pre-training)기법 시도
사용기술: Python, Pytorch, HuggingFace, Git, Slack
담당역할: 모델 테스트, 데이터 증강작업
고객사 인터페이스 서비스 - 📆 2021.02 ~ 2021.03 (4주)
ZIKTO(스마트워치)와 보험사 간의 걸음 수 데이터 인터페이스 서비스 구축
주요내용
실시간 API 호출 및 조회 홈페이지 구축
월배치 데이터 전송(SFTP) 프로세스 구축
사용기술: Centos7, Spring boot, Java, MySQL, ShellScript
담당역할: 웹페이지 및 API 서버 구축
불법영상 검출 솔루션 - 📆 2019.10 ~ 2019.12 (3개월)
리벤지 포르노 피해자 영상 검출 및 신고 솔루션 PoC
주요내용
AWS Rekognition 서비스를 활용한 얼굴인식 솔루션
영상 크롤링 및 불법 홈페이지 alive 체크
사용기술: Centos7, AWS, Spring boot, Java, Python
담당역할
AWS Rekognition API 활용 및 Lambda 구현
피해자 접수 및 관리자 조회 홈페이지 구축
크롤링을 활용한 영상 + 사이트 데이터 수집
📜 Certification
Last updated