Main
TIL - Today I Learn
Last updated
TIL - Today I Learn
Last updated
Who Am I ?
😀 김 상욱, Lawrence, Sangwook Kim, AI Engineer
📬 lswkim322@gmail.com
📕 Python
, Pytorch
, NLP
, java
, MySQL
, Spring Boot
수학과를 졸업하고 자바 개발자를 거쳐 AI 엔지니어의 꿈을 향해서 🛫
Since
Title
Detail
22.03 ~ (현재)
메가존클라우드 AI/ML팀 SA
AWS Cloud 및AI/ML SA 업무 수행
21.08 ~ 21.12
부스트캠프 - AI Tech 2기 과정
18.03 ~ 21.07
한일네트웍스 DSC사업부 R&D파트 (주임)
솔루션 개발 및 유지보수
17.11 ~ 18.03
비트캠프 - 자바개발자 고급과정
16.12 ~ 17.06
유클릭 UC지원팀 (사원)
솔루션 SE 지원
16.07 ~ 16.10
SL아카데미 - 자바를 활용한 빅데이터 과정
10.03 ~ 16.02
연세대학교(원주) 수학과
3.55 / 4.3
딥러닝 모델을 활용하여 혐오발언 감지를 통한 마스킹과 시청자 반응 분석을 통한 실시간 통계자료 제공 서비스 (부스트캠프 최종 프로젝트)
주요내용
학습 데이터 수집 (공공데이터 + 라이브커머스 크롤링)
KcELECTRA 백본모델을 활용한 욕설분류 모델 구현 및 성능 개선
KoELECTRA 백본모델을 활용한 감성분석 모델 구현 및 성능 개선
Active Learning을 통한 도메인 최적화 작업
FastAPI를 사용한 백엔드 구성 / 부트스트랩, HTML5, JS를 활용한 프론트앤드
사용기술: Python, Pytorch, HuggingFace, HTML5, JS, Git, Slack
담당역할: 감성분석 모델 테스트, 데모 서비스 구현
채팅대화의 일부분을 입력으로 받아 요약된 문장을 생성하는 문제입니다. 대회진행은 역량평가 -> 예선 -> 본선으로 이루어졌으며, 역량평가는 법률, 기사에 대한 요약문을 생성하는 문제였으며, 예선과 본선은 대화요약 Task에 데이터가 추가되었습니다.
주요내용
데이터 EDA, Ai-hub 데이터설명서를 참고한 데이터 전처리 진행
BART 모델을 활용한 Pre-training + Fine-tuning 진행
화자 태깅, 스페셜토큰 추가, Beam Search 기법적용
사용기술: Python, Pytorch, HunggingFace, Git, Slack
담당역할: 데이터 전처리 작업, 모델 Fine-tuning
최종결과: 본선 7등 + 특별상(품질검증상) 수상
ODQA에 앞서 MRC란 지문과 질문이 주어졌을 때, 질문으로부터 답변을 추론하는 문제입니다. ODQA는 지문이 주어지지 않고 사전에 구축되어있는 Knowledge resource에서 질문에 대답할 수 있는 문서를 찾아 답변을 추론하는 문제입니다. (대회)
주요내용
데이터 증강- 위키피디아 데이터와 Pororo Question Generation을 활용
Sparse Embedding(TF-IDF, BM25)와 Dense Embedding을 활용한 Retrieval 모델구현
RoBERTa-large, BERT-base, KoELECTRA를 활용한 Reader 모델구현
약 40개의 추론결과를 활용한 하드보팅 앙상블을 통해 EM Score 8점 상승
사용기술: Python, Pytorch, HuggingFace, Git, Slack
담당역할: Reader단 BERT모델 테스트 및 결과물 수집, 데이터 증강작업, 앙상블
최종결과: EM(68.330) 7/19
관계 추출(Relation Extraction)은 문장의 단어(Entity)에 대한 속성과 관계를 예측하는 문제입니다. 문장이 주어지고 문장내에 subject entity와 object entity사이의 관계를 30개로 분류된 Relation중에 속하는 관계를 예측하는 인공지능 만들기 대회
주요내용
문장내의 단어들 사이의 관계를 30개의 클래스로 매핑하는 분류문제
데이터 증강 - AEDA, 단어의 속성값에 따라 리스트를 구축하고 대입
모델 테스트를 통해 RoBERTa-large를 백본모델로 선정
스페셜토큰(Typed Entity marker)를 활용한 Fine-tuning
TAPT(Task Adaptive Pre-training)기법 시도
사용기술: Python, Pytorch, HuggingFace, Git, Slack
담당역할: 모델 테스트, 데이터 증강작업
ZIKTO(스마트워치)와 보험사 간의 걸음 수 데이터 인터페이스 서비스 구축
주요내용
실시간 API 호출 및 조회 홈페이지 구축
월배치 데이터 전송(SFTP) 프로세스 구축
사용기술: Centos7, Spring boot, Java, MySQL, ShellScript
담당역할: 웹페이지 및 API 서버 구축
리벤지 포르노 피해자 영상 검출 및 신고 솔루션 PoC
주요내용
AWS Rekognition 서비스를 활용한 얼굴인식 솔루션
영상 크롤링 및 불법 홈페이지 alive 체크
사용기술: Centos7, AWS, Spring boot, Java, Python
담당역할
AWS Rekognition API 활용 및 Lambda 구현
피해자 접수 및 관리자 조회 홈페이지 구축
크롤링을 활용한 영상 + 사이트 데이터 수집
Title
Date
Code
SQLD (SQL개발자)
2019.12.31
정보처리기사
2016.11.17