Main
TIL - Today I Learn
Last updated
TIL - Today I Learn
Last updated
Who Am I ?
😀 김 상욱, Lawrence, Sangwook Kim, AI Engineer
📬 lswkim322@gmail.com
📕 Python
, Pytorch
, NLP
, java
, MySQL
, Spring Boot
수학과를 졸업하고 자바 개발자를 거쳐 AI 엔지니어의 꿈을 향해서 🛫
Since
Title
Detail
22.03 ~ (현재)
메가존클라우드 AI/ML팀 SA
AWS Cloud 및AI/ML SA 업무 수행
18.03 ~ 21.07
한일네트웍스 DSC사업부 R&D파트 (주임)
솔루션 개발 및 유지보수
17.11 ~ 18.03
비트캠프 - 자바개발자 고급과정
16.12 ~ 17.06
유클릭 UC지원팀 (사원)
솔루션 SE 지원
16.07 ~ 16.10
SL아카데미 - 자바를 활용한 빅데이터 과정
10.03 ~ 16.02
연세대학교(원주) 수학과
3.55 / 4.3
딥러닝 모델을 활용하여 혐오발언 감지를 통한 마스킹과 시청자 반응 분석을 통한 실시간 통계자료 제공 서비스 (부스트캠프 최종 프로젝트)
🌟최종 프로젝트 기획프로젝트 진행주요내용
학습 데이터 수집 (공공데이터 + 라이브커머스 크롤링)
KcELECTRA 백본모델을 활용한 욕설분류 모델 구현 및 성능 개선
KoELECTRA 백본모델을 활용한 감성분석 모델 구현 및 성능 개선
Active Learning을 통한 도메인 최적화 작업
FastAPI를 사용한 백엔드 구성 / 부트스트랩, HTML5, JS를 활용한 프론트앤드
사용기술: Python, Pytorch, HuggingFace, HTML5, JS, Git, Slack
담당역할: 감성분석 모델 테스트, 데모 서비스 구현
채팅대화의 일부분을 입력으로 받아 요약된 문장을 생성하는 문제입니다. 대회진행은 역량평가 -> 예선 -> 본선으로 이루어졌으며, 역량평가는 법률, 기사에 대한 요약문을 생성하는 문제였으며, 예선과 본선은 대화요약 Task에 데이터가 추가되었습니다.
2021 인공지능 데이터 활용 경진대회주요내용
데이터 EDA, Ai-hub 데이터설명서를 참고한 데이터 전처리 진행
BART 모델을 활용한 Pre-training + Fine-tuning 진행
화자 태깅, 스페셜토큰 추가, Beam Search 기법적용
사용기술: Python, Pytorch, HunggingFace, Git, Slack
담당역할: 데이터 전처리 작업, 모델 Fine-tuning
최종결과: 본선 7등 + 특별상(품질검증상) 수상
ODQA에 앞서 MRC란 지문과 질문이 주어졌을 때, 질문으로부터 답변을 추론하는 문제입니다. ODQA는 지문이 주어지지 않고 사전에 구축되어있는 Knowledge resource에서 질문에 대답할 수 있는 문서를 찾아 답변을 추론하는 문제입니다. (대회)
2. [NLP] MRC 프로젝트주요내용
데이터 증강- 위키피디아 데이터와 Pororo Question Generation을 활용
Sparse Embedding(TF-IDF, BM25)와 Dense Embedding을 활용한 Retrieval 모델구현
RoBERTa-large, BERT-base, KoELECTRA를 활용한 Reader 모델구현
약 40개의 추론결과를 활용한 하드보팅 앙상블을 통해 EM Score 8점 상승
사용기술: Python, Pytorch, HuggingFace, Git, Slack
담당역할: Reader단 BERT모델 테스트 및 결과물 수집, 데이터 증강작업, 앙상블
최종결과: EM(68.330) 7/19
관계 추출(Relation Extraction)은 문장의 단어(Entity)에 대한 속성과 관계를 예측하는 문제입니다. 문장이 주어지고 문장내에 subject entity와 object entity사이의 관계를 30개로 분류된 Relation중에 속하는 관계를 예측하는 인공지능 만들기 대회
1. [NLP] 문장 내 개체간 관계 추출주요내용
문장내의 단어들 사이의 관계를 30개의 클래스로 매핑하는 분류문제
데이터 증강 - AEDA, 단어의 속성값에 따라 리스트를 구축하고 대입
모델 테스트를 통해 RoBERTa-large를 백본모델로 선정
스페셜토큰(Typed Entity marker)를 활용한 Fine-tuning
TAPT(Task Adaptive Pre-training)기법 시도
사용기술: Python, Pytorch, HuggingFace, Git, Slack
담당역할: 모델 테스트, 데이터 증강작업
ZIKTO(스마트워치)와 보험사 간의 걸음 수 데이터 인터페이스 서비스 구축
주요내용
실시간 API 호출 및 조회 홈페이지 구축
월배치 데이터 전송(SFTP) 프로세스 구축
사용기술: Centos7, Spring boot, Java, MySQL, ShellScript
담당역할: 웹페이지 및 API 서버 구축
리벤지 포르노 피해자 영상 검출 및 신고 솔루션 PoC
주요내용
AWS Rekognition 서비스를 활용한 얼굴인식 솔루션
영상 크롤링 및 불법 홈페이지 alive 체크
사용기술: Centos7, AWS, Spring boot, Java, Python
담당역할
AWS Rekognition API 활용 및 Lambda 구현
피해자 접수 및 관리자 조회 홈페이지 구축
크롤링을 활용한 영상 + 사이트 데이터 수집
Title
Date
Code
SQLD (SQL개발자)
2019.12.31
정보처리기사
2016.11.17