Main

TIL - Today I Learn

Who Am I ?

😀 김 상욱, Lawrence, Sangwook Kim, AI Engineer

📬 lswkim322@gmail.com

💻 https://github.com/lswkim

📕 Python, Pytorch, NLP, java, MySQL, Spring Boot

수학과를 졸업하고 자바 개발자를 거쳐 AI 엔지니어의 꿈을 향해서 🛫

🚲History of my life

📖 Project

라이브커머스 매니지먼트 솔루션 - 📆 2021.11.29 ~ 2021.12.17 (3주)

딥러닝 모델을 활용하여 혐오발언 감지를 통한 마스킹과 시청자 반응 분석을 통한 실시간 통계자료 제공 서비스 (부스트캠프 최종 프로젝트)

  • 주요내용

    • 학습 데이터 수집 (공공데이터 + 라이브커머스 크롤링)

    • KcELECTRA 백본모델을 활용한 욕설분류 모델 구현 및 성능 개선

    • KoELECTRA 백본모델을 활용한 감성분석 모델 구현 및 성능 개선

    • Active Learning을 통한 도메인 최적화 작업

    • FastAPI를 사용한 백엔드 구성 / 부트스트랩, HTML5, JS를 활용한 프론트앤드

  • 사용기술: Python, Pytorch, HuggingFace, HTML5, JS, Git, Slack

  • 담당역할: 감성분석 모델 테스트, 데모 서비스 구현

2021 한국어 음성 자연어 인공지능 경진대회 훈민정음에 스며들다 - 📆 2021.10. ~ 2021.11. (9주)

채팅대화의 일부분을 입력으로 받아 요약된 문장을 생성하는 문제입니다. 대회진행은 역량평가 -> 예선 -> 본선으로 이루어졌으며, 역량평가는 법률, 기사에 대한 요약문을 생성하는 문제였으며, 예선과 본선은 대화요약 Task에 데이터가 추가되었습니다.

  • 주요내용

    • 데이터 EDA, Ai-hub 데이터설명서를 참고한 데이터 전처리 진행

    • BART 모델을 활용한 Pre-training + Fine-tuning 진행

    • 화자 태깅, 스페셜토큰 추가, Beam Search 기법적용

  • 사용기술: Python, Pytorch, HunggingFace, Git, Slack

  • 담당역할: 데이터 전처리 작업, 모델 Fine-tuning

  • 최종결과: 본선 7등 + 특별상(품질검증상) 수상

ODQA(Open-Domain Question Answering) - 📆 2021.10.11 ~ 2021.11.04 (4주)

ODQA에 앞서 MRC란 지문과 질문이 주어졌을 때, 질문으로부터 답변을 추론하는 문제입니다. ODQA는 지문이 주어지지 않고 사전에 구축되어있는 Knowledge resource에서 질문에 대답할 수 있는 문서를 찾아 답변을 추론하는 문제입니다. (대회)

  • 주요내용

    • 데이터 증강- 위키피디아 데이터와 Pororo Question Generation을 활용

    • Sparse Embedding(TF-IDF, BM25)와 Dense Embedding을 활용한 Retrieval 모델구현

    • RoBERTa-large, BERT-base, KoELECTRA를 활용한 Reader 모델구현

    • 약 40개의 추론결과를 활용한 하드보팅 앙상블을 통해 EM Score 8점 상승

  • 사용기술: Python, Pytorch, HuggingFace, Git, Slack

  • 담당역할: Reader단 BERT모델 테스트 및 결과물 수집, 데이터 증강작업, 앙상블

  • 최종결과: EM(68.330) 7/19

문장 내 개체간 관계 추출 - 📆 2021.09.27 ~ 2021.10.07 (2주)

관계 추출(Relation Extraction)은 문장의 단어(Entity)에 대한 속성과 관계를 예측하는 문제입니다. 문장이 주어지고 문장내에 subject entity와 object entity사이의 관계를 30개로 분류된 Relation중에 속하는 관계를 예측하는 인공지능 만들기 대회

  • 주요내용

    • 문장내의 단어들 사이의 관계를 30개의 클래스로 매핑하는 분류문제

    • 데이터 증강 - AEDA, 단어의 속성값에 따라 리스트를 구축하고 대입

    • 모델 테스트를 통해 RoBERTa-large를 백본모델로 선정

    • 스페셜토큰(Typed Entity marker)를 활용한 Fine-tuning

    • TAPT(Task Adaptive Pre-training)기법 시도

  • 사용기술: Python, Pytorch, HuggingFace, Git, Slack

  • 담당역할: 모델 테스트, 데이터 증강작업

고객사 인터페이스 서비스 - 📆 2021.02 ~ 2021.03 (4주)

ZIKTO(스마트워치)와 보험사 간의 걸음 수 데이터 인터페이스 서비스 구축

  • 주요내용

    • 실시간 API 호출 및 조회 홈페이지 구축

    • 월배치 데이터 전송(SFTP) 프로세스 구축

  • 사용기술: Centos7, Spring boot, Java, MySQL, ShellScript

  • 담당역할: 웹페이지 및 API 서버 구축

불법영상 검출 솔루션 - 📆 2019.10 ~ 2019.12 (3개월)

리벤지 포르노 피해자 영상 검출 및 신고 솔루션 PoC

  • 주요내용

    • AWS Rekognition 서비스를 활용한 얼굴인식 솔루션

    • 영상 크롤링 및 불법 홈페이지 alive 체크

  • 사용기술: Centos7, AWS, Spring boot, Java, Python

  • 담당역할

    • AWS Rekognition API 활용 및 Lambda 구현

    • 피해자 접수 및 관리자 조회 홈페이지 구축

    • 크롤링을 활용한 영상 + 사이트 데이터 수집

📜 Certification

Last updated