(1강) 데이터 제작의 A to Z

강의 소개
데이터 구축 프로세스와 설계의 기초 개념에 대해 설명
자연어처리 데이터의 특징 및 종류에 대해 설명

1. 데이터 제작의 단계

실제로 AI 프로젝트에 소요되는 시간 비율로 보면 대부분이 데이터 관련 작업에 소요되는 시간이 약 80%로 높은 비중을 차지한다.

데이터 설계
- 데이터 형식
- 데이터 표상영역
데이터 수집 - 각공 설계
- 원천 데이터 수집방식: 전산화, 스크래핑, 작업자 작성, 모델생성
- 주석작업: 전문가 구축, 크라우드 소

데이터의 유형

데이터의 Input / Output 형식

HTML, XML, CSV, TSV, TXT, JSON, JSONL, JPG, Jpeg, PDF, png, ocr, .wav, .mp3, .pcm, .script 등

데이터 주석 유형: 자연어 처리

원시 데이터 수집 방식
- 전산화, 스크래핑, 작업자 작성, 모델 생성: 적합한 데이터란 무엇인지 기준 세우기
작업자 선정
- 주석작업의 난이도와 구축규모에 맞는 작업자 선정 및 작업 관리
- 전문가, 크라우드 소싱
구축 및 검수 설계
- 구축 작업의 난이도와 구축 규모, Task특성에 맞는 구축 및 검수 방식(전문가, IAA) 설계
- 파일럿(10%) -> 본 구축 (최소한 100개정도의 샘플은 직접 확인할 것.)
- 파일럿
  - 설계 시 발견하지 못한 이슈 발굴 및 해결
  - 가이드라인 보완 및 개정
  - 작업자 선정
- 본 구축
  - 작업일정관리
  - 작업자 관리
  - 중간 검수를 통한 데이터 품질 관리
데이터 검수 및 분석
- 평가 지표 설정
  - 전문가 평가 및 분석
    샘플링 검사
    가이드라인 적합도 분석
  - 자동평가 및 분석
    데이터 형식
    레이블별 분포파악
    일괄수정 사항 반영

자연어란? 일상적으로 사용하고 있는 언어 그 자체를 의미한다. 반면 인공어는 여러 사람의 목적이나 의도에 따라 만든 언어 또는 컴퓨터 언어

인공지능의 한분야, 사람의 언어를 컴퓨터가 알아듣도록 처리하는 인터페이스 역할. 자연어 이해 (NLU, Natural Language Understanding)와 자연어 생성(NLG, Natural Language Generation)으로 구성

컴퓨터가 사람의 언어를 이해하고 여러가지 문제를 수행할 수 있도록 하는 것이 목표이다.

자연어 처리 데이터를 만들 때는 복잡한 과제도 단순화하여 단계별로 구축

자연어 데이터와 다른 데이터를 구분짓는 특징은 무엇일까요?
한국어 데이터의 제작 단계에서 어려운 점은 무엇이 있을까요?
- 동음 이의어의 존재
- 실제 맞춤법이 맞지 않아도 의미전달이 가능
- 앞뒤 문장에 따라 의미가 달라질 수 있다. (비꼬는 내용 등)

Last updated 3 years ago

Was this helpful?