(1강) 데이터 제작의 A to Z

  • 강의 소개

  • 데이터 구축 프로세스와 설계의 기초 개념에 대해 설명

  • 자연어처리 데이터의 특징 및 종류에 대해 설명

1. 데이터 제작의 단계

실제로 AI 프로젝트에 소요되는 시간 비율로 보면 대부분이 데이터 관련 작업에 소요되는 시간이 약 80%로 높은 비중을 차지한다.

1.1. 데이터 구축 과정

  • 원시 데이터 선정 및 확보

    • 저작권, Task 적합성

  • 구축 및 가공 프로세스 확립

    • 구축 및 검수 절차, 작업자 선정

  • 구축 및 가공 지침 작성

    • 플랫폼 소통 및 작업자 교육

  • 데이터 구축 및 가공

    • 파일럿, 작업자 관리

  • 데이터 검수

    • 품질 평가 기준

    • 데이터 규격, 내용

2. AI 데이터 설계의 구성요소

  • 데이터 설계

    • 데이터 형식

    • 데이터 표상영역

  • 데이터 수집 - 각공 설계

    • 원천 데이터 수집방식: 전산화, 스크래핑, 작업자 작성, 모델생성

    • 주석작업: 전문가 구축, 크라우드 소

2.1. 데이터 설계

데이터의 유형

  • 소리: 신호처리, 음성인식 등

  • 텍스트: 자연어 처리

  • 이미지: 컴퓨터 비전

  • 영상: 영상처리

데이터의 Input / Output 형식

HTML, XML, CSV, TSV, TXT, JSON, JSONL, JPG, Jpeg, PDF, png, ocr, .wav, .mp3, .pcm, .script 등

데이터(train/dev/test)별 규모와 구분(split) 방식

  • 규모 선정에 필요한 정보 : 확보가능한 원시데이터의 규모, 주석작업 시간

  • 구분방식: 데이터별 비율과 기준 정하기(랜덤 vs 특정 조건)

    • 균형이 맞지않는 데이터인 경우가 많기때문에 구분을 위해 고려해야한다.

데이터 주석 유형: 자연어 처리

2.1.2. 데이터 수집 - 가공 설

  • 원시 데이터 수집 방식

    • 전산화, 스크래핑, 작업자 작성, 모델 생성: 적합한 데이터란 무엇인지 기준 세우기

  • 작업자 선정

    • 주석작업의 난이도와 구축규모에 맞는 작업자 선정 및 작업 관리

    • 전문가, 크라우드 소싱

  • 구축 및 검수 설계

    • 구축 작업의 난이도와 구축 규모, Task특성에 맞는 구축 및 검수 방식(전문가, IAA) 설계

    • 파일럿(10%) -> 본 구축 (최소한 100개정도의 샘플은 직접 확인할 것.)

    • 파일럿

      • 설계 시 발견하지 못한 이슈 발굴 및 해결

      • 가이드라인 보완 및 개정

      • 작업자 선정

    • 본 구축

      • 작업일정관리

      • 작업자 관리

      • 중간 검수를 통한 데이터 품질 관리

  • 데이터 검수 및 분석

    • 평가 지표 설정

      • 전문가 평가 및 분석

        • 샘플링 검사

        • 가이드라인 적합도 분석

      • 자동평가 및 분석

        • 데이터 형식

        • 레이블별 분포파악

        • 일괄수정 사항 반영

3. 자연어 처리 데이터

자연어란? 일상적으로 사용하고 있는 언어 그 자체를 의미한다. 반면 인공어는 여러 사람의 목적이나 의도에 따라 만든 언어 또는 컴퓨터 언어

자연어처리(NLP, Natural language processing)이란?

인공지능의 한분야, 사람의 언어를 컴퓨터가 알아듣도록 처리하는 인터페이스 역할. 자연어 이해 (NLU, Natural Language Understanding)와 자연어 생성(NLG, Natural Language Generation)으로 구성

컴퓨터가 사람의 언어를 이해하고 여러가지 문제를 수행할 수 있도록 하는 것이 목표이다.

자연어 처리와 관련된 연구 분야

데이터 분류 방식

  • 원천데이터 장르(도메인): 문어(뉴스, 도서 등), 구어(대화 등), 웹(메신저 대화, 게시판 등)

  • 과제의 유형

    • 자연어 이해(형태 분석, 구문분석, 문장 유사도 평가 등)

    • 자연어 생성(기계번역, 추상요약 등)

    • 혼합(챗봇 등)

자연어 처리 데이터를 만들 때는 복잡한 과제도 단순화하여 단계별로 구축

Further Question

  • 자연어 데이터와 다른 데이터를 구분짓는 특징은 무엇일까요?

  • 한국어 데이터의 제작 단계에서 어려운 점은 무엇이 있을까요?

    • 동음 이의어의 존재

    • 실제 맞춤법이 맞지 않아도 의미전달이 가능

    • 앞뒤 문장에 따라 의미가 달라질 수 있다. (비꼬는 내용 등)

Last updated