CtrlK

(5강) 원시 데이터의 수집과 가공

원시데이터의 의미를 이해하고 분류 및 형태에 대해 알아본다.
데이터 수집 시 고려할 사항 및 원시 데이터의 전처리 과정에 대해 알아본다.
수집 가능성, 법적문제 여부
말뭉치 정제 및 비식별화 등에 대해 알아본다.
원시 데이터를 가공할 수 있는 주석 도구들의 종류에 대해 알아본다.
Further Reading
나만의 웹 크롤러 만들기 시리즈 [Blog]
다양한 분야의 개인정보보호 가이드라인 [Site]
AI HUB 데이터 구축 및 활용 가이드라인 [Book]

1. 원시데이터의 정의

과제를 해결하기 위해 특정 도메인, 장르, 주제에 대하여 주건에 맞춰 수집한 데이터를 의미, 주석이나 전처리가 이루어 지지 않은 날것의 데이터

2. 수집시 검토사항

2.1. 수집 절차

2.2. 원시 텍스트데이터의 종류

원시 텍스트 데이터 사용역(장르)에 따른 분류

문어
신문기사, 소설, 수필, 논문, 잡지, 보고서 등
구어(음성파일을 텍스트로 전사)
일상대화, 연설, 강연 + 준구어(방송대본, 영화대본)
웹
SNS, 커뮤니티 게시판, 메신저 대화, 블로그, 이메일 등

2.3. 원시 텍스트 데이터의 메타정보

텍스트 외에 텍스트에 대한 정보로 매체 정보, 출처, 형태 등을 정해진 양식에 맞춰 기록

2.4. 원시 데이터 수집시 고려사항

획득 가능성
- 획득 가능여부와 주기를 고려
- 가공처리에 많은 비용이 소비되는지 확인
- 트래픽량, 저장용량 등을 고려
데이터 균형과 다양성
- 개체의 다양성, 목적 및 상황의 다양성, 시간, 종류, 사람, 지역별 다양성
신뢰성
법적 문제 확인
- 개인정보 등에 대한 법적 문제를 고려한 기술적 절차를 거친 데이터의 활

(특강) 문지형 - 내가 만든 AI 모델은 합법일까, 불법일까

3. 원시 데이터 전처리

추출 대상 확인
- 메타 정보
- 주석 대상 텍스트
정제 대상 확인
- 숫자, 외국어, 기호, 이모지
- 띄어쓰기, 맞춤법, 오탈자
- 개인정보
- 문장 분리
불필요한 요소 제거 및 변환
- 개인정보 비식별화
- 비윤리적 표현 정제

4. 원시데이터의 가공 - 주석도구

4.1. 주석(annotation, labeling)

원시 데이터를 가공하여 원하는 정보를 부착하는 작업. 텍스트를 단순히 분류하여(긍부정, 주제 등) 해당 분류를 텍스트에 삽입하거나 직접 문자열에 주석할 수 있음.

4.2. 다양한 도구

스프레드 시트
구글 폼
Brat
Doccano
Tagtog

그때그때 알맞는 도구를 찾아서 활용하는 것이 좋을 것 같다.

Previous(4강) 자연어처리 데이터 소개 2 Next오피스아워 (11.10, 수)

Last updated 3 years ago

Was this helpful?