(5강) 원시 데이터의 수집과 가공
Last updated
Last updated
원시데이터의 의미를 이해하고 분류 및 형태에 대해 알아본다.
데이터 수집 시 고려할 사항 및 원시 데이터의 전처리 과정에 대해 알아본다.
수집 가능성, 법적문제 여부
말뭉치 정제 및 비식별화 등에 대해 알아본다.
원시 데이터를 가공할 수 있는 주석 도구들의 종류에 대해 알아본다.
Further Reading
나만의 웹 크롤러 만들기 시리즈 [Blog]
다양한 분야의 개인정보보호 가이드라인 [Site]
AI HUB 데이터 구축 및 활용 가이드라인 [Book]
과제를 해결하기 위해 특정 도메인, 장르, 주제에 대하여 주건에 맞춰 수집한 데이터를 의미, 주석이나 전처리가 이루어 지지 않은 날것의 데이터
문어
신문기사, 소설, 수필, 논문, 잡지, 보고서 등
구어(음성파일을 텍스트로 전사)
일상대화, 연설, 강연 + 준구어(방송대본, 영화대본)
웹
SNS, 커뮤니티 게시판, 메신저 대화, 블로그, 이메일 등
텍스트 외에 텍스트에 대한 정보로 매체 정보, 출처, 형태 등을 정해진 양식에 맞춰 기록
획득 가능성
획득 가능여부와 주기를 고려
가공처리에 많은 비용이 소비되는지 확인
트래픽량, 저장용량 등을 고려
데이터 균형과 다양성
개체의 다양성, 목적 및 상황의 다양성, 시간, 종류, 사람, 지역별 다양성
신뢰성
법적 문제 확인
개인정보 등에 대한 법적 문제를 고려한 기술적 절차를 거친 데이터의 활
추출 대상 확인
메타 정보
주석 대상 텍스트
정제 대상 확인
숫자, 외국어, 기호, 이모지
띄어쓰기, 맞춤법, 오탈자
개인정보
문장 분리
불필요한 요소 제거 및 변환
개인정보 비식별화
비윤리적 표현 정제
원시 데이터를 가공하여 원하는 정보를 부착하는 작업. 텍스트를 단순히 분류하여(긍부정, 주제 등) 해당 분류를 텍스트에 삽입하거나 직접 문자열에 주석할 수 있음.
스프레드 시트
구글 폼
Brat
Doccano
Tagtog
그때그때 알맞는 도구를 찾아서 활용하는 것이 좋을 것 같다.