네이버 연관 검색어 추출 저장 프로그램 만들기
진행 배경
본 프로젝트는 R을 이용하여 아래 나열한 기술을 학습하기 위한 목적으로 시작하였으며 다양한 기술을 조합하여 하나의 애플리케이션 개발을 경험하는 것이 목표입니다.
관련 기술과 기능
본 프로젝트는 아래 기능을 수행하는 애플리케이션이며 각 기능은 독립적인 함수 모듈로 작성할 예정입니다.
- 데이터 입력
- 키보드를 통해 키워드를 입력 받을 수 있는 인터페이스를 개발합니다.
- Command Console에서 키워드를 입력 받아 데이터 크롤링 모듈에 해당 키워드를 전달하는 역할을 합니다.
- 데이터크롤링
- 입력받은 키워드를 네이버에 검색하여 연관 검색어를 크롤링합니다.
- 크롤링한 연관 키워드를 다시 네이버에 검색하여 2nd depth 연관검색어들을 크롤링합니다.
- 연관검색어 키워드를 데이터 프레임으로 리턴합니다.
- 네트워크 형태의 텍스트 데이터 전처리
- 전달 받은 데이터 프레임 데이터에서 불용어와 특수문자, 인코딩 등의 문제를 해결하고 결과값을 데이터프레임으로 리턴합니다.
- DB를 이용한 데이터 저장
- 이전 모듈에서 전달 받은 데이터 프레임을 DB 스키마에 맞도록 수정합니다.
- 수정된 데이터프레임이 DB에 이미 존재하지 않는지 확인합니다.
- 다른 부분이 있다면 DB내 자료를 갱신하여 저장합니다.
- DB에 저장 시 변경 히스토리를 별도로 저장합니다.
- 텍스트의 네트워크 시각화
- 3에서 전달 받은 데이터프레임을 그래프 데이터 프레임으로 변환합니다.
- 네트워크 그래프로 시각화 합니다.