2018-01-06 회의록
- 자료 전처리 및 저장
- 피드백 결과, 최초 검색어 및 1차 연관 검색어를 제외시키는 것은 예외 사항에 대한 검토가 추가로 필요
- 현재 코드의 문제 해결이 우선시되어야 함
- 다만 현재 진행중인 패키지 개발단계에서는 전체적인 분석 과정에 집중
- 위 문제는 완성된 패키지의 고도화 단계에서 검토하면 됨
- 데이터 파일은 sqllite 형식 파일로 검색 결과를 저장하고 서버를 이용한 직접 저장등은 추후에 다시 논의함
- 시각화
- naverrelation1() 또는 naverrelation2() 결과를 network3D 라이브러리를 이용하여 interactive 3차원 그래프로 표현
- a를 통해 현재 2차원으로 표현될 때 발생하는 텍스트 겹침 현상을 개선하고, 특정 node의 연결 상태를 강조하여 확인하는 것이 가능.
- 기타
- 현재까지 Slack에 공유된 내용을 Gitbook에 업데이트 할 것
- 아침에 배가 고팠는데 오레오와 메밀치가 맛있었음
2018-01-20 회의록
목표
- roxygen2를 통한 패키지 업데이트 룰에 대해서 논의합니다.
- 전처리 프로세스에서 1차 연관 검색어를 제외시키는 것의 정책을 어떻게 가져갈지 논의합니다.
- 현재 코드를 어떻게 공유할 지 방법(github)에 대해 논의합니다.
- 저장된 DB를 어떻게 저장하고 공유할지에 대해서 논의합니다.
- 구글 드라이버
- 드롭박스
- 본 프로젝트를 어떻게 확장할지에 대해서 논의합니다.
- 현재 프로젝트는 기능을 구현하는 것인데 기능을 활용한 2차 연구 주제에 대해서 논의합니다.
논의
- 1차 검색어와 2차 검색어의 단어간 중복이 발생할 경우 제거 로직을 옵션으로 제공한다.
- 제거는 시각화 단계에서만 제공한다.Shiny를 통해 결과를 제공을 진행하자
- 디자인보다는 구현에 촛점을 두고 작업하다가 나중에 수정하는 형태로
- 코드 관리는 각자 작성하고 rdevteam 저장소로 pull request 한다
- 코드는 roxygen 형식으로 포맷팅하면 좋지만 일단은 편한대로 보낸다
- DB는 이은광 이 MSSQL 환경을 마련하여 제공한다
- rdevteam에서 개발한 패키지를 이용하여 특정 이슈에 대해 분석한 아티클을 블로그에 작성하여 공유한다.
2018-02-10 회의록
코드 개선
- networkplot() 함수를 networkplot_3d()함수로 대체 통합
- naverRelation1() 함수와 naverRelation2() 함수를 naverRelation()함수로 통합
- networkplot() 함수를 클래스 구조로 처리하여 클래스에 따라 다르게 작동하는 method로 구현
이후 세미나에서 준비하는 사항
- DB 관련 학습 자료 준비
- "평창올림픽" 키워드로 배치처리하는 작업 진행
2018-02-24 회의록
변경된 코드 리뷰
- naverRelation() 함수로 통합된 부분 확인하였음
- naverRelatioin() 함수 통합하면서 함수의 parameter로 크롤링 depth를 받도록 하고 이를 결과 클래스에 attribute로 추가하였음
- networkplot() 함수는 plot()로 동작하게 추가하였으며 class에 nv를 추가하여 plot()기본함수에서 동작하도록 처리
- 이렇게 하였을 때 loadHistory()함수에도 class에 nv를 추가하고 attribute로 depth를 넣어야 함
- 따라서 loadHistory() 함수의 return 객체에 위 내용을 반영하도록 코드를 수정해야 함
다음 오프 모임에서 진행해야 하는 것들
네이버 연관검색 프로젝트 회고
다음 프로젝트 선정
DB 사용 관련한 안내
다음 오프 모임 일정
3월 10일 오전 10시 ~ 12시
- 다시 공지 예정
2018-03-10
회고 세부 내용
- 기존 패키지 관리 방안
- 앞으로 만드는 모든 패키지는 rdevteam에 모두 몰아서 통합 관리하자
- 기섭님 의견 : 공동 학술 대회를 진행하는 것이 있는데 해양과 관련되면 자료 분석 섹션을 만들어서 발표를 하고 있는데
- 텍스트 마이닝으로 간단한 트렌드 분석을 해서 발표한 자료가 있는데
- 해양 관련해서 배치로 한달 정도 데이터를 축적해서 만들어볼 수 있지 않을까?
- rdev team으로 참가를 해서 진행을 하면 좋지 않을지?
향후 진행 사항 논의
- 현재 서비스와 완결성을 마무리
- 샤이니 대시보드 개발하자
시계열 분석을 해보자
- 엽록소 자료를 가지고 시계열 자료에 대한 예측을 진행하면 어떨까?
시계열 모델을 새롭게 만들어볼지?
기초 모델을 여러가지 조합해서 특정 이슈에 적합한 모델을 만들어보면 어떨지?
어떤 자료를 쓰던간에 도메인 지식이 있는 분이 있었으면 함
자료 활용에 대해서
크롤링을 통해 데이터를 수집하기 보다는 API를 활용해서 기상 자체에 대한 예측 모델을 만들자
기상청 자료의 활용도는 어떻게 해볼 수 있지 않을까?
개인마다 관심이 있고 데이터 수집이 가능한 자료를 정리하
- 현재 서비스와 완결성을 마무리
생각해본 주제
날씨에 따른 해수욕장 관광자 규모 추정
논문 분석 요약 서비스 개발
신규 참여자가 할 수 있는 주제가 무엇이 있을지?
- 개발된 서비스에서 영감을 받거나 실제 용도에 대해 논의해보면 좋겠다
- 오픈 이후에 일반 사용자 입장에서 대변해줄 수 있는 부분이 필요함
2018-04-07
다음 진행할 주제에 대한 사전 의견
[효진]
연관검색어 Shiny app 개발을 위한 기획, 시계열 추가컨텐츠에 대한 주제 픽스 2개를 진행을 희망합니다.
서비스를 올리는 방법에 있어 장애요인들에 대한 Q&A 시간 및 서비스 배포 방법 픽스를 희망합니다.
[은광]
효진님 의견에 공감합니다. 그리고 네트워크 기능을 몇가지 추가해봤으면 좋겠는데 생각 정리해볼게요
서비스에 직접 올려보는 것을 같이 해보면 어떨까 합니다.
[용]
저번에 말한 시계열 관련하여 활용가능한 자료 소스가 있을지 찾아가도록 하겠습니다.
내용은 오프모임때 정하도록 하죠!!
참석자: 권용, 이기섭, 이은광
오프 모임 때 논의 한 이슈
- 다음 프로젝트에 대한 논의
- 다른 사람들이 많이 하는 이슈 말고 독특하면서 일상적으로 유용한 서비스를 만들어보지
- 미세먼지 분석 툴
- 특정 시점의 미세먼지 데이터를 정기적으로 수집하여 유용한 정보를 제공함
- 시계열 분석을 공부해보자
- 교재의 내용을 진행해보자(기섭님이 책 추천)
- 기섭님이 소개
- 책도 좋지만 책의 내용이 실용적이지는 않음. 하여 실용적인 접근을 해보았으면 함
- 시계열 데이터 핸들링
- 미세먼지도 시계열 데이터 인데 시계열 데이터 분석 기법을 통해 공유해보자
- 시계열 데이터 핸들링
- 결측치에 대한 처리 (기섭님 과거 경험 소개(library ODA))
- 아웃라이어 처리(기섭님 과거 프로젝트 소개)
- 시계열 데이터 핸들링
- 교재의 내용을 진행해보자(기섭님이 책 추천)
- 기존 프로젝트의 부가 기능을 추가해보자
- 시계열 분석 데이터면 구글 트렌드 기능을 추가하자(코드는 이은광이 소개할 예정)
- 다른 사람들이 많이 하는 이슈 말고 독특하면서 일상적으로 유용한 서비스를 만들어보지
- 추가 이슈 논의
- 개인 분석 환경을 구축하기 위해서 해야 하는 것들
- 네트워크 구성
- OS와 가상 머신, 가상 컨텐이너 서비스 docker
- 공유기에서 설정하는 포트포워딩 기능
- 머신과 서비스를 외부에서 접근하기
- WOL(Wake On Lan) 기능에 대한 소개
- 기섭님 개인 머신이 준비되면 한가한 시점에 다 같이 실습해보기로 결정
- 개인 분석 환경을 구축하기 위해서 해야 하는 것들