분류 전체보기8 [Docker 컨테이너] overleaf docker 올리기 https://github.com/overleaf/overleaf GitHub - overleaf/overleaf: A web-based collaborative LaTeX editor A web-based collaborative LaTeX editor. Contribute to overleaf/overleaf development by creating an account on GitHub. github.com 이 글에서는 가장 널리 쓰이는 온라인 Latex 편집 에디터인 Overleaf를 도커로 올리는 방법에 대해 다룹니다. Docker와 Docker-compose가 이미 설치되었다고 가정하였습니다. 초기 설정 방법은 간단합니다. 위의 Github에서 코드를 clone한 뒤, docker-compos.. 2023. 5. 8. 단어의 중요도 평가: TF-IDF https://ko.wikipedia.org/wiki/Tf-idf tf-idf - 위키백과, 우리 모두의 백과사전 위키백과, 우리 모두의 백과사전. TF-IDF(Term Frequency - Inverse Document Frequency)는 정보 검색과 텍스트 마이닝에서 이용하는 가중치로, 여러 문서로 이루어진 문서군이 있을 때 어떤 단어가 특정 문서 ko.wikipedia.org 단어 빈도수(Term Frequency; TF)와 역문서 빈도(Inverse Document Frequency; IDF)는 여러 문서로 이루어진 집단에서 단어의 중요도를 평가하기 위한 수치입니다. 설명을 돕기 위해 간단한 예를 들어보겠습니다. A학생은 학교 과제를 위해 100권의 책을 읽고 내일까지 보고서를 작성하여야 합니다.. 2023. 1. 21. [논문 리뷰] Mapping Unobserved Item–Respondent Interactions: A Latent Space Item Response Model with Interaction Map 여러 명의 학생들이 시험문제를 푼다고 가정하자. 시험 문제는 다양한 분야에서 출제될 수 있고, 오로지 객관식 문제만 출제된다고 한다면 시험의 결과는 학생이 정답을 맞혔는지 그렇지 못했는지로 나눌 수 있을 것이다. 시험이 모두 종료된 후 출제자는 학생들이 어떤 분야를 가장 어려워하는지를 찾고자 한다. 이 경우 출제자는 각 분야의 평균 점수를 비교하여 학생들이 어떤 분야의 문항을 가장 어려워하였는지 측정할 수 있을 것이다. 위의 사례와 같이 특정 분야의 점수를 비교하여 난이도를 측정할 수도 있겠지만 각 문항이 개별적인 속성을 가지고 있다고 생각하고 이를 측정할 수도 있다. 문항반응이론(Item Response Theory, 이하 IRT)은 시험문제, 혹은 설문 문항에 대한 응답자의 능력과 개별 문항에 대한 .. 2023. 1. 3. [업무자동화] Python Selenium Python은 가장 널리 사용되는 컴퓨터 언어로, 다른 언어들에 비해 상대적으로 쉽게 사용할 수 있는 언어입니다. 파이썬은 딥러닝, 시각화, 홈페이지 제작 등 다양한 영역에서 활용될 수 있지만 오늘은 특히 Selenium이라는 패키지를 이용한 업무 자동화에 대해 소개해드리고자 합니다. Selenium은 웹 애플리케이션 자동화 및 테스트를 위한 포터블 프레임워크입니다(출처: 위키백과 셀레늄). 즉, 사용자가 직접 조작하지 않고도 미리 설정된 값을 통해 웹페이지를 조작할 수 있게 하는 프로그램입니다. 파이썬에서는 Selenium이라는 패키지를 통해 사용할 수 있습니다. 사실 Selenium을 검색해보시면 알겠지만 파이썬에서 Selenium이 가장 많이 쓰이는 곳은 웹스크래핑입니다. 어떤 요소를 클릭해야 정보.. 2023. 1. 3. Rcpp 사용하기(1) - Introduction R은 가장 널리 사용되는 통계소프트웨어 중 하나로, 통계학과에 진학하게 되면 반드시 배우게 되는 프로그램입니다. 자주 사용하는 통계 알고리즘은 물론 논문에서 제안하는 알고리즘을 패키지 형태로 구현해두는 경우가 많아서 과장을 좀 보태면 "생각할 수 있는 모든 통계 알고리즘"은 R을 통해서 거의 사용할 수 있다고 해도 무방합니다. 이렇게 유용한 프로그램이지만 R에도 많은 단점이 있고, 그중 가장 치명적이라고 생각되는 단점은 속도가 느리다는 것입니다. 특히 많은 반복 연산이 필요한 베이지안 컴퓨팅(e.g. MCMC)의 경우 자칫 단순한 코드 테스트에도 하루 이상을 소모해야 하는 불상사(?)가 벌어질 수도 있습니다. 이를 해결할 수 있는 방법 중 하나로 코드 병렬화를 생각할 수 있겠지만 이전 반복의 결과가 다음.. 2022. 12. 27. [논문 리뷰] Latent Space Approaches to Social Network Analysis N명의 사람들이 서로 상호작용하는 SNS가 있다고 가정하자. 서로 친한 관계의 사람들은 친구 관계로 연결되어 있을 것이고, 이를 Node와 Edge로 이루어진 Network data의 형태로 표현할 수 있을 것이다. 이렇게 만들어진 네트워크는 N이 커질수록 매우 복잡해질 것이다. 즉, SNS에 참여하는 사람들이 많아질수록 어떤 사람들이 서로 친구이고 어떤 공통점이 있는지 등의 네트워크에서 나올 수 있는 정보를 시각적으로 발견하기가 불가능에 가까워진다. 이런 경우, 네트워크에 어떤 통계 모형을 가정하여 복잡한 관계로부터 의미 있는 정보를 추출할 수 있다. 그렇다면 복잡한 네트워크로부터 어떻게 정보를 가져올 수 있을까? 논문에서는 서로 다른 사람들 사이의 "사회적 거리"를 가지고 친구가 될 확률을 모델링한다.. 2022. 12. 22. Docker compose 파일 만들기 코딩을 하다 보면 똑같은 코드를 치더라도 내 컴퓨터에서는 제대로 작동되지 않는 경우가 있습니다. 원인은 여러 가지가 있겠지만, 그중 꽤 높은 비중을 차지하는 문제로 "실행 환경"을 들 수 있습니다. 단순히 R에서 패키지 하나 설치하는 문제에서도 운영체제가 Windows인지, Linux인지, Mac인지에 따라 설치 난이도가 천차만별로 달라집니다. 물론 이런 문제를 자주 겪어서 익숙해진 사람들은 경험을 통해 비교적 수월하게, 혹은 구글링의 힘을 빌어서 문제를 해결할 수 있겠지만 이러한 문제를 많이 겪어보지 못했다면 분명 남들은 잘 쓰는 코드를, 나는 쓰지 못하는 억울한 상황에 직면할 것입니다. 이런 억울한 상황을 피하기 위해 추천하는 방법은 (1) python을 사용한다면 가상환경을 만들어 사용하거나, (2.. 2022. 12. 21. 리눅스 USB 사용 제한 PC를 세팅하다 보면 보안을 위해 일반 사용자의 권한을 제한해야 할 때가 있습니다. 파일 접근 권한이나 수정 권한 등을 부여하기가 편해서 공용 PC를 세팅할 때 Ubuntu를 깔아서 사용하였는데, 이 과정에서 일반 사용자의 USB 사용을 제한할 필요가 있어서 사용했던 방법을 잊지 않기 위해 사용했던 방법을 정리하였습니다. 1. /media 폴더 접근 권한 수정 간단하게 사용할 수 있고, 개인적으로도 효과가 있었던 방법입니다. chown 명령어로 소유권을 관리자 계정으로 이전하고, 해당 계정에서만 /media 폴더에 접근할 수 있게 합니다. chown -R [계정]:[그룹] /media 그룹 별 소유권을 지정하고 싶다면 그룹까지 지정하면 됩니다(필수 사항은 아닙니다). 이렇게 설정하면 USB를 꽂았을 때 .. 2022. 12. 21. 이전 1 다음