전체 글 41

[증권사 앱 리뷰 데이터 수집]_YouTube 댓글 텍스트 데이터 분석(3)

이전 포스팅에서 여러 방향을 고려해 보았지만, 사실 이번 YouTube 리뷰 데이터 분석의 핵심 목표는 WordCloud 시각화를 통해 주요 키워드의 패턴을 파악하는 것이었다. (데이터 분석을 하다보면 매번 방향성을 잃어가고 처음 목표와 달라지는 경우도 많은 것 같다.. 이러다 시간 소요가 많이 되고 내용이 산으로 갔던 경우도 많았던 것 같음,,그래서 처음 목표 및 계획을 체계적으로 세우고 그 방향성으로 나아가는 것도 무엇보다 중요한 것 같다고 생각함)어쨋든 다시 본론으로 돌아와서 이전에 생각해 냈던 방안들은 다 잊어버리고 처음 목적에 맞도록 추가적인 전처리를 진행하고 시각화를 하는 것으로 YouTube 댓글 데이터 분석은 마무리하고자 함 그래서 생각해 낸 방안!!분석의 객관성을 높이기 위해 특정 증권사..

[증권사 앱 리뷰 데이터 수집]_YouTube 댓글 텍스트 데이터 분석(2)

오늘은 이전에 문제가 발생했던 부분을 "사용자 정의 사전 추가" 방식을 통해 해결하고 이를 바탕으로 시각화한 내용과 도출할 수 있는 인사이트들에 대해 정리하고자 한다.  (1) 사용자 정의 사전(증권사명) 추가 사용자 정의 사전 추가 방식을 통해 이전에 발생한 문제를 해결하였다. 증권사명을 경우 사람들마다 한국투자증권, 한투 이런식으로 줄여서도 부르는 경우가 종종 존재하기 때문에 가능한 모든 단어를 추출하기 위해 가능한 경우의 수들을 최대한 많이 사용자 정의 사전에 추가하고자 하였다. from soynlp.noun import LRNounExtractor# 사용자 정의 사전 (증권사명 추가) custom_nouns = ['미래에셋', '미래', '한투', '한국투자', '키움', '키움증권', '영웅문'..

[증권사 앱 리뷰 데이터 수집]_YouTube 댓글 텍스트 데이터 분석(1)

저번 시간에 수집한 데이터를 바탕으로 텍스트 마이닝을 진행하고자 하였다.  (1) 수집할 데이터와 관련된 댓글 데이터만 추출 수집한 데이터에는 주식 앱과 관련되지 않은 내용에 대한 데이터들도 섞여 있기에 나에게 필요한 데이터들만 추출하고자 하였다. 아래를 보면 "왜 그렇게 예뻐요?"와 같이 내가 분석할 내용과 아예 관련이 없어보이는 데이터들도 존재한다.  상위 8개 주식 앱(미래에셋, 한투, 키움증권 영웅문S#, 삼성증권mPOP, KB증권, 신한SOL, 나무NH, 토스 앱)에 대한 리뷰 데이터만 분석할 예정이므로, 이와 관련된 키워드를 위주로 나에게 필요한 데이터들을 뽑아내고자 하였다. # 관련 데이터만 추출 # 미래에셋 / 한투 / 키움증권 영웅문S# / 삼성증권mPOP / KB증권 / 신한SOL / ..

[증권사 앱 리뷰 데이터 수집]_YouTube API를 이용한 YouTube 댓글 데이터 수집

먼저 이걸 하게 되는 이유와 목적을 명확히 하는 것이 좋을 것 같아 주제와 데이터 활용 필요성, 분석 방법 및 목표를 명확히 하고자 한다. [배경]주변에서 수수료가 비쌈에도 UI/UX 떄문에 토스증권을 사용하는 사람들이 많음(나도 그 중 하나이고, 내 주변 친구들만 보아도 UI/UX 떄문에 수수료를 감안해서라도 토스증권을 선택하는 친구들이 많음)  -> 즉, 수수료가 비쌈에도 불구하고 UI/UX 떄문에 증권사를 옮기는 경우 많이 존재사용자들이 어떠한 이유로 증권사를 선택하고, 또 이탈하는지 파악함으로써 기존의 고객을 유지함과 동시에 새로운 고객들을 유입할 수 있는 방안을 알아보고 싶었음[데이터 수집 및 분석 방법]주식 투자자들은 앱 리뷰와 유튜브 댓글에서 다양한 의견을 남김 -> 이를 분석하면 사용자들이..

정렬_2021 카카오 채용연계형 인턴십_숫자 문자열과 영단어 (Python 코테)

[문제 설명]숫자의 일부 자릿수를 영단어로 바꾸기ex)- 1478 -> "one4eveneight"- 234567 -> "23four5six7"- 10203 -> "1zerotwozero3"  [문제 풀이] - while문 사용해서 a가 문자열의 길이보다 작을 때까지 반복한다는 조건 꼭 추가해 주어야 함! - 처음 문제를 풀 때는 num_list를 사용해 num_E_list를 만들어 주었었는데, 그럴 필요 없음 num_E_list의 인덱스 번호가 결국 숫자 리스트를 따로 만들었을 때의 인덱스 번호와 동일하므로 !- isdigit()함수: 숫자로만 이루어졌는지 확인할 때 사용하는 함수  *+문제 풀이 방법 찾다가 추가로 발견한 방법(1) 딕셔너리 사용한 풀이 방법: items() 함수와 replace 함수..

코테_Python 2025.01.04

정렬

아주 쉬운 세 가지 알고리즘 !!가장 빠른 정렬 알고리즘 아님 !  사람들이 실제로 정렬하는 방식과 유사 -> 쉬움 (시간 복잡도 계산 쉬움) (1) bubble sort (버블 정렬)(2) selection sort (선택 정렬)(3) insertion sort (삽입 정렬) 빠른 순서: insertion sort(삽입 정렬) -> selection sort(선택 정렬) -> bubble sort(버블 정렬)  1. BUBBLE SORT (버블 정렬)- 이해하기 쉬워서 사용(정렬 입문으로 good)- 방법  두 개를 선택해서 왼쪽과 오른쪽 비교  -> 왼쪽이 오른쪽보다 크면 둘이 교환   -> 옆으로 한 칸씩 이동하면서 동일한 과정 반복 (비교하고 스와핑의 반복 과정)- 버블 정렬의 시간 복잡도   c..

알고리즘 2025.01.04

SQL_LeetCode_Select

[문제]Find Customer Referee[정답 코드] [문제]Find Customer Referee[정답 코드]NULL 값은 != 2 조건에 의해 필터링되지 않음!# NULL과의 비교는 항상 FALSE:# NULL은 알 수 없는 값이므로, != 또는 = 같은 비교 연산자를 사용하면 결과가 TRUE나 FALSE가 아닌 NULL이 됨# 즉, NULL != 2는 FALSE로 간주되지 않고 단순히 NULL이 되어 조건을 충족하지 않게 됨  -> REFEREE_ID가 NULL인 행은 결과에서 제외됨# -> null인 경우를 따로 추가해줘야 함! [문제]# Big Countries[정답 코드] [문제]Article Views I[정답 코드] [문제]# Invalid Tweets[정답 코드]

SQL 리트코드 2024.09.02