반응형

전체 글 173

[추천시스템] - Deep Neural Networks for YouTube Recommendations(딥러닝 기반의 추천시스템)

유튜브 추천시스템의 2번째 논문인 Deep Neural Networks for YouTube Recommendations에 대한 요약을 진행 했습니다! Candidate generation과 rank 시스템을 이용하여 동영상을 추천해주고 개인별 동영상 시청시간까지 예측하는 과정에 대해서 배울 수 있었습니다. 논문 : https://static.googleusercontent.com/media/research.google.com/ko//pubs/archive/45530.pdf 1. 소개 Scale : 너무 방대한 규모의 유튜브 유저와 제한된 컴퓨팅 파워 Fresheness : 기존의 많은 비디오와 새로운 비디오 와의 적절한 탐색과 활용이 중요함 Noise : sparisty와 다양한 외부 요인들로 인해 예..

Study/논문리뷰 2023.04.16

[네이버 부스트캠프 AI Tech 5기] 6주차 회고록

프로젝트 사람을 구하는 것에서 많은 어려움이 있었음. 나를 어필하는 방법과 내 생각을 조리있게 전달하는 방법에 대해서 고민을 해야할 듯 추가로 몸이 많이 아파서 제대로 집중을 할 수가 없었음. 건강 챙기면서 레이스를 완주하자 Fact(사실 : 무슨 일이 있었나?) 추천시스템 기초 대회 시작! 유저와 책 정보를 바탕으로 평점을 예측하는 것 구인구팀 → 이것때문에 시간과 에너지를 엄청 잡아먹음 마스터클래스(추천시스템 대회에 대한 팁과 면접 가이드!) 주말 첫 오프라인 팀 회식 부캠에서 받은 서버를 사용할려는 GPU사용이 안되서 애를 먹음 → 서버 재할당 이후 고쳐짐 논문준비 그 외 개인적인 일 부모님 결혼기념일,국민취업지원제도 Feeling(느낌: 무슨 느낌이 들었나?) 첫 대회가 시작하고 3일동안 강의를 ..

[네이버 부스트캠프 AI Tech 5기] 5주차 회고록

이번 한주는 강의도 널널해서 다른 업무들을 할 수 있었지만 그래서 그런가 부스트캠프의 한 주는 붕뜬 느낌 다음주부터 실전 대회를 시작하는데 잘 할수 있으면 좋겠다. 잘할거다. Fact(사실 : 무슨 일이 있었나?) 도메인 기초이론(NGCF , FM, FFM, DEEPCTR 등등) NGCF,FF+FFM(과제) 깃허브 특강 2회차(merge, branch,push,pull,pr) 기술면접 발표 → 딥러닝의 혁신의 근간에 대해서 구인구팀(이후 프로젝트 팀 구성을 위한 개인소개 페이지 작성) 멘토링 때 룩업 스튜디오(시각화 툴)를 통한 타이타닉 시각화 마스터 클래스(ML 커리어에 대해서) Feeling(느낌: 무슨 느낌이 들었나?) 추천시스템 강의를 들으면서 40분 짜리 강의를 2~3시간 동안 정리하고 배움 오..

[AI] 모델 기반 협업필터링

Model Based Collaborative Filtering (MBCF) NBCF의 한계 Sparsity(희소성) 문제 데이터가 충분하지 않다면 추천 성능 떨어짐 데이터가 부족하거나 아예 없는 유저 추천 불가능(cold start) Scalability(확장성) 문제 유저와 아이템이 늘어날수록 유사도 계산이 계속 늘어남 유저,아이템이 많아야 정확한 예측을 하지만 반대로 시간이 오래 걸림 모델 기반 협업 필터링 데이터에 내재한 패턴을 이용해 추천하는 CF기법 Parametric Machine Learning을 사용 주어진 데이터를 사용하여 모델을 학습 데이터 정보가 파라미터의 형태로 모델에 압축 모델의 파라미터는 데이터의 패턴을 나타내고 최적화를 통해 업데이트 모델 기반 CF vs 이웃 기반 CF 이웃..

Study/AI 2023.04.02

[AI] Collaborative Filltering(협업필터링)

협업필터링이란 많은 유저들로부터 얻은 기호 정보를 이용해 유저의 관심사를 자동으로 예측하는 방법 더 많은 유저/아이템 데이터가 축적될수록 협업의 효과는 커지고 추천은 정확해질 것이라는 가정에서 출발 예를 들어 “노트북”을 본 유저들이 함께 본 다른 상품을 추천하거나, “노트북”을 구매한 유저들이 구매한 다른 상품들을 추천 최종 목적 : 유저 u가 아이템 i에 부여할 평점을 예측하는 것 방법 유저-아이템 행렬 생성(행렬이 다 채워져있지 않아서 빈칸을 채워야함) 유사도 기준을 정하고, 유저 혹은 아이템 간의 유사도를 구할 것 주어진 평점과 유사도를 활용하여 행렬의 비어 있는 값(평점)을 예측 원리 같은 아이템을 구매한 유저 a,b = a와 b는 비슷한 유저 이후 유저 a가 아이템c를 구매한다면 유저b에게도 ..

Study/AI 2023.04.02

[AI] 추천시스템 기초

사용자가 아이템을 찾는 방법 Search(검색) : 의도를 가지고 상품을 찾는 행위 사용자의 의도가 담긴 keyword가 담김(ex, 노트북, 고양이 검색 등등) 이는 pull이라고도 불림. keyword와 관련도가 높은 아이템을 추천해줌 Recommendation 사용자가 의도가 가진 키워드를 가지지 않더라고 아이템을 추천 사용자의 흥미를 고려하여 취향에 맞는 아이템 추천 추천시스템의 필요성 과거에는 상품, 컨텐츠가 제한적 웹/모바일 환경은 다양한 상품, 컨텐츠를 등장하게함 정보의 부족 → 풍요 소수의 인기있는 아이템(20%의 인기있는 아이템이 더 소비된다) → Long tail phenomenon(80% 작은 아이템이 더 소비된다) 정보를 찾는데 시간이 오래 걸림 유저가 원하는 걸 어떤 키워드로 찾는..

Study/AI 2023.04.02

[네이버 부스트캠프 AI Tech 5기] 4주차 회고록

추천시스템에 대한 이론을 배우는 한 주였다. 유사도를 기반으로 유저에게 다양한 아이템을 소개하고 MF행렬에서 잠재 요인 행렬을 만드는 등 어려웠지만 새롭고 재밌었다. 복습할 시간이 있을 진 모르겠는데 코어타임 이내에 계획한 목표를 끝내고 저녁이후 복습하는 시간을 가져야 할 것 같다. Fact(사실 : 무슨 일이 있었나?) 도메인 기초이론(추천시스템에 대한 이론 + 관련논문) 시각화 강의 -seaborn 심화 + 안수빈 마스터님께 시각화에 대한 특강 이고잉 마스터님께 깃허브 특강을 들으면서 VS CODE로 파일을 수정하고 add, commit, merge까지 하는법에 대해 배움 부캠살롱을 통해 다양한 사람들을 만남 모더레이터를 하면서 데일리스크럼과 피어세션때 모든 내용을 기록하려고 노력하였음 팀원분들의 논..

[AI] 다양한 최적화 방법

실제로는 최적화에 한학기를 써야할 정도로 방대한 내용이지만 다양한 최적화 방법에 대해 간단하게만 찍먹해보자 경사하강법 미분을 반복하여 local minimum(국소적 최소점)을 찾는 것 Genealization(일반화) 학습을 반복시키면 학습데이터에 대한 에러가 줄어든다 하지만, train error가 0이 된다고 성능이 좋아진다고 할 수 없다. 왜냐면 test error가 어느 순간부터 증가하기 때문 따라서, generalization gap이 증가하면 성능이 떨어진다고 볼 수 있다. Underfitting vs Overfitting 학습데이터에서 잘 동작하지만 테스트데이터에서 잘 동작하지 않는 것이 오버피팅 네트워크가 너무 간단하거나 데이터가 너무 적어서 제대로 학습데이터에서도 동작안하면 언더피팅 C..

Study/AI 2023.03.26

[AI] Recurrent Neural Networks(RNN)

Sequential Model 시퀀셜 데이터는 인풋의 길이가 정해지지 않아서 차원을 정해놓기가 어렵다. 따라서, 몇개의 입력데이터가 들어오는지 상관없이 모델은 작동을 해야함 만약에 이전의 데이터를 바탕으로 다음의 데이터를 예측해본다하자. 첫번째 데이터는 아무것도 고려못하고, 2번째는 첫번째거를, 세번째는 1,2번째를 등등 나아갈수록 고려해야하는 데이터가 점점 많아짐 Autoregressive Model 과거에 볼 데이터의 길이를 정해두는 것! Markov model 내가 가정을 하기에 나의 현재는 과거에만 의존한다는 것. 이때 과거는 바로 직전 실제로는 말이안됨. 오늘이 수능이면 전날 공부한 것에만 의존한다? 이는 많은 정보를 잃게 됨. 하지만 joint distribution을 설명하기에 엄청 쉬워진다..

Study/AI 2023.03.26

[AI] Convolutional Neural Networks(CNN)

패딩이나 stride를 고려하지않고 (77) 이미지를 (33) 필터를 쓰면 (5*5)의 결과가 나온다. 7-4+1 = 5 적용하고자 하는 필터에 따라 같은 이미지가 Blur, Emboss, Outline등의 형태로 나올 수도 있다. RGB Image Convolution 32-5+1 을 통해 28이 나오게 되며 (32323)의 이미지를 (55)의 필터를 사용한다하면 (553)이라는 필터를 사용한다는 것을 의미한다. 이는 2828*1의 피쳐를 갖게된다. 위의 필터가 필터가 4개가 있다면, 채널이 4인 (28284)의 피쳐를 갖게된다. 인풋 채널과 아웃풋의 채널을 알면 필터의 채널도 알 수 있다. Stack of Convolutions (32323)의 인풋이 (28284) 값으로 나오게 될려면 필터가 (55..

Study/AI 2023.03.26
반응형