목록학습정리(공개) (8)
Spiaminto

현재 운영 중인 제이노티 서비스에는 일본 곡을 한국어로 검색하는 기능이 있습니다. 이 기능의 목표는 일본어로 작성된 곡명 및 가수명을 한국어로 검색할 수 있도록 하는 것이며, 부정확한 번역 데이터와 다양한 입력 방식에 대해 가능한 직관적이고 정확한 결과를 제공하는 데 주된 관심을 두었습니다.노래방 기계는 자체적으로 일본곡을 검색하는 기능을 제공하지 않으며, 각 브랜드 홈페이지에서도 한글 검색은 제한적으로만 가능했기 때문에 해당 기능을 개발하게 되었습니다. 1. 문제1.1 부정확한 번역 데이터현재 데이터베이스에 저장된 곡 데이터는 약 11000개 이며, 이 모든 곡을 단시간에 번역하는것은 불가능하다고 판단했기 때문에 GPT 를 이용 하여 번역 데이터를 생성하였습니다. 사용한 모델은 gpt-4o-mini 이..

0. 개요현재 운영중인 제이노티 서비스에서 무려 12.84 달러가 청구되었다... 사실 https 를 적용하면서 예측했던 문제인데, 실제로 청구서를 받아보니 ' 이정도로 내야하나 ' 하는 생각이 들었다. RDS 의 public ip 는 감내 가능한 수준이었는데 https 를 적용하면서 추가한 ALB 의 public ip 2개와 Route53 호스팅 비용까지 더해지니 부담스러운 금액이 되어버린 것이다.작은 서비스이기도 하고, 이정도 금액을 계속 내고 싶진 않았기에 ALB 를 통한 https 적용은 폐기하고 다른 방법을 찾아보기로 했다. 1. CLB 사용아마존의 Application Load Balancer (이하 ALB) 는 반드시 2개 이상의 가용영역에 배치되어야 하며, 이에따라 최소 2개의 public..

웹 스크래핑 도구로 Selenium Java 를 사용하던 도중 발생한 문제와 Playwright 로의 라이브러리 변경에 대해 기록하려 한다.0. 상황이 당시 Selenium 4.19.1 을 사용하여 아래와 같이 스크래핑 하고 있었다.public class WebDriverUtil { public static WebDriver getChromeDriver() { ChromeOptions chromeOptions = new ChromeOptions(); chromeOptions.addArguments( "--headless", "--no-sandbox", "--disable-dev-shm-usage..

텍스트 임베딩을 저장할 vector 지원 DB 호스팅 서비스 중 supabase 를 이용해 보았는데, 이때 용량이 생각보다 부족했고 이를 해결하기 위해 한 여러 고민을 기록 해본다. Supabase 무료 플랜의 경우 DB 공간을 총 0.5GB 를 제공하는데 스크래핑한 글과 댓글, 임베딩된 벡터를 모두 저장하기에는 많이 부족한 용량이었다. 다른 방법을을 모두 시도해 보았음에도 최종적으로 256차원 벡터값을 포함하는 테이블 16만행이 0.46GB 를 차지했기 때문에 더이상 저장할 공간이 없어 데이터를 모두 AWS RDS 로 옮겼다.아래는 AWS RDS 로 옮기기 전에 시도했던 방법들이다. 1. 글과 댓글을 다른 DB 로 분리첫 문제 발생 당시 글은 77만개(대부분 댓글 없음) 임베딩은 4만개 였는데, 이때 ..