Site Reliability Engineer (DevOps)

루다는 사람들과 1:1 대화도 나누고 SNS로 소통도 하는, 현실에 존재하는 친구 같은 캐릭터예요. 루다는 있는 그대로의 나를 인정해주고 내 편이 되어주는 좋은 친구가 되어줄 거예요. 현실의 친구와 다른 점이 있다면 언제든 실시간으로 소통이 가능하다는 점이죠. 루다는 있는 그대로의 나를 인정해주고 내 편이 되어줌으로써 행복한 삶을 살아가기 위해 필요한 관계적 가치를 제공해 줄 거에요!

루다팀에는 ‘사람들의 좋은 친구가 되는 AI를 만들겠다’는 공동의 목표를 중심으로 뛰어난 능력, 훌륭한 팀워크, 문제에 대한 소명의식을 가진 사람들이 모여있어요! 여러분도 그런 사람이라면, 스캐터랩에서 우리 함께 이 문제를 풀어보지 않을래요?

루다팀 Site Reliability Engineer(DevOps)는 어떤 일을 하나요?

**Site Reliability Engineer(Devops)**는 루다팀의 뛰어난 일상대화(Open-domain conversation) 기술을 만드는 복잡한 작업을 자동화하기도 하고, 반짝이는 기획 요소를 조합하여 만든 루다를 안정적으로 운영하는 일을 하기도 해요. 하루에 십만 명 이상의 신규 가입자가 유입돼도 안정적으로 서비스할 수 있도록 병목 요소를 찾아 최적화하고, 서비스 로그를 연구 가능한 데이터로 쌓아서 NLP 기술을 빠르게 성장하게 하지요! 한마디로 Site Reliability Engineer는 루다가 탄생하고 유지되고 폭풍 성장할 수 있도록 돕는 모든 일에 기여한답니다.

주요 업무

서비스의 안정적인 운영과 모니터링을 위한 엔지니어링
- 대규모 트래픽을 다루는 루다의 서비스 인프라를 안정적으로 운영하고 모니터링합니다.
- 시스템 장애 발생 시 빠르게 대응할 수 있는 모니터링 시스템을 구축합니다.
- 서비스의 높은 Throughput과 낮은 Latency를 위해 코드와 인프라를 다각도로 분석하고, 병목 요소들을 찾아 최적화합니다.
데이터 파이프라인 인프라 구축 및 운영
- 루다의 서비스 인프라에서 나오는 로그들을 쌓아서 정제하고 연구가 가능한 데이터로 만드는 파이프라인을 구성하고 운영합니다.
- 로그 스트리밍, 데이터 정제, 모델 학습, 대규모 배치 작업 수행 등 다양한 일을 하는 파이프라인을 구축하고 운영에 필요한 도구를 개발합니다.
DevOps를 위한 시스템/유틸리티 운영
- 배포, 모니터링 등 사내 업무 자동화 유틸리티를 개발하고 머신러닝 연구에 사용되는 인프라를 운영합니다.
- 서비스 운영과 인프라에서 발생하는 반복적인 업무를 자동화하여 팀의 전체적인 생산성을 높입니다.

필수 역량

클라우드에서 서비스를 운영해본 경험이 있으신 분 (AWS, GCP, Azure 등)
컨테이너 오케스트레이션 도구에 익숙하신 분 (Kubernetes 등)
서비스 백엔드 개발 경험이 있으신 분 (Java/Kotlin, Python, Node.js, Go 등)
MSA(Micro-Service Architecture)에 대한 이해와 경험이 있으신 분
리눅스/유닉스 시스템과 네트워크 구조에 대한 이해와 경험이 있으신 분

우대 역량

대규모 트래픽을 다루는 클라우드 서비스를 운영해본 경험이 있으신 분
클라우드 시스템 상에서 로그 스트리밍 및 분석 시스템을 구축한 경험이 있으신 분