We are looking for the best LLM Engineer(Data Platform)는 Generative Model 학습에 필요한 Peta Byte단위의 Text, Image, Video 데이터를 수집하여 효율적으로 관리할 수 있는 시스템을 개발합니다. 개발된 플랫폼은 ML 학습 파이프라인과 연동되어, 필요한 데이터를 효율적으로 공급하며, 필요한 데이터를 신뢰성 있게 공급함으로써 서비스 품질을 높이는 핵심 역할을 맡게 됩니다. 최신 AI 기술 및 데이터 엔지니어링 도구를 다루며, LLM 학습 데이터의 설계 및 최적화 과정에서 기술적 리더십을 키울 수 있습니다.
책임 (Responsibilities)
데이터 수집,처리,저장 및 활용 Pipeline 설계: Peta byte 단위의 텍스트·이미지·비디오 데이터를 정제하여 모델 성능 향상에 기여
대규모 Synthetic Data 생성: 대용량의 Synthetic Data를 생성·관리하여, 모델 학습의 품질 개선에 기여
데이터 품질 관리 및 자동화: 데이터 품질 지표를 정의하고, 품질 검증 및 모니터링 자동화 시스템을 설계 및 구축
데이터 전처리 및 처리 효율화: Parquet, WebDataset, TorchData, TFRecord, datatrove 등 industrial standard의 데이터 처리 포맷 및 도구를 활용하여 데이터 전처리 효율 극대화
데이터 레이블링 및 버전 관리: 지속적으로 변화하는 데이터셋에 대한 버전 관리 및 레이블링 프로세스 자동화
보안을 고려한 데이터 관리 및 공급: 데이터 무결성과 보안성을 고려한 저장·전송 기술 개발 및 관련 법규·내부 보안 정책 준수
자격요건 (Qualifications)
소프트웨어·데이터 엔지니어관련 업무 경력 5년 이상
Spark, Hadoop 등 대규모 분산 처리 환경에서 데이터 엔지니어링 수행 경험
클라우드 환경(AWS, GCP, Azure 등)에서의 개발 경험
S3, EMR, DataProc등 클라우드 기반 스토리지·분산 처리 플랫폼 사용 능력
대규모 데이터셋의 압축, 인덱싱, 샤딩을 통한 최적화 경험
Python, C++ 등을 포함한 프로그래밍 언어에 대한 높은 숙련도와 탄탄한 소프트웨어 엔지니어링 역량