Data Science NLP
ФГАНУ НИИ «Спецвузавтоматика» относится к Министерству науки и образовании. Осуществляем деятельность в области информационных технологий и безопасности.
Ищем в команду опытных специалистов профиля: Data Scientist, ML Engineer (ML инженер).
Чем занимаемся:
- Файн-тюнингом трансформеров (BERT, GPT, T5, etc.) на специальных задачах.
- Оптимизацией интеренса моделей под разные задачи и/или устройства.
- Используем и классические методы NLP (TF-IDF, Word2Vec, etc.).
- До-обучаем на наших GPU и настраиваем chaining LLM моделей (LangChain и подобные решения).
- Превращаем наши модели в сервисы с помощью FastAPI и контейнеризируем в Docker/Podman - Ищем новые идеи и проекты на основе трансформеров и LLM.
Как работаем:
1. Вместе с командой изучаем проект, обсуждаем подходы и ищем подходящий.
2. Собираем и анализируем обучающие данные. Обязательно версионируем данные в наше S3 хранилище.
3. Проводим углубленный анализ данных и эксперименты на нашем вычислительном кластере (GPU). Версионируем модели в GitLab Model Registry (MLFlow) и в S3 хранилище.
4. Выбираем лучшую модель для задачи и оборачиваем её в сервис для доступа к модели по API.
5. Весь код и артефакты мы активно версионируем, чтобы ничего не потерять. Каждый Merge Request младших специалистов дополняется ревью от старшего специалиста, который подскажет где можно улучшить.
6. Держим постоянную связь с командой тестеров и бэкендеров для эффективной интеграции модели с другими сервисами.
7. При необходимости оптимизации модели под конкретные задачи - оптимизируем. Например, для запуска моделей на мобильных устройствах.
8. По мере работы синхронизируемся между командами для брейншторма задач свежим взглядом.
Чем пользуемся для:
- работы с моделями: torch, transformers, NeMo, optuna, sklearn;
- хранения информации внутри проектов: clickhouse, qdrant, postgresql, elasticsearch;
- версионирования кода: git;
- версионирования артефактов: DVC, LakeFS, GitLab, MinIO S3 - запуска сервисов: Docker/Podman, Kubernetes, Redis, RabbitMQ;
- написания базового бэка для модели: Gradio, StreamLit, FastAPI - управления зависимостями: pdm;
- так же приветствуется использование других технологий, которыми вы владеете.
Что мы предлагаем:
- Трудоустройство по ТК РФ, белая заработная плата, премии, 13я зарплата.
- 8-часовой рабочий день, 5/2, график работы с 10 до 19, гибридный формат работы. Полной удаленки нет.
- Для своих pet-проектов возможно пользоваться рабочей техникой.
- Рост по установленной карте карьеры, пересмотр зарплаты по мере роста.
- Обучение, курсы, конференции и т.п. за счет организации.
- Расположение офиса в центре города.
- Насыщенная корпоративная жизнь (корпоративы, внутренние мероприятия, праздники для сотрудников, внутренние турниры и конкурсы).
- Совместные походы (квесты, лазертаг, кино и т.д.).
- Психологическая и юридическая поддержка (штатный юрист и психолог);
- Гильдии по интересам (IT-шные, и не только).
- Комфортная рабочая обстановка (спортивные зоны, летняя площадка на крыше с интересными мероприятиями у партнеров).
- Подарки на праздники от Института.
- Сплоченный коллектив, команда единомышленников.