Trainee CV Engineer (Intelligent document processing)
Наша команда занимается задачами, связанными с интеллектуальной обработкой документов, созданием систем OCR/HCR, парсингом таблиц, работой со структурированными документами (ID, формы и т.д.), извлечением сущностей и фактов из текстовой информации.
Сейчас в пайпланах используется более десятка различных DL моделей, выстроен процесс сбора и разметки данных, собственная команда разметчиков, инфраструктура трекинга экспериментов и управления датасетам, кластер из нескольких DGX для проведения экспериментов)
Нашими решениями (SberOCR, DocID) пользуется уже несколько десятков команд банка и мы продолжаем активно вкладываться в ресерч с целью улучшение существующих продуктов и развития новых инициатив.
Мы расширяем команду и ищем коллег для работы над сложными задачами, связанными с анализом структуры документов, восстановлением порядка чтения с учетом семантики и улучшения существующих решений.
Предстоящие задачи:
- развитие собственного движка обработки документов OCR
- развитие transformer-based и graph-based подходов к анализу структуры документов (layout analysis) и восстановлению порядка чтения (reading order)
- развитие text spotting методов
- участие в создание универсальных foundation models для обработки документов
- разработка методов исправления опечаток на основе LLM
- улучшение генераторов синтетических данных.
Обязанности:
- имплементация и обучение моделей OCR, детекции текста, детекции объектов, сегментации и классификации
- чтение статей и перекладывание SOTA на пром рельсы, в том числе GCN, LayoutLM V3, UDOP, Donut, UNIfied scene Text Spotter (UNITS)
- запуск распределенного обучения на GPU кластере MLSpace (Кристофари)
- организация циклов дообучения на новых данных (постановка задач разметчикам, запуск crowdsource майнинга данных и т.д).
- оптимизация моделей для исполнения: квантизация и дистилляция моделей
- портирование на OpenVINO, TensorRT
- релизы новых моделей в среды исполнения.
Требования:
- отличное знание одного из pytorch, tf + numpy, sklearn, pandas
- опыт разработки/обучения/внедрения одной или нескольких типов моделей: object detection , semantic segmentation, instance segmentation, OCR, text detection, text spotting, transformers, multimodal transformers и т.д.
- хорошее знание классического CV и OpenCV
- хорошее знание алгоритмов, python3, ООП, SOLID, git, docker
- желание изучать новые подходы, модели и технологии.
Плюсом будет:
- хороший профиль на github
- медальки на Kaggle
- опыт в обучение мультимодальных моделей
- опыт работы с ClearML/MLflow, Kubeflow, DVC/LakeFS, S3/Minio, Airflow, Jenkins, Grafana.
Мы предлагаем:
- официальное оформление (срочный трудовой договор на 3 месяца с возможностью продления ещё на 3 месяца)
- возможность проходить обучения для развития hard/soft skills на нашей корпоративной digital-платформе
- рабочее место в одном из лучших IT-офисов Москвы на Кутузовском проспекте (Гран-при Best Office Awards 2020) с собственным фитнес-залом, массажными креслами, снэк-поинтами
- скидки от компаний-партнёров экосистемы Сбера.
Обслуживать клиентов: работать со счетами, пластиковыми картами и денежными переводами. Продавать банковские и страховые продукты (кредитные продукты, карты, вклады).
Обслуживать клиентов: работать со счетами, пластиковыми картами и денежными переводами. Продавать банковские и страховые продукты (кредитные продукты, карты, вклады).
Junior java разработчик
Корпоративная техника на уровне
Большая программа для самостоятельного развития
Излишняя бюрократия