DS (NLP) специалист
Вакансия № 32255158 от компании Сбер для экспертов на Электронной Службе Занятости Населения Москвы.
✷ Смотрите другие предложения работы от компании Сбер для экспертов.
☑ Основной блок:
Опыт работы: не требуется.
Тип занятости: полная занятость.
График работы: полный день.
Зарплата: по результату собеседования.
Примерное место работы: Россия, Москва.
☑ Актуальность объявления:
Это объявление № 32255158 добавлено в базу данных: Понедельник, 20 января 2025 года.
Дата его обновления на этом интернет-ресурсе: Вторник, 18 марта 2025 года.
☑ Статистика предложения работы № 32255158:
Прочитано соискателями - 16 раз(а);
Отправлено откликов - 0 раз(а);
☑ Репутация компании "Сбер для экспертов":
Читайте свежие отзывы сотрудников об этом работодателе здесь!
Оставить своё мнение об этой компании можно тут без регистрации и бесплатно.
☑ Подробности о вакантном месте:
Мы внедрили банковские и экосистемные LegaTech-продукты на основе SOTA-NLP моделей. Наши решения анализируют сотни типов входных документов, извлекают сложноструктурированные знания и помогают людям принимать на их основе ответственные решения. Это, например, позволяет оптимизировать работу банка по правовым рискам кредитных сделок, с минимальным участием человека.
Мы идем дальше и нам нужен NLP-специалист, чтобы внедрять разрабатываемые в банке LLM-модели для их применения в правовой сфере.
Текущий статус
Наши AI-решения применяются в флагманском продукте Сбера «Онлайн-кредитование» для корпоративных клиентов, обеспечивая принятие решений в автоматическом режиме по 60% от всех кредитных сделок банка.
Мы уделяем особое внимание сбору и подготовке датасета: мы собрали обширный набор юридических данных, на которых обучили собственный трансформер-энкодер LegalBERT, также у нас есть собственный инструмент разметки, который позволяет задействовать несколько десятков in-house разметчиков для создания различных NLP-датасетов.
Команда
У нас работают NLP-исследователи, разработчики, юристы и лингвисты — выпускники лучших российских вузов, участники конкурсов и хакатонов. Так, наша команда победила в хакатоне «Лидеры цифровой трансформации», организованном Правительством Москвы в 2022 году.
Чем предстоит заниматьсяНеобходимо переводить наши разработки на новый уровень (End-to-End) принятия решений, что связано с внедрением больших лингвистических моделей (LLM типа ChatGPT/LaMDA) в наши процессы. Спектр работ – от поиска релевантных статей на Arxiv и проведения экспериментов до проверки моделей на реальных данных и вывода в Production:
? Анализ задач, RnD и подбор адекватных SOTA-решений, быстрая оценка эффективности их применения, оценка необходимых ресурсов, проверка гипотез, выработка плана разработки.
? Подготовка требований к составу, объему и форматам данных, необходимых для дообучения на примерах (SFT — supervised fine-tuning) LLM на специализированном юридическом домене, взаимодействие с функциями DA/DE.
? Организация процесса превращения GPT/T5 моделей в Instruct LLM по методологии RLHF (обучение с подкреплением по обратной связи от человека — как вариант).
? Автогенерация обучающих примеров для Instruc LLM и другие способы (Zero shot learning) уменьшения издержек в процессе адаптации LLM под требования пользователей (Human Tasks Alignment)
? Изучение, разработка и внедрение подходов, обеспечивающих высокий уровень H-H-H: честности, полезности и безопасности
? Улучшение уже применяющихся компонентов, моделей и пайплайнов сегментации и классификации, извлечения и связывания сущностей в используемом нами подходе к решению задачи NER, работа над ошибками моделей, доработка архитектуры.
Наши ожидания от кандидатов:
? Реальный опыт разработки NLP-моделей, знание SOTA-подходов, умение их объяснить команде
? Отлично знание основ Data Science — от линейной алгебры и теории вероятностей до DNN
? Понимание архитектуры и принципов устройства и обучения больших лингвистических моделей (LLM) и генеративных трансформеров типа GPT/Bert: Tokenizing, Position Encoding, (Masked) Multihead Attention, Batch/Layer Normalization и т.д.
? Понимание принципов обучения и применения моделей обучения с подкреплением (Reinforced Learning)
? Понимание основных методов Machine Learning (regressions, clustering, decision trees, и т.д.)
? Умение выстраивать Pipe Line машинного обучения и быстрое развертывание их в применении к GPT-подобным моделям — Domain Data Mining / Augmentation / Unsupervised Learning/ SFT / RLHF / Validation / Self Confidence / Active Learning
? Оценка вычислительной сложности всего Pipe Line, применение классических алгоритмов для ее снижения
? Знание Computer Science на уровне, позволяющем управлять командой разработчиков — от понимание классических алгоритмов до Unit Tests, Refactoring и основ Devops
? Готовность браться за нестандартные, сложные задачи (поддержка актуальных знаний в весах моделей (Active Learning) или на внешней дифференцируемой памяти по принципу Query-Key-Value, доверие к Confidence решений, способы преодолеть Token Window Size и другие.)
Условия труда:
Что мы предлагаем
? Страшно интересные NLP задачи в самой сложной области предметных знаний (GPT + Legal domain).
? Возможность обучения и развития, участия в конференциях от Сбера.
? Уютный офис с печеньками, столовой и спортзалом.
? Социальный пакет (ДМС, фитнес, льготное страхование).
☑ О компании:
Обратите внимание на веб-сайт компании - http://www.sberbank-talents.ru - с подробной информацией об организации, в том числе контактными телефонами.Логотип (эмблема, торговая марка, бренд) компании:
Сфера деятельности компании: Финансовый сектор; .
☑ Отклинуться сообщением, резюме, запросить телефон, отправить жалобу (претензию):