Data Science

Это текст описания Data Science

Свяжитесь с нами сейчас!

Если у вас есть готовый план проекта, либо его задумка, оставьте свои контактные данные. Мы с вами обязательно свяжемся и поможем в реализации идеи!





    Наши работы

    Магистраль данных для Интернет-Магазина на маркетплейсах

    Технологии: Python, MySQL, Excel, Power BI, Jupyter Notebook Для компании интернет-магазина, разработана система сбора, анализа данных и прогнозирования поставок и продаж. Данные о продажах, остатках на складах, акциях собираются с маркетплейсов Wildberries, OZON, Яндекс.Маркет, СберМегаМаркет. Данные, недоступные через API маркетплейсов загружаются в систему вручную с помощью файлов XLS. Производится очистка данных, предоставлен интерфейс аналитикам данных клиента для построения и тестирования моделей. Модель прогнозирования использует алгоритмы машинного обучения.

    Проверка юридических документов с использованием методов НЛП

    Технологии: Python, NLP, Машинное обучение Продолжительность: 3 месяца Наш клиент создает финансовое программное обеспечение (под названием «CF Engine») для моделирования сложных финансовых продуктов (RMBS, ABS, CLO и т. д.). Основная цель проекта — расширить это программное обеспечение, используя функцию, которая позволяет пользователям просматривать соответствующие юридические документы на основе информации из модели. Разработанная модель должна проверять, соответствует ли конкретный документ одной из созданных моделей. Например, если обрабатываемый документ является закладной, тогда модель: - parses mortgage document (from PDF, Word, plain text format); - checks if document contains all required information (all parties are specified and described correctly, property is described, interest rate is specified, all information required by law is provided and so on); - if document fits the model then system extracts important information (parties, property description, interest rates and so on) and provides it as summary for user review. Система поддерживает разные форматы входных документов и разные типы документов, такие как ипотека, автокредит, коммерческий кредит и так далее. Также система поддерживает разные страны работы, т.е. разную структуру документов для каждой страны и разные языки.

    Программное обеспечение для спортивных прогнозов

    Технологии: Python, GLPK Длительность: 2 месяца Бизнес-целью этого проекта было создание инструмента, который мог бы создать наилучший возможный состав игроков в фэнтези-спорт с учетом их предполагаемых фэнтези-очков для следующей игры. Составы были созданы для нескольких спортивных лиг, таких как NBA, NFL и MLB, а также для нескольких ежедневных фэнтези-спорт веб-сайтов (DFS), таких как Fanduel и DraftKings. Инструмент может составить список оптимальных составов на основе одного и того же набора игроков и их предполагаемых фэнтези-очков. Among other options it is possible to build the best lineups with one or more players already present (locked) in the lineup. It is also possible to constrain each player's exposure in the list of optimal lineups, min and max number of players from each team in the lineup and more. Среди технических задач, которые мы решали, был поиск модели линейного программирования, которая наиболее правильно и эффективно описывает модельный ряд и все соответствующие ограничения. В проекте была реализована смешанная целочисленная модель линейного программирования, которая была решена с помощью GNU Linear Programming Kit (GLPK) через библиотеку интерфейса Python Pyomo. Инструмент был реализован в виде веб-сервиса. Параметры модели динамически заполнялись данными JSON через REST-подобный интерфейс API конечным пользователем, и лучшие составы также отправлялись пользователю в виде данных JSON. Модель линейного программирования фактически состояла из шести моделей, по одной для каждого вида спорта (NBA, NFL, MLB) и веб-сайта DFS (Fanduel, DraftKings).

    Поиск взаимосвязей и прогнозирование в системе электронной коммерции

    Технологии: Python, Scikit-learn Продолжительность: 5 месяцев Внедрена система, которая ранжирует клиентов, делая прогнозы, важные для бизнес-действий, такие как переход с бесплатных на премиум-аккаунты, суммы платежей за премиум-аккаунты и вероятность того, что человек перестанет пользоваться услугой. Система обучена на базе данных учетных записей пользователей и последовательности действий пользователей на сервисе. После того, как новые пользовательские данные предоставлены системе, создается рейтинг, основанный на прогнозируемых будущих действиях. Мы использовали следующие техники: - feature engineering for machine learning; - random forest/decision trees models; - "bag of words" like model for user actions.

    Алгоритм прогнозирования уровня ёмкости

    Технологии: Python, Scikit, SciPy Продолжительность: 6 месяцев Целью проекта было прогнозирование уровня жидкости в ёмкости на основе данных из сенсора, соединённого с ней специфическим девайсом. Данные, предоставленные клиентом, включают в себя информацию сенсоров на разных уровнях ёмкости. После внедрения принципиального компонента анализа (ПКА) с целью выявлять паттерны сигналов спектральных областей, была создана простая модель логистического регресса. Модель продемонстрировала хорошие атрибуты/результаты и использовалась для прогнозирования уровня с точностью 98-100%. Short: developed a predictive analytics solution for oil industry. The solution is aimed to predict the level of oil based on the sensor data. #Data Science