Проекты

Проекты

Здесь Вы прочитаете о:

  • типовых задачах, в которых Вы увидите возможность применения алгоритмов интеллектуального анализа данных;
  • уникальных задачах, потребовавших применения нестандартных схем и подходов, работа над которыми была для нас особенно интересной.

     

1. Первый в России онлайн-курс по анализу больших данных
Совместно с корпорацией EMC нашими сотрудниками-преподавателями был разработан вводный курс по аналитике больших данных. Это первый русскоязычный онлайн видео-курс по теме Big Data. Прослушайте курс бесплатно: http://bit.ly/IntuitBDA.


2. Медицина: прогнозирование осложнений и рецидивов

ННИИПК им. Е.Н. Мешалкина Министерства здравоохранения РФ исследовал возможность прогнозирования возникновения осложнений во время операционного вмешательства по до-операционным данным о пациенте: результатам физиологического и диагностического обследований. Дополнительный интерес представляла возможность снизить возможные риски за счет выбора метода операционного вмешательства, наиболее подходящего конкретному пациенту.

Последующим проектом для того же клиента было построение статистических моделей возможности рецидива пациентов в послеоперационный период (длительностью до 3 лет). Для анализа использовались все данные о пациенте: до-операционные, полученные по ходу проведения операции и реабилитационный период.


3. Нефтегазодобывающая отрасль: прогнозирование фракционного состава

Разработали прогнозную модель для нового прибора, определяющего фракционный состав сырой нефти. При добыче в трубу поступает смесь, состоящая из трех фракций: газ, нефть и вода. Напрямую для определения состава используется прибор "сепаратор" стоимостью $200k. С помощью нашей прогнозной модели можно использовать прибор стоимостью $10k и измерять то же самое с погрешностью ниже 1%.

Отзыв компании МФ-Технологии. 


4. Проект по заказу ЦФТ


5. Parallels & NSU - прогнозирование нагрузки на сервера

Компания Parallels совместно с Новосибирским государственным университетом (НГУ) проводит исследования в области создания современной платформы облачного хостинга. Наш коллектив решает задачу прогнозирования нагрузок на сервера по характеру запросов к ним. К настоящему моменту ошибка прогнозирования составляет менее 2%. Это позволяет конечным клиентам Parallels размещать сайты, не задумываясь о распределении нагрузки и перемещении сайта на более мощные сервера, всё это будет происходить автоматически. 
 



6. Распознавание марки автомашин
В рамках R&D проекта по заказу фонда Бортника была построена прогностическая модель, позволяющая распознавать марки автомашин по фотографии. В первой версии распознаются логотипы марок. Во второй версии планируется распознавание по форме авто.
 


7. Логистика: ошибки списания

С некоторой периодичностью персонал предприятия списывает группы расходных материалов на различных участках учета. Бывает, что кто-то из них ошибается (осознанно или несознательно). По-видимому, рассчитывая, на то, что так как эти списания относятся разом более чем к одному реальному акту расходования, то нет никакой возможности обнаружить их ошибку.

Однако если деятельность предприятия не меняется уникальным образом от одного такого момента списания до другого, то подобные "ошибки" довольно легко обнаруживаются на фоне типичной деятельности методами анализа данных.


8. Производство: рабочая нагрузка на оборудование

Еще одна задача типовая как для медицинских учреждений, так и для предприятий производственного сектора:

Дорогостоящее оборудование, в пользовании которым заинтересовано сразу много работников, требует разумного управления с тем, чтобы минимизировать возможные конфликты одновременного доступа. Помочь в этом может создание статистических моделей, призванных прогнозировать периоды повышенного спроса и его отсутствия. Руководствуясь такими прогнозами ожидаемой нагрузки, с помощью методов Operations research, не сложно разумно перераспределить во времени поток заявок на использование ценного ресурса.


9. Производство: время выполнения заказа

Еще одна задача, решение которой является залогом хорошего планирования производственного процесса - определение времени выполнения заказа по параметрам самого заказа, информации о других заказах, поступивших на производство ранее и состоянии ресурсов (людей и оборудования). Конечно, внедрение полноценной SCM призвано разрешать эту ситуацию за счет детального понимания всех процессов и состояний производства. Однако часто эту задачу можно решить менее затратным, но столь же эффективным способом, благодаря вскрытию статистических зависимостей между длительностью выполнения заказа и другими характеристиками известными о производстве в момент поступления заказа, если такие данные регулярно собирались.


10. Биоинформатика: прогнозирование экспрессии генов

Прогнозирование экспрессии генов по гистонным модификациям и транскрипционным профилям. Для каждого из генов имеются описания пиковых картин для нескольких транскрипционных факторов и гистонных модификаций, а также известны результаты измерений экспрессии генов.

Требуется:

  • Определить, какие из гистонных модификаций являются наиболее информативными.
  • Выяснить, какие пики являются индикаторами уровня экспрессии.
  • Построить интеллектуальные модели, вычисляющие прогнозируемое значение экспрессии по заданному пиковому профилю.

К сложностям этой задачи можно отнести следующие факторы:

  • Данные не представлялись в виде таблицы или куба, причем данные содержали серии пропусков по двум измерениям.
  • Имел место очень высокий уровень шума.
  • В исходных данных значения целевого параметра были измерены с существенной погрешностью.

 

Совместно с лабораторией анализа данных ИМ СО РАН

1. Криминалистика: спектральный анализ

При анализе веществ физическими методами используются различные способы воздействия на образцы веществ и фиксируются зависящие от химического состава вещества реакции образцов на эти воздействия. Примером такого анализа может служить исследование микрообъектов и их совокупности по данным рентгеноспектрального микроанализа. Исследуемое вещество представляет собой множество из нескольких десятков или сотен микрочастиц. Реакция каждой микрочастицы при этом методе воздействия отображается спектром, состоящим из 1024 линий (каналов). Амплитуда сигнала в спектральном канале может изменяться от 0 до нескольких тысяч условных единиц. Спектр одного и того же микрообъекта может меняться в зависимости от контролируемых и неконтролируемых условий эксперимента.

По заказу лаборатории криминалистики при ФСБ РФ сотрудниками нашей компании была разработана программная система СПЕКТРАН. На данных рентгеновского спектрального анализа микрочастиц гомогенных веществ и их смесей с помощью этой системы решаются следующие базовые задачи: кластеризация частиц по похожести их спектров, выбор подмножества наиболее информативных полос спектра, распознавание принадлежности частиц и их смесей к заданным классам веществ и ряд других.


2. Атомная промышленность: считывания символьной информации с изделий на конвейере

Задача возникла в рамках реализации программы создания топливных элементов нового поколения. Для оперативного управления параметрами и ходом технологического процесса производства тепловыделяющих элементов (ТВЭЛ) для реакторов атомных электростанций было необходимо получить возможность считывать и распознавать буквенно-цифровую маркировку изделий в темпе движения по технологической линии.

Данная разработка имела ряд специфических требований:

  • Произвольная ориентация изделия в пространстве и произвольное (в пределах некоторой области) месторасположение объекта.
  • Наличие различных геометрических искажений в изображении символьной надписи (обусловленных отличием формы кодовой поверхности от плоскости, сильной неравномерностью засветки, сбоями технологического оборудования, используемого для нанесения надписи).
  • Разнообразие способов нанесения информации.
  • Допустимая вероятность ошибочного считывания и распознавания кода не более 10-6.

3. Медицина: диагностика рака простаты по масс-спектрам белков

Требовалось проанализировать данные о масс-спектре белковых форм, полученные с помощью спектрометра типа SELDI-MS-TOF с целью диагностики пациентов. Количество спектральных полос — 15153. Были представлены четыре класса пациентов с разным уровнем индекса PSA, характеризующего степень развития рака простаты: 63 здоровых пациента класса имеют PSA ng/mL < 1, 26 пациентов класса имеют PSA ng/mL 4-10, 43 пациента класса имеют PSA >10 ng/mL и 190 пациентов класса имеют PSA >4 ng/mL.

Задача интересна тем, что малое количество пациентов не позволило разделить выборку на обучающую и контрольную. По этой причине было решено воспользоваться тем обстоятельством, что целевая характеристика (PSA), указывающая на принадлежность пациентов к тому или иному классу, позволяет установить между классами отношение частично-линейного порядка по степени тяжести заболевания.

В результате: удалось выбрать 24 спектральных полосы (из 15153), наблюдения которых достаточно для диагностики пациентов.


4. Медицина: распознавание двух видов лейкемии

Анализируемые данные были представлены матрицей векторов экспрессии генов, полученных с помощью биочипов для пациентов с двумя типами лейкемии — ALL и AML. Обучающая выборка, полученная на образцах костного мозга, содержала 38 объектов (27 ALL и 11 AML). Тестовая выборка - 34 объекта (20 ALL и 14 AML), которые были получены в разных экспериментальных условиях: 24 на препаратах из костного мозга и 10 — на препаратах из крови. Исходное количество признаков (генов) 7129. Нормализованные уровни экспрессии генов измерены по изображениям биочипов.

Результат: из исходного количества 7129 признаков было выбрано 39 признаков, из которых было построено 30 вариантов решающих правил, в состав каждого из которых вошло от четырех до шести признаков. 27 из 30 правил показали 0% ошибку распознавания на тестовой выборке.


5. Продажи: таргетирование

В рамках международного соревнования Data Mining Cup 2009 анализировались данные о том, сколько книг того или иного жанра было продано в разных магазинах торговой сети в течение года. Эти данные представляли собой очень разреженную таблицу (84% клеток таблицы были пустыми). На пересечении строк и столбцов указывалось количество книг данного жанра (одного из 1856), проданных в течение года в том или ином магазине (количество колебалось от 0 до 2300).

Цель анализа – понять необходимый объем поставок книг определенного жанра в каждый магазин.

Результат:

В конкурсе изъявили желание участвовать 618 команд из 164 организаций 42 стран, 231 команда решила эту задачу и прислала свои результаты, 49 команд преодолели порог приемлемых результатов, установленный организаторами. Среднее количество ошибок на одну предсказываемую ячейку у разных команд колебалось от 0.89 до 100.22. Наша команда Новосибирского госуниверситета сделала 0.95 ошибки на ячейку и заняла 4 место.


6. Медицина: диагностика заболеваний

Рассматривалась возможность использования портативного газового хроматографа (мультисенсорной системы для распознавания компонентов газовых смесей) для диагностирования заболеваний желудка по результатам анализа выдоха пациента. Предварительные эксперименты показали обнадеживающие результаты. Требовалось проверить, что первый успех, полученный на небольшом числе пациентов (70 человек), не носил случайный характер.

По результатам проведенного исследования было показано, что предыдущие результаты не доказательны, а построенные на их основе статистические модели ненадежны и не выдерживают критики.

Дальнейшие исследования доказали невозможность использования данного прибора для диагностирования заболевания с необходимой степенью достоверности.


7. Биоинформатика: прогнозирование биофизических свойств по аминокислотному составу белков

На материале 17 штаммов восточносибирского вируса клещевого энцефалита (ВКЭ) исследовались закономерные связи между аминокислотными последовательностями белков и тремя биофизическими свойствами: инвазивность, термостабильность и терморезистентность. Таблица данных содержала пробелы. Требовалось обнаружить позиции в тексте, мутации в которых определяют биофизические свойства штаммов.

Результаты:

  • Из 177 пробелов в таблице аминокислот удалось заполнить 138. Ожидаемая ошибка заполнения составила 6.2%.
  • Обнаружены 8 сечений штаммов, по аминокислотному составу которых можно с высокой надежностью (коэффициент корреляции равен 0.962) предсказывать значение инвазивности. Заметные зависимости от структуры штаммов обнаружены и для термостабильности (14 сечений, после цензурирования четырех больших выбросов, корреляция составила 0.868), и для терморезистентности (3 сечения, после исключения пяти выбросов, корреляция равна 0.785).
  • Проявилась слабая положительная зависимость между инвазивностью и терморезистентностью, и слабая отрицательная между термостабильностью и терморезистентностью. Сочетания сечений, оказавшихся информативными, были признаны интересными для дальнейшего изучения маркеров биофизических свойств штаммов ВКЭ.

8. Аналитическое программное обеспечение: программная система FRiS-ОТЭКС

По заказу лаборатории анализа данных ИМ СО РАН была осуществлена программная реализация оригинальных алгоритмов лаборатории в рамках единой программной среды. Программа предназначена для пользователя, не являющегося экспертом в области анализа данных. Интерфейс имеет простую и интуитивно понятную структуру. Параметры всех алгоритмов имеют предустановленные значения, что освобождает пользователя от необходимости вникать в тонкости управления работой алгоритмов. В то же время, опытный пользователь может менять настройки по своему усмотрению, чтобы добиться лучшего результата. Большое внимание уделено интеграции с программой Microsoft Excel®.


9. Аналитическое программное обеспечение: программная система FRiS-Pro

Является профессиональной версией пакета FRiS-ОТЭКС и представляет собой среду для работы специалиста в области анализа данных, которая может быть использована для исследований алгоритмов, построения различных их модификаций, разработки новых методик, а также для решения нестандартных задач анализа данных. Так же среда может использоваться в качестве рабочего места аналитика для оценки применимости методик анализа данных к конкретной предметной области.

Важной частью пакета является редактор сценариев. В качестве языка для написания сценариев используется Python – популярный язык программирования общего назначения, который может использоваться не только для описания сценариев выполнения из имеющихся алгоритмов, но и для создания новых вычислительных блоков. Имеется возможность поменять некоторые составные части алгоритмов.

Для более эффективного использования вычислительных ресурсов используется хранилище. Однажды посчитанные результаты не будут вычисляться заново при повторном эксперименте. При модификации алгоритма будут пересчитываться только те данные, которые зависят от изменившихся частей.

Одним из наиболее важных направлений развития пакета FRiS-Pro, над которым уже ведется работа, является создание облачного сервиса и интеграция его с программным пакетом. Пользователь будет иметь возможность загружать любые данные на сервер, запускать на сервере сценарии вычислений, и получать результаты так, как будто они считались на его собственной машине.