| by Мирослав Белоголовка | No comments

Исследователи учат «машинам» выявлять мошенничество в Medicare

Исследователи учат
                Таги М. Хошгофтаар, доктор философии, соавтор и профессор Motorola на факультете вычислительной техники, электротехники и компьютерных наук ФАУ. Кредит: Флоридский Атлантический Университет

Используя очень сложную форму сопоставления с образцом, исследователи из Колледжа инженерных и компьютерных наук Университета Флорида-Атлантик преподают «машины» для обнаружения мошенничества в рамках программы Medicare. Medicare, первичная медицинская страховка для американцев 65 лет и старше, составляет 20 процентов расходов на здравоохранение в Соединенных Штатах. Ежегодно от 19 до 65 миллиардов долларов теряется из-за мошенничества, расточительства или злоупотреблений Medicare.
                                                                                       

Подобно общеизвестной «иголке в стоге сена», у аудиторов или следователей-людей стоит кропотливая задача вручную проверить тысячи заявлений Medicare на наличие конкретных моделей, которые могут указывать на нечестную игру или мошенническое поведение. Кроме того, по данным Министерства юстиции США, в настоящее время усилия по борьбе с мошенничеством в значительной степени зависят от медицинских работников, которые предоставляют информацию о мошенничестве Medicare.

Исследование, опубликованное в журнале Health Information Science and Systems, является первым, в котором используются большие данные из Части B программы Medicare, а также применяется расширенный анализ данных и машинное обучение для автоматизации процесса обнаружения мошенничества. Программирование компьютеров для прогнозирования, классификации и пометки потенциальных мошеннических событий и поставщиков может значительно улучшить обнаружение мошенничества и снизить нагрузку на аудиторов и следователей.

Исследователи из Департамента вычислительной техники и электротехники и компьютерных наук ФАУ изучили набор данных Medicare Part B с 2012 по 2015 гг. Они сосредоточились на обнаружении мошеннических заявлений поставщиков в наборе данных, который состоял из 37 миллионов случаев. Мошеннические действия включают жестокое обращение с пациентом или пренебрежение им, а также выставление счетов за не оказанные услуги. Врачи и другие поставщики, которые совершают мошенничество, исключены из участия в федеральных программах здравоохранения, таких как Medicare, и эти случаи помечены как «мошенничество».

Для исследования исследователи собрали 37 миллионов случаев до меньшего набора данных (3,7 миллиона) и определили уникальный процесс сопоставления ярлыков мошенничества с известными мошенническими поставщиками.

Данные Medicare Part B включали информацию о поставщике, средние платежи и сборы, коды процедур, количество выполненных процедур, а также медицинскую специальность, которая называется типом поставщика. Чтобы получить точные совпадения, исследователи использовали только Национальный идентификатор поставщика (NPI) для сопоставления меток мошенничества с данными части B Medicare. NPI — это единый идентификационный номер, который выдается федеральным правительством поставщикам медицинских услуг.

Исследователи напрямую сопоставляли NPI с данными по Части B Medicare, помечая любого поставщика в «исключенной» базе данных как «мошеннического». Исследовательская группа классифицировала NPI или специальность врача и специально изучала, отличается ли прогнозируемая специальность от фактической специальности, как указано в данных Части B. Medicare.

«Если мы сможем точно предсказать специальность врача на основе наших статистических анализов, то мы можем потенциально обнаружить необычное поведение врача и пометить его как возможное мошенничество для дальнейшего расследования», — сказал Таги М. Хошгофтар, доктор философии, соавтор автор и профессор Motorola на факультете компьютерной и электротехники и компьютерных наук ФАУ. «Например, если дерматолог точно классифицирован как кардиолог, то это может указывать на то, что этот конкретный врач действует мошенническим или расточительным образом».

Для исследования Хошгофтаар вместе с Ричардом Баудером, старшим автором, доктором философии. студент ФАУ и специалист по данным в FPL, а также Мэтью Херланд, доктор философии. студент факультета вычислительной техники и электротехники и компьютерных наук ФАУ, должен был учесть тот факт, что исходный маркированный большой набор данных был крайне несбалансированным. Этот дисбаланс возник из-за того, что провайдеры-мошенники встречаются гораздо реже, чем провайдеры-мошенники. Этот сценарий можно сравнить с «где Уолдо», и он проблематичен для подходов машинного обучения, потому что алгоритмы пытаются различать классы — и один доминирует над другим, тем самым вводя ученика в заблуждение.

Для борьбы с этим дисбалансом исследователи использовали случайную заниженную выборку, чтобы уменьшить набор данных с 3,7 миллиона случаев до примерно 12 000 случаев. Они создали семь распределений классов и использовали шесть разных учеников в распределениях классов от сильно несбалансированного до сбалансированного.

Результаты исследования показывают статистически значимые различия между всеми учащимися, а также различия в распределении классов по каждому учащемуся. RF100 (Случайный Лес), алгоритм обучения, был лучшим в обнаружении положительных моментов потенциальных случаев мошенничества.

Что еще более интересно, и вопреки распространенному мнению, что сбалансированные наборы данных работают лучше всего, это исследование показало, что это не относится к обнаружению мошенничества в Medicare. Ведение большего количества дел о недобросовестных действиях фактически помогло учащемуся/модели лучше различать случаи мошенничества и недопущения мошенничества. В частности, исследователи обнаружили, что для выявления мошенничества в Medicare «сладкое место» состоит в распределении 90:10 нормальных и мошеннических данных.

«При определении того, что является мошенничеством, а что не является мошенничеством, например, канцелярской ошибкой, так много сложностей», — сказал Баудер. «Наша цель — дать возможность учащимся машин изучать все эти данные и помечать все подозрительные. Затем мы можем предупредить следователей и аудиторов, которым нужно сосредоточиться только на 50 случаях вместо 500 или более».

Этот метод обнаружения также применяется для других видов мошенничества, включая страхование, банковское дело и финансы. В настоящее время исследователи добавляют другие источники данных, относящиеся к Medicare, такие как Medicare, часть D, используют больше методов выборки данных для дисбаланса классов и тестируют другие варианты выбора функций и инженерные подходы.

«Учитывая важность программы Medicare, которая страхует более 54 миллионов американцев старше 65 лет, борьба с мошенничеством является неотъемлемой частью предоставления им качественного медицинского обслуживания, которого они заслуживают», — сказала доктор философии Стелла Баталама. декан факультета машиностроения и компьютерных наук ФАУ. «Методология, разрабатываемая и тестируемая в нашем колледже, может изменить ситуацию с тем, как мы выявляем мошенничество Medicare и другие виды мошенничества в Соединенных Штатах и ​​за рубежом».

Поделись

Добавить комментарий