В теории сетей анализ ссылок — это метод анализа данных, используемый для оценки взаимосвязей (связей) между узлами. Отношения могут быть идентифицированы между различными типами узлов (объектов), включая организации, люди и транзакции. Анализ ссылок использовался для расследования преступной деятельности (обнаружение мошенничества, борьба с терроризмом и разведка), анализ компьютерной безопасности, поисковая оптимизация, исследование рынка, медицинские исследования и искусствоведение. .
Открытие знаний
Обнаружение знаний — это итеративный и интерактивный процесс, используемый для идентификации, анализа и визуализации закономерностей в данных. [1] Сетевой анализ, анализ ссылок и анализ социальных сетей — все это методы обнаружения знаний, каждый является соответствующим подмножеством предыдущего метода. Большинство методов обнаружения знаний следуют этим шагам (на самом высоком уровне): [2]
- "Обработка данных"
- Трансформация
- "Анализ"
- "Визуализация"
Сбор и обработка данных требуют доступа к данным и имеют ряд неотъемлемых проблем, включая информационную перегрузку и ошибки в данных. После того, как данные собраны, их необходимо преобразовать в формат, который может эффективно использоваться как человеком, так и компьютерным анализатором. Ручные или компьютерные инструменты визуализации могут быть отображены на основе данных, включая сетевые диаграммы. Существует несколько алгоритмов, помогающих в анализе данных — алгоритм Дейкстры, поиск в ширину и поиск в глубину.
Анализ связей фокусируется на анализе взаимосвязей между узлами с помощью методов визуализации (сетевые графики, матрица ассоциаций). Вот пример взаимосвязей, которые могут быть отображены при расследовании преступлений: [3]
Источники данных о взаимоотношениях/сети 1. Доверяйте прежним контактам в семье, по соседству, в школе, в армии, в клубе или организации. Государственные и судебные документы. Данные могут быть доступны только в родной стране подозреваемого. 2. Журналы задач и записи телефонных звонков, электронной почты, чатов, мгновенных сообщений, посещений веб-сайтов. Записи о путешествиях. Человеческий интеллект: наблюдение за собраниями и посещение общих мероприятий. 3. Деньги и ресурсы Банковский счет и записи о денежных переводах. Схема и место использования кредитной карты. Предыдущие судебные протоколы. Человеческая разведка: наблюдение за посещением альтернативных банковских ресурсов, таких как Хавала. 4. Веб-сайты стратегии и целей. Видео и зашифрованные диски доставляются курьером. Записи о путешествиях. Человеческий интеллект: наблюдение за собраниями и посещение общих мероприятий.
Анализ ссылок используется для трех основных целей: [4]
- Найдите совпадения в данных с известными интересующими закономерностями;
- Находить аномалии, где нарушаются известные закономерности;
- Откройте для себя новые паттерны интереса (анализ социальных сетей, интеллектуальный анализ данных).
История
Klerks разделил инструменты анализа ссылок на 3 поколения. [5] Первое поколение было представлено в 1975 году как Anacpapa Chart Harper and Harris. [6] Этот метод требует, чтобы эксперт в предметной области просматривал файлы данных, определял ассоциации путем построения ассоциативную матрицу, создать диаграмму связей для визуализации и, наконец, проанализировать сетевую диаграмму, чтобы выявить интересующие закономерности. Этот метод требует обширных знаний предметной области и занимает очень много времени при просмотре огромных объемов данных.
Матрица ассоциации
В дополнение к ассоциативной матрице матрица действий может использоваться для получения полезной информации, которая имеет практическую ценность и может использоваться правоохранительными органами. Матрица действий, как можно было бы предположить из этого термина, сосредоточена на действиях и действиях людей по отношению к местам. Принимая во внимание, что матрица ассоциации фокусируется на отношениях между людьми, организациями и / или свойствами. Различие между этими двумя типами матриц, хотя и незначительное, тем не менее существенное с точки зрения результатов выполненного или визуализированного анализа. [7][8][9][10]
Инструменты второго поколения состоят из инструментов автоматического графического анализа, таких как IBM i2 Analyst’s Notebook, Netmap, ClueMaker и Watson. Эти инструменты предлагают возможность автоматизировать построение и обновление диаграммы связей после создания матрицы связей вручную, однако для анализа полученных диаграмм и графиков по-прежнему требуется эксперт с обширными знаниями в предметной области.
Инструменты анализа ссылок третьего поколения позволяют автоматически визуализировать связи между элементами в наборе данных, которые затем могут служить основой для дальнейшего изучения или обновления вручную.
Приложения
- Программа ФБР по насильственным задержаниям преступников (ViCAP)
- Система анализа сексуальных преступлений штата Айова
- Система анализа преступлений на сексуальной почве штата Миннесота (MIN/SCAP)
- Система отслеживания расследований убийств штата Вашингтон (HITS) [11]
- Расследование убийств и отслеживание потенциальных клиентов в штате Нью-Йорк (HALT)
- Оценка и отслеживание убийств в Нью-Джерси (HEAT) [12]
- Программа ATAC штата Пенсильвания.
- Система анализа связей с насильственными преступлениями (ViCLAS) [13]
Проблемы с анализом ссылок
Информационная перегрузка
Из-за огромных объемов данных и информации, хранящихся в электронном виде, пользователи сталкиваются с несколькими несвязанными источниками информации, доступными для анализа. Методы анализа данных необходимы для эффективного и действенного использования данных. Палшикар классифицирует методы анализа данных на две категории — статистические (модели, анализ временных рядов, кластеризация и классификация, алгоритмы сопоставления для обнаружения аномалий) и методы искусственного интеллекта (ИИ) (интеллектуальный анализ данных). , экспертные системы, распознавание образов, методы машинного обучения, нейронные сети). [14]
Болтон и Хэнд определяют статистический анализ данных как контролируемые или неконтролируемые методы. [15] Контролируемые методы обучения требуют, чтобы в системе были определены правила для установления ожидаемого или неожиданного поведения. Неконтролируемые методы обучения анализируют данные в сравнении с нормой и выявляют статистические выбросы. Методы контролируемого обучения ограничены сценариями, с которыми можно работать, поскольку этот метод требует, чтобы правила обучения устанавливались на основе предыдущих шаблонов. Неконтролируемые методы обучения могут обеспечить обнаружение более широких проблем, однако могут привести к более высокому коэффициенту ложноположительных результатов, если поведенческая норма не установлена или не понята.
Сами по себе данные имеют неотъемлемые проблемы, включая целостность (или ее отсутствие) и постоянные изменения. Данные могут содержать ошибки упущения и совершения ошибок из-за неправильного сбора или обработки, а также когда организации активно пытаются обмануть и/или скрыть свои действия. [4] Воробей [16] подчеркивает неполноту (неизбежность отсутствия данных или ссылки), нечеткие границы (субъективность при принятии решения о том, что включать) и динамические изменения (признание того, что данные постоянно меняются) как три основные проблемы анализа данных. [3]
После преобразования данных в пригодный для использования формат могут возникнуть проблемы с открытой текстурой и перекрестными ссылками. Открытая текстура была определена Вайсманном как неизбежная неопределенность в значении, когда эмпирические термины используются в разных контекстах. [17] Неопределенность в значении терминов создает проблемы при попытке поиска и перекрестных ссылок на данные из нескольких источников. [18]
Основным методом решения проблем анализа данных является опора на знание предметной области от эксперта. Это очень трудоемкий и дорогостоящий метод проведения анализа ссылок, и у него есть собственные проблемы. МакГрат и др. пришли к выводу, что компоновка и представление сетевой диаграммы оказывают значительное влияние на восприятие пользователем существования групп в сетях. [19]Даже использование экспертов в предметной области может привести к различным выводам, поскольку анализ может быть субъективным.
Судебное преследование против предупреждения преступности
Методы анализа ссылок в основном использовались для судебного преследования, поскольку гораздо проще просматривать исторические данные для выявления закономерностей, чем пытаться предсказать будущие действия.
Кребс продемонстрировал использование матрицы ассоциаций и диаграммы связей террористической сети, связанной с 19 угонщиками, ответственными за атаки 11 сентября, путем сопоставления общедоступных деталей, ставших доступными после атак.[3]Даже с преимуществами ретроспективного анализа. и общедоступная информация о людях, местах и транзакциях, очевидно, что данных не хватает.
В качестве альтернативы Пикарелли утверждал, что использование методов анализа ссылок могло быть использовано для выявления и потенциального предотвращения незаконной деятельности в сети Аум Синрикё.[20] Мы должны быть осторожны с «виной по ассоциации. Связь с террористом не доказывает вину, но побуждает к расследованию». [3] Баланс юридических понятий вероятная причина, право на неприкосновенность частной жизни и свобода ассоциации становится сложной задачей при просмотре потенциально конфиденциальных данных. с целью предотвращения преступления или незаконной деятельности, которая еще не произошла.
Предлагаемые решения
Существует четыре категории предлагаемых решений для анализа ссылок: [21]
- Эвристический
- На основе шаблона
- Основанный на сходстве
- Статистический
Инструменты на основе эвристики используют правила принятия решений, полученные на основе экспертных знаний с использованием структурированных данных. Инструменты на основе шаблонов используют обработку естественного языка (NLP) для извлечения деталей из неструктурированных данных, которые сопоставляются с предварительно определенными шаблонами. Подходы, основанные на сходстве, используют взвешенную оценку для сравнения атрибутов и выявления потенциальных связей. Статистические подходы определяют потенциальные ссылки на основе лексической статистики.
Исследователь CrimeNet
Дж.Дж. Сюй и Х. Чен предлагают платформу для автоматизированного сетевого анализа и визуализации под названием CrimeNet Explorer. [22] Эта структура включает следующие элементы:
- Создание сети с помощью подхода концептуального пространства, в котором используется вес совпадения для измерения частоты, с которой два слова или фразы появляются в одном и том же документе. Чем чаще два слова или фразы встречаются вместе, тем больше вероятность того, что они связаны». [22]
- Разделение сети с использованием иерархической кластеризации для разделения сети на подгруппы на основе силы отношений. [22]
- Структурный анализ с помощью трех показателей центральности (степень, промежуточность и близость) для выявления центральных членов в данной подгруппе. [22]» CrimeNet Explorer использовал алгоритм кратчайшего пути Дейкстры для расчета все остальные узлы в подгруппе.
- Визуализация сети с использованием алгоритма метрики Торгерсона многомерное масштабирование (MDS).
использованная литература
- ^ Inc., проект Tor. “Проект Tor: Обзор”.
- ^ Ахонен, Х., Особенности систем обнаружения знаний.
- ^ а б в d Кребс, В. Е. 2001, Карта сети террористических ячеек Архив 2011–07–20 на Wayback Machine., Connections 24, 43–52.
- ^ a b Инструментальные средства анализа ссылок, Информационное управление исследовательской лаборатории ВВС, Rome Research Сайт, Рим, Нью-Йорк, сентябрь 2004 г.
- ^ Клеркс, П. (2001). Сетевая парадигма применительно к преступным организациям: теоретические придирки или актуальная доктрина для следователей? Последние события в Нидерландах. Подключения. 24: 53–65. CiteSeerX 10.1.1.129.4720
- .
- ^ Харпер и Харрис, Анализ криминальной разведки, человеческий фактор и материалы ежегодного собрания Общества эргономики, 19(2), 1975, стр. 232–238.
- ^ Пайк, Джон. «ФМИ 3–07.22 Приложение F Инструменты и индикаторы анализа разведданных».
- ^ Анализ социальных сетей и другие аналитические инструменты Архив 2014–03–08 в Wayback Machine.
- ^ MSFC, Ребекка Уитакер: (10 июля 2009 г.). «Руководство для преподавателей аэронавтики — Матрицы действий».
- ^ Матрица личности/деятельности Архив 2014–03–08 в Wayback Machine.
- ^ «Архивная копия». Архивировано из оригинала 2010–10–21. Проверено 31 октября 2010 г.
- ^ «Архивная копия». Архивировано из оригинала 25 марта 2009 г. Проверено 31 октября 2010 г.
- ^ «Архивная копия». Архивировано из оригинала 2010–12–02. Проверено 31 октября 2010 г.
- ^ Палшикар, Г. К., Скрытая правда, Intelligent Enterprise, май 2002 г.
- ^ Болтон, Р. Дж. и Хэнд, Д. Дж., Статистическое обнаружение мошенничества: обзор, Statistical Science, 2002, 17(3), стр. 235–255.
- ^ Воробей М.К. 1991. Сетевые уязвимости и стратегическая разведка в правоохранительных органах», Международный журнал разведки и контрразведки, том. 5 №3.
- ^ Фридрих Вайсманн, Проверяемость (1945), стр.2.
- ^ Лайонс, Д., Открытая текстура и возможность юридической интерпретации (2000 г.).
- ^ МакГрат, К., Блайт, Дж., Крэкхардт, Д., Наблюдение групп в макетах графиков.
- ^ Пикарелли, Дж. Т., Индикация и предупреждение о транснациональных угрозах: полезность сетевого анализа, группа военного и разведывательного анализа.
- ^ Шредер и др., Автоматический анализ криминальных связей на основе знаний предметной области, Журнал Американского общества информационных наук и технологий, 58:6 (842), 2007 г.
- ^ а б в d Сюй, JJ и Чен Х., CrimeNet Explorer: основа для обнаружения знаний о преступных сетях, транзакции ACM в информационных системах, 23(2), апрель 2005 г., стр. 201–226.
внешняя ссылка
- Бартолини, я; Чачча, П. Воображение: точная аннотация изображения с использованием методов анализа ссылок. CiteSeerX 10.1.1.63.2453
- . Отсутствует или пустой
|url=
(помощь) - Анализ связей и преступность — исследование
- Элинк Шуурман М.В., Срисаенпанг С., Пинитсонторн С., Бийлевелд И., Ваэтевутачарн К., Метапат С., Экспресс-обследование в деревнях по борьбе с туберкулезом, Tuber Lung Dis. 1996 г., декабрь; 77 (6): 549–54.
- Гунхи, К., Фалуцос, К., Хеберт, М., Неконтролируемое моделирование категорий объектов с использованием методов анализа ссылок.
- МакГихи, Р., разведывательный отчет.
- Ресслер, С., Анализ социальных сетей как подход к борьбе с терроризмом: исследования прошлого, настоящего и будущего.
- RFFlow, Как нарисовать диаграмму анализа ссылок.
- IBM i2 Analyst’s Notebook Premium
- Зильбершатц, А. Что делает шаблоны интересными в системах обнаружения знаний. CiteSeerX 10.1.1.53.2780
- . Отсутствует или пустой
|url=
(помощь) - Канал анализа ссылок террористов и повстанцев (TR-LAF)
- Семинар по анализу каналов: динамика и статика больших сетей (LinkKDD2006) 20 августа 2006 г.
- Ван Метер, Карл М., Террористы/освободители: исследование социальных сетей противника и борьба с ними, Connections 24(3): 66–78.
- Подсказка
Первоначально опубликовано на en.wikipedia.org 30 октября 2017 г.