Можно начать гнать фальшивые данные. Сделать модель, которая будет генерировать правдоподобные транзакционные данные (логи, чеки, транзакции - you name it). И продавать :)
да ладно, это ж обычная тестовая задача, хотя и непростая - нагенерить правдоподобный трафик на считалку. Мало нагнать - надо чтоб это кто-то брал же ж.
Эта задача крайне нетривиальна и в приличной реализации для приличных по сложности и важности задач вообще практически невозможна.
Кросс-чекинг.
Впрочем, пока нормального понимания еще нет, вы полностью правы. Более того, такой рынок уже существует, в частности в финансовой сфере. Но ситуация оч быстро улучшается.
Как пример - хотим мы допустим массово генерировать джипиэс треки авто. Это невозможно - даже без сети камер мы не сможем устранить коллизии с реальными трэками от других авто. А банхаммер сильно дешевле генератора при отсутствии дефицита источников данных. А вот на море "генераторы трэков" вплоть до совсем физических (вырезание отсека с гпс-трекером и помещение его на катер и последующая приварка обратно) активно применябтся кому надо :)
Вот мне кажется, что если сгенерировать GPS треки, которые будут сходиться с публичной информацией о пробках, то невооруженным взглядом уже и не отличишь.
Для кросс-чекинга нужен нормальны рынок достоверных данных. В отсутствие достоверных данных сверка двух датасетов равной и неизвестной достоверности успеха не дает. А сверка большого комплекта разнородных данных это еще менее тривиальная задача.
не обязательно. надо просто много разнородных данных из независимых источников. разнородность сводится к нахождению причинно-следственных связей и корелляций между источниками и данными, задача нетривиальная но не такая сложная и выполнимая, это очень давно применяется, и без bigdata, вручную. а с бигдатой это дает на порядки серьезнее возможности. а достоверность купируется независимостью, синхронизировать независимые источники сложнее чем проверить, как правило это вообще невозможно технически. и чем больше объем данных тем сложнее подделать.
так и не надо невооруженным. получается несколько массивов треков, какие то реальные, какие то генерированные. ну или смешаный массив достоверных и генеренных треков. достоверные не будут иметь коллизий между собой и нестыковок в движении, там же куча точек синхронизированных по времени и месту, а машины идут довольно плотным потоком и по известным закономерностям (как пример - ирл автомобиль не двигается с произвольной скоростью от 10 до 100км в час стохастично, не ведут себя так реальные водители. эт очень грубо, но там таких эвристик по идее сотни). ну и автомобили не могут налезать или проходить через друг друга. и т.п. и чтобы хотя бы теоретически обеспечить связность массива нужно иметь доступ ко всем источникам данных (ну т.е. треков в примере). а как только мы добавляем независимый источник данных - те же камеры в ключевых местах, то все подделки под трэки автоматом идут лесом и быстро.
это кстати не умозрительная задача, скоро все авто будут оборудованы черными ящиками (даже те которые без автопилота), от этого будет считатся и налоги и допуски по правилам вождения (думаю придут к тому чтобы устанавливать индивидуальные ограничения скорости и т.п.). я прикидывал как можно такую систему обойти - получается что никак. кросс-чекинг...
no subject
Date: 2015-10-05 10:06 pm (UTC)Мало нагнать - надо чтоб это кто-то брал же ж.
no subject
Date: 2015-10-05 10:13 pm (UTC)no subject
Date: 2015-10-06 12:24 am (UTC)Эта задача крайне нетривиальна и в приличной реализации для приличных по сложности и важности задач вообще практически невозможна.
Кросс-чекинг.
Впрочем, пока нормального понимания еще нет, вы полностью правы. Более того, такой рынок уже существует, в частности в финансовой сфере. Но ситуация оч быстро улучшается.
no subject
Date: 2015-10-06 12:33 am (UTC)Как пример - хотим мы допустим массово генерировать джипиэс треки авто. Это невозможно - даже без сети камер мы не сможем устранить коллизии с реальными трэками от других авто. А банхаммер сильно дешевле генератора при отсутствии дефицита источников данных.
А вот на море "генераторы трэков" вплоть до совсем физических (вырезание отсека с гпс-трекером и помещение его на катер и последующая приварка обратно) активно применябтся кому надо :)
no subject
Date: 2015-10-06 12:16 pm (UTC)Или не об этом речь?
no subject
Date: 2015-10-06 12:36 pm (UTC)no subject
Date: 2015-10-06 12:38 pm (UTC)no subject
Date: 2015-10-06 12:39 pm (UTC)no subject
Date: 2015-10-06 01:18 pm (UTC)разнородность сводится к нахождению причинно-следственных связей и корелляций между источниками и данными, задача нетривиальная но не такая сложная и выполнимая, это очень давно применяется, и без bigdata, вручную. а с бигдатой это дает на порядки серьезнее возможности.
а достоверность купируется независимостью, синхронизировать независимые источники сложнее чем проверить, как правило это вообще невозможно технически. и чем больше объем данных тем сложнее подделать.
no subject
Date: 2015-10-06 01:33 pm (UTC)и чтобы хотя бы теоретически обеспечить связность массива нужно иметь доступ ко всем источникам данных (ну т.е. треков в примере).
а как только мы добавляем независимый источник данных - те же камеры в ключевых местах, то все подделки под трэки автоматом идут лесом и быстро.
это кстати не умозрительная задача, скоро все авто будут оборудованы черными ящиками (даже те которые без автопилота), от этого будет считатся и налоги и допуски по правилам вождения (думаю придут к тому чтобы устанавливать индивидуальные ограничения скорости и т.п.). я прикидывал как можно такую систему обойти - получается что никак. кросс-чекинг...