ahajtin: (Default)
[personal profile] ahajtin
Можно начать гнать фальшивые данные. Сделать модель, которая будет генерировать правдоподобные транзакционные данные (логи, чеки, транзакции - you name it). И продавать :)

Date: 2015-10-05 10:06 pm (UTC)
From: [identity profile] mds.livejournal.com
да ладно, это ж обычная тестовая задача, хотя и непростая - нагенерить правдоподобный трафик на считалку.
Мало нагнать - надо чтоб это кто-то брал же ж.

Date: 2015-10-05 10:13 pm (UTC)
From: [identity profile] http://users.livejournal.com/alh__/
Спрос на данные есть. Если есть спрос, а нормального рынка нет - будут мошенничества.

Date: 2015-10-06 12:24 am (UTC)
From: [identity profile] redreptiloid.livejournal.com

Эта задача крайне нетривиальна и в приличной реализации для приличных по сложности и важности задач вообще практически невозможна.


Кросс-чекинг.


Впрочем, пока нормального понимания еще нет, вы полностью правы. Более того, такой рынок уже существует, в частности в финансовой сфере. Но ситуация оч быстро улучшается.

Date: 2015-10-06 12:39 pm (UTC)
From: [identity profile] http://users.livejournal.com/alh__/
Для кросс-чекинга нужен нормальны рынок достоверных данных. В отсутствие достоверных данных сверка двух датасетов равной и неизвестной достоверности успеха не дает. А сверка большого комплекта разнородных данных это еще менее тривиальная задача.

Date: 2015-10-06 01:18 pm (UTC)
From: [identity profile] redreptiloid.livejournal.com
не обязательно. надо просто много разнородных данных из независимых источников.
разнородность сводится к нахождению причинно-следственных связей и корелляций между источниками и данными, задача нетривиальная но не такая сложная и выполнимая, это очень давно применяется, и без bigdata, вручную. а с бигдатой это дает на порядки серьезнее возможности.
а достоверность купируется независимостью, синхронизировать независимые источники сложнее чем проверить, как правило это вообще невозможно технически. и чем больше объем данных тем сложнее подделать.

Date: 2015-10-06 12:33 am (UTC)
From: [identity profile] redreptiloid.livejournal.com

Как пример - хотим мы допустим массово генерировать джипиэс треки авто. Это невозможно - даже без сети камер мы не сможем устранить коллизии с реальными трэками от других авто. А банхаммер сильно дешевле генератора при отсутствии дефицита источников данных.
А вот на море "генераторы трэков" вплоть до совсем физических (вырезание отсека с гпс-трекером и помещение его на катер и последующая приварка обратно) активно применябтся кому надо :)

Date: 2015-10-06 12:38 pm (UTC)
From: [identity profile] http://users.livejournal.com/alh__/
Вот мне кажется, что если сгенерировать GPS треки, которые будут сходиться с публичной информацией о пробках, то невооруженным взглядом уже и не отличишь.

Date: 2015-10-06 01:33 pm (UTC)
From: [identity profile] redreptiloid.livejournal.com
так и не надо невооруженным. получается несколько массивов треков, какие то реальные, какие то генерированные. ну или смешаный массив достоверных и генеренных треков. достоверные не будут иметь коллизий между собой и нестыковок в движении, там же куча точек синхронизированных по времени и месту, а машины идут довольно плотным потоком и по известным закономерностям (как пример - ирл автомобиль не двигается с произвольной скоростью от 10 до 100км в час стохастично, не ведут себя так реальные водители. эт очень грубо, но там таких эвристик по идее сотни). ну и автомобили не могут налезать или проходить через друг друга. и т.п.
и чтобы хотя бы теоретически обеспечить связность массива нужно иметь доступ ко всем источникам данных (ну т.е. треков в примере).
а как только мы добавляем независимый источник данных - те же камеры в ключевых местах, то все подделки под трэки автоматом идут лесом и быстро.

это кстати не умозрительная задача, скоро все авто будут оборудованы черными ящиками (даже те которые без автопилота), от этого будет считатся и налоги и допуски по правилам вождения (думаю придут к тому чтобы устанавливать индивидуальные ограничения скорости и т.п.). я прикидывал как можно такую систему обойти - получается что никак. кросс-чекинг...

Date: 2015-10-06 12:16 pm (UTC)
From: [identity profile] gleb-kudr.livejournal.com
Так куча же такого есть. Берут мусорный траффик, облагораживают его через помойки и продают рекламодателям.
Или не об этом речь?

Date: 2015-10-06 12:36 pm (UTC)
From: [identity profile] http://users.livejournal.com/alh__/
Нет, не об этом. Траффик это уже продукт, а я говорю о продаже сырья.

Profile

ahajtin: (Default)
ahajtin

July 2020

S M T W T F S
   1234
567891011
12131415161718
19202122232425
2627282930 31 

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Mar. 14th, 2026 12:18 pm
Powered by Dreamwidth Studios