聚彩彩票注册

当前位置:大数据之窗大数据专栏 》 第一方数据好还是第三方数据好?

第一方数据好还是第三方数据好?

来源:高科数聚 发布时间:2017-11-02

做数据或者在广告行业的同学应该都听过这些名词: 第一方数据、第三方数据。

 

什么是第一方数据?什么又是第三方数据?

第一方数据也就是自有数据。大多数公司的自有数据就是数据库里面的用户产生的业务数据或者是通过日志收集一些用户的行为数据。

第三方数据则是由专业的数据采集公司从别的平台或网站集合而来的数据。

 

“通常来说”,第一方数据好过第三方数据。

主要是因为:

1. 第一方的数据是自己采集,很多不可控因素可以控制。比如一个pixel出错了,我可以马上定位追溯,而第三方有很多外部因素需要排查再定位,实施起来比较难,而且多数情况根本无法追溯。

 

2. 第一方数据的历史信息会及时得到更新。 比如一个用户刚搬家更新邮寄地址,这时这条信息会马上更新在第一方数据库中。而第三方数据就有滞后性,或者从不更新。

 

3。 第一方数据可以通过反馈,及时调整数据采集的方式、记录的颗粒度等,使数据更细更全更准确,便于做各种分析。比如:一级标签,二级标签的分类和从属关系调整等;颗粒到省,还是细化到区县等。

 

4.  第一方数据有较高的可靠性,完整性。由于隐私的关系,很多第三方的数据已经删除一些敏感信息,或者由于第一方数据文件过大,删除了认为“不重要”的信息。

 

5. 第一方数据实时采集和使用。通常第一方数据能够及时的使用,而第三方数据经过各种ETL,脱敏等通常需要几小时,一天,或者更长时间才能供使用。

 

6。 第一方数据与外部mapping资源耗费较小。 和外部数据对接时,第一方数据调整的自由度较大。比如:外部数据是MD5加密数据,第一方就可以相应做出调整。但如果两者都是第三方数据的话,就要考虑什么样的匹配关系,加密的方法匹配等。

 

7. 第三方数据格式较杂乱,需要花费更多时间来清洗。比如第三方数据格式有些是jsonxml,txt file等,有时候每个columntype也不同,比如dictionary 或者 list

 

当然,有时候第一方数据也不一定那么可靠。

 

比如关于年龄的第一方数据,有些用户图方便,就随便选了个默认日期。这时第一方数据库就会出现很多都是190011日的用户。但是第三方数据,如果用了一些算法从各种行为推测年龄的话,往往会比第一方精确的多。

 

所以,在回答第一方数据好,还是第三方数据好这个问题的时候,还是要根据不同的情况分别讨论。