A、初级的检测:MD5检测机制
所有的文件都有自己的MD5,互相不重复,一个视频初次上传到抖音(其他平台也一样的),系统会自动读取这个视频的MD5值,录入自己的数据库。
一个视频(如果不能确定是不是第一次)上传到抖音时,系统会读取这个视频的MD5值和数据库中已有的条目比对。如果发现了一致的MD5,判定后面这个视频是抄袭,没有一致的结果,接着进行下面的判定。
B、进阶检测:关键帧抽取比对
所有的视频都是一张一张的图片快速播放形成的,每一张图都称一帧。一个视频初次上传到某个平台系统会自动读取这个视频的某些时间帧(即第几秒的画面)。
然后将该画面经过算法处理,拿到一个该画面的MD5值(或者类似的值)将此值与当前时间对应的关系存入数据库。
(例如:该视频第3秒是一只狗,第6秒是这只狗和他的主人)一个视频(如果不能确定是不是第一次)上传到平台时,系统会读取这个视频的时间帧,和数据库内已有数据进行对比如果发现了一致的时间帧,判定后面这个视频是抄袭;
没有一致的结果,接着进行下面的判定。
C、骨灰级检测:人工智能算法
在上面的检测方法的基础上,进一步分析某些时间帧的特征,比如把AB两个视频的第9秒这一帧取出来对比,两个图按照一样的方式平均分割成9块,其中8块都是相同或者相似的内容,只有一块不同,这块很可能是个水印;
接着比对多个时间帧,如果都是如此,判定这两个视频为相似,平台算法设定相似度超过 xx即为抄袭。
这里只是举了一个人工智能算法里*低级的算法,更复杂的一两句说不清,也没必要知道。
D、其他检测方法:人肉举报
抖音里就有这个功能,可以举报当前视频是抄袭,平台算法设定超过XX人举报时,会把这个视频提交到人工审核组进一步判定。
如何来做伪原创内容呢?
A、手段:软件改MD5即可。
除此以外,一个视频加加水印去水印加滤镜打马赛克镜像反转加字幕添加帧删除帧等都会改变原来的MD5,修改视频文件名不会影响MD5。
B手段:改变时间帧。
比如源视频15秒长度,前加1秒内容,或者减一秒内容,视频尾部再适当加减1秒,重新合成15秒的视频。
如果是长视频平台,比如西瓜视频,常用的方法有:多个视频拼接,加自己的片头和片尾还有转场等等。
根据我们的测试经验,快手,抖音,美拍等短视频产品使用的是A方法,或许会升级到AB,西瓜视频搜狐视频等长视频平台使用的是AB的方法。
也许你要问,这个技术很难很难,开发一套非常贵,一般的公司用不起,受奇艺优酷等平台在用,也只是比较低端的技术,**的人工智能算法,用在我大天朝的互联网监测系统里,主要作用是扫黄。
手段其实不那么可怕,一是多平台之间互相搬运,被举报的概率很低;二是不要搬运太出名的视频,你搬一个陈翔六点半,或者papi酱,非要说自己拍的,你看大家怼不怼你。
看到这里,你可能也明白了,单纯的频改md5有一些用,但还是很容易被平台判断是搬运的风险,所以说还要多做几重工作,当然这又是另一个问题啦!