开发一个自动过滤垃圾流量工具,源码应该卖多少钱?

上个月的发生的不开心的事情自我反省后,觉得问题还是出在自身,今后要么不开发,要么就做出其他人模仿不了的东西,抄袭不了才是真·技术
以自己的工具每日足够多的垃圾流量作为样本,萌生了自动过滤擦边内容的想法。
然后通过书籍,搜索引擎找到最简单靠谱的办法是贝叶斯规则过滤。




流程如下
1. 收集擦边词库(已完成)
2. 将包含擦边词的文本分成正常和垃圾两类(分析中)
3. 合并擦边词库和常规中国词典,用于中英文分词(进行中)
4. 分别计算样本里的每个词在所有垃圾文本和正常文本中的概率 (待完成)
5. 在线过滤,支持每秒 10 次同时查询 (已完成)
6. 在线贝叶斯法计算查询生成内容里每个词的垃圾概率和正常概率(进行中)
7. 联合概率确定是否自动过滤

市面上应该找不到这种在线实时自动过滤垃圾内容的工具并且就算你懂技术也休想做到在线实时分词并贝叶斯过滤,应该可以赚到钱,这里想做个市场调查,以确定之后的定价。
追加问题
    8 人参与回答
陆海峰
陆海峰 · 官网:爱运营,微信:iyunyingorg欢迎交流运营知识。
彭涛梁永昌 等 2 人赞同该回答

Facebook出人意料的决定拿掉这个关键的项目。Atlas广告技术主管Dave Jakubowski在Atlas官方博客发文,表示将不再进行全面全平台DSP竞价产品的研发,转而将更多注意力放在更有前景的原生、视频、和移动上。

1、Facebook的DSP产品碰到了数量惊人的劣质广告和虚假的机器人流量。尽管他们做了筛选,但依然被无价值流量的规模所震惊。

2、通过对广告形式进行调查,他们发现真正具有展示价值的广告形式只有:原生和视频。

曾伟枢
曾伟枢 · PHP开发

表示不懂,

邓立博
邓立博 · I am 门老师,欢迎关注我的微信公共账号:menlaoshi001

1、星爷已久很牛
2、我喜欢那个词库
3、站长应该用不到,建议卖给IDC

王含
王含 · 喜欢分享自己知识的一个人,结交朋友

市场需要开发,让一批用户免费使用,后在付费!让这些第一批种子给你更多的建议!让他们帮你推广传播种子!

$seg是搜索引擎进来的词?
$spw是擦边词库?$spw[$i][0]是擦边词,$spw[$i][1]是正常类的概率,$spw[$i][2]是垃圾类的概率?
$spp[$i]是搜索词通过的概率,$spo[$i]是屏蔽的概率?
搜索两个词以上的就是is_array?

“1. 收集擦边词库(已完成)”。黑名单制,你确定黑名单是全的?
第2、3、4,你怎么区分是垃圾文本还是正常文本?

就你放出来的代码看,只是进行了单个字的分析,也许你后期会把擦边词库里的词进行组合再分析。然而,中文博大精深,同样的词就有不同的理解,你怎么不识别语意进行区分?

举例
做爱做的
做爱做爱

我喜欢上她了
我喜欢上她了

陈玉良 · SEO/SEM/产品/运营/企业网站建设

测试过几个项目再说出售吧。

清文
清文 · S 不 EO

不知道这个的市场需求量是多大

真正的实时过滤,那就必须得人工智能了,然而,百年内无望~,这是大势所趋,技术积累不够,达不到出现真正人工智能的科技基础累积的质变