光影·喇叭河生态影像

巴蜀网

 找回密码
 免费注册

QQ登录

只需一步,快速开始

开启左侧
 楼主: 区区之众|查看: 17468|回复: 34
[纪实·新闻] 

马蜂窝被曝点评造假 是行业原罪还是企业弊端?

 [复制链接]
 真爱你 发表于: 2018-10-22 19:28:00|显示全部楼层

马蜂窝被“捅”,用户评论到底属于谁? | 新京报快评

源自:新京报
原文标题:马蜂窝被“捅”,用户评论到底属于谁? | 新京报快评

  非法抓取他人内容,这对于以UGC内容为核心竞争力的新经济形态是非常严重的不正当竞争行为。

▲ 马蜂窝用户评论被指超八成造假。新京报“我们视频”出品
⊙作者:朱巍

  最近,以用户UGC(原创内容)为核心竞争力的在线旅游平台马蜂窝涉嫌爬虫抄袭事件刷屏。今天(10月22日)马蜂窝发布声明,回应称,点评内容在马蜂窝整体数据量中仅占比2.91%,涉嫌虚假点评的账号数量更是微乎其微,目前已经进行清理。
  但目前相关质疑并未消解,在我看来,与其陷于行业道德的口水战中,不如从法律的角度来分析,定分止争。毕竟,不论事情到底如何,司法诉讼免不了成为各方的终结之选。
  抓取其他平台用户评论是否构成侵权?
  实践中,绝大部分的UGC平台在网民协议中,都有关于版权的声明,一般由两部分构成:一是明确本平台产生的内容,其他主体不得非法获取;二是用户在平台发布的自创内容,版权归本平台所有。
  按照著作权法的规定,版权声明中的第二部分内容是无效的,因为用户自己完成的作品,版权当然归属用户,网民协议是格式合同,平台不能掠人之美。法律是这样规定的,司法实践也是这样判决的,至今为止,尚未有生效判决支持过平台的这个条款。
  如果在平台产生的内容版权归属于用户,那么平台在他人非法抓取内容时,是否有权利维权呢?答案当然是有,只不过不能局限在著作权法,而是存在竞争法之中。
  非法抓取他人内容,这对于以UGC内容为核心竞争力的新经济形态是非常严重的不正当竞争行为。后果可能会有三个:其一,侵权者不劳而获地通过爬虫剽窃内容,损害了被侵权人的合法权益。其二,爬虫抓取,造成公众认知的混同,侵害了被抓取者的市场信赖度。其三,抓取行为降低了被侵权人的市场份额,稀释了用户黏连度。所以,此类情况,一般按照竞争法第二条,即违反诚实信用原则来判定。
  不过,并非所有内容都不能抓取。首先,用户自己在多平台发布的信息,这属于用户自由,首发平台没有权利进行限制。其次,对于一些生活类、广告类的信息发布,用户自身就希望信息的扩散,这类信息的抓取应推定符合用户意愿。最后,按照国际通用的robots协议,平台是可以决定哪些可以抓取,哪些不能抓取,符合规则的行为不仅不侵权,而且还有利于信息的传播。
  爆料文章是否构成侵权?
  爆料文章爆出的料是猛料,触动了马蜂窝的核心竞争力,如果爆料不属实,马蜂窝当然应该反击,提起名誉权诉讼。有人要问,为何是名誉权诉讼,而不是之前提到的不正当竞争诉讼呢?答案很简单,爆料者是自媒体,至少表面上不是马蜂窝这类在线旅游平台的竞争对手。所以,马蜂窝要想维权,就只能提起名誉权损害赔偿。
  法人也是有名誉权的,只不过,法人不能请求精神损害赔偿而已,但法人可以主张因侵权造成的损失,只要能够举证证明侵权行为和损害结果之间的因果关系,对待此类案件,法院还是敢于大比分判决的。如果原告无法证明损害,也不能证明被告获利,那么按照侵权法司法解释,法院可以适用50万元以下的法定赔偿,当然,还不包括律师费、公证费等其他维权费用。
  爆料是公关大战序曲吗?
  就目前看,该事件是否系竞争对手下“黑手”,仍需观察。若按照一般套路,竞争对手会做好充分准备后,先提起诉讼,之后再发动舆论战。此事件中,尚未发现有诉讼提起(当然,事后也不耽误再提起诉讼),但从策略上讲,这样一来或将打草惊蛇,被告很可能会做好准备,包括删除相关信息,事后取得用户授权等行为,效果比突然袭击差了很多。
m3IN-hmuuiyv9613648.jpg
马蜂窝旅游网发布的声明。图片来源:马蜂窝旅游公众号
  不管是不是公关大战,这个事件都给以UGC为主的平台提了醒,要做到合法合规至少要保证以下几点。第一,非广告类的用户信息,平台不能随便抓取。第二,对于一些质量很好的非本平台信息,若想获取一定要征求发布者的同意,至于原发平台所谓的网民协议约束,在法律上是无效的。第三,爬虫抓取的信息,不要欲盖弥彰地修改内容,去掉水印或者创造出假网民发布,这种行为会导致性质变化,真的上升到诉讼可能无法以技术中立性抗辩。
  但此番若马蜂窝真的发现这是黑稿,一方面可以向公号提起高额名誉权诉讼,另一方面,若背后确实系竞争对手指使,也可按照商业诋毁来提起诉讼。退一万步讲,若爆料的数据均为虚假的话,那就不是民事法律问题这么简单了。
⊙朱巍(中国政法大学传播法研究中心)

⊙编辑:杨梓铭
 海风有咸味 发表于: 2018-10-22 10:43:00|显示全部楼层
▲温馨提示:图片的宽度最好1800 像素,目前最佳显示是 900 像素,请勿小于 900 像素▲

马蜂窝:已查证有组织攻击 采取法律手段维护自身权益

  马蜂窝今日在官方微博发表声明,点评内容在马蜂窝整体数据量中仅占比2.91%,涉嫌虚假点评的帐号数量在整体用户中的占比更是微乎其微,马蜂窝已对这部分帐号进行清理。自媒体文章所述的马蜂窝用户数量,与事实和第三方机构数据都严重不符。
  马蜂窝还表示,针对该文中歪曲事实的言论,和已被查证的有组织攻击行为,马蜂窝将采取法律手段维护自身权益。

以下为声明全文:
声明

  近日,某自媒体帐号发布文章称,马蜂窝旅游网部分点评及评论信息存在虚假内容,并以此质疑马蜂窝旅游网的数据及用户真实性。2018年10月21日,马蜂窝旅游网对全站游记、攻略、嗡嗡(旅行故事)、问答、点评等数据进行了核查,并对涉嫌虚假的信息展开查处。
  马蜂窝是旅游平台而非本地生活服务网站,用户分享的主要载体为游记、攻略与问答。马蜂窝的UGC内容数据中,游记和攻略占比78.91%,嗡嗡(旅行故事)占比7.92%,问答占比10.26%。这些数据背后,是用户真实的情感与回忆,也是马蜂窝内容的真正价值。
  点评内容在马蜂窝整体数据量中仅占比2.91%,涉嫌虚假点评的帐号数量在整体用户中的占比更是微乎其微,马蜂窝已对这部分帐号进行清理。自媒体文章所述的马蜂窝用户数量,与事实和第三方机构数据都严重不符。
  2016年以前,马蜂窝曾激励用户发表点评,点评数据出现快速增长。但随着马蜂窝全方位移动互联网化及用户量级的增长,以游记、攻略为代表的长内容,以嗡嗡(旅行故事)、问答为代表的短内容产品,成为运营重心,它们共同构成马蜂窝的核心竞争力。
  马蜂窝用户记录旅游体验的行为,也与记录本地生活服务不同,人们更习惯在旅行完成之后进行回顾与分享。餐饮点评不是马蜂窝的内容核心,且部分点评来自于游记、问答等内容的提取,上述自媒体将马蜂窝用户内容生产的活跃周期,与餐饮等本地生活服务类App相对比,并解读为马蜂窝员工有组织地抄袭,存在明显的误导倾向。
  一直以来,马蜂窝严厉打击游记和问答中违规广告的行为,平均每周处理26000条违规广告信息,查封15000个违规帐号。自媒体将不法商家的违规行为归结于马蜂窝,与事实严重不符。
  过去十年,千万旅行者共同成就了马蜂窝──—他们在这里记录旅行经历、分享旅行感悟,将马蜂窝视作精神家园,我们为此深感荣幸。这些珍贵的原创内容,是马蜂窝的立身之本与兴业之基,更是我们与用户的情感联结之所在。
  马蜂窝将正视运营过程中存在的审查漏洞并采取积极改进措施,但不容许任何个人或机构将每位热情且真诚的马蜂窝用户称为“僵尸”和“水军”,将千万用户共同构建的社区描述为一座“鬼城”,并企图摧毁它。针对该文中歪曲事实的言论,和已被查证的有组织攻击行为,马蜂窝将采取法律手段维护自身权益。
  我们始终敬畏每一段旅行记忆所带来的感动,也将继续致力于打造更好的旅游分享环境。
  马蜂窝旅游网
  2018年10月22日

_lU--hmuuiyv5800111.jpg
部分图片、文章来源于网络,版权归原作者所有;如有侵权,请联系(见页底)删除
 楼主|区区之众 发表于: 2018-10-22 10:43:00|显示全部楼层

马蜂窝开始毁灭证据了,但这水平真的哈哈哈哈哈哈

源自:新浪财经-自媒体综合
  马蜂窝开始毁灭证据了,但这水平真的哈哈哈哈哈哈哈哈
  原创:梓泉&乎睿数据 小声比比
  大家好,昨天的文章发出来之后
  马蜂窝立刻有了回应
  在文章发出来之后两小时
  也就是凌晨1点32分
  马蜂窝投诉小声比比
  “严重不实,侵害他们信誉”
a2pZ-hmuuiyv5717604.jpg
  但是具体哪里不实,也没说
  两个硕大的感叹号,传达着无力
87Lk-hmuuiyv5717632.jpg
  马蜂窝的第二个回应
  在文章发出来8个小时以后
  我起床之后惊奇的发现
  昨天我们文章中提及的账号
  全都搜不到了!
dwTO-hmuuiyv5717691.jpg
  Google一搜,账号都在
  只是从搜索栏屏蔽了
Szn1-hmuuiyv5717731.jpg
  但他们的点评
  全都不见了!
pZeU-hmuuiyv5717795.jpg
  再仔细一看
  原来只在个人页删了
  餐厅页上的点评还能看
  也能在web archive上查到
fJGo-hmuuiyv5717832.jpg
  不是我说
  马蜂窝的朋友们
  这样粗糙的洗地,还不如不洗
vugk-hmuuiyv5717863.jpg
  瓜吃完了,接着放实锤吧
  昨天说到
  马蜂窝的内容分为三块
  点评、游记、问答
  我先放一张昨天没放的图
  大家感受一下两条线的趋势
tb9e-hmuuiyv5717882.jpg
  把点评板块的棺材板钉住了
  再来说游记
  很多人在评论区跟我说
  游记才是马蜂窝的灵魂
  那么,这个灵魂仍然纯洁吗?
FS5p-hmuuiyv5717904.jpg
  根据乎睿数据检测的结果
  马蜂窝的游记
  已经被水军严重污染了
vbB6-hmuuiyv5717935.jpg
  先说评论区
  为什么先说这个
  因为评论区就是之前提到
  那7454个抄袭账号的第二战场
nzhG-hmuuiyv5717952.jpg
  只要用户发布了游记
  他们就会自动涌入页面
  发表机器人经典言论
RJHO-hmuuiyv5717983.jpg
  我们提炼了160万篇游记
  然后从评论区找到了
  最频繁的机器语录
Pbmj-hmuuiyv5718009.jpg
  可以说是《水军圣经》了
  以至于有用户都问了
  尼玛马蜂窝还有没有真人了?
KFsu-hmuuiyv5718058.jpg
  然后说游记本身
  为了防止商家营销
  马蜂窝规定
  游记中不能添加联系方式
OkfI-hmuuiyv5718082.jpg
  然后我们抓取了493,487位用户
  1,579,178 篇游记
  发现其中有7%的游记
  成功保留了联系方式
  我们称之为营销游记
  而这7%有营销嫌疑的游记
  平均被顶次数
  是普通游记的364%
5zt1-hmuuiyv5718110.jpg
  我们对营销游记进行了分析
  发现了其中很多都是洗稿/篡改型软文
  其卑鄙无耻令人发指
HoON-hmuuiyv5718144.jpg
  以最为猖獗的三亚地区为例
  一篇携程游记
  原名为”走你从未走过的风景“
  去的是一家餐厅X
ePWP-hmuuiyv5718174.jpg
  到马蜂窝之后,被洗成
  ”迷人小萝莉,带上比基尼去三亚,低胸下垂,老公直吐“
  吃饭的餐厅,则被篡改成了小胡子海鲜
Yd0y-hmuuiyv5718198.jpg
  还有一篇,携程的”我们牵手旅行,环游海南岛”
  到了马蜂窝,变成“小胸女与老大叔的蜜月之旅”
M_Hy-hmuuiyv5717572.jpg
  而且还在开篇无端喷了一顿东北人
  当然最后还是推销一下小胡子海鲜
79zQ-hmuuiyv5717602.jpg
  实际上,马蜂窝三亚区
  已经成为了小胡子海鲜们的乐园
  以小胡子海鲜为首的“水军”餐厅
  永远排在三亚排行榜的最前列
7ZFu-hmuuiyv5717654.jpg
  小胡子海鲜真是一个营销高手
  在大众点评我也找到了小胡子海鲜
  它甚至有“美食地标”加持
8yR3-hmuuiyv5717689.jpg
  初以为这是大众点评封的
  但仔细一看就能发现
  是它 自 己 P 的
Qxim-hmuuiyv5717727.jpg
  但它得分不高,恶评如潮
OMN_-hmuuiyv5717791.jpg
  然而,你要是在三亚打开马蜂窝
  就被小胡子安排的明明白白了
  因为各种排名都被小胡子们占据
z48L-hmuuiyv5717824.jpg
  现在看看马蜂窝CEO在2015年的采访
  是不是觉得很讽刺呢?
hfbN-hmuuiyv5717859.jpg
  再说说马蜂窝的最后一个内容版块:问答
  乎睿数据抓取了175万个问答
  发现抄袭账号同样活跃其中
  在冷启动以及融资时期尤其活跃
zmMI-hmuuiyv5717879.jpg
  不过这些抄袭用户
  在2014年以后不再活跃于问答板块
  是否从抄袭转向雇佣写手撰写
  我们无从得知
Yk7m-hmuuiyv5717893.jpg
  同时,水军在问答板块的活动
  同样猖獗
  我们从49,444,528万条回答中
  找到了被顶次数最多(23万)次的回答
tR-4-hmuuiyv5717908.jpg
  更可怕的是
  马蜂窝被顶次数最多的回答
  几乎全是三亚水军的杰作
iDgN-hmuuiyv5717925.jpg
  相比之下
  800万粉丝的马蜂窝问答君
emz3-hmuuiyv5717941.jpg
  弱小、可怜又无助
Iiyx-hmuuiyv5717961.jpg
  最后还有一个侧证
  以下是马蜂窝头部用户的热力图
  刨除了昨天说的7454个抄袭用户
  剩余头部用户的答题、点评
  具有惊人的一致性
P5wC-hmuuiyv5717981.jpg
  以上就是我们此次报告的主要内容
  我们期待马蜂窝做出合理的解释
2fqR-hmuuiyv5718018.jpg
  最后:
  只要有互联网的地方就有水军
  水军时而是和企业利益一致的帮凶
  时而是蚕食企业核心竞争力的蛀虫
Fupo-hmuuiyv5718044.jpg
  但任何时候,水军都在伤害广大消费者
  诚如投资人沈一冰所说:“从互联网企业的角度来看,数据造假和财务造假的风险完全不是一个等级上的,但收益却比财务造假大得多。”
  因此,针对互联网公司数据真实性的尽职调查,将会变得越来越重要,如今的各种“灯下黑”黑产营销,终有一天会成为历史。
  未来,小声比比和乎睿数据团队
  还会继续扒下更多皇帝的新衣
 噼里啪啦 发表于: 2018-10-22 10:26:00|显示全部楼层

马蜂窝的投资人们连数据尽职调查都不做?

源自:新浪科技-自媒体综合
源自:Career In 投行PEVC

  10月21日,一篇名为《估值175亿的旅游独角兽,是一座僵尸和水军构成的鬼城?》在社交网络广为流传,该篇文章作者乎睿数据团队直指在线旅游网站马蜂窝存在点评大量造假的情况,包括从其他网站如大众点评、携程等抓取相关点评,及自建团队撰写虚拟点评。
  根据马蜂窝官网提供的数据,目前,马蜂窝全站拥有超过2100万条点评,是马蜂窝对外展示的核心竞争力之一。如果乎睿数据团队的指控被坐实,马蜂窝一直以来强调的用户PGC神话将被打破,或将严重影响这只旅游独角兽的估值。

BiLy-hmuuiyv5652234.jpg
马蜂窝官网提供的数据
  马蜂窝成立于2006年,创办初期,马蜂窝是一家让旅行者分享游记感受的旅游攻略社区;2012年开始,马蜂窝对积累下的旅游数据进行结构化处理;2015年初,马蜂窝发布自由行战略,开始尝试“内容+交易”的商业闭环。
  回顾马蜂窝的发展历程,无论是最初的旅游攻略社区定位,还是如今正在打造的商业闭环,内容都是马蜂窝区别于其他在线旅游网站最大的竞争优势之一。而马蜂窝背后集聚了市场上最牛逼的一线PE和VC基金们。
  2006年01月:蚂蜂窝网站上线;
  2010年03月:正式成立公司投入运营,注册用户数15万;
  2011年04月:上线首款APP客户端旅行翻译官;
  2011年10月:获得今日资本500万美元A轮融资和200万美元无息贷款
  2012年06月:开始商业化,半年收入超千万,主要来自广告及佣金分成;
  2012年10月:注册用户数超过400万,PC端用户数在3年内增长40倍;攻略累计下载量6000万次;
  2013年04月:获得启明创投领投的1500万美元B轮融资
  2014年06月:注册会员数突破5000万;
  2015年02月:获得高瓴资本、Coatue、CoBuilder、启明创投的C轮融资,累计融资逾亿美金。
  2015年09月:蚂蜂窝用户数1亿,其中80%的用户来自移动端(蚂蜂窝自由行APP);月活跃用户数达8000万。
  2017年12月:获得鸥翎投资、美国泛大西洋资本集团、淡马锡、元钛长青基金、厚朴基金共同投资1.33亿美元。
2018年8月17日:外媒报道称,两位知情人士透露,蚂蜂窝希望在新一轮融资中筹集至多3亿美元,此轮融资对该公司的估值定为20亿至25亿美元。


3SDk-hmuuiyv5652361.jpg

  马蜂窝丑闻事件不禁让CareerIn君想起了前不久的红芯浏览器事件。
  原来红芯浏览器就是靠这份PPT融到了2.5亿!
  为什么IDG、晨兴、达晨等知名VC会投资深陷造假丑闻的红芯浏览器?
  在今年上半年的博鳌亚洲论坛期间,马蜂窝联合创始人、COO吕刚在接受媒体专访时便曾表态,在从内容切入交易的过程中,马蜂窝的最大优势在于之前几年对社区的运营积累了大量数据,数据的积累非常重要,因为“内容是决策的依据”。对数据结构化的处理帮助马蜂窝推出交易平台奠定了基础,让马蜂窝拥有了更大的商业想象空间。
  以旅游攻略起家的马蜂窝站内用户PGC内容可以分为如下几大类:旅游攻略(多为长图文形式)、用户对旅游目的地(包括景点、酒店、饭店、商场等旅行常见POI)的点评及问答、交易类点评(对马蜂窝商城内具体商品的评价)等。
  此次乎睿数据团队指控的对象主要指马蜂窝用户对旅游目的地点评的真实性。
  在马蜂窝现行的商业逻辑下,经过前几年对站内数据的结构化处理,目前,马蜂窝能够将旅行相关产品与内容进行较为细颗粒度的关联,而内容在用户做交易决策的过程中拥有很大影响力。
  正因如此,高质量的内容生产者及内容是马蜂窝的核心资产之一,马蜂窝也在官网上列出了其拥有超过一亿的旅行者及超2100万的真实点评等数据。
  但根据乎睿数据团队提供的信息,马蜂窝2100万条真实点评中,有1800万条是通过机器人从点评、携程等竞争对手那里抄袭过来的;其在马蜂窝上发现了7454个抄袭账号,平均每个账号从携程、艺龙、美团、Agoda、Yelp上抄袭搬运了数千条点评,合计抄袭572万条餐饮点评,1221万条酒店点评,占到马蜂窝官网声称总点评数的85%。
  另外,乎睿数据团队表示,其在马蜂窝的所有账号中,刨除了7554个账号后,选择了1万5千个最活跃账号,发现这些账号的活跃时间一致,与点评及携程等网站相比,存在严重的不合理。乎睿数据团队总结称,马蜂窝的主流用户是一群每天朝九晚五、在午晚饭以及周末干正事、能够同时出现在地球的不同地点,且可随意切换身份的人。暗指马蜂窝账号造假。
  近两年,马蜂窝由单纯的旅游攻略社区,转变为一家集数据处理及交易服务于一体的在线旅游公司,成功从内容环节切入交易。这一商业模式的建立,让马蜂窝获得了资本青睐,去年年底,马蜂窝完成了1.33亿美元的D轮融资。随后在春节假期及今年世界杯期间,马蜂窝投放了大量广告。吕刚曾对媒体表示,马蜂窝今年的主要任务是做大规模,年内暂不考虑上市问题。
  然而此次乎睿数据团队的公开指控直击马蜂窝要害,对此有旅游行业资深人士认为,点评数据造假的真实状况,关系着马蜂窝这家公司到底是靠传统商业模式──卖广告活得好,还是因为交易做得好,抑或是因为点评数量引来的融资花不完活得好,这才是重点。
  目前乎睿数据团队对马蜂窝点评造假的指控已经引发行业的广泛关注,对于相关指控,马蜂窝一位市场经理称,“我们现在正在核实相关情况。我们正在等结果,然后将对媒体反馈。”
  根据普华永道的数据尽职调查经验显示:在不断演进的网络和数据技术背景下,应运而生的互联网企业以其理念引领优势、有别于传统商业运作模式的业务整合能力以及市场覆盖潜力,成为投资界的热门标的。不断变化的市场环境与水涨船高的业绩压力,往往导致部分公司出现各种数据质量问题、甚至是数据造假或业绩虚增的行为。传统的数据尽职调查手段已不足以支持投资人在业绩评估和投资风险揭示方面的需求。

投资人头顶的达摩克利斯之剑
  2018年,互联网行业继续成为投资者所关注的焦点,其中,互联网及移动互联网行业的投资金额依旧位居首位。

_4bZ-hmuuiyv5652558.jpg
  不幸的是,纵观国内外各大新闻网站,因为企业数据问题被曝光而对企业形象带来巨大影响的新闻不绝于耳;而互联网行业由于其本身的业务特点,成为了数据质量问题的“重灾区”。基于普华永道对过去3年相关行业尽职调查项目情况所做的统计,有65%以上的目标公司在业绩统计指标方面存在问题。
nLBy-hmuuiyv5652792.jpg

互联网企业估值及投资人
踩过的“坑”

  由于互联网行业尚未形成通用的业绩比较标准与完善的指标分析体系。且又处于未盈利的初创阶段(有些甚至可能还没有形成稳定的业务收入),投资人往往需要基于管理层提供的注册用户数、活跃用户数(DAU/MAU)、转化率或交易额(GMV)、业务增长预测数据对标的公司的商业价值和估值进行研究。因此,业务数据的准确性、合理性以及尽职调查过程中揭示的潜在风险因素和业务影响,将会对投资人的价值判断和公司估值产生直接影响。
  在一轮又一轮的互联网狂潮下,“刷单”、“羊毛党”、“养号”、“自冲”等新名词也随之出现,并且俨然成为了一个数据造假的“新产业”。根据我们的过往经验,在短短几年间,这个“新产业”已经经历了四次重大的“产业”升级。

oP_I-hmuuiyv5652963.jpg
hbWx-hmuuiyv5653107.jpg
reLz-hmuuiyv5653184.jpg
3FFi-hmuuiyv5653286.jpg

新时代数据造假特征
及应对方法

  随着一次又一次的“升级完善”,如今在互联网世界已经产生了一个“堪称完美”的造假体系。通过以下的比较可以看出这套造假体系如何“完美”:

vImW-hmuuiyv5656899.jpg
  由此可见,数据造假的传统特征被逐个突破,刷单与实际业务产生的数据特征界限正在变得模糊。想通过传统的数据尽职调查手段在运营数据中发现真相已经变得越来越难。
  本篇我们将列举互联网行业的三个典型场景,以及针对行业新的变化趋势,如何有效通过数据挖掘、机器学习算法看清数据背后所隐藏的交易风险。

场景一
聚类算法定位新型“羊毛党”

  在传统B2C的商业模式中,交易信息的流动是单向的,平台上的用户被清晰的分成买家和卖家。但在C2C或社交电商模式中,平台用户可以同时以买家或卖家的身份出现,从而产生了“循环交易”的可能性。而这些循环交易中,可能存在着以获取平台交易补贴、优惠等“薅羊毛”为目的的异常循环交易。从投资人角度而言,这些异常的循环交易会拉高平台真实GMV、交易量、用户活跃等运营指标,从而对交易估值产生重大影响。

RYKC-hmuuiyv5653581.jpg
  如上图所示,我们可以通过引入机器学习聚类算法方式,无需借助已做出标记的训练数据集(×(1),y(1),(×(2),y(2),……(×(m),y(m) 来学习目标函数,用以对交易数据做出决策分界,而是直接针对未进行标记的交易数据集来进行优化迭代,形成聚类。
  适用于海量交易数据的Clarans+算法原理:

eU0W-hmuuiyv5653830.jpg
  这种无监督学习方式基于PAM算法增加样本集抽取步骤,优化了模型性能,尤其适用于海量交易数据环境下,运用多种弱规则识别在单个规则下难以发现的可疑交易,提高识别准确度及效率,来有效区分正常或异常交易行为。

场景二
通过社交网络算法识别潜在欺诈用户群体

  对于P2P网贷平台对于贷款用户的贷前风控、贷后催收都是平台能够持续运营,不发生“爆雷”的关键。除了“假标自融”外,虽然不少平台对贷款申请用户做了基础的风控审核,但往往存在各种缺陷,导致骗贷、欺诈团伙有机可乘,逾期率上升并最终对平台的资产质量产生显著影响。然而,这些风险往往有很强的隐蔽性,随着时间推移,才会逐渐显现。骗贷、欺诈的手段非常多样,并不断演进升级。通过更为高效的机器学习算法,在尽调阶段对相关风险的识别,可以有效规避投资人的风险。

3g2W-hmuuiyv5654219.jpg
  通过社交网络分析算法(SNA),研究节点(人)和节点关系(边,也就是人与人之间的关系)的算法,对节点关系梳理并形成聚类,可以做到识别贷款人之间的关系网络及社区,有效识别潜在的骗贷、欺诈用户群体。
  在社交网络算法结果的基础上,还可以结合历史逾期数据,通过机器学习建立随机森林模型进行用户逾期预测。相比决策树模型,随机森林拥有更强的抗干扰能力及模型泛化能力,能够实现对于不同群体的Vintage逾期率差异分析。通过以上分析结合历史Vintage分析,可以据此预测未来可能产生的贷款逾期水平。

场景三
RFM模型与GIS处理技术结合定位O2O虚假交易

  在O2O商业模式中,用户交易需要经历线下、线上两个环节,例如:团购预定中的线上下单,线下消费,二手车交易的线上撮合、线下验车、过户等。因此,通过地推团队将线下订单向线上“转移”是典型的运营数据造假的手段之一。在这种造假方式下,需要引入对用户行为进行聚类分析的机器学习模型,并结合其他维度才能有效识别出虚增平台线上交易数据的行为。

NjGA-hmuuiyv5654403.jpg
  以典型的O2O交易平台为例,可以通过根据用户行为数据建立包括最近一次交易时间(Recency)、交易用户交易频次(Frequency)和交易金额(Monetary)的聚类分析模型。此外,可以结合GIS技术分析,通过基于LBS地理位置的Geohash算法,将二维的经纬度转换为字符串来代表特定矩形区域,并对字符串建立索引,从而实现海量地理信息的快速匹配。通过这一算法可以实现自动检测出交易、服务、配送等位置的集中度。在此基础上,结合交易凭证信息,能够识别出存在的平台通过购买线下交易数据,虚增平台交易量的行为。
  Geohash算法原理示例:

yYgV-hmuuiyv5654568.jpg

■ 结束语
  随着互联网与细分市场的发展越来越深入,细分行业所呈现出来的场景变化其实远不止上述三类,我们仅基于历史项目经验中总结部分典型案例,帮助投资人对相关问题有一个更为感性的理解。
  除了上述三个场景,互联网在科技金融、游戏、在线医疗、网络传媒、新零售等很多细分领域衍生出的商业模式也会具有各自不同的行业特点。面对海量日益错综复杂又真假难辨的运营数据,通过将行业经验与人工智能、数据分析技术充分结合,投资人才能从容应对市场、环境、技术发展所带来的各种挑战。
部分图片、文章来源于网络,版权归原作者所有;如有侵权,请联系(见页底)删除
 nekoda 发表于: 2018-10-22 10:26:00|显示全部楼层

马蜂窝被曝点评造假 是行业原罪还是企业弊端?

源自:第一财经日报
542d-hmuuiyv5562202.jpg
马蜂窝被曝点评造假
  吕倩 乐琰
  [“从资本运作角度而言,这类涉及融资和谋划上市运作的企业的确需要漂亮的数据支持。但客观而言,与之合作的商家也都是很聪明的,商家一方面会看表面数据来衡量是否洽谈合作,一方面最终要看合作方的销售能力即转化率如何”]
  [报道指出,马蜂窝最为核心的2100万“真实点评”里面有1800万条是通过机器人从点评和携程等竞争对手那里抄袭过来的。]
  这个周末,马蜂窝的员工颇不平静,从一大清早就开始召开紧急会议。因为一篇题为《估值175亿的马蜂窝,竟是一座僵尸和水军构成的鬼城?》的10万+流量网络报道被流传,该报道指出,马蜂窝最为核心的2100万“真实点评”里面有1800万条是通过机器人从点评和携程等竞争对手那里抄袭过来的。
  面对如此直接而犀利的质疑,截至第一财经记者10月21日发稿时,马蜂窝方面未有回应。
  第一财经记者多方采访了解到,在线旅游甚至整个互联网业界对于流量和客户转化率十分看重,而很多数据都需要给投资人看到,因此高流量和更多的样本数据可以提升投资人和合作方的信心,而“爬虫”、“水军”等一直存在。但说到底,数据还是表面上的,OTA(在线旅游企业)最终还是要看平台销售能力。而携程、美团、马蜂窝等之间的流量和销售竞争异常激烈。
  “生力军”公司遭遇质疑
  马蜂窝由陈罡和吕刚创立,提供旅游信息决策及产品预订服务。从旅行社区起步,马蜂窝已成为自由行服务平台,是近两年来中国成长最快的在线旅游公司之一。
  然而,就是这样一家被看好的新崛起在线旅游企业却遭遇质疑。
  上述网络报道指出,在马蜂窝上发现了7454个抄袭账号,平均每个人从携程、艺龙、美团、Agoda、Yelp上抄袭搬运了数千条点评,合计抄袭572万条餐饮点评,1221万条酒店点,占到官网声称总点评数的85%。
  据悉,2015年之后,马蜂窝办活动、送蜂蜜动作十分频繁。所谓“蜂蜜”,系马蜂窝平台上一种“代币”,可以用来兑换生活用品、护肤品、家居、数码产品等。当时的活动甚至有过50000蜂蜜换一台索尼NEX-5套机,因此当时用户在奖品刺激下,存在大量到其他平台的抄袭行为,五天的活动期为马蜂窝点评栏目直接带来大量UGC。之后,点评部门活动热潮告一段落,具体负责活动业务的团队被调岗到问答业务部门,点评业务主要通过爬虫抓取数据获得。
  曾参与过该轮活动的人士对第一财经记者表示,早期业务最难的点,在于种子用户的发起。当时马蜂窝员工仅200人,商业化刺激下的点评部门属于早期项目,领导层需要设立成熟模板,带动后续优质点评内容的跟进。因此马蜂窝高层当时发动内部员工参与活动、撰写攻略,但因为工作繁忙以及奖品对内部员工吸引力较小,愿意参与者寥寥。
  知情人士透露,在整个马蜂窝UGC架构中,起初的景点游记质量与真实性最高,餐厅点评次之,酒店方面信息主要来自合作方信息共享。
  第一财经记者从业界了解到,如今很多合作方都要看流量数据来决定是否合作和投放,且互联网信息时代,消费者对于点评、网络信息的接受度和参考度很高,有些企业甚至将点评作为考核指标之一。曾有酒店的前台工作人员就要求住店客人在退房时给其预订的在线旅游平台撰写优质服务点评,作为回报,酒店赠送客人一瓶矿泉水。
  “‘水军’和‘爬虫’一直都存在于互联网行业,因为需要流量和各种点评数据信息。如果你连这些基本的数据都达不到,那么投资人和上下游商家就不太愿意来谈合作了。从某种意义而言,‘水军’和‘爬虫’或许是互联网行业的‘原罪’。”华美首席知识专家赵焕焱分析。
  收入单一争议
  诞生于2006年的马蜂窝,在相当长一段时间内并不为资金忧虑,发展五年之后,才于2011年10月及2013年4月,分别获得A、B两轮融资。2015年获得高瓴资本等投资的8500万美元C轮融资,2017年完成1.33亿美元D轮融资。
  今年8月,有消息称马蜂窝希望在新一轮融资中筹集至多3亿美元,此轮融资对该公司估值定为20亿至25亿美元。该笔融资主要用于获得更好的旅游资源与产品,以及更好地将其现有旅游内容商业化。
  2012年,马蜂窝的盈利模式还停留在品牌广告与效果广告,2015年之后,马蜂窝核心支撑变为UGC、旅游大数据、自由行交易平台,相应的营收模式也变为传统广告收入、酒店预订收入,以及自由行业务三大板块。但最核心的仍旧是UGC基础上的广告营收。
  一位不愿透露姓名的投资人士对第一财经记者表示,如果马蜂窝此刻正在融资,投资人得知该平台核心优势的UGC内容主要来自“抄袭”与“抓取”,它的估值能剩多少?“太多生意建立在法律的不严谨与产业陋习之上。”但针对马蜂窝与合作方之间是否存在用户信息共享一事,上述人士表示自己不做道德上评判,他称,消费者信息在中国总是被轻易交易与购买,消费者自己甚至都习以为常。
  易观旅游行业分析师姜昕蔚表示,此轮抄袭历史被扒之后,马蜂窝需解释自身平台真实点评信息到底占多少,并证明自身核心优势仍有价值。但无论如何,均对其估值造成伤害。
  商业暗战
  马蜂窝表示,会利用融资获得的资金,继续扩大旅游攻略在旅游消费决策上的优势,并加强旅游大数据的技术壁垒。谈及未来的资本运作计划,马蜂窝创始人陈罡曾经对第一财经记者透露,随着新一轮资本的注入,马蜂窝会在不久的将来在海外IPO,如今诸多投资者对于马蜂窝的关注与青睐,就是对于未来上市计划的铺垫。
  马蜂窝在资本上的运作一定程度上反映了其商业化节奏。姜昕蔚对第一财经记者表示,携程、全球酒店预订网Agoda是马蜂窝海外酒旅方面的主要合作方,存在一定程度的合作。“马蜂窝在启动商业化后,由于初始酒店业务,相关评论与攻略不多,初期的确存在从外部抄袭的行为,”姜昕蔚表示,“严格意义上,马蜂窝在处理这部分直接从合作接口端转入的内容时,应该注明具体来源以及作者信息。”
  第一财经记者查阅携程平台隐私条款发现,在软件许可及服务协议中的隐私政策汇总,关于信息共享、转让和公开披露方面,携程方面注明:我们可能会向合作伙伴等第三方共享您的订单信息、账户信息、设备信息以及位置信息;我们可能会与我们的关联公司共享您的个人信息,使我们能够向您提供与履行相关的或者其他产品及服务的信息,他们会采取不低于隐私条款政策同等严格的保护措施。
  京师律所晏艳律师对第一财经记者表示,携程是否有权将用户信息开放给其他平台,要看具体用户协议内容中是否有相关条款;此外也要看具体共享方式,如果是原网站链接引用则不构成,文字直接复制粘贴则构成。
  “不论马蜂窝点评被质疑造假事件的真相如何,从资本运作角度而言,这类涉及融资和谋划上市运作的企业的确需要漂亮的数据支持。但客观而言,与之合作的商家也都是很聪明的,商家一方面会看表面数据来衡量是否洽谈合作,一方面最终要看合作方的销售能力即转化率如何。如果马蜂窝的合作伙伴还是在长期维持业务的话,那么至少说明马蜂窝还是具有一定实际的销售能力的。目前,流量转化为销售的比例很低,有千分之一就已经不错,有些只有万分之一。归根结底,大家还是要看核心销售能力。”一位不愿透露姓名的旅游界资深人士告诉第一财经记者。
  在采访中记者了解到,如今随着携程通过资本并购将艺龙、去哪儿等收归旗下后,携程系已然是本土在线旅游业界稳坐第一的公司,而途牛、驴妈妈等则也各自打拼多年,在业界占据一席之地。在后来者中,有阿里系的飞猪和马蜂窝,其中主打自由行业务的马蜂窝的势头更猛一些。而“黑马”则当数美团,其酒店和旅游业务板块发展迅速,甚至在部分合作方看来,相比携程,商家有时更愿意与美团合作。
  “在线旅游的核心销售力最重要,其中还有一个因素是佣金。‘水军’只能造出表面数据,而销售和佣金是商业合作的实际基础。美图、马蜂窝等其他在线旅游企业的佣金或合作收费大多低于携程,争夺上下游资源、客源和投资者,这才是OTA行业背后真正的暗战。”赵焕焱分析。
 帮5买 发表于: 2018-10-22 10:06:00|显示全部楼层

独角兽马蜂窝:1800万“真实点评”全是抄袭

源自:新浪科技综合
马蜂窝点评全是抄袭
源自:创业邦杂志

  今天下午,邦哥被一篇名为《估值175亿的旅游独角兽,是一座僵尸和水军构成的鬼城?》的文章刷屏了。这篇文章的内容,主要是说旅游独角兽马蜂窝宣传中的2100万条“真实点评”,有1800万条都是通过爬虫等手段,从其他平台进行抓取的,而并非出自平台用户本身。
  在文章中,作者用到的核心关键词,是“抄袭”。并称即便将标准设置为,一字不差的抄袭,才算抄袭,但仍然发现了7454个抄袭账号,和相应的共计1793万条抄袭点评。
  不久后,马蜂窝一位市场经理出面回应,称公司正在核实情况,他们同样在等待结果:“暂时不知道什么时候能出,不过今天应该是可以的。”
  引发轰动的同时,邦哥在于一位从业者交流时,却得到了不同的答案:“抄袭我觉得谈不上吧,其实大家都是评论的搬运工,版权在用户,用户却是最弱势的群体。”
  “互联网公司,有几个数据是真的?”
  “其实平台是没有所有权的。”在评价“马蜂窝从竞争对手处抄袭评论”一事时,业内人士给出了这样的答案:这些评论并不属于哪一个平台,真正的所有者是用户,然而用户在这件事情上的话语权却是0。
  邦哥有一位朋友2004年去了雪乡,那时雪乡还默默无闻。一年后搜索“雪乡游记”,至少有20个不同的网站出现了他的原创游记文章。似乎比起抄袭,这次的事件叫做“搬运”还更为贴切:平台不生产评论,平台只是评论的搬运工。而马蜂窝,显然不是唯一一个搬运者。
  有业内人士表示,其他平台也多多少少有类似的情况,用技术手段抓取其他平台数据内容,是业内相当常见的一种做法,只是用得多和用得少的问题而已。
  而另一位从业者则表示,即便马蜂窝的数据量并没有他们自己标榜得那么大,但马蜂窝已经是行业内的头部公司了,“其他平台又能比它(马蜂窝)的数据量大到哪去呢”?
  复制粘贴是很容易的工作,在业内很多人看来,互联网就是这样的:“这个时代,有几家互联网公司的数据是真的?”
  我们谁也不知道答案。

价值导向,催生行业“原罪”
  “我们的PGC又有用又优秀,奈何你们只要数据说话”──这是邦哥朋友圈的一条评论动态。
  某种程度上讲,这代表了相当一部分人的看法和无奈:在流量至上的时代,有时不被裹挟,太需要天时地利人和。
  马蜂窝由陈罡和吕刚创立于2006年,但却是从2010年才正式开始公司化运营,那时公司的注册用户只有15万。
  而直到2012年6月,马蜂窝才开始商业化尝试,那之前的2011年,公司进行了500万美元A轮融资,并拿到了200万美元的无息贷款来支撑日常运营。
  2013年4月,马蜂窝获得启明创投领投的1500万美元B轮融资,次年6月,马蜂窝的注册会员突破5000万。
  2015年2月,马蜂窝获得了高瓴资本、Coatue、CoBuilder、启明创投的C轮融资,累计融资逾亿美金。
  在质疑马蜂窝的文章中,有这样一段话:

  但事实上,这一万五千人,恐怕还真的不一定是僵尸。
  据几位马蜂窝重度用户的表述,2015年到2016年,马蜂窝点评部分的突然活跃,跟当时马蜂窝的活动有关。那时马蜂窝正需要“数据说话”,于是开始用刷回答和点评获得“蜂蜜”的手段,激励用户刷点评,写游记和评论。
  从2015年初到年中,马蜂窝的线上活动日渐疯狂,一度每周都有活动且“蜂蜜”完全不限量,50000蜂蜜就可以换一个索尼nex5的套机,实物奖励同样极其丰厚。据老用户回忆,重奖之下,大量用户开始自发地手动刷点评,“抄袭”、“搬运”之作,都相当常见:“没去过的人只能通过去其他网站扒数据过来,而且就我知道的马蜂窝对这个情况知情且默认的。”
  截至发稿,邦哥仍未等到马蜂窝的回应,因此对于数据和新闻的相关真实性,我们不做更多的评论。2015年9月,马蜂窝用户数达1亿,其中80%的用户来自移动端(马蜂窝自由行APP);月活用户数达8000万。从开始公司化运营的15万用户,到达成“1亿用户”成就,马蜂窝用了五年时间。
  然而,PGC和UGC内容的产生,显然都需要更多的时间进行积累,恐怕很难与用户数量的增长率保持完全的正比关系。有人说创业公司从第一天起就不要碰刷榜刷量,以及扒别人的数据据为己有。因为江湖这么小,出来混迟早会还的。然而也有人怀着更加深重的无奈对邦哥说:去见投资人别人第一句就是你有多少用户,我不刷量可能已经死了,你告诉我怎么选择?
  信息化时代,价值导向中对于数据的追逐,终于成为了很多互联网企业一开始就背负的“原罪”。
  互联网时代,到底还有什么是真的?
  我们无法得知马蜂窝内部对于点评数是否有硬性的KPI,这些KPI又如何被制定,最终被推行和实现。我们也无法单纯地指责一家企业以实物奖励激励用户进行点评的做法,因为也许这也并非是公司的初衷。
  但对于从业者无意间那句“互联网企业有几个数据是真的”,邦哥又无法真的放下:流量的红利期正在过去,与之相矛盾的是,大数据时代的到来,让整个互联网行业对于数据的依赖日渐深重,无法回头。
  马蜂窝不是唯一一个被质疑数据真实性的平台,旅游业也不是唯一一个被质疑数据真实性的行业。
  2018年9月3日,一个半月之前,爱奇艺率先宣布了一项或许对整个中国网络视频行业豆浆影响深远的决定:取消前台播放量显示。和收视率之于电视台一样,播放量,曾经是网络视频平台的“信仰”。然而信仰们却日渐崩塌。
  很多年里,播放量就是网络视频平台的“收视率”。曾经“收视率高”、“播放量大”,毫无疑问地意味着“作品出色”:某种程度上讲,电影、剧集、综艺,这些视频产品的质量,在数据未造假之前,是与“播放量”指标毫无疑问呈现正相关的。
  但随着大数据时代的到来,行业和投资方、广告商越来越依赖这些数据来进行商业决策,其背后代表的巨大利益,使得数据本身的安全性和纯净性,受到了巨大的威胁。
  于是我们看到,一些电影明明质量平平,票房却动辄十几亿;一些电视剧并未给观众留下深刻印象,点击量却超出全国人口总和;真正优质的作品被虚假数据反攻以至赔钱离场;制作敷衍的差评作品却占领渠道和流量,成为“赚钱典范”……
  信仰的崩塌,是因为数据本身逐渐从“真实”走向了“虚假”。“大数据”的可靠性,正在成为互联网时代的“通用焦虑”,许多人在马蜂窝此次事件的相关评论里写下一句话:到底还有什么是真的?

警钟为谁而鸣
  2012年,一个叫做王建锋的出品人,第一次把电视台、造假卖家的利益链公之于众。收视率造假成本达到了3000-7000元一集。但那时候大家还能活下去,好多公司觉得还承担得了。于是事件的结局是王建锋损失2亿,不再从事影视制作。
  2016年,王长田在一个论坛上说,我们看到的所有电视节目、电视剧,收视率90%以上都是假的。光线传媒在那之前因不堪忍受购买收视率的巨额费用,宣布退出电视节目市场。王长田在后来接受采访时曾说,“幸好光线传媒还有电影业务可以支撑,不然当时我们可能就死掉了。”
  要知道,光线传媒可是一家上市公司。
  众所周知,流量是越来越昂贵的。数据造假的成本在过去十年间,同样水涨船高。而一旦成本高到了一定程度,产业链的某一环不堪重负的时候,必然会倒闭整个数据评价体系,甚至是生产关系的重构。
  近一年来,影视行业对于播放量和收视率等指标造假的指责甚嚣尘上,并不是因为行业突然找回了“道德感”,本质上是因为商业利益在“虚假数据”里的逐渐失衡,导致行业整体成本结构的畸形,最终将所有人推向了生死存亡的边缘,倒逼了行业的变革。
  于是我们看到,爱奇艺在2018年9月3日,宣布取消前台播放量显示,代之以“热度值”。优酷虽然表示在找到合理有效评估方式前不会“动播放量”,但言下之意,显然也在寻找替代方案。10月20日,则有报道称腾讯也在内部宣布,未来将以“会员拉新”为新的主要KPI,淡化播放量的影响和权重。
  影视产业链已经不堪重负之下,做出了不得不做出的变革。其他行业呢?
  我们不知道马蜂窝最终的回应会是什么。但我们至少知道,警钟为谁而鸣。
  
部分图片、文章来源于网络,版权归原作者所有;如有侵权,请联系(见页底)删除
 zhenshiyaya 发表于: 2018-10-22 09:26:00|显示全部楼层

85%评论被指抄袭,“危险”的马蜂窝

源自:新京报
  10月20日,微信公众号“小声比比”发布的《估值175亿的旅游独角兽,是一座僵尸和水军构成的鬼城?》文章直指马蜂窝旅行网涉嫌评论抄袭和造假。
  21日晚间,爆料人梓泉回应新京报独角鲸科技称,本想拿马蜂窝做一个试验,没想到直接把马蜂窝掀了一个底朝天。
源自:独角鲸科技

⊙作者:朱玥怡 马婧 陈维城 吴荣奎 卢海燕 王真真 实习生:朱思雨

  编辑:陈维城 陈诗怡
  旅游攻略见长的马蜂窝这一次被“捅了”马蜂窝。
  10月20日,微信公众号“小声比比”发布的《估值175亿的旅游独角兽,是一座僵尸和水军构成的鬼城?》文章直指马蜂窝旅行网涉嫌评论抄袭和造假。
  21日下午马蜂窝回应称,正在核查当中随后会公开回应。不过,截至新京报独角鲸科技发稿时,马蜂窝尚无进一步回应。
  21日晚间,爆料人梓泉回应新京报独角鲸科技称,这一文章曾遭到马蜂窝投诉,但截至21日中午,马蜂窝方面未联系他进行回应。
  他认为,马蜂窝的评论抄袭是100%搬运。而乎睿数据公司最初只是想去写一个模型想去鉴定餐饮点评的真假参加数据比赛,本想拿马蜂窝做一个试验,没想到直接把马蜂窝掀了一个底朝天。
  马蜂窝前路如何?融资要黄?行业的评论灌水潜规则如何打破?

部分马蜂窝入驻商家和用户清空评论
  10月20日,微信公众号“小声比比”发布的《估值175亿的旅游独角兽,是一座僵尸和水军构成的鬼城?》文章直指马蜂窝旅行网涉嫌评论抄袭和造假。

pTKX-hmuuiyv4933171.jpg
  文章指出,马蜂窝入驻商家“宝贝饭堂”的用户评论为“问答小班长8号”,所点评的内容为美团用户的消费体验。
  10月21日下午,新京报独角鲸科技对比发现,“宝贝饭堂”为苏州的商家,目前马蜂窝官网、App,以及美团上的用户评价已清空。不过新京报独角鲸科技注意到,“宝贝饭堂”马蜂窝网的“百度快照”显示有该用户评价。

-guW-hmuuiyv4933249.jpg
“宝贝饭堂”马蜂窝网的“百度快照”(点击放大查看)
  马蜂窝入驻商家“Grey Marble cafe 云石咖啡集合店”的评论用户为“问答小班长1号”,所点评的内容为大众点评用户的消费体验。10月21日下午,新京报独角鲸科技注意到,马蜂窝上已找不到“问答小班长1号”的评价,但该店马蜂窝网的“百度快照”显示有该用户评价。大众点评上该评价的所有者为“柠小主”。

HISB-hmuuiyv4933311.jpg
“云石咖啡集合店”马蜂窝网的“百度快照”(点击放大查看)
  此外,该店马蜂窝上仅有的用户评价是用户“笔筒里的热狗”的,而该用户的评价同样也在大众点评网出现,只是用户昵称是“甜品店是我归宿”。
  艾瑞监测数据显示,2017年中国在线旅游度假PC端主要网站月度覆盖人数分层明显,携程全年稳居第一位置,马蜂窝与飞猪、去哪儿及途牛均保持在第二梯队。
  艾瑞介绍,马蜂窝以多年积攒的海量信息为资源,辅之以大数据技术,为用户提供旅游攻略及产品预订服务,将复杂的用户需求用简单的方式解决。
  “马蜂窝旅游网相较携程等综合平台,更注重用户的参与度,与知乎或豆瓣等平台的气质类似。”互联网观察家丁道师介绍。
  互联网分析师唐欣也表示,马蜂窝的优势在于内容充实,产品体验好。“这个事件对于其在资本市场的运作有很大影响。”丁道师认为,要弄清楚是平台行为还是用户行为。
  多位业内人士向新京报独角鲸科技表示,互联网企业发展的早期都通过使用爬虫或者机器采集信息来充实评论等内容。“这个是公开的潜规则了,很多平台都存在。”

大数据是马蜂窝核心竞争力之一?
  打开马蜂窝官网,在最下方题为“全球旅游消费指南”的介绍中,马蜂窝列出了几项数据──覆盖全球200多个国家和地区,1亿位旅行者,92万家国际酒店,2100万条真实点评,3亿8千万次攻略下载,并总结为提供了“中国旅游行业第一部‘玩法’”。
  自媒体“小声比比”在其文章中即提到:“作为一家主打用户生产内容的旅游网站,马蜂窝的2100万条‘真实点评’接近于核心资产。”这亦是对马蜂窝涉嫌内容抄袭的指责形成逻辑自洽之处。
  在携程系、美团、飞猪占据在线旅游市场大头的现今,马蜂窝赖以实现差异化的方式是以攻略为代表的内容,和更个性化的自由行;而这两项都离不开用户的原创内容,和在此基础上的整合、沉淀。
  2017年12月,蚂蜂窝完成1.33亿美元D轮融资后,公司创始人陈罡与吕刚提出对马蜂窝的愿景是三年后成为中国最大的旅游流量平台。他们在内部信中提到马蜂窝异于其他同行之处在于开创了“内容+交易”模式,并称这一模式“是当下中国旅游业最先进的生产力”。
  同一时期,马蜂窝向《第一财经周刊》提供的数据显示,平台平均每天产生3000篇用户原创游记,每月新增18.5万条目的地旅游问答,累计超过3200万的点评,以及8000万月活用户。
  去年4月的一次采访中,蚂蜂窝CEO陈罡提到“中国的互联网,大家都很明显感受到流量红利没有了”,他希望马蜂窝凭借海量的内容(评论、攻略、问答)获得优势,在用户做出消费决策时提供更快更多的选择,延长用户停留时间。
  近年来马蜂窝对外宣传中,除了用户原创内容UGC和自由行交易平台,大数据能力亦是其自视的核心竞争力之一,利用技术能力分析平台内容以助力商业化。
  今年5月下旬,马蜂窝与中国旅游研究院在贵州共同成立“自由行大数据联合实验室”。据陈罡介绍,这个实验室结合了中国旅游研究院的科研能力和马蜂窝的数据采集和分析能力,是全国首个专门研究自由行市场的大数据实验室。“马蜂窝平台上1.3亿用户的海量大数据,将助力地方政府及旅游企业精准把握市场趋势,优化资源配置,提升效率和旅游服务质量。”陈罡其时表示。
  而此次马蜂窝被爆出涉嫌内容抄袭之后,作为其大数据分析原材料的内容可信度打折是否会影响到大数据能力,还未可知。
  截至新京报独角鲸科技发稿时,马蜂窝尚未进一步回应。

世界杯广告耗资1亿多 新一轮融资或受影响
  马蜂窝在商业化方面的探索成效也得到了资本市场的认可。2017年12月,马蜂窝获得了来自美国泛大西洋资本集团、淡马锡等机构投资的1.33亿美元。此后,马蜂窝也进一步加快了转型步伐。今年2月5日,马蜂窝宣布“蚂蜂窝旅行网”再次更名为“马蜂窝旅游网”,并启动了新一轮品牌换新升级。

6WmO-hmuuiyv4933349.jpg
马蜂窝聘请黄轩代言
  虽然在此前的多轮融资中,旅游内容的商业化都是马蜂窝的主打内容。但在实际运作中,马蜂窝品牌营销的投入似乎比重更大:聘请黄轩为品牌新代言人,花费1.65亿元成为央视世界杯转播的赞助商。但马蜂窝花费巨资的推广广告,因简单粗糙无创意的洗脑式广告内容,引发了大量网友吐槽。
  而今年8月17日,据外媒报道,有知情人士透露,马蜂窝正在着手新一拨融资,目标筹集至多3亿美元,此轮融资将对该公司的估值定为20亿至25亿美元。消息人士称,马蜂窝希望利用融资获得更好的旅游资源和产品,并更好地将其现有旅游内容商业化。目前,融资金额和公司估值并未最终确定。
  有业内人士透露,这次的刷屏文或来自于友商或新成立的数据公司乎睿,涉嫌融资暗战。但不可否认的是,无论是谁真正捅了马蜂窝,都势必影响马蜂窝的下一轮融资。
  21日晚间,爆料人梓泉回应新京报独角鲸科技称,这一文章曾遭到马蜂窝投诉,但截至21日中午,马蜂窝方面未联系他进行回应。他认为,马蜂窝的评论抄袭是100%搬运。而乎睿数据公司最初只是想去写一个模型想去鉴定餐饮点评的真假参加数据比赛,本想拿马蜂窝做一个试验,没想到直接把马蜂窝掀了一个底朝天。

业内人士:评论灌水为普遍现象
  律师:马蜂窝侵犯用户著作权 构成不正当竞争
  有业内人士告诉记者,马蜂窝此举无非是为了显得用户活跃,流量大。据他所知,行业比较普遍的是销量、评论灌水,并不是每家都会去抓取用户评论。“这种行为确实让人不齿,你哪怕找枪手自己灌水呢,抓人家数据驴唇不对马嘴的也敢直接用。”
  此前,OTA领域的公司曾因用户评论归属权一事对薄公堂。
  据相关媒体报道,2008年4月起,携程发现“去哪儿”网站酒店栏目内,有数万个页面均转载有携程酒店点评文章。携程表示,这些酒店点评已成为携程会员预订酒店的重要参考及衡量标准,是属于携程的珍贵信息资源。
  在发现“去哪儿”网站的侵权行为后,携程于2008年6月 19日、7月4日、7月11日三次发函给“去哪儿”要求其停止侵权行为,“去哪儿”在 2008年6月23日向携程回函,对转载内容做了部分修改外,未做其他任何改正措施并一直持续至携程发起诉讼之日。
  法院经过审理确认,携程拥有该网站内容及资源的版权,酒店点评等相关内容的著作权归携程公司所有,“去哪儿”行为明显属于侵权,应依法承担侵权责任。
  上海大邦律师事务所的高级合伙人游云庭告诉记者,在此次马蜂窝的事件中,马蜂窝侵犯用户著作权,对被抓取数据平台构成不正当竞争,用户和被抓取数据平台有权要求其停止侵权和不正当竞争。
  事实上,因为“搬运”用户评价发生纠纷在互联网行业比较常见。对于各大互联网平台来说,用户真实的评价、攻略等UGC内容无疑会增加平台的黏性,一定程度上提高成交量。
  7月28日,小红书App官微发布消息称,大量用户向其反映大众点评疑冒用小红书用户名称账号,批量建立虚假账号,抄袭及搬运用户在小红书发布的原创笔记。要求大众点评立即采取删除所有侵权链接、关闭侵权账号等相应措施。一天后,大众点评回应称接到投诉后立即采取相关技术措施,在7月27日完成所有内容排查与全部清理下线,并通过技术手段确保该类问题不再出现。
  一位不愿具名的业内人士说,一般而言,各旅游社交平台会对内容进行审核,但主要是针对用户提交部分,一般会采取“机器+人工”的方式对提交内容进行审核,虽然各家的审核标准都存在一定的差异,但是大部分审核人员在操作时,更多是对用户提交的内容中的广告、黄赌毒部分甚至是涉及投诉的部分进行审核。
  而对于用户提交的内容是否涉及抄袭、是否为原创,平台一般无法做出精准判断。有技术人员解释,点评的海量基础数据,无论是使用机器还是人工,进行抄袭审核都是一个工作量极大且存在一定难度的工作。
  也正是平台的这一审核漏洞,成为许多人获取不正当利益的手段。尤其是在旅游社交平台发展的前期,平台会投入大量的资金进行活动运营以激励更多用户更加活跃的提交点评。有许多“深谙此道”的用户,就会采取抄袭、搬运的方式大规模提交点评,以获得更多的平台奖励。
  虽然马蜂窝一直都在不停的进行商业化探索,但身为旅游社交平台,其UGC内容的本质即最大优势,商业化的探索也是在这些内容的基础上进行的有效利用。如今,旅游社交平台的基地被质疑出现造假问题,有观点认为,受到这次事件影响的将不仅仅只是马蜂窝一家企业。
 郭成 发表于: 2018-10-22 09:26:00|显示全部楼层

马蜂窝被曝大规模抄袭用户点评 新一轮融资前陷危机

源自:界面
BJef-hmuuiyv4881329.jpg
马蜂窝广告截图
  界面新闻 郑萃颖
  10月21日,自媒体公众号“小声比比”发布一组数据统计,称经过数据对比与分析,发现以用户内容起家、国内最大的自由行交易平台马蜂窝上存在大量的抄袭内容,从其他平台搬运来的用户点评。
  文章作者梓泉告诉界面新闻,乎睿数据团队花了4个月时间做了马蜂窝的调查,今晚发布完整的报告。他表示,文中得出马蜂窝“抄袭点评数量占85%”的统计结论,先通过比对点评内容来找到抄袭账号,抄袭不同大众点评账号150条以上的账号算作一个抄袭账号,然后计算抄袭账号所发布的全部点评,占马蜂窝总体点评数量的占比。
  马蜂窝暂时没有发布官方回应,但表示正在核实相关情况。
  梓泉向界面新闻解释其团队判定抄袭内容的标准:“第一是马蜂窝的内容,同时和多个来源重叠,总不可能这么多家抄一个人嘛,这个概率太小了。第二是存在大量外语翻译的内容。第三是人称指代前后冲突。四是点评的时间戳有人为修改痕迹。”
  对于这份统计结果,有从事零售电商行业的网友认为其中存在破绽,“马蜂窝把内容当作社区运转的核心,积累了8年,却被先入为主地说成马蜂窝抄袭爬取对方数据,而大众点评此前被曝光爬取他人数据不止一回了。”
  今年7月,小红书发布声明,指责大众点评大量抄袭小红书用户内容,认为大众点评批量建立虚假账号,抄袭及搬运用户在小红书发布的原创笔记。可见抄袭用户点评现象,在内容聚合型的互联网企业间并不罕见。
  此前的事件还有百度抓取大众点评用户评论,因不正当竞争被法院判处323万元赔款,之后又被马蜂窝用户投诉抄袭了自己的马蜂窝游记,最后的处理结果是将投诉涉及的4篇游记删除并封号。更早时候,豆瓣“足迹”团队抓取穷游的地理数据,最后CEO杨勃公开致歉并关停了“足迹”。
  在某家OTA从事产品设计的业内人士告诉界面新闻,互联网企业,尤其电商中的爬取数据行为是常见现象,爬虫和反爬虫都是动态的斗争,没法屏蔽,但也是违法行为。“每个网站都有一个robot.txt文件,告诉网络爬虫哪些站点可以爬哪些不可以爬,但一般都不遵守这个文件。比如零售电商爬取竞争对手价格,同质化的产品相互比价。”
  从事互联网法律研究的中国政法大学副教授朱巍告诉界面新闻,这种爬取竞争对手数据的行为,涉嫌反不正当竞争法。
  而对于马蜂窝的这次事件来说,不论最后调查结果如何,抄袭者是企业还是商家,或者抄袭内容的规模多大,都没有存在抄袭内容这件事本身重要。一直带有理想主义色彩和创业案例光环的马蜂窝本身,遭遇了最大的一次信任危机。
  去年自媒体爆料今日头条的悟空问答挖走300多个知乎大V的时候,马蜂窝CEO陈罡在知乎上发了一问题,鼓舞知乎创始人周源,“你相信凭砸钱、抓取、抄袭能Copy一个社区吗?”他说到,“作为这种事件的亲历者,蚂蜂窝的旅游社区达人和高质量的旅游内容向来被各色旅游行业的成名大咖和江湖喽啰青睐有加,来重金收买的,送iPad搬家的,500元求一条酒店点评的,Spider连抓带扒的…… 各种套路层出不穷。”不知道他如今是何感想。
  2006年,曾经在国内最早一批门户网站工作的陈罡和吕刚,因为自助旅游、探险的爱好,一起创建了马蜂窝,并逐渐在国内聚集起一批驴友,分享各自的驴友攻略和贴士,2010年时发展到10万用户的规模,逐渐形成社群。早期用户奠定了这家公司的基因,这份基因包括自由行属性的用户、这些用户产生的广泛而小众目的地的游记内容、相互吸引的用户间形成的社区粘性。比如2010年马蜂窝开始公司化运营后,用户们在各地以“分舵”的形式开展线下活动,吸引新用户并维系社区活跃度。
  旅行达人章鱼告诉界面新闻,自己在国内旅游经常使用马蜂窝,是因为喜欢去小众冷僻的地方,这些地方的信息通常很难查到,而马蜂窝的游记里常常有细致具体的内容,有的来自用户的补充,譬如某个偏僻目的地住宿的联系方式。
  在2013年之前,马蜂窝就是一家内容公司,靠旅游局和航空公司的广告获得收入。而这几年中,中国旅行攻略内容创业的窗口正在快速闭合,OTA的商业模式已经定型并难以有后来者。2011年和2012年,马蜂窝和穷游相继获得百万美元的融资,也是目前国内仅剩的头部旅游UGC创业企业。
  2013年9月之后,马蜂窝开始尝试进入交易,对接携程、Booking.com等网站,对酒店预订收取佣金或点击费用,2015年全年售出了间夜量360万,为其转型做交易提供了信心。于是在2015年后,马蜂窝全面上线自由行产品,转而定位为自由行交易平台。通过内容引流,通过此前积累的游记、攻略等内容做结构化的信息梳理,对用户个性化推荐产品,并由用户需求来影响供应商。
  2017年底,马蜂窝完成1.33亿美元D轮融资,公布其独立用户数量超过1.2亿,2017年全年交易额达到100亿,基本证明了从内容创业转向产品交易的路径是可行的,并且是另辟OTA之蹊径。
  同时自由行交易平台的模式,也存在商家质量把控和平台服务有短板的风险,譬如去年有消费者称,在马蜂窝平台购买的里斯本一日游产品,在途中遇到导游甩客。不久前,马蜂窝又出现由于系统问题订错酒店,客服疏忽、让用户从海参崴打车到希腊的事件。
  今年8月路透社曝出马蜂窝有望获得新一轮3亿美元融资的消息,并有可能在这轮融资中获得20至25亿美元估值。其中消息人士称,马蜂窝打算将新的资金用于收购更好的旅游资源和产品,这或许是马蜂窝计划中改善平台短板的一种尝试。但这轮融资正是在旅游行业鲜少出现新融资消息、资本谨小慎微的时期。
  对于在这样敏感时期曝出爬取用户点评的负面消息,有旅游投资行业从业者认为,可能对马蜂窝的核心价值影响有限。
  “现有估值的核心一定是交易额。”海泽资本创始人罗海资对界面新闻分析称,“评论自产的多少是著作权问题,马蜂窝于理有亏,如果被起诉,恐怕也有违法之嫌,但对估值影响恐怕不大。消费者要的还是评论丰富、覆盖广、有充足的商品量。”
  北京联合大学副研究员杨彦锋也认为,“从交易量和访问量来看,马蜂窝的商业模式已经经过实证的检验,而且非常有效。”
  相比于打包的跟团游、定制游产品,马蜂窝平台上主打的大量碎片化自由行产品价格相对透明,因此利润有限,商业前景取决于交易的规模。近两年线上的流量越来越贵,不少旅游业内人士在不同的场合谈到,即便是头部的OTA,流量红利也在明显削弱,人们的注意力正被新的App、新的内容形式吸引。
  公众号“小声比比”的文章中提到,该团队在马蜂窝上发现了7454个抄袭账号,这些抄袭账号平均每个人从携程、艺龙、美团、Agoda、Yelp上抄袭搬运了数千条点评,合计抄袭572万条餐饮点评、1221万条酒店点评,占到马蜂窝所有点评总数的85%。截止发稿,上述涉嫌被抄袭的几家公司并未对此事作出公开回应。
部分图片、文章来源于网络,版权归原作者所有;如有侵权,请联系(见页底)删除
 问薇千柔 发表于: 2018-10-22 09:08:00|显示全部楼层

85%评论涉嫌抄袭?马蜂窝回应称:点评内容占比不足3% 虚假点评占比小|新京报财讯

源自:新京报
原文标题:85%评论涉嫌抄袭?马蜂窝回应称:点评内容占比不足3% 虚假点评占比小|新京报财讯

  新京报快讯(记者:朱玥怡)10月22日早间,马蜂窝旅行网就涉嫌评论抄袭和造假做出回应,称文中言论歪曲事实,存在已被查证的有组织攻击行为,将采取法律手段维护自身权益。
  10月20日,微信公众号“小声比比”发布《估值175亿的旅游独角兽,是一座僵尸和水军构成的鬼城?》一文,指马蜂窝旅行网涉嫌评论抄袭和造假。文章基于乎睿数据提供的数据分析,认为马蜂窝2100万条“真实评论”中有1800万条是从携程、美团等其他网站抄袭而来;此外大量马蜂窝账号具有同一特征。据此该文认为马蜂窝不仅抄袭、抓取其他网站的点评,还有员工专门对这些点评进行编辑加工。
  10月22日,马蜂窝在回应中称,马蜂窝UGC内容数据中,游记和攻略、问答为主要内容,点评内容仅占马蜂窝整体数据量的2.91%,涉嫌造假点评的账号数量在整体用户中占比更少;据马蜂窝表示,已对涉嫌造假点评的账号进行清理。新京报记者昨日登录马蜂窝时发现,部分马蜂窝入驻商家和用户已清空评论,包括“小声比比”文章中提到的涉嫌造假评论的“问答小班长1号”等账号。
  马蜂窝还在回应中称,平台一直以来严厉打击游记和问答中存在的违规广告行为,平均每周处理26000条违规广告信息,查封15000个违规账号,并表示“自媒体将不法商家的违规行为归结于马蜂窝,与事实严重不符”。
  在携程系、美团、飞猪占据在线旅游市场大头的现今,马蜂窝赖以实现差异化的方式是以攻略为代表的内容,和更个性化的自由行;而这两项都离不开用户的原创内容,和在此基础上的整合、沉淀。
  2017年12月,蚂蜂窝完成1.33亿美元D轮融资后,公司创始人陈罡与吕刚提出对马蜂窝的愿景是三年后成为中国最大的旅游流量平台。他们在内部信中提到马蜂窝异于其他同行之处在于开创了“内容+交易”模式,并称这一模式“是当下中国旅游业最先进的生产力”。
  今年8月17日,据外媒报道,马蜂窝正筹备目标3亿美元的新一拨融资,此轮融资将对公司的估值定为20亿至25亿美元。消息人士称,马蜂窝希望利用融资获得更好的旅游资源和产品,并更好地将其现有旅游内容商业化。
  上海大邦律师事务所的高级合伙人游云庭告诉记者,在此次马蜂窝的事件中,马蜂窝侵犯用户著作权,对被抓取数据平台构成不正当竞争,用户和被抓取数据平台有权要求其停止侵权和不正当竞争。
⊙编辑:王晓琳
 不取 发表于: 2018-10-22 08:28:00|显示全部楼层

马蜂窝发声明:已被查证有组织攻击,将采取法律手段维护自身权益

源自:新京报
原文标题:马蜂窝发声明:已被查证有组织攻击,将采取法律手段维护自身权益

  新京报快讯(记者:王真真)马蜂窝今早发表声明,“针对该文中歪曲事实的言论,和已被查证的有组织攻击行为,马蜂窝将采取法律手段维护自身权益。”
  10月20日晚间,一篇“小声比比”微信公众号发布的文章《估值175亿的旅游独角兽,是一座僵尸和水军构成的鬼城?》引发行业关注,阅读量迅速10万+,文中直指“旅游独角兽”马蜂窝旅行网存在抄袭和评论造假。
  这篇文章基于乎睿数据提供的数据分析,认为马蜂窝2100万条“真实评论”中有1800万条是从携程、美团等其他网站抄袭而来。除了罗列详细的抄袭证据,乎睿数据提取的15000个账号还具有惊人的同一特征:同时活跃、同时平淡,餐饮和酒店点评在周中即工作时间更加活跃,在周末却断崖式下跌,这与其他点评网站恰好相反。
⊙编辑:马小龙
部分图片、文章来源于网络,版权归原作者所有;如有侵权,请联系(见页底)删除
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

© 2002-2024, 蜀ICP备12031014号, Powered by 5Panda
GMT+8, 2024-3-29 23:49, Processed in 0.171600 second(s), 8 queries, Gzip On, MemCache On
快速回复 返回顶部 返回列表