巴蜀网

 找回密码
 免费注册

QQ登录

只需一步,快速开始

同板块主题的 前一篇 同板块主题的 后一篇
开启左侧
查看: 13964|回复: 5
#
跳转到指定楼层

[纪实·新闻搜狗两大AI翻译硬件亮相CES

 [复制链接]
搜狗推出语音文字转写工具 透露智能硬件领域布局
搜狗语音交互技术中心总经理王砚峰

  8月8日晚间消息,搜狗推出语音转写文字工具“搜狗听写”,基于搜狗知音引擎的长时语音听写技术,可实现小时级文字转写功能,文本语音同时保存。现已上线Android、iOS移动端和Web版本,提供“听写”和“转写”两种模式,服务免费,主要面向记者、编辑、作家等文字工作者。
  活动现场,搜狗方面表示,后期将重点推进人工智能技术的落地,并透露将在可穿戴、车载、客厅等场景领域自主研发硬件。搜狗方面透露,搜狗将于近期推出一款面向家庭和儿童的机器人产品。
  据介绍,搜狗语音输入法错误率已经下降到3.8%,语音识别服务每日请求PV为2.6亿次,每天产生语料22万小时。基于规模性的用户语音数据,听写产品将搜狗的语音识别、自然语言理解等技术进一步延展落地。
  传统语音转录产品主要包括两大类,录音类、语音输入法+备忘录。前者只能录音不能实现文字转写,不能标注重点;后者无法长时语音输入,可能被打断,无法保存原始录音。搜狗认为语音转录产品具备刚性需求。基于上述痛点,搜狗听写提供听写和转写模式,听写模式可边收音边展现识别结果,转写模型支持离线上传文件给出识别结果。
  在功能设计上,搜狗听写提供语音和文字无缝对齐,方便重点内容定位;支持重点标注,对应的文本和语音可同时标注。产品可在手机端边听边写,实现手机端和网页端内容同步。此外,搜狗听写还提供外接蓝牙键,与手机配对,方便用户录音过程中实时标注。搜狗听写还可根据语义自动添加标点,标点正确率高达96%,标点类型在满足逗号、句号、问号、叹号的基础上,还率先扩充了书名号。
  在应用场景上,搜狗听写针对用户的使用场景,如开会,写小说等场景进行优化。识别效果较通用效果提升15%以上;还针对不便于大声说话而又有使用语音的场景,提供了耳语识别技术,在人的说话音量低至30分贝以下的情况下,依然可以准确识别。
  相较于此前的输入法语音识别,搜狗听写的使用场景更加复杂,在算法模型层面,搜狗进行了优化。据介绍,听写模式采用业内领先的端到端深度神经网络技术Deep LC-CLDNN+CTC技术,转写模式使用了Deep CNN+CTC的方式,语言模型基于T级海量输入法文本数据使用神经网络进行建模,语音识别准确率高达97%。
  在语音文字转写工具领域,科大讯飞已经推出录音宝、讯飞听见等产品。当谈到搜狗听写的差异性,搜狗语音交互技术中心总经理王砚峰认为,搜狗听写的优势在于可支持长时录音,转写服务免费。在功能设计上,搜狗更看重垂直场景的体验提升,比如加入蓝牙键,提供改写、标注、发摘要等在线编辑功能。(侯迪憬)
『 巴蜀网 』提醒,在使用本论坛之前您必须仔细阅读并同意下列条款:
  1. 遵守《全国人大常委会关于维护互联网安全的决定》及中华人民共和国其他各项有关法律法规,并遵守您在会员注册时已同意的《『 巴蜀网 』管理办法》;
  2. 严禁发表危害国家安全、破坏民族团结、破坏国家宗教政策、破坏社会稳定、侮辱、诽谤、教唆、淫秽等内容;
  3. 本帖子由 上官123 发表,享有版权和著作权(转帖除外),如需转载或引用本帖子中的图片和文字等内容时,必须事前征得 上官123 的书面同意;
  4. 本帖子由 上官123 发表,仅代表用户本人所为和观点,与『 巴蜀网 』的立场无关,上官123 承担一切因您的行为而直接或间接导致的民事或刑事法律责任。
  5. 本帖子由 上官123 发表,帖子内容(可能)转载自其它媒体,但并不代表『 巴蜀网 』赞同其观点和对其真实性负责。
  6. 本帖子由 上官123 发表,如违规、或侵犯到任何版权问题,请立即举报,本论坛将及时删除并致歉。
  7. 『 巴蜀网 』管理员和版主有权不事先通知发帖者而删除其所发的帖子。
共享单车见顶?多地禁止新增投放 仅15家融过资 工信部回应华为腾讯数据之争:敦促企业规范搜集
5# 华蓥山
 天涯蓝天 发表于: 2018-6-19 12:06:00|只看该作者

搜狗两大AI翻译硬件亮相CES

源自:IT互联网周刊
  2018年亚洲消费电子展(CES ASIA)近日刚刚落下帷幕,人工智能(AI)、增强现实技术和虚拟现实技术(AR/VR)、自动驾驶等时下最受关注的品类,均亮相CES展。搜狗则拿出了两款创新性“语言类”人工智能产品:搜狗录音翻译笔、搜狗旅行翻译宝。
  据悉,搜狗旅行翻译宝和搜狗录音翻译笔这两款产品,均为搜狗在2018年新近发布,可离线翻译、拍照翻译及支持42种语言互译,覆盖全球200多个国家的搜狗旅行翻译宝,首发当日全国即告罄;可录音转文字、支持中英同传还可对话翻译的搜狗录音翻译笔,则因腾讯董事会主席马化腾下单购买,在市场中掀起了一阵“Pony马同款录音翻译笔”的风潮。
  在各国厂商一窝蜂地在“智能汽车”、“智能家居”等领域攻城略地的时候,搜狗并没有随波逐流。搜狗CEO王小川曾强调:“语言是人工智能皇冠上的明珠。”同时,“语言”也是人工智能领域的关键点和难点所在。北京商报记者 魏蔚/整理
4# 金佛山
 楼主|上官123 发表于: 2018-5-18 08:26:00|只看该作者

直击|搜狗发录音翻译笔:每分钟400字听写 售价398元

搜狗录音翻译笔
  5月17日上午消息,近日搜狗推出硬件产品搜狗录音翻译笔,这款产品主打录音速记、实时同传、对话翻译功能,目标用户主要为记者、学生和商务人士。
  搜狗CEO王小川在朋友圈中分享了小程序的,腾讯CEO马化腾回复称,“下了单买个支持下”。
  搜狗录音翻译笔在产品设计上呈现简约科技风:黑色圆柱形机身,长度123mm,直径为17.3mm,重30g,犹如一支马克笔,方便携带;笔身为磨砂质感,LED指示灯设计可提示翻译、录音、连接和电量状态等。
  为达到不错的拾音和降噪能力,搜狗录音翻译笔内置高清双麦克阵列与科胜讯远场DSP,支持6米范围内拾音,定向波束帮助机器找到环境中最强的声音,跟踪它以消除噪音干扰,同时语音增强的技术帮助放大原声,更好地识别语音信息。
  通过蓝牙与手机连接,翻译笔可将录音同步转化成文字,搭载搜狗的语音识别和语义理解技术,官方给出的识别准确率数据为97%,支持最快每分钟400字听写,用户可实时在手机上查看文字速记内容。识别完成后,机器会自动将录音文件传输到手机中,支持在手机上保存、编辑和一键分享。搜狗录音翻译笔已正式发售,售价398元。(辛苓)
3# 峨眉山
 楼主|上官123 发表于: 2018-1-26 00:35:00|只看该作者

搜狗推出翻译宝、翻译笔 瞄准境外游商业场景

搜狗推出翻译宝、翻译笔
  1月24日下午消息,今天,搜狗在京举办搜狗合作伙伴大会,搜狗CEO王小川、CTO杨洪涛、COO茹立云等搜狗高管出席,就搜狗现有AI产品,及未来AI战略规划进行主题演讲。会上,王小川就“AI技术与搜狗未来之路”做了总结与展望,并现场推出两款硬件产品:搜狗翻译宝和搜狗速记翻译笔。
  王小川现场讲到,境外旅游现在很火,市面上有很多提供翻译服务的App,但大都不好用。这类产品主要有两大痛点:1、信号不稳定,过于依赖在线服务;2、翻译不准确,翻译技术和语音识别紧密相关,语音识别中有一点小错,会把错误放大。搜狗给出的对应解决方法是:1、离线翻译技术,使其在终端设备中能够执行,解决存储问题和识别延迟问题;2、阵列技术,能够找到最强音源,实现降噪,使语音识别达到最高水准。两种技术结合,搜狗推出一款新产品:搜狗旅行翻译宝。产品外观是一个黑色小盒子,和手机一般大小,支持17种语言翻译,可用于点餐、问路、看展等用途。定价1498元,3月12日京东首发。
  王小川在现场发布的第二款产品,是搜狗速记翻译笔,可以远场拾音、蓝牙连接和即录即转,支持17种语言,形态小巧、不带屏幕,使用时需要和手机配合。定价299元,3月12日京东首发。(辛苓)
2# 四姑娘山
 楼主|上官123 发表于: 2017-8-11 18:35:00|只看该作者

占领更多入口 搜狗将发布一堆智能硬件

源自:界面新闻
  图片来源:视觉中国
  智能硬件也正在成为搜狗的战略重心之一,他们希望通过这个方式让智能语音技术更好地落地,以抢夺物联网的新入口。
  “搜狗是为语言理解而生的,专注在自然语言的计算与处理。”王小川在内部信中提到搜狗未来的计划,“我们将基于对自然语言的交互和计算,将搜索升级到问答系统,将输入法升级到对话系统。继续以语言为核心,在自然交互+知识计算的技术路线图上探索,改进人机交互界面,研发未来交互问答式的下一代搜索引擎新形态。”
  搜狗从2012年开始研发智能语音技术,去年8月,推出了技术集合搜狗知音引擎,引擎下有语音识别技术、机器翻译技术、语音合成技术,这些技术已经支撑了搜狗的各个产品线。
  而基于知音引擎,搜狗又针对可穿戴设备、车载车间、电视、家居设备等不同场景搭建了技术产品解决方案知音OS。
  “客观来讲,搜狗在AI落地方面做得是远远不够的。”8月9日,搜狗语音交互中心负责人王砚峰表示,他们希望将更多的AI技术跟产业结合起来,在可穿戴、车载、客厅场景下,自主研发更多的硬件。
  “我们会从下半年开始,在硬件、软件等各种场景下集中一波攻势。”王砚峰称。
  他提到的攻势搜狗已经发动了两波,第一波是智能副驾,将多轮对话、地图知识和对话能力植入地图中;第二波是智能听写,类似速记,将语音“听写”和“转写”为文字,适用于写文章、采访录音、会议记录等场景。
  一般来说,国内互联网公司在人工智能技术的落地上有两种方式,一种是倾向输出技术,建立一个开放平台,另一种是直接做智能硬件。
  搜狗的计划是两条路都走。王砚峰表示,“一方面是在智能硬件的品类下做自己的智能硬件,另外一条路是在电视、手机这样的产品下,用AI能力去说服合作伙伴,使用我们的技术,形成入口。”
  从去年开始,搜狗已经进行了技术的输出,合作方包括小米、魅族等手机厂商,创维的电视,海尔的白电,广州的电视公司CV Touch等。
  以小米为例,他们在选择技术供应商方面通常会考虑效果、商务、价格等因素。
  但这导致了在竞争激烈的情况下会出现一个现实问题:随着国内各家技术供应商的免费,很难在这方面建立一个好的商业模式,或者说,直接做智能硬件可能会是一个更好的商业化选择。
  “作为一家互联网公司,通过技术来收取技术服务费不是搜狗的商业逻辑。对于大公司来讲,技术也永远不会成为壁垒。”王砚峰称。
  而另一方面,王砚峰还认为,站在做生态和对外开放的理念下,面向中小开发者的平台思路,或者开发者的思路,在中国目前的现状下是不成立的。“即便是Echo,也是因为有了巨大的用户量,带动了平台的使用量,才有更多的开发者加入进来。”
  因此,自己做智能硬件,尤其是做出像Echo那样的爆款,抢夺市场入口,这是搜狗的首选。
  “并且在这两年内,更多的产品创新反倒都是出现在智能硬件上的。”王砚峰认为,一个做产品的公司,想通过用户产品产生公司价值和商业价值,智能硬件是必争之地。
  王砚峰透露,搜狗从下半年起,会集中发布一批人工智能落地的产品。
  8、9月份,搜狗会推出基于语音交互的家庭类、儿童类产品,之后会发布一款可穿戴的产品,今年年底或明年年初,再发布车载的智能硬件。
  “手机、电视已经没有太多机会了。但是在儿童领域,以及现在炒得非常火的智能冰箱、可穿戴设备、后装领域的车载产品,还是相对比较混乱的。”搜狗发现在这方面还有很大的机会。
  但如果选择自己做智能硬件,同样会面临另一个成本的问题。相比互联网公司中边际成本近乎零的软件,一旦投入到硬件的生产中,就会产生成本,如果产品失败,便会面临大量库存和亏本的风险。
  在这层面上,王砚峰认为糖猫为搜狗提供了经验。糖猫是搜狗在2014年开始推出的儿童智能手表,出货量在百万量级。
  “我们自己的硬件团队做糖猫已经有了三年的积累,形成了非常成熟销售能力、供应链能力、硬件设计、生产的能力。经过了多轮并行供应链的考验,销售网点在全国也是几千家。”在王砚峰看来,这些供应链管理经验同样可以延续到其他场景的产品中,例如智能家居产品。
  当然,即便是对于搜狗这样的公司,一次做十几款硬件也是存在问题的。因此,搜狗会计划选择最有用户痛点的几款硬件,或者投资一些公司,以合作的方式将产品做出来。
  “相比过去整个市场已经变得理性了。”王砚峰认为,“把语音跟场景结合起来,做垂直场景的好产品已经成为大家的共识。”
1# 贡嘎山
 楼主|上官123 发表于: 2017-8-11 08:35:00|只看该作者

搜狗速记工具“搜狗听写” 助力AI商业化落地

源自:每日经济新闻
  语音记录,是记者、编辑、作家等文字工作者们常用的记录方式。但是,对于记录者来说,语音并不方便后期的整理、分享和追溯,这也导致听语音记录的过程耗时耗力,影响信息的沟通。近日,搜狗推出语音实时变文字的速记工具“搜狗听写”,解决会议、采访、写作等场景下长语音内容转写难题。
  而这仅仅是搜狗AI技术商业落地的一小步,目前,搜狗已经建立了强大的语音自研团队,拥有互联网规模最大的语音数据。搜狗语音交互技术中心总经理王砚峰介绍,自去年开始进行AI的技术研发和布局,已经有些产品使用搜狗的AI能力。未来,会在可穿戴、车载、客厅场景下,自主研发更多的硬件。同时,搜狗也会积极推广AI云平台、AI云服务,服务更多的行业伙伴。在更多的垂直产品场景下,做更多好的产品,服务垂直行业的用户群体。

码字效率提升10倍
  如果你是一个文字工作者,肯定经常遇到这样的苦恼:参加会议、外出采访的音频文件,整理成文字需要等上几个小时的时间,手动记录的话一不小心就会漏掉重点;身边没电脑又着急赶稿时,手机打字让人心急如焚;突然来了灵感,却苦于不方便记录让好想法悄然溜掉……另外在日常工作和生活中还要整理各种各样的音频文件,工作效率大打折扣。
  针对此痛点,搜狗推出一款可以将语音实时变文字的速记工具“搜狗听写”,能够解决会议、采访、写作等场景下长语音内容转写问题,大大提高记者、作家甚至速记工作者的工作效率。
  据了解,搜狗听写的功能相当强大,可以支持写文章、采访录音、会议记录、笔记整理、日常记事等场景,帮助用户实现高效记录和信息输入。而且针对不同场景和需求,搜狗听写可以支持“听写”和“转写”两种模式。
  在“听写”模式下,录音的同时即可实时给出识别结果,话音落文字出,几乎没有时间差;而“转写”模式下则可以离线录音,录音完成后一次性获取文字结果。同时,为了提高文字整理效率,搜狗听写还贴心地加入了边听边改、无线标重点、多端同步、信息分享等人性化功能,大幅度提升记录效率,让文字编辑更轻松。
  另外,搜狗听写还有分享功能,支持文字、图片和链接形式,你可以根据自己的需求选择分享方式,将转写出的文本通过微信、QQ、邮件、微博、朋友圈等分享给其他人。
  王砚峰表示,“搜狗听写作为一款多场景的语音听写工具,其产品的关键在于语音识别准确率,而通过大规模的优质语音训练数据和深度学习的技术能力积累,搜狗也将这种语音识别的技术优势转化到了更多的适用场景中。”

技术实力保障场景识别准确率
  场景中的语音识别最考验技术的扎实度,用户最关心的也是语音转写准确率。据了解,为了保证在各种复杂场景下都能精准转写,搜狗听写采用了大量的前沿技术。在转写方面,搜狗听写使用了搜狗知音独家研发的长时语音转写技术,并与业内领先的端到端深度神经网络技术深度整合。
  由于采用了业内领先的端到端深度神经网络技术,搜狗听写的语音识别准确率已经达到业内领先水平,在支持自动标点的能力方面,可以根据语义自动添加标点,标点类型在满足逗号、句号、问号、叹号的基础上,还率先扩充了书名号。
  根据搜狗语音交互技术中心技术总监陈伟介绍,搜狗听写使用了搜狗知音引擎的长时语音转写技术,从立项到现在,错误率已经下降了30%。在声学模型方面,采用了端到端深度神经网络技术Deep LC-CLDNN+CTC技术,转写模式则使用了Deep CNN+CTC的方式,语言模型基于T级海量输入法文本数据使用神经网络进行建模。
  “从去年年底想做这款产品的时候,我们就在考虑,在技术上永远不可能做到100%。反过头来,看大家的需求是什么。大家最关心的是怎么方便大家进行文档的整理,怎么能够更方便进行内容的查找。”王砚峰表示,这款产品识别准确率已经达到领先水平,但做产品的过程中并不是技术导向,而是产品导向。重点在怎么更多地结合用户的场景和需求,把需求和场景结合起来成为好的听说产品。
  因此,据了解,在应用场景上,搜狗听写针对用户的使用场景,如开会,写小说等场景进行优化,识别效果较通用效果提升15%以上;还针对图书馆、咖啡厅等不便于大声说话而又有使用语音的场景,提供耳语识别技术,在人的说话音量低至30分贝时,依然可以准确识别。
  在工作移动化、时间碎片化的今天,如果你经常面临需要录音的工作,不妨试试搜狗听写,相信工作效率会大大提升。据了解,搜狗听写有iOS和安卓两个版本,用户可根据自身需求下载安装体验。

人工智能是新“赛道”
  语音速记是语音识别技术的应用之一,主打AI的搜狗也是其中一家,目前,搜狗已经建立了强大的语音自研团队,拥有互联网规模最大的语音数据。
  王砚峰介绍,搜狗知音是搜狗一年前发布的语音交互引擎,主打“自然交互+知识计算”的技术战略。发展一年之后,目前已经完善了引擎架构:基于搜狗输入法和搜索引擎两个入口,以大数据+深度学习为基础,上层建造语言 AI+语音AI+图像AI,再延伸至对话、翻译、TTS、OCR、识图等。搜狗的语音识别技术服务的日访问量也从2015年的0.55亿次/日一路发展到2017年的2.6亿次/日。为搜狗智能语音系统提供了海量的真实语料数据,使得机器不断学习,识别准确率越来越高,可应用的场景也越来越广泛。
  事实上,AI是搜狗未来重要的核心战略。搜狗CEO王小川也很早就为搜狗写下了人工智能的新故事。王小川曾表示,“人类对于人工智能的终极描绘,始终是同人一样进行自然的语言交流,这也是搜狗人工智能的发展目标。”而以语言理解为核心,让输入法走向对话系统,让搜索走向问答系统的搜狗,势必也将成为未来智能生活最重要的入口之一。
  不久前,王小川在发给内部的全员信中表示,搜狗已完成了向移动的转型。王小川在内部信中把搜索比作“竞争激烈的赛道”,称搜狗取得了阶段性成功,人工智能则是下一个赛道。在他看来,未来搜狗将继续以语言为核心,在“自然交互+知识计算”的技术路线图上继续探索,改进人机交互界面,研发未来交互问答式的下一代搜索引擎新形态,成为中国人工智能领域的创新者和引领者。
  坚持差异化产品布局,着力人工智能是搜狗搜索稳居第二的关键所在。在王小川看来,“搜索即AI”,业务上也呈现出机器翻译、输入法、AI开放平台等多条产品线并发的局面。未来的颠覆性技术力量是人工智能,而搜狗是为语言理解而生。“我们将基于对自然语言的交互和计算,将搜索升级到问答系统,将输入法升级到对话系统,并通过翻译将中文世界与全世界连接。”

AI商业应用年底持续落地
  随着语音识别性能力的提升和市场教育的完成,基于语音交互的垂直场景应用将日益成熟。行业预测,未来1~3年将迎来产业 高速发展期。同时,基于智能语音交互垂直场景如,家居、车载、可穿戴、机器人等将备受追捧。
  在此背景之下,此次推出搜狗听写产品,是搜狗语音深入用户垂直场景下的又一个全新探索,通过更加专注于特定的场景和人群,去理解用户需求、解决实际问题,从而让语音技术为更多人所用。
  按照过往的行业发展经验,产品落地孰先孰后,似乎并不是决定性的因素,可是目之所及,人工智能的产品落地,已经趋向白热化了。综合搜狗在人工智能上的产品布局,我们可以清晰地发现,让人工智能更“接地气”,已经成为搜狗在人工智能领域的独特标志。
  王砚峰表示,在未来一年里,搜狗AI将会在更多的产品落地:一是可穿戴、车载、客厅场景内自主研发更多硬件;二是进一步推广AI云平台;三是在更多用户垂直场景下,推出更多用户产品。
  “搜狗听写与其他的差异在于两点,一是其他产品不能像搜狗听写那样支持长时间录音+免费转写支持,二是搜狗听写更面向垂直场景,在记者采访、作家写作等场景下进行了功能优化(比如加入远程蓝牙标注重点技术),为用户带来更好的产品体验。”在回答竞争力的问题上,王砚峰显得信心十足,而且有着清晰的逻辑。
  在搜狗看来,在车载和家庭市场,虽然玩家很多,但市场格局还没有形成。当市场格局还没有形成,且距市场成熟期还很早的时候,就有机会快速地抢占市场,开发自己的产品,并且掌握市场份额。
  除了自我研发智能硬件,搜狗还将以开放的态度共享AI技术。王砚峰表示,目前的中小开发者对于智能语音入口的产业格局是形不成有力威胁的,牌还是在巨头的手上。搜狗做这件事情是为了抢夺未来的语音入口,会找适合自己的几款,最有用户痛点的几款硬件,同时也会与合作伙伴合作,这两个之间并不存在非此即彼的关系,它们之间是互补的关系。
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

© 2002-2024, 蜀ICP备12031014号, Powered by 5Panda
GMT+8, 2024-4-26 11:27, Processed in 1.279202 second(s), 13 queries, Gzip On, MemCache On
同板块主题的 后一篇 !last_thread! 快速回复 返回顶部 返回列表