1、移动互联网时代的微信技术创新 微信产品部 模式识别中心 陈波 1 目录 浅谈移动互联网 你了解微信吗 微信公众平台介绍 基于公众平台的数据挖掘 移动互联网时代的微信新技术 2 浅谈移动互联网 互联网的6000多天 1994/1995 国外: 雅虎暴雪1998/1999 国外:泡沫破裂 国内:黄金年份 腾讯成立 新浪成立 搜狐成立 网易成立 2004年 国外:逐渐转型 Facebook成立 Google上市 国内:超级大年 腾讯上市 2008年 国外:SNS Facebook流行 国内:SNS 开心001 校内网/人人 QQ空间 EbayAmazon成立 国内: 商用元年 行业启蒙 盛大成立 百
2、度成立 4 当前互联网的三大热点 社交化 Facebook,Twitter,QQ等业务构成的关系图谱成为信息承载和流动的主要环境。 开放化 互联网从单个公司间的竞争,转向产业链之间的竞争。各公司纷纷推出各种开放平台。 移动化 随着移动带宽的增长以及智能终端的普及、移动互联网的应用和用户数迅速飙升。 5 移动互联网 移动 互联网 移动 互联网 6 数字看移动互联网 图片来源: 7 移动互联网是中国互联网发展机遇 移动互联网中国某些方面比美国发展 快 文化差异 经济驱动 移动互联网产品正在走向国际化 即时通信 浏览器 输入法 前途光明、道路曲折 8 微信,站在移动互联网的浪潮之巅 9 你了解微信吗
3、? “你如何使用微信,决定了微信对你而言,它到底是什么” - 张小龙 微信是什么? 微信出生于2011年1月,是腾讯公司当前最重要的战略产品; 微信是国内用户数最多的移动社交产品,拥有超过3亿的优质用户,同时在线人数超过1亿; 微信是引领3G时代的创新应用软件,媒体关注的焦点及商家合作的新宠; 微信完全免费,支持iOS、Android、塞班、黑莓等多种平台手机。 12 微信能做什么? 文字、语音、图片、视频通话,让沟通随心所欲; 摇一摇、附近的人、漂流瓶拉近你与陌生人的距离; 微信朋友圈让你与朋友随时分享生活点滴; 开放平台让你把有价值的内容分享给好友; 公众平台帮助商家延伸无限可能,用户通过
4、公众帐号可智能化的获取信息; 摇一摇,简单一个动作,交友、传图、摇歌、视频、互动。; 等移动视觉搜索 扫一扫:所见既所得,二维码、一维码、cd、物体封面13 微信火到什么程度? 2年时间,超过3亿的人都在玩微信,用户数相当于美国全国人口; 1年时间,微信让二维码随处可见,引发二维码狂潮; 微信长期领跑各类应用市场下载量及热门排行榜; 微信的任何动向都会被媒体争相报道,引发极大的关注; 14 世界各地的微信排名 15 微信模式识别中心团队 16 微信 模式识别中心团队研究方向 团队目标 - 把模式识别技术用于微信以及腾讯其他产品 - 为公司储备核心技术及知识产权 - 针对微信的大数据挖掘、搜索以
5、及商业探索 18 再小的个体,也有自己的品牌。 微信公众平台 19 你可能在这些地方都看到过一个四方形的图案,他们都指向一个地方: 微信公众帐号 20 什么是微信公众平台 消息流转的平台:沟通、互动、服务 21 微信公众平台现状 建立时间:2012.5(beta) 账号现状:数十万公众号,数万认证公众号; 账号类型:品牌企业,名人艺人,媒体,政府机构,个人等 22 公众帐号能做什么? 互动沟通 用户管理 服务订制 群发消息 单聊会话消息 自定义消息回复 用户分组管理 用户资料,消息查看与回复 素材库管理 会员卡绑定 企业CRM 软硬件交互 23 帐号绑定:招商银行信用卡中心 在微信中绑定信用卡
6、,即可通过微信查询信用卡的账单及额度,积分,办理信用卡开卡,信用卡还款业务;甚至接收消费帐单提醒通知; 24 微信值机:中国南方航空公众号 通过微信办理值机手续,挑选座位,航班动态及天气查询,里程查询,享受明珠会员服务 25 基于公众平台的数据挖掘 什么是数据挖掘 义的模式与规律 更多的数据,表达的 数据挖掘是一个很大的范畴,覆盖了统计、概本质其实是这样的: 数据挖掘,也被称为knowledge discover y from data 从数据中学习和总结其隐含的 ,潜在非常有意率分析、机器学习和数据库等众多领域 数据挖掘的一些实例 社交网络:精准推荐用户感兴趣的内容 计算广告:展现当前上下文
7、收益最大的广告 为什么需要数据挖掘 搜索广告每天的展现量是亿量级 如何针对特定的人,在特定上下文场景中 社交网络的用户是亿量级 数据中的蕴含的信息并不是非常直观的,通过人为分析可能需要非常长的时间才能得到有用的结论 人工处理的效率并没有大幅提高,但是数据在急剧膨胀 根据先验数据的内在规律得到一个相对可靠的结论,辅助决策最大化我们的收益 细分领域:机器学习 机器学习 VS 统计:统计依靠先验知识得到经验并直接执行;机器学习根据先验知识学习内在规律,对与没有见过的数据和独大方向靠统计,精确到独立个体行为的精 APP/网站在屏幕中的触摸点击的热点区域靠统计,热点区域针对特定的用户,特定的场景展示更能
8、产生互 根据人口组成组织物料(网站内容,游戏品种等)靠统计,针对特定地域特定年龄段特定性别的用户推荐立事件进行决策 耕细作靠机器学习 动的内容,靠机器学习 其更喜欢的内容靠机器学习 . 2013/7/11 机器学习可以做什么 预测 没有见过的数据自动分类(决策树) 特定场景下的互动率预估(逻辑回归) 用户感兴趣的内容推荐(协同过滤) 描述 超大规模数据自动聚类(潜在主题模型) 关联规则与事件的建模(隐马尔可夫模型) 2013/7/11 公众帐号搜索引入机器学习 对公众帐号进行自动的行业/内容细分 依靠分类算法,对帐号自动分类 对公众帐号进行自动标注/提取标签 依靠潜在主题模型,自动计算其对应的
9、主题 根据用户检索内容,对结果扩展和排序 搜索“美丽说”,提示推荐相似的蘑菇街等,扩展结果针对特定用户调整排序,提升互动率 根据用户好友收听推荐感兴趣的公众帐号 2013/7/11 公众帐号搜索引入机器学习 对公众帐号进行自动的行业/内容细分 依靠分类算法,对新注册的帐号自动分类 对公众帐号进行自动标注/提取标签 依靠潜在主题模型,自动计算的对应的主题 根据用户检索内容,对结果扩展和排序 搜 索“购物推荐”,推荐 美丽说、蘑菇街等,扩展 结果针对特定用户调整排 序,提升收听 率 根据用户好友收听推荐感兴趣的公众帐号 2013/7/11 机器学习可以给公众账号带来什么 如何快速找到感兴趣的公众账
10、号? 1.2.按类目推荐 基于用户兴趣主动推荐 关键词:类目、用户兴趣、推荐、广告 主要技术模块 公众账号库 属于内容的挖掘 用户个人信息(用户画像) 属于用户的挖掘 用户长期短期兴趣的挖掘 搜索推荐服务 搜索系统和推荐系统 2013/7/11 搜索推荐系统主要模块 query分析 term重要性计算,query变换,quer y意图识别,用户信息提取 用户分析(推荐使用) 搜索系统 推荐系统 索引库/公众账号库/用户信息库 2013/7/11 搜索引擎 在线处理过程在线数据用户query查询分析检索搜索结果整合排序结果展示基础排序网页数据互联网网页下载建立索引页面分析排重索引数据离线处理过程
11、离线数据搜索引擎关键技术 工程 数据 索引量,索引方式,更新频率 平台 性能,检索能力 运营 算法 Quer y理解 同义替换,意图识别,主题理解,紧邻分析, Doc理解 网页分类,词赋权,pagerank,anchor分析,反垃圾和作弊, 相关性 文本相关性,权威度,页面质量,时新性,. 点击反馈 点击分析,点击应用 自然语言处理 业务应用层后台服务情境搜索语音提供API微博问问解决方案技术系统模块层主题提取/理解信息过滤文本分类/聚类新词双语互译分词/NE识别问答质量分级情感分析事件跟踪监测相似度计算词处理层热点词词资源领域词新词/复合词词关系/搭配词计算特征提取词分类双语互译词词关系/质
12、量词质量/赋权热点发现数据层网页Query新闻UGC微信交互新技术 音频指纹 视觉检索 语音识别 语音搜索 扫一扫 摇一摇 语音搜索 引领移动互联网的新入口 音频指纹技术-音乐检索 微信摇一摇搜歌,QQ音乐听歌识曲 获得歌曲信息、歌词同步展示、分享、下载 每日摇一摇搜歌使用量超过600万次,超过10%的朋友圈分享比例 音频指纹技术-音乐检索 线上系统:音频指纹识别服务音频采集(5-15秒)歌曲识别结果展示无线客户端音频指纹提取指纹片段数据无线网络(WiFi, 3G, 2G)歌曲信息指纹匹配时间偏移量计算和拒识判决服务器端线下系统:音频指纹库的建立和更新歌曲音频及相关信息ID生成歌曲信息数据库(
13、ID、歌曲名、专辑名、歌词等)歌曲音频数据库(ID、mp3)音频音频指纹Hash索引表指纹数据音频指纹提取指纹数据紧致,每秒100字节左右,对网络条件要求低,在2G环境下只需要3-10秒录音音频即可完成识别 对环境噪声适应能力好 亦可以流畅使用 音频指纹技术-电视节目实时互动 音频指纹技术在电视互动领域的扩展 音频识别相对于发送短信、扫描二维码等互动方式,具有更便捷易用的优势 直播节目现场互动、评论、投票、抽奖 可同时结合电视广告、剧集内容的识别 音频指纹技术-电视节目实时互动 电视转播卫星卫星接收机电视频道实时音频流音频指纹提取电视实时音频指纹数据库用户手机端音频指纹提取指纹比对采集音频用户
14、电视声音用户智能手机终端用户手机端电视互动预设数据库电视互动页面技术要点: 利用卫星电视信号音频流实时在后台服务端建立音频指纹索引 瞬时高并发能力(适应主持人口播互动) 移动视觉搜索 平面物体识别(图书、唱片、海通过识别结果连接比价、购买、报、广告图片等) 点评、分享等服务 应用: 微信扫一扫封面 实时扫描识别 SoSo慧眼 拍照识别 鼓励商家自己上载希望被用 利用公众平台对商家的聚合、与微信公众平台的结合 图像识别云平台 户扫描的图片 资质审核等能力移动视觉搜索 无线客户端图像采集结果展示图像压缩查询数据无线网络识别结果及相关信息特征提 取(局部不变 特征)几何验 证词汇树量化特征匹配服务器
15、端基本技术 特征抽取:不变性局部特征 查询匹配: 词汇树量化+反向文档索引 几何验证: RANSAC 客户端 信息数据库图像库特征倒排索引实时摄像头视频流中的目标预判、网络传输流量控制 OCR技术 - 取词翻译 摄像头实时取词翻译 复杂背景文字行提取与识别 多国语言识别与翻译支持 应用 微信扫一扫翻译:后台识别翻译 SoSo慧眼:客户端识别翻译 OCR技术 - 更多应用 名片识别 信用卡号识别 基于OCR的图片文字内容索引,以及反垃圾 人脸技术- 人脸开放平台 人脸检测与五官定位 人脸识别 深度信息(年龄、表情、种族、性别)识别 增强现实技术 语音识别概况 语音在模式识别领域的三个问题 语音识
16、别 声纹识别 语种识别 非语音检测,语音合成,语音变声,歌曲合成 语音识别概况 企业 Nuance ,讯飞,苹果siri Baidu,云 之声,腾讯,搜狗等 Google, Microsoft 科研机构 清华大学 中科院自动化所,声学所 剑桥, MIT,CMU,I2R 语音识别概况 语音到文字的转换 53 语音识别概况 如果想做好的语音识别系统,你需要 概率论和统计理论 模式识别和机器学习 对大数据量操作的方法和经验 足够的耐心,细心和激情 近期机器学习不得不说的热点 语音识别概况 语音技术在腾讯 2011年11月下旬正式启动语音识别项目 从3个人到12个人 历经 qq安卓输入法 Soso地图语音搜索 微信通讯录检索 语音提醒 微信输入 公众号语音识别平台 语音技术产品形态 语音搜索 语音技术产品形态 听写机: 58 语音技术产品形态 个人生活助手 59 语音技术产品形态 语音唤醒 60 微信模式识别中心诚邀您的加入 数据挖掘、NLP、语音识别、图像识别、机器学习、后台开发等人才 61 Q/A! 62