HOME/nlp/

1.语义搜索

Article Outline
TOC
Collection Outline

<center><b><font color=#A52A2A size=5 >公众号:数据挖掘与机器学习笔记</font></b></center>

知识图谱提供了一种更好的组织、管理和理解互联网信息的能力, 可用于语义搜索、智能问答、个性化推荐等, 在社交和电子商务等领域中实现价值. 基于知识图谱的应用是信息领域当前的研究热点, 也是促进人工智能发展的基础技术之一.

1.语义搜索

知识图谱是语义搜索的大脑[55]. 传统搜索引擎基于用户输入的关键词检索后台数据库中的Web网页,将包含搜索关键词的网页的链接反馈给用户. 语义搜索(也称为语义检索)则首先将用户输入的关键词映射至知识图谱中的一个或一组实体或概念, 然后根据知识图谱中的概念层次结构进行解析和推理, 向用户返回丰富的相关知识. 谷歌提出语义搜索后, 国内百的 “知心”与搜狗的“知立方”也致力于利用知识图谱技术提升用户的搜索体验.

基于知识图谱的语义搜索能够实现[56]: (1) 以知识卡片的形式提供结构化的搜索结果. 例如, 当用户搜索清华大学时, 知识卡片呈现出的内容, 包括有学校的地址、邮编、简介、创办年份等相关信息. (2) 理解用户用自然语言描述的问题, 并且给出相应的答案, 即简单的智能问答. 例如, 当用户在搜索中以提问的方式输入“世界上最大的湖泊是?”, 反馈的页面能够精确地给出里海相关的信息. (3) 通过已有知识图谱中实体的关联, 扩展用户搜索结果, 发现更多内容, 反馈丰富的关联结果. 例如, 当用户搜索达芬奇时, 除了达芬奇的个人简介之外, 语义搜索还能返回他的相关画作: 《最后的晚餐》、《蒙娜丽莎》及其相关人物等信息.

2.智能问答

智能问答指用户以自然语言提问的形式提出信息查询需求, 系统依据对问题的分析, 从各种数据资源中自动找出准确的答案. 问答系统是一种信息检索的高级模式, 能提升效率、降低人工参与成本. 问答系统将知识图谱看做一个大型知识库, 首先对用户使用自然语言提出的问题进行语义分析和语法分析, 进而将其转化成对知识图谱的查询, 最后在知识图谱中查询答案.

百度知识图谱将智能问答具体划分为5类[57]: (1)实体检索: 问题是围绕着一个实体的属性方面展开的,如“魔兽世界的上映时间?”(2) 知识推理: 问题需要通过一定的推理分析, 如针对“zippo可否带上飞机?”这个问题, 需要先推理得出zippo是一种打火机, 再针对打火机能否上飞机这个问题进行回答. (3) 开放领域问答: 问题没有固定的标准答案, 如“形容不会说话的成语”, “与美人鱼相关的电影”等. (4) 语义解析: 首先需要理解问题的语义, 即按照语法规则解析问题, 最后转化成数据库对应的查询, 如针对“魔兽啥时候出?什么时候能看魔兽?”这样的问题可通过语义解析将其转化为“魔兽世界的上映时间?”这一简单查询. (5) End-to-end在线问答, 通过某些已知条件来查询实体, 如“知识即美德是谁提出来的?鞠躬尽瘁死而后已说的是谁?”

3.个性化推荐

个性化推荐是指基于用户画像, 不同的用户会看到不同的推荐结果, 有着重要的商业价值. 电子商务网站是运用个性化推荐最典型的应用, 能通过行业知识图谱的丰富知识帮助实现精准营销与推荐. 如: 基于商品间的关联信息以及从网页抽取的相关信息, 构建知识图谱, 当用户输入关键词查看商品时, 基于知识图谱向用户推荐可能需要的相关知识, 包括商品结果、使用建议、搭配等, 通过“你还可能感兴趣的有”、“猜您喜欢”或者是“其他人还在搜”进行相关的个性化推荐.

4. 股票投研情报分析

通过知识图谱相关技术从招股书、年报、公司公告、券商研究报告、新闻等半结构化表格和非结构化文本数据中批量自动抽取公司的股东、子公司、供应商、客户、合作伙伴、竞争对手等信息,构建出公司的知识图谱。在某个宏观经济事件或者企业相关事件发生的时候,券商分析师、交易员、基金公司基金经理等投资研究人员可以通过此图谱做更深层次的分析和更好的投资决策,比如在美国限制向中兴通讯出口的消息发布之后,如果我们有中兴通讯的客户供应商、合作伙伴以及竞争对手的关系图谱,就能在中兴通讯停牌的情况下快速地筛选出受影响的国际国内上市公司从而挖掘投资机会或者进行投资组合风险控制(。

null

5.公安情报分析

通过融合企业和个人银行资金交易明细、通话、出行、住宿、工商、税务等信息构建初步的“资金账户-人-公司”关联知识图谱。同时从案件描述、笔录等非结构化文本中抽取人(受害人、嫌疑人、报案人)、事、物、组织、卡号、时间、地点等信息,链接并补充到原有的知识图谱中形成一个完整的证据链。辅助公安刑侦、经侦、银行进行案件线索侦查和挖掘同伙。比如银行和公安经侦监控资金账户,当有一段时间内有大量资金流动并集中到某个账户的时候很可能是非法集资,系统触发预警。

null

6.反欺诈情报分析

通过融合来自不同数据源的信息构成知识图谱,同时引入领域专家建立业务专家规则。我们通过数据不一致性检测,利用绘制出的知识图谱可以识别潜在的欺诈风险。比如借款人张xx和借款人吴x填写信息为同事,但是两个人填写的公司名却不一样, 以及同一个电话号码属于两个借款人,这些不一致性很可能有欺诈行为 。

null

参考:

[1]黄恒琪,于娟,廖晓,席运江.知识图谱研究综述.计算机系统应用,2019,28(6):1–12. http://www.c-s-a.org.cn/1003-3254/6915.html

[2]https://zhuanlan.zhihu.com/p/28609177

在这里插入图片描述