Skip to content

Latest commit

 

History

History
590 lines (422 loc) · 17.3 KB

CRS通用抽取报告.md

File metadata and controls

590 lines (422 loc) · 17.3 KB

CRS通用属性抽取接口

接口的请求ip: http://172.31.99.9:8011

1、请求参数与响应参数

1.1 请求参数

若无特殊说明,本系列接口的请求参数格式如下:

{
    "doc_id": "", 
    "payload": {"name": "","property":[]}
}
参数名称 类型 是否必填 描述
doc_id str 文档id,请先通过/upload接口上传文件后获得doc_id
payload dict /
>name str 需要抽取的实体名称,根据接口不同来定义
>property list 需要抽取的属性,接口必须支持。如果为空则抽取全部支持的属性

1.2 响应参数

若无特殊说明,本系列接口的响应参数格式如下:

{
    "code":200,
    "message":"",
    "data":{
        "property_1":"",
        ...
    },
     "doc_id":""
}
参数名称 类型 描述
code int 响应码
message str 响应消息
data dict 抽取结果,key为抽取的属性名,value为抽取的结果
doc_id str 文档id

2、CRS接口

2.1 文件上传接口

接口路由:

/upload

介绍:

可通过该接口上传docx和pdf格式的文档,用于后续的抽取。

特殊说明:

本接口上传文件即可,无额外请求参数。

2.2 岗位信息抽取接口

接口路由:

/crs/jp

介绍:

本接口抽取岗位相关的属性。

支持抽取的属性:

  • 介绍说明
  • 岗位需求来源

特殊说明:

请求参数中name需要传入岗位名称。

测试示例:

import requests
import json
data = {
    "doc_id": "aa5dafd3c8cd41508d1836f81b36ae95", 
    "payload": {"name": "计算机视觉工程师"}
}
requests.post("http://172.31.99.9:8011/crs/jp",json=data).text
{
    "code": 200,
    "message": "处理成功",
    "data": {
        "介绍说明": "计算机视觉工程师利用计算机和深度学习算法,对图像或视频进行处理、分析和理解,使计算机识别各种不同模式目标和对象的专业人员。",
        "岗位需求来源": "[未知来源]"
    },
    "doc_id": "aa5dafd3c8cd41508d1836f81b36ae95"
}

2.3 技能信息抽取接口

接口路由:

/crs/js

介绍:

本接口抽取技能相关的属性。

支持抽取的属性:

  • 介绍说明
  • 关键词
  • 复杂度
  • 技能层次
  • 技能类型
  • 技能工作案例

特殊说明:

请求参数中name需要传入技能名称。

测试示例:

import requests
import json
data = {
    "doc_id": "cfe49df062514e0b97340384379aca27", 
    "payload": {"name": "数据处理"}
}
requests.post("http://172.31.99.9:8011/crs/js",json=data).text
{
    "code": 200,
    "message": "处理成功",
    "data": {
        "介绍说明": "文档中数据处理技能的介绍说明(描述)是:\\n\\n【人工智能数据处理】(高级):主要面向人工智能数据分析师、人工智能数据训练师、数据建模工程师、人工智能算法工程师等职业岗位,主要完成数据维护、数据分析与可视化、机器学习与深度学习数据建模、数据治理与生成等工作,从事数据交易、数据服务、智能数据软件开发、数据仓库管理、人工智能算法应用等工作。",
        "关键词": "[人工智能, 数据处理, 数据建模]",
        "复杂度": "困难",
        "技能层次": "方法层",
        "技能类型": "专业技术",
        "技能工作案例": "[数据补全, 数据标注 数据分析 数据建模 数据治理 特征工程]"
    },
    "doc_id": "cfe49df062514e0b97340384379aca27"
}

2.4 知识点信息抽取接口

接口路由:

/knowledge

/knowledge_beta

/getknowledge

/getpara

介绍:

本接口抽取知识点相关的属性。(本接口为独立接口,具有不同的请求参数和响应参数)

支持抽取的属性:

  • 知识点名称
  • 知识点描述
  • 关键词
  • 复杂度
  • 知识点教学层次
  • 知识点教学类型
  • 知识点所属段落

2.4.1 知识点抽取基础版

接口路由:

/knowledge

介绍:

上传一个文档,抽取其中的知识点及属性。基础版抽取所有带段落内容标题的知识点。

请求参数:

参数名 是否必填 类型 备注
file file 支持文档元素抽取接口支持的文档

响应参数:

注意!该接口为流式返回,会有多个如下返回,请注意处理!!!

参数名称 类型 描述
code int 响应码
message str 响应消息
data dict 抽取结果,key为抽取的属性名,value为抽取的结果
{
    "code": 200,
    "message": "处理成功",
    "data": {
        "knowledge": "听觉生理学",
        "description": "听觉生理学是研究人类耳朵如何感知声音的科学,包括外耳、中耳和内耳的结构与功能。外耳负责捕获声波并引导至中耳,中耳通过鼓膜和听骨链将声波传递到内耳,内耳则将声波转换为神经信号,最终由大脑解释为我们所听到的声音。",
        "data_id": "8978ffa75a0a4eeda26281abc95c3b45"
    }
}

2.4.2 知识点抽取beta

接口路由:

/knowledge_beta

介绍:

上传一个文档,抽取其中的知识点及属性。beta版会对文档中的标题进行聚类,再进行抽取。

请求参数:

同基础版

响应参数:

同2.4.1

2.4.3 知识点属性查询

接口路由:

GET请求

/getknowledge

介绍:

查询已生成知识点的属性

请求参数:

参数名 是否必填 类型
id str

响应参数:

{
    "code": 200,
    "message": "处理成功",
    "data": {
        "_id": "4c22fa88611e4640a9168a29a85af96c",
        "name": "声音的产生",
        "description": "声音是由振动产生的空气压力波的传播所形成的。在语音产生的过程中,声源如喉头和喉咙等会振动,使得周围的空气产生压力变化,进而形成空气压力波,在远处被听到为声音。",
        "data": [
            "1.1 声音产生的机理概述",
            "声音是由振动产生的空气压力波的传播所形成的。在语音产生的过程中,声源如喉头和喉咙等会振动,使得周围的空气产生压力变化,进而形成空气压力波,在远处被听到为声音。这个过程中,语音信号经历了处理、传递、衰减等一系列过程,最终形成了有意义的语音信号。其中,声带是语音产生的重要组成部分。位于气管(呼吸管)上部的两片肌肉,当空气从肺中排出时,它会经过声带,导致其振动。这种振动产生的声波通过嘴和鼻子传播,将声音塑造成语音或歌曲。除声带外,身体的其他部位,如胸部、腹部、喉咙和嘴巴,也可以通过共鸣和塑造声波来产生声音,这使得创造不同类型的声音成为可能,如呼喊、耳语、腹语和笑声。因此,人们可以通过不同的语音姿势和声带的振动调节,产生出丰富多彩的语音和声音。"
        ],
        "level": "节点层",
        "type": "理解",
        "difficulty": "中等",
        "keywords": [
            "声音产生",
            "振动",
            "空气压力波"
        ]
    }
}

2.4.4 知识点所属段落查询

接口路由:

GET请求

/getpara

介绍:

查询知识点所属的段落。

请求参数:

同2.4.3

响应参数:

{
    "code": 200,
    "message": "处理成功",
    "data": {
        "_id": "4c22fa88611e4640a9168a29a85af96c",
        "data": [
            "1.1 声音产生的机理概述",
            "声音是由振动产生的空气压力波的传播所形成的。在语音产生的过程中,声源如喉头和喉咙等会振动,使得周围的空气产生压力变化,进而形成空气压力波,在远处被听到为声音。这个过程中,语音信号经历了处理、传递、衰减等一系列过程,最终形成了有意义的语音信号。其中,声带是语音产生的重要组成部分。位于气管(呼吸管)上部的两片肌肉,当空气从肺中排出时,它会经过声带,导致其振动。这种振动产生的声波通过嘴和鼻子传播,将声音塑造成语音或歌曲。除声带外,身体的其他部位,如胸部、腹部、喉咙和嘴巴,也可以通过共鸣和塑造声波来产生声音,这使得创造不同类型的声音成为可能,如呼喊、耳语、腹语和笑声。因此,人们可以通过不同的语音姿势和声带的振动调节,产生出丰富多彩的语音和声音。"
        ],
        "keywords": []
    }
}

2.5 关系信息抽取接口

本接口无支持抽取的属性。

2.6 课程信息抽取接口

接口路由:

/crs/tc

介绍:

本接口抽取课程相关的属性。

支持抽取的属性:

  • 介绍说明
  • 语言
  • 复杂度
  • 学分
  • 学时
  • 理论学时
  • 实践学时
  • 学期
  • 学校
  • 院系
  • 专业
  • 课程层次
  • 课程类型
  • 教学模式
  • 授课方法
  • 考核模式
  • 考核标准
  • 课程目标
  • 教学思政

特殊说明:

请求参数中name需要传入课程名称。

测试示例:

import requests
import json
data = {
    "doc_id": "525d0f4ef32c4108ba4f8db34b41a533", 
    "payload": {"name": "人工智能基础"}
}
requests.post("http://172.31.99.9:8011/crs/tc",json=data).text
{
    "code": 200,
    "message": "处理成功",
    "data": {
        "介绍说明": "《人工智能基础》是面向非计算机类专业学生的人工智能通识课程,也是学生进入互联网和人工智能世界的专业拓展课程。通过本课程的学习,使学生初步了解人工智能的基本概念、发展历史、应用领域、以及人工智能对人类社会的深远影响。该课程在提高学生对人工智能研究领域兴趣的同时,培养学生的人工智能素养、计算思维能力和应用 Python语言解决人工智能领域实际问题的能力,尤其是不同的职业岗位所需要的带有普遍性的信息处理能力、问题解决能力和人工智能技术应用能力。",
        "语言": "汉语",
        "复杂度": "较难",
        "学分": "2",
        "学期": "第 3 学期",
        "学校": "计算机科学学院",
        "院系": "[计算机科学学院]",
        "专业": "音乐、美术、体育 专业",
        "课程层次": "普通本科",
        "课程类型": "公共必修",
        "教学模式": "[\'理论教学\', \'实践教学\']",
        "授课方法": "[多媒体教学, 混合式教学, 案例教学, 小组讨论]",
        "考核模式": "[\'考试\']",
        "考核标准": "[\'课程目标 1 考查人工智能基础、人工智能通用技术、Python基础知识、人工智能典型应用场景的掌握\', \'课程目标 2 考查综合应用 Python知识解决简单的人工智能应用问题,具备运用人工智能手段解决问题的能力,并且具有 AI 新技术的学习和应用能力\']",
        "课程目标": "[知识目标, 能力目标, 素质目标]",
        "学时": "32学时",
        "实践学时": "8学时",
        "理论学时": "24学时",
        "教学思政": "None"
    },
    "doc_id": "525d0f4ef32c4108ba4f8db34b41a533"
}

2.7 章节信息抽取接口

接口路由:

/crs/tcc

介绍:

本接口抽取章节相关的属性。

支持抽取的属性:

  • 介绍说明
  • 复杂度
  • 教学模式
  • 学时
  • 章节教学说明
  • 章节教学目标
  • 教学思政

特殊说明:

请求参数中name需要传入章节名称。

测试示例:

import requests
import json
data = {
    "doc_id": "525d0f4ef32c4108ba4f8db34b41a533", 
    "payload": {"name": "自然语言处理及应用"}
}
requests.post("http://172.31.99.9:8011/crs/tcc",json=data).text
{
    "code": 200,
    "message": "处理成功",
    "data": {
        "介绍说明": "第4章 自然语言处理及应用\\n教学内容:\\n1) 自然语言处理的概念与应用\\n2) 知识图谱及其应用\\n3) 百度智能对话系统定制平台 UNIT(Understanding and Interaction Technology)\\n4) 对客户意图理解在智能应答系统中的作用\\n重点与难点:自然语言处理的概念;自然语言处理的应用;客户意图理解在智能应答系统中的作用。",
        "复杂度": "中等",
        "学时": "3",
        "教学思政": "None",
        "章节教学说明": "[了解自然语言处理的概念, 了解自然语言处理的应用, 了解知识图谱及其应用, 能够掌握百度智能对话系统定制平台UNIT的使用]",
        "教学模式": "['理论教学', '实践教学']",
        "章节教学目标": "[了解自然语言处理的概念, 了解自然语言处理的应用, 了解知识图谱及其应用, 能够掌握百度智能对话系统定制平台UNIT的使用]"
    },
    "doc_id": "525d0f4ef32c4108ba4f8db34b41a533"
}

2.8 专业信息抽取接口

接口路由:

/crs/tp

介绍:

本接口抽取专业相关的属性。

支持抽取的属性:

  • 介绍说明
  • 院系
  • 专业代码
  • 专业类别
  • 学科门类
  • 学位
  • 学制
  • 毕业要求
  • 培养目标
  • 专业相关证书
  • 专业相关职业

特殊说明:

请求参数中name需要传入专业名称。

测试示例:

import requests
import json
data = {
    "doc_id": "674ac0925372487a80b75c3c170ebf6b", 
    "payload": {"name": "人工智能"}
}
requests.post("http://172.31.99.9:8011/crs/tp",json=data).text
{
    "code":200,
    "message":"处理成功",
    "data":{
    "介绍说明":"人工智能(Artificial Intelligence,AI)希望借鉴人的智能行为,研制出更好的工具以减轻人类智力劳动。人工智能技术和产业飞速发展,已经涉及工业、农业、商业、金融、国防、科教、文卫和百姓生活的方方面面,有潜力带动新一轮信息技术革命,提升人类社会的生产力。",
    "院系":"[南京大学人工智能学院]",
    "学制":"人工智能的学制是四年。",
    "毕业要求":"[素质结构要求, 思想道德素质:热爱祖国,拥护中国共产党的领导,具有科学的世界观、人生观和价值观;具有责任心和社会责任感;具有法律意识,自觉遵纪守法;热爱本专业、注重职业道德修养;具有诚信意识和团队精神。文化素质:具有一定的文学艺术修养和现代意识,具有国际视野和跨文化的交流、竞争与合作能力]",
    "学科门类":"人工智能属于计算机科学学科门类。",
    "专业类别":"人工智能的专业类别是计算机类。",
    "专业代码":"None",
    "学位":"工学学士学位",
    "专业相关证书":"None",
    "专业相关职业":"[人工智能基础研究, 应用研究, 运行维护]"
    },
    "doc_id":"674ac0925372487a80b75c3c170ebf6b"
}

2.9 试题信息抽取接口

本接口无支持抽取的属性。

2.10 资源信息抽取接口

接口路由:

/tr

介绍:

本接口抽取资源相关的属性。

支持抽取的属性:

  • 资源类型
  • 资源名称
  • 资源描述
  • 关键词
  • 资源大小
  • 视频时长

特殊说明:

本接口为文件上传接口,使用一般文件上传请求参数即可。

对于资源类型,采用规则方法:

文件尾缀 资源类型
.doc 讲义
.pptx 课件
.mp4 视频

资源描述、关键词:仅抽取讲义与课件

视频时长:仅统计视频文件

响应参数:

{
    "code": 200,
    "message": "处理成功",
    "data": {
        "resourcetype": "课件",
        "name": "IS-5.4-A-预训练模型WavLM.pptx",
        "description": "《智能语音》",
        "keywords": [
            "wavlm",
            "模型",
            "数据"
        ],
        "filesize": 2.47
    },
    "doc_id": null
}