人工智能训练师个人整理
2021.8.12
1. JavaScript Object Notation(JavaScript 对象表示法, JSON是一种基于文本的数据交换格式) (考判断题+多选题)
2. JSON有两种表示结构, 对象和数组 (考判断题+多选题)
3. JSON对象结构以”{“开始, 以”}”结束中间部分由0或多个以”,”分隔的”key(关键字)/value(值)”对构成, 关键字和值之间以”:”分隔 (考判断题)
4. JSON数组结构以”[“开始, “]”结束中间由0或多个以”,”分隔的值列表组成 (考判断题)
5. Extensible Markup Language(可扩展标记语言, XML), 是一种允许用户对自己的标记进行定义的源语言, 可以用来标记数据, 定义数据类型 (考单选题+判断题+多选题)
6. XML格式的文件由标签对组成 (考判断题)
7. XML格式的文件必须有根元素 (考判断题)
8. XML格式的文件必须有关闭标签 (考判断题)
9. XML格式的文件标签中区分大小写字母 (考判断题)
10. XML属性必须加引号 (考判断题)
11. TXT是微软在操作系统上附带的一种文本格式, 主要存储文本信息(文字信息) (考判断题)
12. Executable File(可执行文件, EXE File)可以加载到内存中, 并由操作系统加载程序执行, 是可以在操作系统存储空间中浮动定位的可执行程序 (考判断题)
13. DOC是电脑文件常见文件扩展名的一种, 该格式原是纯文字文件使用的, 多见于不同的操作系统中软硬件的使用说明至20世纪90年代, 微软在Office Word中使用了.doc作为扩展名, 并成为了流行的格式 (考单选题+判断题)
14. MOV即QuickTime封装格式(也叫影片格式), 它是Apple公司开发的一种音频, 视频文件封装, 用于存储常用数字媒体类型 (考单选题+判断题)
15. Audio Video Interleaved(音频视频交错格式, AVI)由微软公司于1992年11月推出, 并作为其Windows视频软件一部分的一种多媒体容器格式 (考单选题+判断题)
16. Joint Photographic Experts Group(JPEG)是JPEG标准的产物该标准国际标准化组织制订, 是面向连续色调静止图像的一种压缩标准JPEG格式是最常用的图像文件格式, 后缀名为.jpg或.jpeg (考单选题+判断题)
17. 逗号分隔值(Comma-Separated Values, CSV)有时也称为字符分隔值, 其文件以纯文本形式存储表格数据(数字和文本) (考单选题+判断题)
18. CSV文件开头不留空, 以行为单位 (考判断题)
19. CSV文件可含或不含列名, 含列名则居文件第一行 (考单选题+判断题)
20. CSV文件一行数据不跨行, 无空行 (考判断题)
21. CSV文件列内容如存在半角引号(即”), 应替换成半角双引号(“”)转义, 即用半角双引号(即””)将该字段值包含起来 (考单选题+判断题)
22. CSV文件内码格式不限, 可为 ASCII, Unicode 或者其他 (考单选题+判断题)
24. FLASH VIDEO(FLV)流媒体格式是随着Flash MX的推出发展而来的视频格式 (考单选题+判断题)
25. WPS指WPS OFFICEWPS Office是由北京金山办公软件股份有限公司自主研发的一款办公软件套件, 可以实现办公软件最常用的文字, 表格, 演示, PDF阅读等多种功能 (考单选题+判断题+多选题)
26. BLP是一种图片压缩格式, 体积小, 不能直接编辑, 是游戏中模型贴图的应用格式 (考判断题)
27. XLS指Microsoft Excel工作表, 是一种常用的电子表格的格式 (考判断题)
28. 在同一台计算机中, 内存比外存存取速度快 (考判断题)
29. 32位微处理器中的32表示的技术指标是字长 (考判断题)
30. 目前制造计算机所采用的电子器件是超大规模集成电路 (考判断题)
31. Microsoft Office PowerPoint是微软公司的演示文稿软件用户可以在投影仪或者计算机上进行演示, 也可以将演示文稿打印出来, 制作成胶片, 以便应用到更广泛的领域中 (考判断题)
32. 计算机中常用的文本编码类型有ASCII, GB2312, Unicode, UTF-8 (考判断题+多选题)
33. 二进制文件按二进制编码方式来存储文件 (考判断题)
34. 数据以二进制编码方式存储在计算机文件中 (考判断题)
35. 机器学习是一门多领域交叉学科, 涉及概率论, 统计学, 逼近论, 凸分析, 算法复杂度理论等多个领域机器学习专门研究计算机怎样模拟或实现人类的学习行为, 以获取新的知识或技能, 重新组织已有的知识结构使之不断改善自身的性能 (考判断题+多选题)
36. 深度学习是通过建立人工神经网络, 用层次化机制来表示客观世界, 并解释所获取的知识, 例如图像, 声音和文本 (考判断题+多选题)
37. 深度学习的主要方式是监督学习, 无监督学习, 半监督学习和强化学习
38. 监督学习是利用一组已知类别的样本来调整分类器的参数, 使其达到所要求性能的过程, 也称为监督训练或有教师学习 (考判断题)
39. 无监督学习根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题 (考判断题)
40. 半监督学习是监督学习与无监督学习相结合的一种学习方法半监督学习同时使用未标记数据和已标记数据来进行模式识别工作 (考判断题)
41. 强化学习又称再励学习, 评价学习或增强学习, 用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题 (考判断题)
42. 智能语音处理技术包括身份识别, 语种识别, 情感识别, 语音分离, 语音合成等 (考多选题)
43. 生物特征识别技术包括步态识别, 声纹识别, 虹膜识别等 (考多选题)
44. 立体视觉是计算机视觉领域的一个重要课题, 它的目的在于重构场景的三维几何信息 (考判断题)
45. 目前的自然语言处理技术未完全达到人类智能 (考判断题)
46. 自然语言处理不一定以经过标注过的数据作为输入 (考判断题)
47. 自然语言处理不一定以有监督学习的方式实现 (考判断题)
48. 自然语言处理可以通过无监督学习的方式实现 (考判断题)
49. 数据预处理是一种数据挖掘技术, 包括数据清洗, 数据集成, 数据归约, 数据变换等多种方法 (考多选题)
50. 在数据挖掘之前使用数据预处理技术先对数据进行一定的处理, 将极大提高数据挖掘的质量, 降低实际数据挖掘所需的时间 (考判断题)
51. 数据变换方法包括数据平滑, 数据聚集, 数据泛化, 数据规范化等 (考多选题)
52. 训练有监督学习模型时会将数据集划分为训练集, 验证集和测试集 (考多选题)
53. 数据分析方法包括聚类分析, 因子分析, 相关分析, 方差分析, 回归分析等 (考多选题)
54. 缺失数据处理方法包括删除含有缺失值的记录, 均值插补, 同类均值插补等 (考多选题)
55. 数据治理是指对于数据采集, 数据清洗, 数据标注到数据交付整个项目生命周期每个阶段进行识别, 度量, 监控, 预警等一系列管理措施 (考多选题)
56. 数据分割是指把逻辑上是统一整体的数据分割成较小的, 可以独立管理的物理单元进行存储, 以便于重构, 重组和恢复, 以提高创建索引和顺序扫描的效率 (考多选题)
57. 数据清洗是指发现并纠正数据文件中可识别错误的最后一道程序, 包括检查数据一致性, 处理无效值和缺失值等 (考单选题+判断题)
58. 为了避免在数据传输过程中数据被窃取, 被复制等, 应对数据传输过程进行压缩, 加密等操作 (考单选题+判断题)
59. 数据一致性检查是根据每个变量的合理取值范围和相互关系, 检查数据是否合乎要求, 以及发现超出正常范围, 逻辑不合理或者相互矛盾的数据, 便于进一步核对和纠正 (考单选题+判断题)
60. 采用区块链的数据标注平台采用强加密算法和分布式技术来保证数据安全 (考单选题+判断题)
61. True Positive(TP) 是指某(些)个正样本被预测判定为正, 此种情况可以称作判断为真的正确情况 (考判断题)
62. True Negative(TN)是指某(些)个负样本被预测判定为负, 此种情况可以称作判断为假的正确情况 (考判断题)
63. False Positive(FP) 是指某(些)个负样本被模型预测为正, 此种情况可以称作判断为真的错误情况, 或称为误报 (考判断题)
64. False Negative(FN)是指某(些)个正样本被模型预测为负; 此种情况可以称作判断为假的错误情况, 或称为漏报 (考判断题)
65. 数据标注员需要具备的基本素质为: 学习力, 专注力, 责任感持续的学习力是标注工作的基础, 有耐心才能坚持在标注行业, 较强专注力可提高个人工作效率 (考判断题+多选题)
66. 数据标注员需要参照数据标注规则 (考判断题)
67. 数据标注员遇到数据标注规则模糊的地方需要进行询问 (考判断题)
68. 数据标注员需要总结经验并及时汇报遇到的问题 (考判断题)
69. 初级数据标注员应具备的职业技能包括具备一定的职业道德规范; 掌握行业基础知识; 具备基础业务能力 (考判断题+多选题)
70. 中级数据标注员应该具备的职业技能包括具备较高的职业道德和一定的从业经验; 具备较高的业务能力和责任心; 具备简单的质检能力 (考判断题+多选题)
71. 高级数据标注员应该具备的职业技能包括具备一定的从业经验; 具备较高的业务能力和责任心; 能独立完成各类业务的示范模板和操作培训; 具备质检能力; 具备团队管理能力 (考判断题+多选题)
72. 数据标注规则的特点包括数据标注规则需要一致; 数据标注规则需要不断完善; 需求方优先规则; 质检优先规则 (考判断题+多选题)
73. 数据标注的应用场景包括自动驾驶, 智能安防, 智慧医疗, 工业4.0, 新零售等 (考多选题)
74. 根据数据标注对象不同, 数据标注可分为文本标注, 语音标注, 图像标注和视频标注 (考多选题)
75. Labelme是一个图像标注软件, 使用 Python 语言编写, 图形界面使用Qt (考判断题)
76. Labelme能对图像进行多边形, 矩形, 圆形, 多段线, 线段, 点形式, flag 形式的标注 (考判断题+多选题)
77. Labelme可以在Ubuntu, macOS, Windows操作系统上使用 (考判断题)
78. Labelme以JSON文件存储标注信息 (考判断题)
79. LabelImg是一个图像标注软件, 使用 Python 语言编写, 图形界面使用Qt (考判断题)
80. LabelImg以PASCAL VOC格式(ImageNet使用的格式)的XML文件存储标注信息此外, 它还支持YOLO格式 (考单选题+判断题)
81. Labelbox是一个图像标注软件
82. 常见的图像数据标注类型包括关键点标注, 矩形框标注, 图像分割, 3D框标注, 属性标注等 (考多选题)
83. 矩形框标注是一种对目标对象进行目标检测框标注的简单处理方式, 常用于标注自动驾驶下的人, 车, 物等 (考判断题)
84. 区域标注指是指将图像分成各具特性的区域并提取出感兴趣部分的过程 (考单选题+判断题)
85. 属性标注是用一个或多个标签标注目标物的属性 (考判断题)
86. 关键点标注一般用于人体脸部轮廓, 五官定位, 身体部位和动物头像等 (考多选题)
87. 视频数据标注任务包含视频标签的时间位置, 空间位置和标签信息标注等内容 (考判断题+多选题)
88. 视频源数据管理包含视频信息管理和视频目录管理两大块 (考判断题+多选题)
89. 视频信息管理包含视频上传, 视频修改, 视频查询, 视频删除, 下载视频等功能 (考多选题)
90. 视频目录管理包含添加目录, 删除目录和目录排序功能 (考多选题)
91. 视频数据标注通过语义, 内容等方式标注, 有利于视频数据搜索, 管理和收藏 (考判断题+多选题)
92. 相较于图像数据而言, 图像数据是在一个时间点上的数据, 而视频数据是在一段时间上连续的一系列图像数据的集合, 表达的信息更加丰富, 因此具有更广的应用场景 (考判断题)
93. 视频数据标注目的是对场景中活动目标进行位置, 形状, 动作, 色彩等有关特征进行标注 (考判断题+多选题)
94. 常用的图像数据标注工具包括LabelMe, LabelImg和LabelBox (考多选题)
95. 目前常见的标注文档存储格式包括JSON, XML, TXT (考多选题)
96. 图像标注是实现图像分类, 目标检测, 图像分割的基础 (考多选题)
97. ImageNet项目标注了一千四百多万张图像, 举办了八次图像任务挑战赛 (考单选题+判断题)
98. ImageNet项目吸引了全球的参赛队伍通过编写相关算法来完成分类, 检测和定位等子任务 (考单选题+判断题)
99. COCO数据集是一个大型的, 丰富的物体检测, 分割和字幕数据集 (考多选题)
100. MNIST数据集是由0-9手写数字图片和数字标签所组成的 (考单选题+判断题)
101. MNIST数据集由60000个训练样本和10000个测试样本组成 (考单选题+判断题)
102. MNIST数据集每个样本都是一张28 * 28像素的灰度手写数字图像 (考单选题+判断题)
104. CIFAR-10是一个包含60000张图片的数据集 (考单选题+判断题)
105. CIFAR-10中, 每个图像为32*32的彩色图像 (考单选题+判断题)
106. CIFAR-100有100个类, 每个类包含600个图像 (考单选题+判断题)
107. CIFAR-100中, 每类各有500个训练图像和100个测试图像 (考判断题+多选题)
108. 在图像数据标注中, 用户的角色可以分为3类, 分别是标注员, 审核员和管理员 (考判断题)
109. 标注员负责对图像数据进行标注 (考判断题)
110. 审核员负责对标注好的数据进行审核 (考判断题)
111. 管理员负责对相关人员进行管理, 并对标注任务进行发放及回收 (考判断题)
112. 图像数据标注流程: 图像获取->图像前处理->图像预识别->图像标注->结果输出 (考判断题+多选题)
113. 项目不同图像的获取方式也不同, 一般可通过下采集, 网络采集等方式获取所需的图像 (考单选题+判断题)
114. 图像前处理对图像进行查重处理, 将重复的图像删除 (考判断题)
115. 可通过特定的程序, 先对数据做一个预标注, 标注员只需校验标注结果即可, 进而大幅提高标注效率 (考判断题)
116. 在进行标注任务时, 首先要根据标注对象, 标注要求和不同的数据集格式选择合适的标注工具 (考判断题)
117. 图像数据标注产业的蓬勃发展为人工智能行业计算机视觉方向的兴起奠定了扎实的基础 (考判断题)
118. 不同行业对于数据的标注要求有所差异 (考判断题)
119. 自动驾驶行业利用带有标签的数据集来对自动驾驶模型进行训练, 使其对路面情况具备判断能力, 并能做出相应的应对策略 (考判断题)
120. 自动驾驶行业标注内容包括路面中行人识别, 车辆识别和道路识别等 (考判断题+多选题)
121. 智慧医疗行业主要包括对解剖部位或病变部位对应的点线面以及轮廓进行标记, 如CT断层成像数据, 需要根据病理特点标注肺部边界轮廓 (考判断题)
122. 智能安防行业通过对复杂条件下的人脸, 道路, 车辆, 动作的数据采集与标注实现城市道路监控, 车辆人流监测, 公共安全防范等应用 (考判断题+多选题)
123. 区域标注需同时满足均匀性和连通性的条件, 其中均匀性指的是该区域中的所有像素点都满足灰度, 纹理, 彩色等特征的某种相似性准则; 连通性是指在该区域内存在的连接任意两点的路径 (考判断题+多选题)
124. 与矩形框标注相比, 区域标注更加精确, 标注边缘可以是多边形甚至是柔性的, 常用于自动驾驶中的道路识别 (考单选题+判断题)
125. 标注框标注用矩形框, 四边形框框选出目标物 (考判断题+多选题)
126. 关键点标注用一个或多个关键点标注目标物特定局部的位置 (考单选题+判断题)
127. 区域标注用开区域或闭区域分割出目标物的轮廓 (考判断题)
128. 目前关键点标注常用于人脸识别, 人体骨骼检测, 手势确认等方面 (考判断题+多选题)
129. 关键点标注虽然看起来比较简单, 只要在需要标注的地方打点标注就行, 但是实现起来难度非常大, 在图片标注任务中属于高难度标注 (考判断题)
130. 关键点的数量一般较多, 在标注过程中需要搞清楚少则几个, 多则上百个点所代表的含义, 做得多就容易错得多 (考判断题)
131. 关键点判断标注合格的标准不是很明确, 导致标注人员不能检查自己犯的错误 (考判断题)
132. 在人脸关键点标注项目中, 标注的人脸图片通常是二维图片的, 但是需要标注员有三维立体感, 将标注后的图片具有立体效果 (考单选题+判断题)
133. 当遇到遮挡点或不可见点, 关键点标注需要标注人员在标注过程时具有丰富的空间想象能力 (考单选题+判断题)
134. 框标注包括矩形标注, 自由矩形标注, 3D框标注 (考判断题+多选题)
135. 框标注应用方位广泛, 通过拉框的方式, 选定框区域内的内容来对图片的特征进行提取
136. 在对图片进行框标注时, 由于框的图像形状受限, 会导致所标注的范围不够精确的问题 (考判断题)
137. 图像区域标注分为开区域标注和闭区域标注 (考判断题+多选题)
138. 开区域标注常见的标注有: 线标注; 闭区域标注常见的标注有: 曲线标注和多边形标注 (考单选题+判断题+多选题)
139. 针对自动分割对多目标或背景复杂的图像难以奏效, 手工标注极为耗时且标注结果不准确和不可重复这两大问题, 提出了交互式图像分割 (考判断题)
140. 交互式智能图像分割标注针对图像分割标注的预识别算法, 实现通过机器对图像进行智能分割, 再进行人工修边和筛选, 从而大幅提高生产效率, 减少人工成本, 减少人工差错 (考判断题+多选题)
141. 线标注通常用于自动驾驶应用中的车道线标注, 主要用于自动驾驶车辆的道路识别 (考判断题+多选题)
142. 多边形标注较为准确, 避免了大量白色空间的视觉模型偏差, 一般用于标注街景图片, 人物, 动物, 人体部位等 (考判断题+多选题)
147. 采样精度: 指存放一个采样值所使用的比特数采样率和采样精度越大, 记录的波形更接近原始信号, 但同时占用的存储空间也越大 (考判断题)
148. 声道: 声道指输入或输出信号的通道通常用多声道来输入或输出不同的信号 (考单选题+判断题)
149. 信噪比: 信噪比指信号与噪声之间的能量比, 录音时信噪比越高越好 (考单选题+判断题)
150. 声波: 声波是由物体震动产生, 使周围的介子(如空气)产生波动 (考单选题+判断题)
151. 声速: 声波每秒在介质中传播的距离 (考单选题+判断题)
152. 波长: 沿着声波传播方向, 声波震动一周所传播的距离或在波形上相同的相邻两点的距离 (考单选题+判断题)
153. 振幅: 震动物体离开平衡位置的最大距离称为振幅, 通常用A表示 (考单选题+判断题)
154. 分贝: 分贝是增益或衰减单位, 用来描述两个相同物理量之间的相对关系 (考单选题+判断题)
155. TTS(语音合成)即从文本到语音, 是人机对话的一部分, 是指让计算机能够说话 (考单选题+判断题)
156. TTS中最主要的一个指标是自然度, 也就是当我们听见计算机跟我们说话时, 能否区分出了是人还是计算机 (考单选题+判断题)
157. ASR(语音识别)是将声音转换为文字 (考单选题+判断题)
158. 语音标注数据的典型应用场景包括: 智能医疗, 智能驾驶, 智能家居, 智能教育, 智能客服, 机器人等 (考判断题+多选题)
159. 音色/音质: 指能够区分两种不同声音的基本特征, 比如人说话的声音和小提琴的声音在语音信号处理技术中, 人声识别研究常将音色作为重要研究对象; (考单选题+判断题)
160. 音调: 指声音的高低, 由声波的频率决定比如在一般情况下, 男声听起来比较低沉, 而女声听起来会比较尖锐; (考单选题+判断题)
161. 音强: 指声音的强弱, 由声波的振动幅度决定, 可简单理解为语音信号波形图中的信号幅度; (考单选题+判断题)
162. 音长: 指声音的长短, 由发音时间的长短决定
163. 语音编码格式: 指按一定格式压缩采样和量化后的数值, 从而降低音频的数据量, 便于音频数据的存储和传输常用的编码格式有PCM(WAV), MP3等 (考单选题+判断题)
164. 按照智能应用场景, 语音数据标注任务可划分为智能家居, 智能会议, 智能客服, 智能车载等; (考判断题+多选题)
165. 按照语音信号处理研究方向, 语音数据标注任务可划分为语音识别, 语音合成, 说话人识别, 情感识别, 语音分离等; (考判断题+多选题)
166. 按照音源与拾音器之间的距离, 语音数据标注任务可划分为近场语音, 远场语音; (考判断题+多选题)
167. 按照语音时长, 语音数据标注任务可划分为短语音, 长语音; (考单选题+判断题)
169. 按照口音, 语音数据标注任务可划分为普通话, 方言, 带地方口音的普通话等 (考判断题+多选题)
170. 丢帧: 在语音录制过程中, 由于音频设备的问题而表现出的发音卡顿, 比如语音段中某0.1秒内突然没有声音, 0.1秒过后语音又恢复正常, 此现象称为”丢帧”丢帧是语音标注过程中, 常见的语音异常之一 (考单选题+判断题)
171. 切音: 在语音录制过程中, 由于过早结束或过晚开始录制导致个别字被截断而表现出的发音不完整, 此现象称为”切音”, 切音是语音标注过程中, 常见的语音异常之一 (考单选题+判断题)
172. 吞音: 在说话人发音时, 由于个别字的声母或韵母未完全发音而表现出的发音不完整, 此现象称为”吞音”; 是语音标注过程中, 常见的语音异常之一 (考单选题+判断题)
173. 喷麦: 在说话人发音时, 由于距离麦克风太近而表现出的录入语音不清晰, 听起来有明显噗噗的声音, 此现象称为”喷麦”喷麦是语音标注过程中, 常见的语音异常之一 (考单选题+判断题)
174. 重音: 在说话人发音时, 语音中出现两个或多个说话人, 他们的音量大小相近且有大段重叠, 无法分清主次, 此现象称为”重音”重音是语音标注过程中, 常见的语音异常之一 (考单选题+判断题)
175. 空旷音: 在录制过程中, 由于周围环境较为空旷而表现出来的发音中带有回音, 此现象称为”空旷音”; 空旷音是语音标注过程中, 常见的语音异常之一 (考单选题+判断题)
176. 混响: 混响是另一种常见的声学场景与回声不同, 混响是语音经多次反射, 折射后叠加而成的声音混响语音标注过程中, 常见的语音异常之一 (考单选题+判断题)
177. 通常情况下, 丢帧, 切音, 吞音, 喷麦, 重音, 空旷音, 混响等异常语音数据会被认定为无效语音 (考判断题+多选题)
178. 数据和特征决定了机器学习的上限, 模型和算法只是逼近这个上限而已 (考判断题+多选题)
179. 语音学软件Praat, 是一款跨平台的多功能语音学专业软件, 主要用于对数字化的语音信号进行分析, 标注, 处理及合成等实验目前, Praat语音标注常用的标注工具 (考判断题+多选题)
180. 在操作标注软件Praat打开音频文件后, 点击Tab键可以进行播放和暂停 (考判断题+多选题)
181. 在操作标注软件Praat标注完成后, 直接按Ctrl+s保存, 保存后为一个TextGrid文件 (考单选题+判断题)
182. 音频切分是语音标注基础, 需要按照音频波形进行切割, 将有声频段切分出来 (考单选题+判断题)
183. 音频切分时, 切分前后贴合音频波形, 前后留白不能超过0.05S, 贴合音频波形切分 (考单选题+判断题)
184. 音频切分时, 句子静音间隔超过0.1s则需要切分开成两句 (考单选题+判断题)
185. 音频切分时, 非正常人声大段噪音的情况, 中间静音部分超过 0.2S 需要切分开 (考单选题+判断题)
186. 音频切分时, 不同角色层需要切分开 (考单选题+判断题)
187. 标注中的噪音标签是指音频有波形, 但音频内容为非正常对话内容如波形中是电话按键音, 纯唱歌彩铃, 电流杂音等嘈杂音频标记为噪音标签N或一人说话连续的笑声, 哈欠, 呼吸声等作为噪音标签N, 极其轻的声音波形不明显可以不标 (考单选题+判断题)
188. 进行语音角色标注时, 说话角色为客户的标记为客户 C (考单选题+判断题)
189. 进行语音角色标注时, 说话角色为客服的标记为客服 O (考单选题+判断题)
190. 进行语音角色标注时, 说话角色为非顾客或者客服音频, 电话录音系统, 电话彩铃出现正常人声, 机器人音频标记其他角色 S (考单选题+判断题)
191. 进行语音性别标注时, 说话角色男性标记C1,O1, 女性角色C2, O2 (考判断题)
192. 进行背景人声标注时, 背景人声标签主要为远场人说话的音频, 能听清识别的正常转写文本, 无法听清的只标注标签即可, 例如两个人说话, 另一个人在远处说话, 归为背景人声 (考单选题+判断题)
193. 在进行叠音标注时, 重叠标签主要通过音频波形图判断, 所有角色说话清晰, 但波形图上大块重叠, 标注重叠标签P, 标注重叠标签P后, 不能出现文本 (考单选题+判断题)
194. 噪音标注, 噪音标签 N, 波形中是电话按键音, 纯唱歌彩铃, 电流杂音等嘈杂音频标记为噪音标签N (考单选题+判断题)
195. 常见的语音文件格式类型有: .WAV, .WMA, .MP3, .CDA, .MIDI, .RA等 (考判断题+多选题)
196. 目前(2021年)语音标注主要是用于监督学习 (考单选题+判断题)
197. TTS(Text-to-Speech, 语音合成), 即”从文本到语音”, 是人机对话的一部分, 让机器能够说话目前在很多电话机器人上的使用很广泛, 而且几乎已经判断不出来是机器人在和你讲话 (考单选题+判断题)
198. ASR(Automatic Speech Recognition, 语音识别), 是将声音转换为文字 (考单选题+判断题)
199. ASR在中文领域有很大的难度, 中文由于其语言博大精深, 而且方言众多, 对于声音转换为文字具有很多不确定性 (考单选题+判断题)
200. 语音处理工具主要包括能实现录音, 混音, 剪辑等功能的软件 (考判断题+多选题)
201. audio-annotator是基于Javascript的 音频 标注工具, 它可以实现无形, 声谱图, 声波进行可视化标注, 通用性强, 应用广泛 (考判断题+多选题)
202. EchoML是一种基于B/S架构的音频标注工具, 便于实现多人协同标注但需要搭建服务器 (考单选题+判断题)
203. 语音识别, 语音合成等智能语音处理技术在单一说话人, 发音规范, 背景噪音良好的情况下已经具有较为突出的表现 (考判断题+多选题)
204. 当前阻碍智能语音处理技术实用化的一大困难即是复杂条件下性能降低的问题在实际生活场景中, 自然发音, 口音, 复杂噪声, 声音混叠等现象随处可见, 导致语音识别性能下降 (考判断题+多选题)
205. 随着深度学习技术的发展, 数据对于训练模型的影响越来越重要, 因此, 生产复杂场景下的智能语音数据无论对于学术研究还是对于企业开发, 均具有重大意义 (考判断题)
206. 语音数据标注是语音数据产品生产流程中的一个环节, 总的来说, 语音数据产品生产包含了从语音采集到数据交付的各个环节, 各个环节之间相辅相成, 紧紧相扣语音数据产品生产过程具体包括语音采集, 数据预处理, 语音数据标注, 数据质检与数据交付模块 (考判断题+多选题)
207. 数据清洗, 信息脱敏是常见的数据预处理方法 (考判断题+多选题)
208. 多类型, 大体量的样本空间及高质量数据是人工智能技术精度的重要保障, 语音数据标注是语音数据产品生产流程中的关键环节 (考判断题+多选题)
209. 常见的标注文档存储格式包括XML, TXT, JSON等 (考判断题+多选题)
210. CSV格式的文件是以逗号为分隔符的 (考判断题)
211. LabelHub 是为大型数据标注项目提供更好的管理方式及数据安全保障的数据标注系统, 它的结果文件同时支持CSV, XML, JSON三种格式 (考判断题+多选题)
212. 文本数据异常包括语法类异常, 语义类异常, 覆盖类异常等 (考判断题+多选题)
213. 语法类异常主要包括词法错误, 值域格式错误, 不规则的取值等 (考判断题+多选题)
214. 语义类异常主要包括数据中出现矛盾, 数据中存在重复值和无效的元组等 (考判断题+多选题)
215. 覆盖类异常主要包括数据中出现矛盾, 不规则的取值等 (考判断题)
216. 目前(2021年)文本标注主要是用于监督学习 (考判断题)
217. 文本标注的对象是自然语言文本 (考判断题)
218. 自然语言处理技术达到人类智能的标准是通过图灵测试 (考单选题+判断题)
219. 目前(2021年)最先进的自然语言处理技术是基于深度学习模型的 (考单选题+判断题)
220. 中文文本需要进行分词标注 (考判断题)
221. 标注出一句话中的动词属于词性标注 (考判断题)
222. 词性标注属于序列标注 (考判断题)
223. 分词标注属于序列标注 (考判断题)
224. 标注一句话的情感状态属于属性标注 (考判断题)
225. 文本标注的实体类别常见的有人名PER, 地名LOC和机构名ORG (考单选题+判断题)
226. 常见的文本标注工具包括doccano, YEDDA, Chinese-Annotator, IEPY, DeepDive, BRAT等 (考判断题+多选题)
227. “小明给妈妈洗脚”一句话的直接宾语为脚 (考判断题)
228. WORD文档文件的扩展名是DOC, EXCEL文档文件的扩展名是XLS (考单选题+判断题)
229. 机器翻译是自然语言处理领域的一个重要课题 (考单选题+判断题)
230. Brat只能在Linux下运行 (考单选题+判断题)
231. IEPY是一个Python开发的开源的语料标准工具 (考单选题+判断题)
232. 文本数据标注的大致流程包括预处理, 标注, 质检和验收 (考判断题+多选题)
233. 优秀的文本标注工具应具备的特点包括扩展性强, 操作便捷, 容错性强, 数据导出格式多样, 支持多语种 (考判断题+多选题)
234. 文本数据标注主要应用的场景包括新零售行业, 广告行业, 客服行业, 公共安全和金融行业等 (考判断题+多选题)
235. 文本标注工具BRAT的主要功能是实体标注和关系标注 (考判断题+多选题)
236. 阅读理解标注的一般过程是标注者快速阅读段落内容, 根据内容提问以及标记问题答案 (考单选题+判断题)
237. 文本标注的结果一般会作为自然语言处理算法的输入 (考判断题)
238. 文本标注包括序列标注, 关系标注和属性标注 (考单选题+判断题)
239. 序列标注包括分词, 实体, 关键字, 韵律和意图理解标注等 (考单选题+判断题)
240. 关系标注所标注关系包括指向关系, 修饰关系, 平行语料等 (考单选题+判断题)
241. Chinese-Annotator是支持中文的文本标注软件 (考单选题+判断题)
242. 韵律标注主要是为了标注出句中字词间的停顿 (考单选题+判断题)
243. 情感标注属于属性标注 (考单选题+判断题)
244. 自然语言对话被誉为人工智能皇冠上的宝石 (考单选题+判断题)
245. 标注需求不能脱离人工智能应用场景 (考单选题+判断题)
246. 总体原则是文本标注过程中必须遵守的基本原则 (考单选题+判断题)
247. 在分词当中遇到一些专有名词时, 无需进行拆分 (考单选题+判断题)
248. 在日常生活中的书籍, 文档等等资料都可以整合处理后变成语料库来进行使用 (考单选题+判断题)
249. 网上抓取到的语料处理难点在于网上的文本数据的用法和教科书所讲有较大差异 (考单选题+判断题)
250. 语料处理过程的工作量大致会占据完整的中文自然语言处理工作量的50%-70% (考单选题+判断题)
251. 语料处理主要包括四个方面: 数据清洗, 分词, 词性标注和去停用词 (考判断题+多选题)
252. 可以结合分词算法来加快文本数据标注的进度 (考单选题+判断题)
253. 分词算法常见的有: 正向最大匹配算法, 逆向最大匹配算法, 最大Ngram分值算法, 全切分算法, 双向最大最小匹配算法等 (考单选题+判断题)
254. 词性标注, 就是给每个词语打标签, 如形容词, 动词, 名词等 (考判断题+多选题)
255. 停用词一般指对文本特征没有任何贡献作用的字词, 比如标点符号, 语气, 人称等一些词 (考判断题+多选题)
256. 有些场景是需要语气词来进行判断情感, 所以去停用词的操作一定要根据场景进行 (考单选题+判断题)
257. 自然语言处理可以在很多领域上进行应用, 如: 机器翻译, 情感分析, 智能问答, 文摘生成, 文本分类, 舆论分析, 知识图谱和销售分析等 (考判断题+多选题)
258. 对于自然语言处理工程来说, 良好的语料标注是项目成功的基础 (考单选题+判断题)
259. 语言学主要包括以下几个分支: 句法学, 语义学, 形态学(词根, 前缀后缀等), 音系学, 语音学, 词汇, 话语分析, 语用学和篇章结构分析等 (考判断题+多选题)
260. 语料标注涵盖在自然语言处理任务的建模和标注两个步骤中, 语料标注过程常常需要在建模和标注之间反复进行迭代, 因为很难一次性建立完美的标注模型 (考判断题+多选题)
261. 应该建立标注标准, 将标注方式细化, 才能保证标注数据的一致性 (考单选题+判断题)
262. 当有多人对相同数据进行标注时, 可以采取交叉标注的方式 (考单选题+判断题)
263. 在标注过程中, 应尽可能使用自动化方式减少标注人员工作量 (考单选题+判断题)
264. 语料库选取应注意代表性, 不能只用单一新闻源构建语料库 (考单选题+判断题)
265. 语料库选取的平衡性要求语料库中的类别组成应该与真实数据中的比例基本一致 (考单选题+判断题)
266. 审核过程最好由参与制定标注标准的人来执行 (考单选题+判断题)
267. 对专业度要求比较高的标注, 最好请从业人员参与标注 (考单选题+判断题)
268. 语义标注中的自定义标签包括意图级别配置, 功能配置和预识别配置等 (考判断题+多选题)
269. 音调包括阴平, 阳平, 上声, 去声和轻声 (考判断题+多选题)
270. 韵律符号#1表示韵律词边界; 韵律符号#2表示韵律短语边界; 韵律符号#3表示语调短语边界; 韵律符号#4表示句末边界 (考判断题+多选题)
271. Chinese-Annotator是一个较为完整的系统, 包括前端, 后台和数据库 (考单选题+判断题)
272. 质量, 一组固有特性满足要求的程度 (考单选题+判断题)
273. 产品, 过程的结果包括了硬件(如发动机机械零件), 软件(如计算机程序, 字典), 流程性材料(如润滑油), 服务(如运输)及其任意组合 (考单选题+判断题)
274. 硬件产品是指由制作的零件和部件组成或由其组装成的产品, 如发动机机械零件 (考单选题+判断题)
275. 软件是指由承载在媒体上的信息组成的智力产品软件能以概念, 记录或程序的形式存在计算机程序是软件产品的一个实例材料的定义 (考单选题+判断题)
276. 服务是指在供方和顾客接口处完成的至少一项活动的结果 (考单选题+判断题)
277. 过程: 将输入转化为输出的相互关联或相互作用的一组活动任何一个过程都由输入, 过程活动和输出三部分组成 (考单选题+判断题)
278. 顾客: 接受产品的组织或个人(狭义: 产品和服务的最终使用者或接受者 广义: 要结合过程模型去理解, 任何一个过程输出的接受者都是顾客) (考判断题+多选题)
279. 质量管理的定义和方针: 质量管理: 在质量方面指挥, 控制, 组织和协调的活动质量方针: 由组织最高管理者正式发布的关于质量方面的全部意图和方向 (考判断题+多选题)
280. 质量管理发展阶段: 1检验阶段; 2, 统计质量控制阶段; 3, 全面质量管理阶段; 4, 经营质量管理阶段 (考判断题+多选题)
281. 质量管理的八项管理原则: (1)以顾客为关注焦点(2)领导作用(3)全员参与(4)过程方法(5)管理的系统方法(6)持续改进(7)基于事实的决策方法(8)与供方互利的关系 (考判断题+多选题)
282. PDCA循环(计划—执行—检查—处理)循环又称戴明循环 (考判断题+多选题)
283. 6σ质量管理标准是一种以顾客为导向, 重视策划过程, 重视科学的数据分析, 明确量化的目标的一种持续改进管理模式 (考判断题+多选题)
284. 质量屋定义及其方法, 一个完整的质量屋包括6个部分: (1)顾客需求及其权重, 即质量屋的”什么(What)”(2)技术需求(最终产品特性), 即质量屋的”如何(How)”(3)关系矩阵, 即顾客需求和技术需求之间的相关程度关系矩阵(4)竞争分析, 站在顾客的角度, 对本企业的产品和市场上其它竞争者的产品在满足顾客需求方面进行评估(5)技术需求相关关系矩阵, 质量屋的屋项(6)技术评估, 对技术需求进行竞争性评估, 确定技术需求的重要度和目标值等 (考判断题+多选题)
285. 质量成本管理: 质量成本是为了确保和保证满意的质量而发生的费用以及没有达到满意稍微质量所造成的损失 (考单选题+判断题)
286. 职能组织结构在职能组织结构中, 每一个职能部门可根据它的管理职能对其直接和非直接的下属工作部门下达工作指令 (考单选题+判断题)
287. 线性组织结构中, 每一个工作部门只能对其直接的下属部门下达工作指令, 每一个工作部门也只有一个直接的上级部门, 因此, 每一个工作部门只有唯一一个指令源, 避免了由于矛盾的指令而影响组织系统的运行 (考单选题+判断题)
288. 矩阵组织结构适用于大的组织系统在矩阵组织结构中, 每一项纵向和横向交汇的工作, 指令来自于纵向和横向两个工作部门, 此其指令源为两个 (考单选题+判断题)
289. 进度管理计划为编制, 监督和控制项目进度建立准则和明确活动. 包括: 项目进度模型制定, 进度计划的发布和迭代长度, 准确度, 计量单位, 组织程序链接, 项目进度模型维护, 控制临界值, 绩效测量规则, 确定完成百分比的规则, EVM 技术, 如基准法, 固定公式法, 完成百分比法等 (考单选题+判断题)
290. 紧前关系: FS, FF, SS, SF (考判断题+多选题)
291. 活动间依赖关系 (考判断题)
292. 强制性依赖关系, 法律或合同要求的或工作的内在性质决定的依赖关系, 往往与客观限制有关 (考判断题+多选题)
293. 选择性依赖关系, 基于具体应用领域的最佳实践或项目的某些特殊性质对活动顺序的要求来创建 (考单选题+判断题)
294. 外部依赖关系, 项目活动与非项目活动之间的依赖关系, 不在项目团队的控制范围内 (考单选题+判断题)
295. 内部依赖关系, 项目活动之间的紧前关系, 在项目团队的控制之中 (考单选题+判断题)
296. 提前量&滞后量(判断题+多选题)
297. 项目进度网络图(紧前关系绘图法PDM, 前导图) (考判断题+多选题)
298. 估算活动持续时间依据的信息包括: 工作范围, 所需资源类型与技能水平, 估算的资源数量和资源日历 (考判断题+多选题)
299. 边际收益递减规律 (考判断题+多选题)
300. 估算活动持续时间的方法 (考判断题+多选题)
301. 三点估算 (考判断题+多选题)
302. 贝塔分布, Te=(O+4M+P)/6, σ=(P-O)/6 (考判断题+多选题)
303. 三角分布, Te=(O+M+P)/3, σ=(P-O)/6 (考判断题+多选题)
304. 正态分布(68.26%, 95.46%, 99.73%) (考判断题+多选题)
305. 自下而上估算(成本&准确度最高) (考判断题+多选题)
306. 储备分析, 储备分析用于确定项目所需的应急储备量和管理储备 (考判断题)
307. 制定进度计划 (考判断题)
308. 进度网络分析CPM (考判断题)
309. CCM(资源约束型CPM) (考判断题)
310. 资源平滑, 利用非关键路径上活动的浮动时间, 调整非关键路径上的活动使项目资源数量减少波动 (考判断题)
311. 会绘制分析横道图(甘特图) (考判断题)
312. 会绘制分析里程碑图 (考判断题)
313. 会绘制分析项目进度网络图 (考判断题)
作者: 我叫史迪奇
本文来自于:
https://sdq3.link/AI-trainer-match.html博客内容遵循 署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0) 协议