Aspire是一种专门为非结构化数据(如Office文档、pdf、web页面、图像、声音和视频)设计的内容摄取和处理技术。它提供了超过40个连接到各种企业内容源的连接器,包括文件共享、SharePoint、Documentum、OneDrive和Box。SalesForce.com, ServiceNow, Confluence, Yammer等。
Aspire提供了一种强大的解决方案,用于连接、清理、充实和向企业搜索、非结构化内容分析和自然语言处理应用程序发布内容。
作为我们支持搜索和非结构化内容分析的技术资产集合的一部分,Aspire可以独立使用,也可以作为应用智能平台AIP+的一部分使用。
今年秋天,我们的团队激动地宣布了Aspire最新的增强版本——Aspire 4.0——带有显著的创新进展。
Aspire 4.0的新增强
1. 现在可以使用Elasticsearch来保存Aspire爬行数据库。
Aspire将此数据库用于内部处理和作业队列。
已经使用Elasticsearch作为搜索引擎的客户端可以使用同一个服务器集群来保存Aspire的抓取数据库。这可以极大地减少使用Aspire和Elasticsearch的客户对基础设施、硬件和技术的需求。
在Aspire 4.0中,MongoDB和HBase仍然是可供选择的数据库提供者。
2. 新的端点用于接收已配置内容源的实时文档更新。
除了实时更新之外,这些新的端点还可以用于重新处理可能在下游系统中失败的文档更新,或者根据审计检查发现的文档更新。
3.后台处理和二进制存储层
——我们的智能文档x射线计划的一部分——允许在资源可用时对运行缓慢的后台任务进行排队和处理。
对于长时间运行的进程,如机器学习和光学字符识别(OCR),这是一个理想的框架。
目前,只允许文件存储作为存储层。其他存储层,例如Amazon S3、Azure Blobs、谷歌云平台存储,将在不久的将来提供。
4. 提供了许多bug修复以及稳定性和性能改进。
其他主要特点
Aspire 4.0还包括:
- 重构故障转移实现以获得更高的稳定性、准确性和可用性
- 内置在连接器框架中的节流功能支持内容爬行节流,以保护遗留系统不过载。以前,这是通过减少线程数来实现的。新的框架强制执行更精确的每秒文档控制。
- 增强的安全措施,允许编写业务规则脚本来处理特殊的安全需求,例如,根据用户的电子邮件地址自动添加组
- 有助于简化安装和许可证管理的改进
- 在我们不断增长的40多个连接器中增加了新的和改进的连接器,这些连接器支持从企业存储库获取非结构化内容
- 充分改进了Confluence连接器,具有完整的层次安全支持
- 谷歌云搜索的改进出版商
- 一个新的“测试爬行”特性可以帮助快速、轻松地测试新的内容源
- 用户界面改进和样式调整
本文:http://jiagoushi.pro/aspire-content-processing-40
讨论:请加入知识星球【首席架构师智库】或者小号【jiagoushi_pro】
最新内容
- 11 minutes 14 seconds ago
- 18 minutes 23 seconds ago
- 33 minutes 13 seconds ago
- 40 minutes 44 seconds ago
- 51 minutes ago
- 5 hours ago
- 6 hours ago
- 6 hours ago
- 7 hours ago
- 1 week 1 day ago