GloZ 登上 AWS 官方技术博客:基于 Amazon OpenSearch 的翻译人才搜索系统实践
项目

GloZ 登上 AWS 官方技术博客:基于 Amazon OpenSearch 的翻译人才搜索系统实践

2026/5/18
8分钟阅读

AWS 官方技术博客发布了 GloZ 使用 Amazon OpenSearch Service 与 Amazon Bedrock 构建 hybrid search 翻译人才匹配系统的案例,可覆盖近10万名译员。

发布时间:

🎯 入选 AWS 官方技术博客

2026年5月18日,GloZ 基于自然语言的译员简历搜索系统案例正式发布于AWS 官方技术博客。这是 AWS Korea Solutions Architects 团队首次对 GloZ 的多语言 hybrid search 架构进行深度案例分析,该系统可覆盖近10万名专业译员。

📌 为什么要重构搜索系统

GloZ 运营着覆盖70多种语言的全球专业译员网络,规模接近10万人。一次项目匹配通常需要同时考虑多项条件:

  • 语言组合(例如 KO→EN、EN→JA)
  • 领域专业性(游戏、医疗、法律等)
  • CAT 工具熟练度(Trados、MemoQ 等)
  • 可用时间与响应速度

此前,GloZ 使用 PostgreSQL 与自研 vector DB 组合运行搜索服务,关键词搜索与语义搜索需要分开维护,既增加了运维复杂度,也限制了匹配准确率。

⚙️ Solution: OpenSearch + Bedrock 一体化架构

GloZ 将搜索基础设施统一迁移至 Amazon OpenSearch Service。核心组件包括:

  • Hybrid Search:在单次查询中结合 BM25 关键词匹配与 k-NN 向量搜索(HNSW 算法)
  • Embedding:使用 Amazon Bedrock 的 Cohere Embed v4 生成多语言 embedding,并利用 Claude Haiku 4.5 完成简历摘要与元数据标准化
  • Nori 韩语形态分析:优化韩语简历中的同义词与复合名词处理
  • ML Connector + Ingest Pipeline:在索引阶段自动生成 embedding

📊 核心成果

  • nDCG@10 达到 0.852,接近目标值 0.90,显著提升 Top 10 结果质量
  • 支持 30+ 语言统一搜索,在单一索引中同时匹配韩语、英语、日语、中文、西班牙语等语言
  • 整合关键词与语义搜索,降低多套搜索基础设施的运维负担
  • 支持 PDF、DOCX、OCR 扫描文件等多种简历格式

💡 关键经验:数据质量比模型选择更重要

该案例最重要的启示之一是:相比模型选择,数据质量更能决定搜索效果。GloZ 优先推进简历标准化,包括基于 LLM 的元数据提取、同义词映射以及 hallucination 校验流程,这成为提升搜索准确率的关键因素。

🔗 原文链接

完整技术细节可查看AWS 官方技术博客。通过将 8万+ 译员网络与 AI 基础设施结合,GloZ 正持续推动全球内容本地化领域的技术标准升级。