前言
因为要部署私有化的结构化解析API,踩了很久的坑,现在来记录一下,免得忘记了。
什么是unstructured?
unstructured 是一个python的非结构化文档解析库,其解析出来的结果,适合用于大语言模型进行二次训练
部署需要准备
系统:ubuntu 22.04 server
docker: 最新版本
拉取unstructured-api
# 拉取web api的镜像,这个才是官网上的API。
sudo docker pull dmarchignoli/unstructured-api
# 启动api,并且把容器8000端口转发到8001端口
sudo docker run -dt --name unstructured-api -p 8001:8000 dmarchignoli/unstructured-api
如何验证
访问:http://IP:8001/general/openapi.json
如果有数据,那么就是成功部署