乱荷飘零的数据库 管理后台

系统管理面板 · 实时数据管理

📢 设置网站主页公告

当前公告预览

加载中...

📋 文本清洗指南(管理者必读)

✨ 书籍文本清洗完整指南

📌 步骤1:原始文本获取

从PDF或扫描件中提取文本,可用工具:

  • PDF文本提取:使用 Copilot 或 ChatGPT 上传PDF获取文本
  • OCR识别:使用 Tesseract、腾讯OCR 等识别扫描件
  • 在线工具:使用 smallpdf.com 等在线PDF转文本工具

🔧 步骤2:文本清洗(重要!)

需要删除的内容:

  • ❌ 页眉、页脚(页号、书名重复)
  • ❌ 目录页、序言页
  • ❌ 脚注标号但无内容部分
  • ❌ 三线表的装饰线
  • ❌ 图片描述(如 [图1.1:某某图表])

保留的内容:

  • ✅ 完整的段落和句子
  • ✅ 脚注内容(如"[1] 注释")
  • ✅ 表格内容
  • ✅ 引用和括号说明

🔄 步骤3:格式标准化

在文本编辑器中执行以下操作:

  • 将所有全角空格改为半角空格
  • 删除多余的换行符(多个连续空行只保留1行)
  • 统一标点符号为简体标点
  • 确保行末没有多余的空格
🔨 推荐的清洗步骤(Word版)
  1. 打开Word,粘贴文本到新文档
  2. Ctrl+H 打开"查找和替换"
  3. 查找"^p^p^p"(多个换行)替换为"^p^p"
  4. 查找" "(多个空格)替换为" "
  5. 查找" "(全角空格)替换为" "
  6. 手动删除页眉页脚内容
  7. 保存为纯文本 .txt 格式

✅ 步骤4:分页处理

每页需要与原PDF页码对应:

  • 记录原PDF中该段落对应的页码
  • 同一页的内容可以合并为一条记录
  • 跨页的长段落按原页码的第一页标记
  • 示例:页面1-2的内容标记为"page_number: 1"

⚡ 快速清洗脚本推荐

如果你有大量的书籍数据,可以:

  1. 将清洗后的文本按页分割(每页一条)
  2. 生成JSON格式数据
  3. 使用下面的"批量导入"功能一次性导入

🛠 添加新书籍

💡 粘贴你的清洗后文本。系统将按段落自动分页。

提示:可粘贴多个段落,系统会自动处理

📚 已添加的书籍

加载中...

📤 批量导入JSON文件

⚡ 快速导入多本书籍的数据(JSON格式)

请选择 JSON 文件后点击上传按钮
文件格式参考:见下方示例
📋 JSON格式示例
[
  {
    "book_title": "书籍名称",
    "book_author": "作者名",
    "pdf_url": "/pdfs/book1.pdf",
    "page_number": 1,
    "content": "第1页的清洗后文本内容...",
    "keywords": ["关键词1", "关键词2"]
  }
]

🔗 数据库分页管理

📋 已添加的网站列表

加载中...

📚 上传文库内容

📚 已上传的文库内容

加载中...

💬 对话消息监控

0
总对话数

加载中...

🤖 设置AI回复话术

在此添加AI对话的回复话术,前端用户提问时,系统会随机选择一条话术进行回复

📝 已有的回复话术列表

加载中...

编辑