亂荷飘零的数据库 - 后台管理系统

📋 文本清洗指南（管理者必读）

✨ 书籍文本清洗完整指南

📌 步骤1：原始文本获取

从PDF或扫描件中提取文本，可用工具：

PDF文本提取：使用 Copilot 或 ChatGPT 上传PDF获取文本
OCR识别：使用 Tesseract、腾讯OCR 等识别扫描件
在线工具：使用 smallpdf.com 等在线PDF转文本工具

🔧 步骤2：文本清洗（重要！）

需要删除的内容：

❌ 页眉、页脚（页号、书名重复）
❌ 目录页、序言页
❌ 脚注标号但无内容部分
❌ 三线表的装饰线
❌ 图片描述（如 [图1.1：某某图表]）

保留的内容：

✅ 完整的段落和句子
✅ 脚注内容（如"[1] 注释"）
✅ 表格内容
✅ 引用和括号说明

🔄 步骤3：格式标准化

在文本编辑器中执行以下操作：

将所有全角空格改为半角空格
删除多余的换行符（多个连续空行只保留1行）
统一标点符号为简体标点
确保行末没有多余的空格

🔨 推荐的清洗步骤（Word版）

打开Word，粘贴文本到新文档
Ctrl+H 打开"查找和替换"
查找"^p^p^p"（多个换行）替换为"^p^p"
查找" "（多个空格）替换为" "
查找"　"（全角空格）替换为" "
手动删除页眉页脚内容
保存为纯文本 .txt 格式

✅ 步骤4：分页处理

每页需要与原PDF页码对应：

记录原PDF中该段落对应的页码
同一页的内容可以合并为一条记录
跨页的长段落按原页码的第一页标记
示例：页面1-2的内容标记为"page_number: 1"

⚡ 快速清洗脚本推荐

如果你有大量的书籍数据，可以：

将清洗后的文本按页分割（每页一条）
生成JSON格式数据
使用下面的"批量导入"功能一次性导入

🛠 添加新书籍

📖 书籍名称 *

👤 作者名称 *

📤 上传 PDF 文件（可选）

📄 PDF文件URL（可选）

🏷️ 起始页码

📝 清洗后的文本内容 *

💡 粘贴你的清洗后文本。系统将按段落自动分页。

提示：可粘贴多个段落，系统会自动处理

🔑 关键词标签（可选，','分隔）

📚 已添加的书籍

加载中...

📤 批量导入JSON文件

⚡ 快速导入多本书籍的数据（JSON格式）

选择JSON文件

请选择 JSON 文件后点击上传按钮

文件格式参考：见下方示例

📋 JSON格式示例

[
  {
    "book_title": "书籍名称",
    "book_author": "作者名",
    "pdf_url": "/pdfs/book1.pdf",
    "page_number": 1,
    "content": "第1页的清洗后文本内容...",
    "keywords": ["关键词1", "关键词2"]
  }
]

乱荷飘零的数据库管理后台

📢 设置网站主页公告

当前公告预览

📋 文本清洗指南（管理者必读）

✨ 书籍文本清洗完整指南

📌 步骤1：原始文本获取

🔧 步骤2：文本清洗（重要！）

🔄 步骤3：格式标准化

✅ 步骤4：分页处理

⚡ 快速清洗脚本推荐

🛠 添加新书籍

📚 已添加的书籍

📤 批量导入JSON文件

🔗 数据库分页管理

📋 已添加的网站列表

📚 上传文库内容

📚 已上传的文库内容

💬 对话消息监控

🤖 设置AI回复话术

📝 已有的回复话术列表