事情的经过是这样的,家属有99份excel要转成pdf上传系统,她在那里一个个打卡另存🤔然后一边干一边抱怨。
我说你不是充值kimi了吗,你让它干呀。家属担心ai偷看然后暴露出去。
太高估现在的ai大模型了!
你让大模型把你上传的文件的每个字都看一遍,它的上下文长度很快就会被撑爆了。这就是我之前里说过的“一力降十会”里提到的,大模型现在把ocr也就是图像识别能力聚合进去。但是也仅限于“识别”后“转化”。它或许能认出来一堆数字和文本,然后用推理能力结合文本坐标重新组织起来(大模型里的文本是向量,是带方向的)。就这还干得时灵时不灵的,一旦资料多了就错漏百出。所以很多ai窗口都限制上传文件的数量和大小,它怕你撑爆它啊!
再说了,把文件进行格式转换,其实就是一堆python代码在工作,大模型才舍不得浪费它的“智商”和算力来给你一个个字搞!
最后是我来做这个坏人,亲手把这99份文件让ai来转换格式,由于kimi限制我最多上传50份资料,所以被迫分两次进行,大概花了10分钟吧。🥹
这种「Excel 批量转 PDF」用 Python 代码执行的过程
1. 代码是谁写的?
- 是大模型系统内部自带的工具代码
- 不是你写的
- 不是人工写的
- 没有程序员/员工在后台看着你的文件写代码
全程:机器自动生成 → 机器自动运行 → 机器自动清理
2. 文件内容会被怎么处理?
- 代码只会读取文件结构、内容、格式,用来生成 PDF
- 这些内容只在内存里临时用一下
- 不会把你的 Excel 数据存到服务器硬盘
- 不会保存你的表格内容到任何长期数据库
3. 会不会被人看到?
完全不会。
- 这是后台自动化任务
- 没有客服、运营、开发人员能看到你的表格内容
- 更不可能有人去下载、查看、使用你的文件
4. 会不会用作训练?
不会。
- 这种文件格式转换任务,和模型训练完全无关
- 转换完就销毁临时数据,不存、不记、不用