午夜视频在线网站,日韩视频精品在线,中文字幕精品一区二区三区在线,在线播放精品,1024你懂我懂的旧版人,欧美日韩一级黄色片,一区二区三区在线观看视频

分享

用 Python 開發(fā)了一個(gè) PDF 抽取表格的小工具

 ml_Py 2022-06-20 發(fā)布于河南

大家好哇
從 PDF 里 copy 表格時(shí),粘貼出來后格式都是錯(cuò)亂的。這麻煩事交給 Python 再合適不過里,所以,我開發(fā)了一個(gè)從 PDF 抽取表格另存為 Excel 文件的應(yīng)用,已把它部到 huggingface ,同學(xué)可以直接去感受一下:

https:///spaces/beihai/PDF-Table-Extractor

使用方法

準(zhǔn)備一個(gè)PDF(暫不支持掃描版)


頁面中上傳PDF,也不支持過大的200M以上的文件,如果太大,大家可以先去壓縮一下,我記得adobe官網(wǎng)有就類似小工具。


上傳完成后,選擇表格所在PDF的頁碼,等待片刻就會(huì)出現(xiàn)“提起完成,點(diǎn)擊下載”


下載Excel,格式還需要微調(diào),不過比直接復(fù)制出來的要好很多了,能節(jié)省一些時(shí)間。


目前這個(gè)工具我還在完善,比如直接抽取PDF中所有表格,敬請(qǐng)期待。

實(shí)現(xiàn)方法周末再公布吧,其實(shí)經(jīng)常看我文章的同學(xué)應(yīng)該都很熟悉了吧。之前在騰訊的這個(gè)算法,我搬到了網(wǎng)上,隨便玩!一文中有介紹。

本文代碼能在huggingface看到,其實(shí)也是剛剛調(diào)試好,覺得有用,期待三連。

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約

    類似文章 更多