24h購物| | PChome| 登入
2007-02-03 12:44:02| 人氣1,255| 回應0 | 上一篇 | 下一篇

PDF檔案反解譯研究

推薦 0 收藏 0 轉貼0 訂閱站台

早期的電子書產品無法支援直接開啟PDF檔案,僅能以將PDF先轉換為圖片的虛擬列印方式進行對應電子書格式的轉換。
由於電子書螢幕灰階、解析度、尺寸的限制,而PDF的版面是A4,字體卻是12pt,而且上下左右的留白太多,往往以「AB分頁」列印無法清晰顯示其文字。

所以個人另闢蹊徑,提出下述方法,將PDF轉成適合電書版面並保有「圖文分離」的低容量與文字清晰特點。
本方法分為「文」與「圖」的兩部份處理流程。

一、文字處理
0. 解除PDF限制:有些PDF會禁止列印、複製文字等功能。
1. 將PDF的文字萃取出來:
利用論壇有介紹的
Foxit PDF reader pro -- 可將每頁的PDF轉成TXT模式,需要一頁一頁的複製,貼上到文件編輯軟體。(正確支援繁體中文或日文PDF轉TXT模式)
(不支援轉換圖片,對於公式、表格只能轉成純文字,故在排版上也不佳)

solid PDF convert -- 可直接匯出TXT、RTF、DOC(保持文件格式,包含圖片,對中文的支援最好,但是對於日語卻不佳?!)
(對於公式的轉換支援度不佳,3.0版支援表格轉換,且已經對CJK字型支援良好。)

Iceni Gemini -- 可直接匯出HTML格式文件(雖然在顯示上好像對於援繁體中文與日語字型支持度不佳,但是都能正確轉換繁體中文與日文為html)
(對於公式、圖片、表格支援度不佳)

2. 利用WORD編輯上述文字內容:
改成適合電書螢幕大小的版面,修正字體字型,以及文字斷句斷頁的錯誤處,並製作超連結。

二、圖片(包含方程式)、以及表格處理
上述軟體對於表格與圖片的轉換並不一定都會完美成功,有時候需針對轉換錯誤的表格或圖片進行修正:

表格:利用「Tab(定位點)」分隔各欄位的項目,在利用WORD的「文字轉表格」自動轉換,調整表格大小。由於表格框線會被「圖文分驉v當作圖片,所以建議將「框線與網底」設定成沒有或減少格線,既可保持表格的排列整齊,又不會增加過多容量。

圖片(包含方程式):利用Adobe reader 或 Foxit PDF reader等基本閱讀軟體,即可擷取PDF圖片,擷取後貼在適當位置即可。
必要時以WORD手動加入方程式物件。
(Gemini的優點是此程式會將PDF轉換HTML過程中擷取出來的圖片存成獨立的資料夾,所以可以直接取來用,調整大小。)

當完成文字、表格、圖片的調整,並且加入必要的書目與超連結後,可以轉換為字體清晰版面舒爽的EBK電書了。

***********************************
小結:經過測試與比較,推薦Gemini。

台長: segatang
人氣(1,255) | 回應(0)| 推薦 (0)| 收藏 (0)| 轉寄
全站分類: 不分類 | 個人分類: 電書共通製作技巧 |
此分類下一篇:簡單製作直書文件
此分類上一篇:製作適合電書螢幕規格且帶目錄電書的流程
TOP
詳全文