昨天我“scanned”两本整本杂志– 草原羊毛伴侣 #16和 编织者’s #44。 OCR软件虽然不完美,但非常不错!这是“before” and “after”一小段没有编织内容的镜头(我认为这个镜头很小,足以落入“fair use”):


如您所见,它’s not perfect –有一些拼写错误和一些裁剪的照片– but it’足以用作可搜索的PDF,并且因为那里’一个将其另存为PDF / A文件类型的选项,我’我不担心OCR错误导致其无法读取。 PDF / A将原始图像以及可搜索的文本保存在同一页面上。 (可搜索的版本覆盖在原始版本上,但不可见,因此您所看到的就是图像以及所搜索内容的突出显示。)通过略微降低图像质量,我将文件大小减半了,整个文件大小为25 MB的 编织者’s #44–使其体积小到可以放在我的在线笔记软件Evernote中。 (将其放在Evernote中的好处是,它意味着我可以一次搜索所有杂志。)
这是我的做法:
- 我在复制架上安装了一个相机(基本上是一个固定相机的设备,使镜头直接指向下方。将其视为三脚架,除了垂直而不是水平)。
- 我在相机下方放置了一个打开的杂志,并同时定位了相机和杂志,因此可见的两页占据了整个视野。
- 我在杂志上放了一块双强度玻璃窗,以使页面平整。
- 120W卤素泛光灯以浅角度提供在两侧的光线,以避免玻璃反射。
- 我用遥控器来触发相机,所以我不会’按住按钮的同时摇动相机机身(并模糊照片)。
- 将生成的图像加载到计算机上并进行处理(整个问题’的价值)使用Abbyy Finereader 10.0,这是目前消费者可以负担得起的最佳OCR软件。每个问题的处理图像占用CPU约20分钟–肯定是费力的工作!
- 然后,我将文档以PDF / A格式保存,图像质量设置为中等(屏幕质量,而不是打印质量)。
- 瞧!整本杂志的可搜索.pdf。
有很多摄影器材可以确保我正确地进行曝光和对焦–我想我会在做整个之前回去摆弄一些“run”杂志。目前,图像比我更黄’d like, I’m pretty sure there’进行补偿的相机设置。
我还有其他几件事’我正在考虑这样做,就像浏览每本杂志“clean up”文本识别。不纠正拼写错误– I haven’没有时间或耐心来校对每一页–但要删除可能导致多余文字的广告等。例如,当我搜索“temple”, I don’不想看到所有包含该词的广告“temple”(可能有很多),我想查看包含该词的文章。等等,因此清理需要时间,但我认为值得。
同时,当然,我会继续努力完成新工作(第一天进展顺利,需要消化很多信息),今天上午晚些时候,我将继续从事编织工作。我需要完成对经纱的调试,然后才能开始编织样品并进行测量,从而可以准确地编织毛坯。
都是好时光…!
很高兴听到您的第一天进展顺利–enjoy the new job!
您要检查色彩校正的相机设置为“白平衡”。如果将白平衡设置为与您所使用的灯光类型匹配,则应该失去黄色偏色。