Anna’s Blog
Updates about Anna’s Archive.

独家访问:全球最大的中文非虚构图书馆藏,仅限LLM公司使用

annas-blog.org, 2023-11-04, English version

TL;DR:Anna's Archive收购了一批独特的750万/350TB中文非虚构图书,比Library Genesis还要大。我们愿意为LLM公司提供独家早期访问权限,以换取高质量的OCR和文本提取。

这是一篇简短的博客文章。我们正在寻找一些公司或机构,以换取独家早期访问权限,帮助我们处理我们收购的大量图书的OCR和文本提取。

高质量的学术文本对于培训LLMs非常有用。虽然我们的收藏是中文的,但这对于培训英语LLMs仍然有用:模型似乎编码概念和知识,而不考虑源语言。

为此,需要从扫描中提取文本。安娜档案馆从中获得了什么?为其用户提供了全文搜索的书籍。

因为我们的目标与LLM开发人员的目标相一致,所以我们正在寻找合作伙伴。如果您能够进行适当的OCR和文本提取,我们愿意为您提供一年的大规模独家访问权限。如果您愿意与我们分享整个流程的代码,我们愿意将该收藏品禁运更长时间。

示例页面

为了向我们证明您有一个好的流程,这里有一些示例页面供您开始使用,来自一本关于超导体的书籍。您的流程应该能够正确处理数学、表格、图表、脚注等。

将处理后的页面发送到[email protected]。如果它们看起来不错,我们会在私下里向您发送更多页面,并期望您能够快速在这些页面上运行您的流程。一旦我们满意,我们可以达成协议。

收藏品

关于收藏品的更多信息。 读秀是由超星数字图书馆集团创建的大量扫描图书的数据库。大多数是学术图书,扫描以使它们可以数字化提供给大学和图书馆。对于我们的英语读者,普林斯顿大学华盛顿大学有很好的概述。还有一篇关于此的优秀文章:“Digitizing Chinese Books: A Case Study of the SuperStar DuXiu Scholar Search Engine”(在Anna's Archive中查找)。

读秀的图书长期以来一直在中国互联网上被盗版。通常它们被转售商以不到一美元的价格出售。它们通常使用中国版的Google Drive进行分发,该版曾经被黑客攻击以允许更多的存储空间。一些技术细节可以在这里这里找到。

尽管这些图书已经被半公开地分发,但是批量获取它们相当困难。我们将其列为我们的TODO清单中的重要事项,并为此分配了多个月的全职工作。然而,最近一位不可思议、了不起、才华横溢的志愿者联系了我们,告诉我们他们已经完成了所有这些工作,付出了巨大的代价。他们与我们分享了整个收藏品,没有期望任何回报,除了长期保存的保证。真正了不起。他们同意通过这种方式寻求帮助来进行OCR。

这个收藏品有7,543,702个文件。这比Library Genesis的非虚构图书(约5.3百万)还要多。总文件大小约为359TB(326TiB)。

我们对其他提议和想法持开放态度。只需联系我们。请访问Anna's Archive,了解有关我们的收藏品、保护工作以及您如何提供帮助的更多信息。谢谢!

- Anna和团队(RedditTelegram)