Skip to main content

黑洞资源笔记

  1. XunziALLM:为响应古籍活化利用号召,推动大语言模型与古籍处理深度融合,以古籍智能化的研究为目的,南京农业大学国家社科基金重大项目“中国古代典籍跨语言知识库构建及应用研究”课题组与中华书局古联公司推出了一系列古籍处理领域大语言模型:荀子古籍大语言模型。

    荀子系列专为古籍智能处理而设计,这一系列模型的推出将推动古籍研究与保护工作的新发展,提高中华传统文化传承的效率与质量。

    模型亮点:
    古籍智能标引,荀子模型具备强大的古籍文献标引能力,能够对古籍中的内容进行高质量主题标引,帮助研究人员快速了解文章主题。

    古籍信息抽取,荀子模型能够自动从古籍中抽取关键信息,如人物、事件、地点等,大大节省了研究人员的信息整理时间。

    诗歌生成:荀子模型还具备诗歌生成的能力,能够根据给定的主题或关键词,自动生成符合语法规则和韵律要求的古诗,为诗词爱好者提供创作灵感。

    古籍高质量翻译:对于那些难以理解的古籍文献,荀子模型能够提供高质量的翻译服务,帮助研究人员更好地理解原文含义。

    阅读理解:荀子模型能够对给出的古文文本进行分析解释,实现对古籍文本的自动阅读。

    词法分析:荀子模型可以完成古籍文本的自动分词和词性标注,能够有效提升语言学工作者的研究效率。

    自动标点:荀子大模型可以快速完成古籍文本的断句和标点,提升研究者以及业余爱好者对古籍文本的阅读体验。

    用户也可以根据自己的需求,使用本地的训练语料微调荀子基座模型,使得其能够在古籍下游处理任务上取得更佳的处理性能。| #古籍
  2. 用于Python逆向工程的工具包,特点包括高级反混淆、执行Python代码、字符串提取、移除退出函数、获取所有函数、Pyshell图形界面等功能,支持GUI和命令行,还有文件分析和行为监控功能。

    de4py | #工具
  3. Information Assistant Accelerator:使用Azure OpenAI服务和行业加速器构建的信息助手,结合了Azure AI Search和OpenAI的大型语言模型,提供了自然语言的问答交互,帮助用户查询相关信息,还提供了个性化的AI交互和可自定义的设置,以及解释思维过程、引用和验证内容的功能
  4. 一个开源的取证框架,可以分析工业PLC元数据和项目文件,提供了方便的方式来扫描PLC并识别ICS环境中的可疑痕迹,用于手动检查、自动监控任务或响应事件以检测受损设备。通过开源工具,调查人员可以审查输出并根据自己的特定需求进行定制。

    ICSpector | #框架
  5. IT之家:机械革命旷世 15 Pro 游戏本将在12月29日20点正式开卖,i7-13620H + RTX 4060 + 16G + 512G 首发5999 元。

    15 Pro 游戏本重量 2.1kg,机身 A 面使用了 5052 号阳极氧化铝合金材质,并经过了精细的喷砂工艺处理。

    配置方面,这款游戏本采用 i7-12620H 处理器,6P+4E 核心规模,配备 16GB 内存与 512GB SSD。显卡为 RTX 4060,具备多达 3072 个 CUDA 流处理器和 8GB GDDR6。

    屏幕方面,旷世 15 Pro 游戏本搭载了 2560x1440 分辨率屏,具备了 100% sRGB 高色域覆盖、ΔE<2 的色准,刷新率为 165Hz。
  6. 简明英汉必应版:全网收词量最多的离线词典,词频考纲标注(432万词条)内容包含:

    MDX 版本(及去音标版):支持 GoldenDict / mdict / BlueDict
    欧陆 Eudic 版(及去音标版):欧陆词典(桌面,手机)
    Kindle 版本
    MDX CSS 美化版本:支持 GoldenDict / mdict / BlueDict
    StarDict 版本:支持 StarDict,多看系统

    因作者能力有限,该词典追求的是快速查词和查得率,让你在最短的时间内掌握一个单词的基本含义。整合了市面上各类免费和开源资料,利用 BNC/COCA 语料库进行词频矫正,并使用 NodeBox, WordNet 等自然语言处理工具包对各类时态语态,派生词等进行补充和标注。再根据考试大纲和柯林斯星级还有牛津 3000核心词进行标注,让你一眼就能看出这个单词的重要性。

    词典是在340万收词量的开源词典《简明英汉增强版》(支持 GoldenDict, 欧陆词典,BlueDict,mdict,edwin,Kindle 等)的基础上,补充了更多短语、谚语、新词、俚语和专业术语,并对前20万基础词汇使用必应释义进行了校对并发布。

    词典制作使用的工具:

    开发语言用的 Python,以及 beautifulsoup4, lxml, requests 等常用模块,自然语言处理用到了 WordNet 和 NodeBox 两个包。

    以及,作者自己写的开源的 ECDICT 项目(Python 词典数据库及相关脚本)和其他包括自然语言处理,BNC / COCA 的分析程序,十多个不同类型的爬虫,等大大小小几十个脚本程序。数据库使用 SQLite,CSV 等。

    ECDICT项目 | 简明必应版v6下载 | 作者知乎原文介绍 | #词典
  7. Improving Your Statistical Inferences | 翻译版 | coursera课程 | #电子书

    本书翻译工作由中国“开放科学中文社区(COSN)”的OpenTransfer小组倾力完成。COSN是一个公益的在线草根社区,以推广基础研究领域的开放、透明和可重复的研究实践为理念。

    本书原作者是Daniël Lakens教授,写这本书的目的是帮助各位研究者用于设计更好的实验、改进统计推断以及更透明地报告研究信息。翻译的初衷是希望更多的中国学者了解到这本书,了解Daniël教授的思想以及理念。
  8. 基于RIFE算法的中文自动补帧工具。特点:

    效果更好,显存占用极小,是DAIN速度的二十倍;
    高精度转场识别,可在多数视频中达到95%以上的精确度,不破坏丝滑效果;
    包含抽帧处理,可去除动漫卡顿感。高质量输出,速度快。

    系统要求 System Requirements:
    Windows 10 及以上操作系统
    Windows 10 or above
    NVIDIA 显卡需要 GeForce Experience 所安装的驱动版本大于等于460.89
    NVIDIA GPU(driver > 460.89)
    2GB 以上显存, 4GB 左右的空余运行内存以及4GB+的磁盘剩余空间

    2GB+ of video card memory, 4GB+ of DDR3 memory and 4GB+ of free disk space

    Squirrel-RIFE | #工具
  9. 一个专门为儿童提供英语教育的动画系列。

    网站采取动画分级的方式,根据单词、句子的长度和复杂程度将动画分成了9个级别,并用AR指数衡量每部动画的难度。无论孩子是零基础还是已有一定的英语水平,都可以从Little Fox中找到符合孩子当前阅读水平的动画。

    该站点由韩国的Little Fox公司于2000年创立,现已发展成为全球最大的在线英语动画图书馆。这个系列包含了大量的分级教材,全部为纯正的美音,制作精良。

    Little Fox的动画短篇被分成了九个级别,难度依次递增,每个级别建议学习6-8个月。这些动画故事包括了名著小说如《西游记》、《八十天环游地球》、《小妇人》、《简·爱》、《海底两万里》等,以及经典童话故事如《灰姑娘》、《白雪公主和七个小矮人》、《美人鱼》等。

    Little Fox还有一些原创连载动画,如讲述一个叫山姆的小男孩和他的小狗幸运的历险故事,以及一只叫里基的淘气小浣熊的故事等。这些故事的长度约为2-3分钟,语速缓慢,单词重复率高,适合儿童观看。

    Little Fox 1-9级的动画资源包含动画、音频、绘本、词汇PDF、quiz等,可以满足学前到初中各阶段孩子的英语学习需求。此外,Little Fox还给出了动画故事难度等级与其他阅读评价体系的对照表。

    Little Fox | #儿童 #教育 #英语