Skip to main content

黑洞资源笔记

  1. LLM 应用开发实践笔记 | llm-books | #笔记

    理论学习部分由Langchain、LlamaIndex等开源工具文档、一些最佳实践的技术博客、论文阅读三部分组成。在每个工具的理论学习结束后,辅以实践性代码帮助理解。最后会将各个模块整合起来实现一个信息处理系统。
  2. 压缩速度极快的桌面端图片压缩软件:极速图片压缩器 | #工具

    极速压缩:使用了压缩速度极快的图片压缩引擎,能在极短的时间内完成压缩,同时还能保持良好的压缩质量。

    极限支持:最高支持单张体积可达 10GB 的图片,并且对图片的总数量和总体积没有任何限制。

    多种格式:支持 JPG、JPEG、WEBP、AVIF、PNG、HEIF、TIFF、TIF 等多种常见的图片格式。

    本地压缩:完全在客户端本地执行压缩,有无网络均可,压缩过程中不会上传图片,充分保护隐私安全。

    功能丰富:提供了设置压缩后分辨率、格式转换、调节压缩质量、选择保存路径、保留图片 Exif 信息等多项功能。

    进度提示:压缩过程中可实时显示压缩进度,包括图片总数、成功和失败数量、等待中数量,随时掌握压缩情况。

    主题模式:提供了深色、浅色两种主题模式,可根据实际需要手动选择主题,也可跟随系统主题自动切换。

    添加方式:可通过窗口选择、复制粘贴、鼠标拖拽等多种方式添加图片,也可直接添加文件夹,软件会自动识别内部的图片。
  3. 个性化Copilot编程助手实战 | personal-copilot

    这是一个根据 GitHub 组织的公共存储库中的代码内容进行微调的代码huggingfaceLLM,介绍了从GitHub克隆代码库、提取和清理代码数据的流程。对StarCoder等模型进行了全微调和QLoRA参数高效微调,并进行了比较。展示如何组合不同的适配器进行多任务训练,以实现代码补全和问答能力。

    此外提供了将模型部署为推理端点、在VS Code中使用的详细流程以及在Mac M1芯片上运行小模型的训练和使用方法。
  4. (Meta官方) Llama 2 快速入门指南 | link | #指南

    包括获取模型、托管、使用指南等方面内容,提供了在AWS、GCP、Hugging Face等平台上托管Llama 2的详细步骤,将Llama 2与Code Llama、LangChain等框架集成的指南讲解利用量化和验证技术来评估微调效果。另外还有Llama 2的社区资源,包括GitHub库、性能比较、微调数据集等。
  5. 离线中英文词典数据库 | ECDICT | #数据库 #词典

    这是一份英文->中文字典的双解词典数据库,根据各类考试大纲和语料库词频收录数十万条各类单词的英文和中文释义,并按照各类考试大纲和词频进行标注。 ​​​

    “最初开发看书软件时需要给软件添加一个内嵌字典,在网上找到了一份别人提供的 EDictAZ.txt 的文本文件,里面有差不多两万英文单词的释义,于是开始用这个文件来提供字典查询,用着用着不够用了,又找到一份四六级到 GRE 包含释义的词汇表,但是缺少音标,于是写了个爬虫从各种资料里面把音标给爬下来,外加自己补充了一些组成了一份三万基本词汇的数据库。

    其后数年根据各种资料和网友贡献词库增长到 10 万左右,又找到 Linux 下面的 cdict-1.0-1.rpm 这个开源字典数据(mdict 的主词库也是根据 cdict 转换得到),并按照英国国家语料库的前 16 万单词进行校对,补全很多语料库里词频较高但是却没有收录的词条。”
  6. OptScale:结合了FinOps和MLOps的平台,旨在进行云成本优化并提供ML/AI开发工具。提供云成本优化、虚拟机权益调整、PaaS仪器、S3重复项查找、RI/SP使用、异常检测,以及ML团队的AI开发工具,包括ML/AI排行榜、实验跟踪、ML实验分析和性能成本优化
  7. 这个网站梳理了从上古时期到明清时期,近5000年中国历史上各个时期的历史人物资料。包括人物的基本信息、人物生平、轶事典故、人物评价、史籍记载、人物争议等。其中,还针对一些历史事件和人物做了历史专题供大家查阅。

    此外还提供了古籍名著在线阅读,包括四大名著、四书五经、二十四史、演义类小说及40多册古籍。

    历史人物网 | #历史
  8. 开源人工智能现状(2023版)

    此书可帮助那些对人工智能(AI)感兴趣,但可能不太了解最新动态的人快速了解现在有哪些酷炫的工具和技术。

    主要内容
    模型和数据:讲解了哪些AI模型现在很厉害,以及用什么样的数据来测试它们。
    工具应用:介绍了一些好用的软件和服务,让你更容易地使用AI。
    电脑硬件:告诉你哪些电脑芯片或硬件更适合运行AI程序。
    法律问题:提醒你在使用这些工具和数据时需要注意哪些法律问题。

    在线阅读 | 代码仓库 | #电子书
  9. 一个VSCode插件,基于 Rust 编写的工具,用于「自动纠正」或「检查并建议」文案,给 CJK(中文、日语、韩语)与英文混写的场景,补充正确的空格,纠正单词,同时尝试以安全的方式自动纠正标点符号等等。

    类似 ESlint、Rubocop、Gofmt 等工具,AutoCorrect 可以用于 CI 环境,它提供 Lint 功能,能便捷的检测出项目中有问题的文案,起到统一规范的作用。

    支持各种类型源代码文件,能自动识别文件名,并准确找到字符串、注释做自动纠正。

    AutoCorrect的愿景是提供一套标准化的文案较正方案。以便于在各类场景(例如:撰写书籍、文档、内容发布、项目源代码...)里面应用,让使用者轻松实现标准化、专业化的文案输出 / 校正。

    AutoCorrect | 插件安装 | #插件 #工具
  10. 研究显示:ChatGPT可能会被诱骗生成恶意代码 | 站长之家

    近日,英国谢菲尔德大学的研究人员发表的一项研究揭示了一项令人担忧的发现:人工智能(AI)工具,如ChatGPT,可以被操纵,用于生成恶意代码,从而可能用于发动网络攻击。

    该研究是由谢菲尔德大学计算机科学系的学者进行的,首次证明了Text-to-SQL系统的潜在危险,这种AI系统可以让人们用普通语言提出问题,以搜索数据库,广泛应用于各行各业。

    研究发现,这些AI工具存在安全漏洞,当研究人员提出特定问题时,它们会生成恶意代码。一旦执行,这些代码可能泄露机密数据库信息,中断数据库的正常服务,甚至摧毁数据库。研究团队成功攻击了六种商业AI工具,其中包括高知名度的BAIDU-UNIT,该工具在众多领域中得到广泛应用,如电子商务、银行业、新闻业、电信业、汽车业和民航业等。

    这项研究也突出了人们如何利用AI学习编程语言以与数据库互动的潜在风险。越来越多的人将AI视为提高工作效率的工具,而不仅仅是对话机器人。例如,一名护士可能会向ChatGPT提出编写SQL命令的请求,以与存储临床记录的数据库互动。然而,研究发现,ChatGPT生成的SQL代码在许多情况下可能对数据库造成损害,而护士可能在不受警告的情况下导致严重的数据管理错误。

    此外,研究还揭示了一种可能的后门攻击方法,即通过污染训练数据,在Text-to-SQL模型中植入“特洛伊木马”。这种后门攻击通常不会对模型的性能产生一般性影响,但可以随时触发,对使用它的任何人造成实际危害。

    研究人员表示,用户应该意识到Text-to-SQL系统中存在的潜在风险,尤其是在使用大型语言模型时。这些模型非常强大,但其行为复杂,很难预测。谢菲尔德大学的研究人员正在努力更好地理解这些模型,并允许其充分发挥潜力。

    该研究已经引起了业界的关注,一些公司已经采纳了研究团队的建议,修复了这些安全漏洞。然而,研究人员强调,需要建立一个新的社区来对抗未来可能出现的高级攻击策略,以确保网络安全策略能够跟上不断发展的威胁。
  11. Test-Agent:蚂蚁集团开源的测试行业大模型工具。| #工具

    该项目主要包含测试领域模型TestGPT-7B模型何其配套工具。与当前已有开源模型相比,TestGPT-7B模型在用例执行通过率(pass 1)、用例场景覆盖(平均测试场景数)上都处于业界领先水平。TestGPT-7B模型以CodeLlama-7B为基座,进行了相关下游任务的微调:

    多语言测试用例生成(Java/Python/Javascript) 一直以来都是学术界和工业界非常关注的领域,近年来不断有新产品或工具孵化出来,如EvoSuite、Randoop、SmartUnit等。然而传统的用例生成存在其难以解决的痛点问题,基于大模型的测试用例生成在测试用例可读性、测试场景完整度、多语言支持方面都优于传统用例生成工具。本次重点支持了多语言测试用例生成,在我们本次开源的版本中首先包含了Java、Python、Javascript的测试用例生成能力,下一版本中逐步开放Go、C++等语言。

    测试用例Assert补全 对当前测试用例现状的分析与探查时,我们发现代码仓库中存在一定比例的存量测试用例中未包含Assert。没有Assert的测试用例虽然能够在回归过程中执行通过,却无法发现问题。因此我们拓展了测试用例Assert自动补全这一场景。通过该模型能力,结合一定的工程化配套,可以实现对全库测试用例的批量自动补全,智能提升项目质量水位。