Skip to main content

黑洞资源笔记

  1. 离线中英文词典数据库 | ECDICT | #数据库 #词典

    这是一份英文->中文字典的双解词典数据库,根据各类考试大纲和语料库词频收录数十万条各类单词的英文和中文释义,并按照各类考试大纲和词频进行标注。 ​​​

    “最初开发看书软件时需要给软件添加一个内嵌字典,在网上找到了一份别人提供的 EDictAZ.txt 的文本文件,里面有差不多两万英文单词的释义,于是开始用这个文件来提供字典查询,用着用着不够用了,又找到一份四六级到 GRE 包含释义的词汇表,但是缺少音标,于是写了个爬虫从各种资料里面把音标给爬下来,外加自己补充了一些组成了一份三万基本词汇的数据库。

    其后数年根据各种资料和网友贡献词库增长到 10 万左右,又找到 Linux 下面的 cdict-1.0-1.rpm 这个开源字典数据(mdict 的主词库也是根据 cdict 转换得到),并按照英国国家语料库的前 16 万单词进行校对,补全很多语料库里词频较高但是却没有收录的词条。”
  2. OptScale:结合了FinOps和MLOps的平台,旨在进行云成本优化并提供ML/AI开发工具。提供云成本优化、虚拟机权益调整、PaaS仪器、S3重复项查找、RI/SP使用、异常检测,以及ML团队的AI开发工具,包括ML/AI排行榜、实验跟踪、ML实验分析和性能成本优化
  3. 这个网站梳理了从上古时期到明清时期,近5000年中国历史上各个时期的历史人物资料。包括人物的基本信息、人物生平、轶事典故、人物评价、史籍记载、人物争议等。其中,还针对一些历史事件和人物做了历史专题供大家查阅。

    此外还提供了古籍名著在线阅读,包括四大名著、四书五经、二十四史、演义类小说及40多册古籍。

    历史人物网 | #历史
  4. 开源人工智能现状(2023版)

    此书可帮助那些对人工智能(AI)感兴趣,但可能不太了解最新动态的人快速了解现在有哪些酷炫的工具和技术。

    主要内容
    模型和数据:讲解了哪些AI模型现在很厉害,以及用什么样的数据来测试它们。
    工具应用:介绍了一些好用的软件和服务,让你更容易地使用AI。
    电脑硬件:告诉你哪些电脑芯片或硬件更适合运行AI程序。
    法律问题:提醒你在使用这些工具和数据时需要注意哪些法律问题。

    在线阅读 | 代码仓库 | #电子书
  5. 一个VSCode插件,基于 Rust 编写的工具,用于「自动纠正」或「检查并建议」文案,给 CJK(中文、日语、韩语)与英文混写的场景,补充正确的空格,纠正单词,同时尝试以安全的方式自动纠正标点符号等等。

    类似 ESlint、Rubocop、Gofmt 等工具,AutoCorrect 可以用于 CI 环境,它提供 Lint 功能,能便捷的检测出项目中有问题的文案,起到统一规范的作用。

    支持各种类型源代码文件,能自动识别文件名,并准确找到字符串、注释做自动纠正。

    AutoCorrect的愿景是提供一套标准化的文案较正方案。以便于在各类场景(例如:撰写书籍、文档、内容发布、项目源代码...)里面应用,让使用者轻松实现标准化、专业化的文案输出 / 校正。

    AutoCorrect | 插件安装 | #插件 #工具
  6. 研究显示:ChatGPT可能会被诱骗生成恶意代码 | 站长之家

    近日,英国谢菲尔德大学的研究人员发表的一项研究揭示了一项令人担忧的发现:人工智能(AI)工具,如ChatGPT,可以被操纵,用于生成恶意代码,从而可能用于发动网络攻击。

    该研究是由谢菲尔德大学计算机科学系的学者进行的,首次证明了Text-to-SQL系统的潜在危险,这种AI系统可以让人们用普通语言提出问题,以搜索数据库,广泛应用于各行各业。

    研究发现,这些AI工具存在安全漏洞,当研究人员提出特定问题时,它们会生成恶意代码。一旦执行,这些代码可能泄露机密数据库信息,中断数据库的正常服务,甚至摧毁数据库。研究团队成功攻击了六种商业AI工具,其中包括高知名度的BAIDU-UNIT,该工具在众多领域中得到广泛应用,如电子商务、银行业、新闻业、电信业、汽车业和民航业等。

    这项研究也突出了人们如何利用AI学习编程语言以与数据库互动的潜在风险。越来越多的人将AI视为提高工作效率的工具,而不仅仅是对话机器人。例如,一名护士可能会向ChatGPT提出编写SQL命令的请求,以与存储临床记录的数据库互动。然而,研究发现,ChatGPT生成的SQL代码在许多情况下可能对数据库造成损害,而护士可能在不受警告的情况下导致严重的数据管理错误。

    此外,研究还揭示了一种可能的后门攻击方法,即通过污染训练数据,在Text-to-SQL模型中植入“特洛伊木马”。这种后门攻击通常不会对模型的性能产生一般性影响,但可以随时触发,对使用它的任何人造成实际危害。

    研究人员表示,用户应该意识到Text-to-SQL系统中存在的潜在风险,尤其是在使用大型语言模型时。这些模型非常强大,但其行为复杂,很难预测。谢菲尔德大学的研究人员正在努力更好地理解这些模型,并允许其充分发挥潜力。

    该研究已经引起了业界的关注,一些公司已经采纳了研究团队的建议,修复了这些安全漏洞。然而,研究人员强调,需要建立一个新的社区来对抗未来可能出现的高级攻击策略,以确保网络安全策略能够跟上不断发展的威胁。
  7. Test-Agent:蚂蚁集团开源的测试行业大模型工具。| #工具

    该项目主要包含测试领域模型TestGPT-7B模型何其配套工具。与当前已有开源模型相比,TestGPT-7B模型在用例执行通过率(pass 1)、用例场景覆盖(平均测试场景数)上都处于业界领先水平。TestGPT-7B模型以CodeLlama-7B为基座,进行了相关下游任务的微调:

    多语言测试用例生成(Java/Python/Javascript) 一直以来都是学术界和工业界非常关注的领域,近年来不断有新产品或工具孵化出来,如EvoSuite、Randoop、SmartUnit等。然而传统的用例生成存在其难以解决的痛点问题,基于大模型的测试用例生成在测试用例可读性、测试场景完整度、多语言支持方面都优于传统用例生成工具。本次重点支持了多语言测试用例生成,在我们本次开源的版本中首先包含了Java、Python、Javascript的测试用例生成能力,下一版本中逐步开放Go、C++等语言。

    测试用例Assert补全 对当前测试用例现状的分析与探查时,我们发现代码仓库中存在一定比例的存量测试用例中未包含Assert。没有Assert的测试用例虽然能够在回归过程中执行通过,却无法发现问题。因此我们拓展了测试用例Assert自动补全这一场景。通过该模型能力,结合一定的工程化配套,可以实现对全库测试用例的批量自动补全,智能提升项目质量水位。
  8. 语雀因重大服务故障,针对语雀个人用户,赠送了 6 个月的会员服务。| 相关公告

    操作流程:进入工作台「账户设置」,点击左侧「会员信息」,在会员信息页面点击「立即领取」,即可获得赠送服务。
  9. ChatGPT-PLUS:这是一套完整的系统,包括前端聊天应用和一个后台管理系统。系统有用户鉴权,你可以自己使用,也可以部署直接给 C 端用户提供 ChatGPT 的服务。

    基于 AI 大语言模型 API 实现的 AI 助手全套开源解决方案,自带运营管理后台,开箱即用。集成了 OpenAI, Azure, ChatGLM,讯飞星火,文心一言等多个平台的大语言模型。集成了 MidJourney 和 Stable Diffusion AI绘画功能。

    主要有如下特性:

    ●完整的开源系统,前端应用和后台管理系统皆可开箱即用。
    聊天体验跟 ChatGPT 官方版本完全一致。
    ●内置了各种预训练好的角色,比如小红书写手,英语翻译大师,苏格拉底,孔子,乔布斯,周报助手等。轻松满足你的各种聊天和应用需求。
    ●支持 MidJourney / Stable Diffusion AI 绘画集成,开箱即用。
    ●支持使用个人微信二维码作为充值收费的支付渠道,无需企业支付通道。(可定制开发其他支付通道支持)
    ●集成插件 API 功能,可结合 GPT 开发各种强大的插件,已内置实现了微博热搜,今日头条,今日早报和 AI 绘画函数插件。

    免费体验地址 | chatgpt-plus
  10. UI-Act:一个 Transformer 模型,用于使用图形用户界面与计算机进行交互,其动机是为了无缝集成到人机工作流中,模型可以自然地使用专家的人工演示进行训练。
  11. 免费 API 服务,提供对 GPT-3.5、GPT-4 和其他语言模型的访问 | NeuroGPT

    该项目目前正在进行向另一个客户端的过渡以及 API 的重建。技术工作仍在继续。