技术,生活,随看 \随转
我们的中文互联网不足以提供高质量的训练数据。什么是高质量的数据?比如维基百科、高质量的活跃论坛、专业新闻、学术论文、高质量代码、图书。

我们看看GPT–3的训练数据是什么。权重最大的数据集是OpenWebText(开源版本),数据是从Reddit论坛上收集的URL,再把内容抓取下来。Common Crawl是一个开放的互联网数据存档(英文占一半,中文大概5%)。其他一些代表性的数据包括Wikipedia维基百科,Books开放图书,Stack Exchange 技术问答社区,Github 代码,ArXiv论文,RealNews 新闻存档,PubMed 医疗数据。可以看到,由中文互联网产生的数据,比例低到可以忽略。这也是困扰很多试图训练中文大模型的问题,但实际上,ChatGPT的用中文沟通的能力,已经远超那些专门的中文大语言模型了,背后原因是GPT隐式学到的翻译能力。

没有好的中文数据,我们就只能搭全球互联网的数据顺风车。上面这些优质数据的产生,需要开放的社区,我们似乎无解。
易书书籍检索:支持多个优质书库的一站式电子书搜索方案
【包括 #zlibrary#超星#lorefree#libgen(含在zlibrary内)、#可知 等】

👩‍💻 作者有话说:
个人眼中的终极电子书解决方案,欢迎提宝贵的意见和建议,使这个网站功能更完善更具体,也希望大家能够多多分享宣传,谢谢🥳🤩

🔗 易书书籍检索网站:
https://search.yibook.org/

🚀 作者TG频道:
https://t.me/yibook

🤖 群友投稿TG机器人
@tkutuphanebot
(支持中文搜索,似乎也会联动多个数据库/bot检索)

#易书 #书籍检索 #电子书
#网址 #网站
一个将hacker news订阅信息AI总结输出的频道
这个频道还蛮有意思的,由一个大型语言模型编写的利用GPT将hacker news的自动汇报,同时支持网页输出
频道:https://t.me/hn_summary
网页版:https://news.jiggy.ai
你可以在网页版中使用浏览器翻译中文查看
📡发布:https://noisevip.cn/15727.html
📢关注频道:@quanshoulu
💬留言讨论:@Efficiencyfollow
📬投稿bot:@noisewowbot
📇搜索bot:@Efficiencysearchbot
🎁访问主页: www.noisework.cn
分享一个网站:https://www.kanzhun.com/
看准是BOSS直聘的母公司,是一个和glassdoor类似的定位于雇主点评与职场信息的服务平台。其为用户提供雇主基本信息,雇主评价,薪酬资讯,面试经验,招聘职位等信息,里面的内容都是由企业员工和离职两年内的老员工匿名提供
#社区 #工作 #职业

点此查看详情
这本教程指导你如何用Python一个Git,介绍了在 Python 中实现 Git,以了解更多关于 Git 在内部如何工作的信息。

本教程与大多数 Git 内部教程不同,因为不会只用文字来谈论 Git,还会用代码来谈论 Git,边学习边用 Python 编写。

这个教程需要具备 Git 的应用知识,所以不适合Git新手。

ugit: DIY Git in Python | #教程
各类名校计算机专业公开课的介绍和导航 《名校公开课程评价网

本项目的目标是收录以下内容:

课程资源链接
是否有视频
有哪些作业(homework)、实验(lab/assignment)
是否有自动测评程序(autograder)
课程简介,包括前置课程知识,适合哪个阶段学习等等
课程评价,包括难度、有趣程度、讲课质量、作业难度与质量等等
非官方的优质课程资源链接(如笔记、课程内容翻译等等)
后续课程推荐
Dailyio 2022 年度十大图书已发布,如果还没来得及查看,您可通过这里获取。

Dailyio 私人图书馆正式上架了年度十大图书。

关于这个私人图书馆,可能需要多唠叨几句,其一,考虑到我的阅读习惯更偏爱非文学类作品,比如我更热衷人物传记、历史或社科读物,极少会选择文学作品,所以,这个书单以及整个私人图书馆的选书类型会相对单一一些,如果不合胃口,还望理解。

其二,对于绝大多数引进到国内的图书,我优先选择原版,并不是因为我的英语有多好,更多还是源于对内容审查与翻译质量的担忧,而且,我也希望拥有获取第一手资料的权力。

其三,关于版权的问题,我支持图书版权,但我反对当下电子图书的版权方式,无论是在亚马逊还是苹果的体系里,消费者不是在购买而是在使用电子图书,这让消费者失去了过往借给朋友或向朋友借书的权利,所以我认同 DRM-Free 的诉求,也希望未来可以拥有更多灵活、同时兼顾各方利益的版权方式,这个议题足够宏大,不再展开。

最后,我希望这个私人图书馆可以成为基于信任而形成的图书借阅场地,我愿意将我自己购买的 DRM 图书以及 DRM-Free 图书分享出来,各位读者信任我的选书标准,我也相信各位朋友能够理解「图书借阅」的真正含义。
#Whisper#OpenAI 开源的语音识别模型,OpenAI 不仅开源代码而且还开源该模型的详细解释,有开发者基于此开发了图形界面 App,用户只需要在本地运行这个 App,就可以完成语音转录的工作,不需要网络和第三方的参与,非常给力!

🌐链接:https://github.com/chidiwilliams/buzz

📢关注频道:@cloud_native_share
💬加入群聊:@cloudnativer
📮欢迎投稿:@cloud_native_yang
#Web

📰 国外社交媒体热门新闻聚合 —— Buzzing

🔍 Buzzing 是一个 致力于让你用中文看懂国外媒体报道的网站,它提供多家权威外媒(如纽约时报,卫报,金融时报,彭博社,经济学人等)的实时热门新闻和讨论,并用中文进行导读引导(使用 Deepl 进行翻译),如果用户对本条新闻感兴趣,则可以点击进入原文阅读,当然原文肯定还是外文,可以配合昨天推荐的 Immersive Translate 一起使用,效果拔群。除此之外 Buzzing 还有以下特点:

🔹 支持设置页面默认导读语言,目前支持简中、繁中、英语和日本语;
🔹 支持无图和有图模式进行切换;
🔹 支持 RSS 订阅,并提供 xml 和 json 两种 feeds;
🔹 支持使用 Buzzing Stats 查看新闻统计;
🔹 免费,无登录,无广告。

🏅️ 这个网站其实就是昨天介绍的 Immersive Translate 开发者 —— Owen的作品,无论是 Immersive Translate 还是 Buzzing 在我眼中都是优秀的作品。开发者秉承着每个人都应拥有平等地获取信息的权利,创建了诸多免费的双语工具来帮助人们更有效地获取互联网上 巨大的外语信息资源,当然也希望大家能够在不断的信息汲取中进步,早日脱离这些辅助工具。

🙏 再次感谢 Owen 的无私产出。
Back to Top