百晓生 - 技术,生活,随看 \随转

技术,生活,随看 \随转

09:37 · Feb 11, 2023 · Sat

我们的中文互联网不足以提供高质量的训练数据。什么是高质量的数据？比如维基百科、高质量的活跃论坛、专业新闻、学术论文、高质量代码、图书。

我们看看GPT–3的训练数据是什么。权重最大的数据集是OpenWebText（开源版本）,数据是从Reddit论坛上收集的URL，再把内容抓取下来。Common Crawl是一个开放的互联网数据存档（英文占一半，中文大概5%）。其他一些代表性的数据包括Wikipedia维基百科，Books开放图书，Stack Exchange 技术问答社区，Github 代码，ArXiv论文，RealNews 新闻存档，PubMed 医疗数据。可以看到，由中文互联网产生的数据，比例低到可以忽略。这也是困扰很多试图训练中文大模型的问题，但实际上，ChatGPT的用中文沟通的能力，已经远超那些专门的中文大语言模型了，背后原因是GPT隐式学到的翻译能力。

没有好的中文数据，我们就只能搭全球互联网的数据顺风车。上面这些优质数据的产生，需要开放的社区，我们似乎无解。

12:43 · Feb 10, 2023 · Fri

https://twitter.com/oldleek_eth/status/1623661000049459201

Twitter

让你失业的不一定是AI，但一定是比你更早熟练掌握AI的人。最近体验AI真是大开眼界，文字，图片，设计，剪辑，配音无一不有，甚至还有色图生成工具，不禁为福利姬感到深深的担忧

整理了一批AI实用工具，图文，新媒体，编程等均有涉及，一句话：千万别错过，有工作的来练习技能，自由的来体验科技进步

12:40 · Feb 10, 2023 · Fri

留给飞书的时间不多了 | 原文

Telegraph

留给飞书的时间不多了

飞书10000人集体踏空的背后：用最先进的手段，自掘坟墓。 ”作者 | 林觉民何思思编辑 | 王亚峰2019年，字节发动多位高管，频繁踏进小米科技园大门，滔滔不绝地展开了游说工作。在笼络好几名关键人后，他们成功打入小米内部。为了签下小米，字节不仅轮番说服雷军、王川等十几个人，还花费上亿元采购了金山云服务。一系列里应外合的神操作和人情往来，让飞书拿下第一个超级标杆客户。然而这段将被飞书记入企业发展史册的故事，背后是遍地的心酸和亏欠。实际上，这个投入数百人的项目，至少亏损上千万。此外，飞书更是让张一鸣…

07:10 · Feb 10, 2023 · Fri

#网站 #AI #绘画 #nsfw
pornpen.ai - AI Generated Porn https://pornpen.ai/make

频道指南安卓资源机场推荐

网站 AI 绘画 nsfw

04:51 · Feb 10, 2023 · Fri

https://91huajian.cn/

91huajian.cn

91化简-一款免费开源的简历制作神器

91化简-开源简历制作神器！免费制作一份精美的简历！

04:50 · Feb 10, 2023 · Fri

https://ipv4.dev.sarl/@zoom=4

07:44 · Feb 9, 2023 · Thu

✨ 易书书籍检索：支持多个优质书库的一站式电子书搜索方案
【包括 #zlibrary、#超星、#lorefree、#libgen（含在zlibrary内）、#可知等】

👩‍💻 作者有话说：
个人眼中的终极电子书解决方案，欢迎提宝贵的意见和建议，使这个网站功能更完善更具体，也希望大家能够多多分享宣传，谢谢🥳🤩

🔗 易书书籍检索网站：
https://search.yibook.org/

🚀 作者TG频道：
https://t.me/yibook

🤖 群友投稿TG机器人
@tkutuphanebot
（支持中文搜索，似乎也会联动多个数据库/bot检索）

#易书 #书籍检索 #电子书

zlibrary 超星 lorefree libgen 可知易书书籍检索电子书

07:31 · Feb 9, 2023 · Thu

https://www.koolcenter.com/

Koolcenter

KoolCenter - 深圳市易有云网络科技有限责任公司

网络,路由器,固件,华硕,软件中心,交换机,评测,openwrt,软件中心,DDNSTO,易有云

05:57 · Feb 9, 2023 · Thu

03:07 · Feb 9, 2023 · Thu

#网址 #网站
一个将hacker news订阅信息AI总结输出的频道
这个频道还蛮有意思的，由一个大型语言模型编写的利用GPT将hacker news的自动汇报，同时支持网页输出
频道：https://t.me/hn_summary
网页版：https://news.jiggy.ai
你可以在网页版中使用浏览器翻译中文查看
📡发布：https://noisevip.cn/15727.html
📢关注频道：@quanshoulu
💬留言讨论：@Efficiencyfollow
📬投稿bot：@noisewowbot
📇搜索bot：@Efficiencysearchbot
🎁访问主页： www.noisework.cn

网址网站

05:24 · Feb 8, 2023 · Wed

https://s2.tokeninsight.com/static/research/file/levelPdf/web3-trends-20232.pdf

02:52 · Feb 8, 2023 · Wed

分享一个网站：https://collect.chat/
Collect.chat是一款即时聊天机器人工具。它能够帮助企业收集客户反馈，有助于改善产品和服务，提高客户满意度。它也可与其他应用集成，且提供API接口。Collect.chat适用于希望更加有效地与客户沟通的企业。
#运营 #工具 #客户 #企业服务

点此查看详情

collect.chat

Collect.chat — Create engaging experiences - Chatbot for collecting data

Create fully automated chatbot for websites in few minutes. We put automation first so your company can offer scalable live data collection over chat on your site and embed by integrating one line of code. Get your free chatbot for website using drag and…

运营工具客户企业服务

02:44 · Feb 8, 2023 · Wed

分享一个网站：https://www.kanzhun.com/
看准是BOSS直聘的母公司，是一个和glassdoor类似的定位于雇主点评与职场信息的服务平台。其为用户提供雇主基本信息，雇主评价，薪酬资讯，面试经验，招聘职位等信息，里面的内容都是由企业员工和离职两年内的老员工匿名提供
#社区 #工作 #职业

点此查看详情

Kanzhun

看准网-查工资|聊面试|评公司|搜职位|国内领先的职场信息平台

看准网★国内领先的职场信息平台,专注于公司评论,晒工资,工资待遇,面试,公司福利等.您可以在看准网上匿名分享您的职业信息

社区工作职业

02:32 · Feb 8, 2023 · Wed

这本教程指导你如何用Python一个Git，介绍了在 Python 中实现 Git，以了解更多关于 Git 在内部如何工作的信息。

本教程与大多数 Git 内部教程不同，因为不会只用文字来谈论 Git，还会用代码来谈论 Git，边学习边用 Python 编写。

这个教程需要具备 Git 的应用知识，所以不适合Git新手。

ugit: DIY Git in Python | #教程

教程

02:32 · Feb 8, 2023 · Wed

各类名校计算机专业公开课的介绍和导航《名校公开课程评价网》

本项目的目标是收录以下内容：

课程资源链接
是否有视频
有哪些作业(homework)、实验(lab/assignment)
是否有自动测评程序(autograder)
课程简介，包括前置课程知识，适合哪个阶段学习等等
课程评价，包括难度、有趣程度、讲课质量、作业难度与质量等等
非官方的优质课程资源链接（如笔记、课程内容翻译等等）
后续课程推荐

08:36 · Feb 7, 2023 · Tue

Dailyio 2022 年度十大图书已发布，如果还没来得及查看，您可通过这里获取。

Dailyio 私人图书馆正式上架了年度十大图书。

关于这个私人图书馆，可能需要多唠叨几句，其一，考虑到我的阅读习惯更偏爱非文学类作品，比如我更热衷人物传记、历史或社科读物，极少会选择文学作品，所以，这个书单以及整个私人图书馆的选书类型会相对单一一些，如果不合胃口，还望理解。

其二，对于绝大多数引进到国内的图书，我优先选择原版，并不是因为我的英语有多好，更多还是源于对内容审查与翻译质量的担忧，而且，我也希望拥有获取第一手资料的权力。

其三，关于版权的问题，我支持图书版权，但我反对当下电子图书的版权方式，无论是在亚马逊还是苹果的体系里，消费者不是在购买而是在使用电子图书，这让消费者失去了过往借给朋友或向朋友借书的权利，所以我认同 DRM-Free 的诉求，也希望未来可以拥有更多灵活、同时兼顾各方利益的版权方式，这个议题足够宏大，不再展开。

最后，我希望这个私人图书馆可以成为基于信任而形成的图书借阅场地，我愿意将我自己购买的 DRM 图书以及 DRM-Free 图书分享出来，各位读者信任我的选书标准，我也相信各位朋友能够理解「图书借阅」的真正含义。

08:15 · Feb 7, 2023 · Tue

#Whisper 是 #OpenAI 开源的语音识别模型，OpenAI 不仅开源代码而且还开源该模型的详细解释，有开发者基于此开发了图形界面 App，用户只需要在本地运行这个 App，就可以完成语音转录的工作，不需要网络和第三方的参与，非常给力！

🌐链接：https://github.com/chidiwilliams/buzz

📢关注频道：@cloud_native_share
💬加入群聊：@cloudnativer
📮欢迎投稿：@cloud_native_yang

OpenAI

08:10 · Feb 7, 2023 · Tue

#Web

📰

国外社交媒体热门新闻聚合 —— Buzzing

🔍 Buzzing 是一个致力于让你用中文看懂国外媒体报道的网站，它提供多家权威外媒（如纽约时报，卫报，金融时报，彭博社，经济学人等）的实时热门新闻和讨论，并用中文进行导读引导（使用 Deepl 进行翻译），如果用户对本条新闻感兴趣，则可以点击进入原文阅读，当然原文肯定还是外文，可以配合昨天推荐的 Immersive Translate 一起使用，效果拔群。除此之外 Buzzing 还有以下特点：

🔹 支持设置页面默认导读语言，目前支持简中、繁中、英语和日本语；
🔹 支持无图和有图模式进行切换；
🔹 支持 RSS 订阅，并提供 xml 和 json 两种 feeds；
🔹 支持使用 Buzzing Stats 查看新闻统计；
🔹 免费，无登录，无广告。

🏅️ 这个网站其实就是昨天介绍的 Immersive Translate 开发者 —— Owen的作品，无论是 Immersive Translate 还是 Buzzing 在我眼中都是优秀的作品。开发者秉承着每个人都应拥有平等地获取信息的权利，创建了诸多免费的双语工具来帮助人们更有效地获取互联网上巨大的外语信息资源，当然也希望大家能够在不断的信息汲取中进步，早日脱离这些辅助工具。

🙏 再次感谢 Owen 的无私产出。

Web

04:17 · Feb 7, 2023 · Tue

https://webfollow.cc/#/setup?chanType=%E5%8D%9A%E5%AE%A2

webfollow

WebFollow - 在线 RSS 阅读器

简单、高效、全平台、网页版RSS 阅读器

04:11 · Feb 7, 2023 · Tue

https://www.ruanyifeng.com/blog/2023/02/weekly-issue-240.html
阮一峰周五期刊

Before

After