comfyui-research
研究最新的ComfyUI模型、技术和社区发现。监控YouTube频道、GitHub仓库和HuggingFace。用带有时间戳的发现更新参考文件,并标记过时信息。可以通过/research comfyui命令调用,或在会话开始时自动进行过时性检查。
把 Skill 的源码、资源快照、README、包体和安装信号放进一个可搜索、可筛选的公开目录。
研究最新的ComfyUI模型、技术和社区发现。监控YouTube频道、GitHub仓库和HuggingFace。用带有时间戳的发现更新参考文件,并标记过时信息。可以通过/research comfyui命令调用,或在会话开始时自动进行过时性检查。
生成专业的文章封面图片作为SVG文件。当用户想要为博客文章、技术文章或文档创建封面/横幅图片时使用。创建具有标题、图表和技术主题图形的视觉吸引力封面。
高精度多语言完全自托管的OCR用于文档文本提取
创意写作技巧,用于分析和评论故事内容。当用户请求对其写作的反馈、批评或分析时使用。提供针对目标受众调整的平衡反馈。
从短视频(抖音/TikTok)中提取音频并转录成带有时间戳的文本。当用户提供视频URL并需要音频转录时使用。
撰写网络小说章节(默认2000-2500字)。当用户请求撰写一章或运行/webnovel-write时使用。执行上下文处理、草稿编写、审阅、润色和数据提取。
通过Podman Quadlet打开WebUI AI聊天界面管理。提供一个用于与Ollama模型交互的网页界面。当用户需要配置、启动或管理Open WebUI服务时使用。
法律工作要求两点:前沿水平的推理和精确的文档生成。CellCog两者都能提供。在DeepResearch Bench(2026年2月)上排名第一,提供了法律工作所需的智能,结合了最先进的文档生成功能,适用于合同、保密协议、服务条款、隐私政策、合规审查和法律研究。AI合同生成器、法律文件起草、NDA创建者、服务条款、隐私政策、合规性、法律AI。
通过官方Python Google GenAI SDK使用Google的Nano Banana 2模型生成和编辑图片。当用户要求创建图片、编辑现有图片、重新设计照片、添加或删除视觉元素、创建概念艺术、模型图、信息图或产品展示图时使用,特别是当结果需要保存在本地且API密钥可能来自环境变量或文件中时。
通过 fal.ai MCP 实现统一的媒体生成——图像、视频和音频。涵盖文本到图像(Nano Banana)、文本/图像到视频(Seedance、Kling、Veo 3)、文本到语音(CSM-1B),以及视频到音频(ThinkSound)。当用户想要使用 AI 生成图像、视频或音频时使用。
使用 ModelScope 等平台生成 AI 图像。当用户需要生成图像、设计图标、创建角色立绘,或需要帮助编写 AI 绘画提示词时使用此技能。支持直接生成图像和仅优化提示词两种模式。
使用MCP工具的结构化算命工作流程技能。当用户请求占卜、八字/四柱、六爻、紫微斗数、塔罗、大运、运势/流年,或希望有标准化解读流程时使用(例如,先看八字身强弱与喜用神再看大运流年)。强制执行固定的分析顺序,调用正确的MCP工具,并产生可操作的解释。
具有人类记忆模型的AI大脑。层次:身份、对话、档案、更深层次。在会话开始时自动加载。自主学习。在每次会话开始时使用。触发条件:会话开始、重要决策、错误、观察到的用户偏好。
从互联网上抓取并下载各种格式的图片(JPG、PNG、GIF、WebP、BMP、SVG等)。当用户请求下载图片、从URL获取图片、保存网页上的图片或为嵌入文档或聊天中获取图片时使用。支持单个和批量下载,并能自动检测格式。
在使用SAM3(Segment Anything Model 3)时使用 - 提供文本提示、边界框、点提示、视频跟踪、批量推理和模型构建的API模式
通过Rube MCP(Composio)自动化TikTok任务:上传/发布视频、发布照片、管理内容以及查看用户资料/统计数据。始终先搜索工具以获取当前的模式。
ByteHouse AI Query Skill,提供 Text2SQL 接口能力,支持将自然语言转换为 SQL 并执行查询。当用户需要将自然语言查询转换为 SQL、查询 ByteHouse 数据库,或提到 text2sql、自然语言转 SQL、AI查询时使用此 Skill。
电影导演技巧,将故事构思转化为电影处理、剧本结构、场景规划、镜头语言和灯光指导,用于AI辅助的前期制作。当用户要求电影风格的叙事计划、场景分解或摄影策略时使用。不用于短视频广告创意转换。
将视频剪辑转换为优化的GIF,支持速度控制、裁剪、文本叠加和文件大小优化。创建适用于社交媒体、文档和演示文稿的完美GIF。
中文AI科技日报自动采集与推送。从The Verge、Wired、TechCrunch等英文源抓取最新AI资讯,自动翻译整理为中文,按分类推送到飞书/Telegram/Discord等渠道。适合关注AI行业动态的中文用户。
处理任意文件(电子邮件、PDF、Office文档、图片、音频/视频),并与AkashicRecords集成以实现智能存档。读取文件内容,分析意图,并根据内容和项目偏好建议适当的存储位置。
此技能应在为Nano Banana Pro(Gemini图像生成)编写提示时使用。当用户需要帮助编写图像生成提示、需要关于提示结构的指导,或希望优化其提示以获得更好的结果时,请使用此技能。
ElevenLabs 语音转文字工作流程,支持99种语言、说话人分割和Vercel AI SDK集成。当实现音频转录、构建STT功能、集成语音转文本、设置与ElevenLabs的Vercel AI SDK,或用户提到转录、STT、Scribe v1、音频转文本、说话人分割或多语言转录时使用。
语音识别:SFSpeechRecognizer,实时和基于文件的识别,权限。在实现与语音相关的应用程序功能时使用。