computer-vision-pipeline
构建用于对象检测、跟踪和视频分析的生产级计算机视觉流水线。处理无人机拍摄的画面、野生动物监测以及实时检测。支持YOLO、Detectron2、TensorFlow、PyTorch。可用于考古调查、保护工作、安全领域。激活关键词包括“对象检测”、“视频分析”、“YOLO”、“跟踪”、“无人机拍摄”。不适用于简单的图像滤镜、照片编辑或面部识别API。
把 Skill 的源码、资源快照、README、包体和安装信号放进一个可搜索、可筛选的公开目录。
构建用于对象检测、跟踪和视频分析的生产级计算机视觉流水线。处理无人机拍摄的画面、野生动物监测以及实时检测。支持YOLO、Detectron2、TensorFlow、PyTorch。可用于考古调查、保护工作、安全领域。激活关键词包括“对象检测”、“视频分析”、“YOLO”、“跟踪”、“无人机拍摄”。不适用于简单的图像滤镜、照片编辑或面部识别API。
结合搜索和筛选技能的完整文献检索能力。加载此技能时:用户需要“文獻檢索”、“找文獻”、“retrieve literature”、“系統性搜尋” | 开始系统评价 | 全面的文献搜索。功能:多数据库搜索、MeSH扩展、质量筛选、符合PRISMA的工作流程。复合技能:结合文献搜索+文献筛选。
基于对124首曲目(每首38个参数)和3个播放列表的分析,完成Laimis的完整音乐品味概况。当用户要求创建音乐提示(SUNO/Udio)、描述音乐品味、推荐曲目、根据心情创建播放列表或任何与音乐相关的任务时,请使用此技能。此技能包含了完整的音乐精髓,无需重新分析playlist_analysis.jsonl或播放列表文件。激活此技能可用于生成提示、品味描述、基于心情的推荐、风格分析或音乐讨论。
全面的生物信号处理工具包,用于分析包括心电图、脑电图、皮肤电反应、呼吸模式、光电容积脉搏波、肌电图和眼电图在内的生理数据。在处理心血管信号、大脑活动、皮肤电反应、呼吸模式、肌肉活动或眼球运动时使用此技能。适用于心率变异性分析、事件相关电位、复杂度测量、自主神经系统评估、心理生理学研究以及多模态生理信号集成。
使用parakeet-mlx将音频文件转换为文本,这是NVIDIA针对Apple的MLX框架优化的Parakeet自动语音识别模型。通过uvx运行,以实现高质量带时间戳的设备端语音转文本处理。非常适合播客、访谈、会议和其他音频内容。当用户说诸如“转录这段音频”、“将音频转换为文本”、“转录这个播客”、“从这段录音中获取文本”、“语音转文字”或“转录这个wav/mp3/m4a文件”时,会触发此技能。
为使用Remotion的项目生成专业教程和介绍视频。分析项目工作流程,创建与项目架构相匹配的、包含章节、转场和注释的结构化视频内容。
当图片太大而无法查看或处理时,使用ImageMagick调整图片大小。当你遇到超过令牌限制、太大而无法读取的图像文件,或者需要为查看创建一个较小版本的图像时,请使用此技能。
将创意想法转化为专业且适合生产的剧本,优化用于AI视频生成流程。将原始概念转换为结构化的场景叙事,包含丰富的视觉描述、适当的剧本格式以及XML标记的输出,以便与图像/视频生成工具(如imagine, arch-v)无缝集成。使用场景:将故事想法转换为剧本格式,为AI视频流程准备内容,为5-10分钟短片构建叙事结构,为图像生成创建视觉丰富的场景描述。工作流程:原始想法 → 场景分解 → 视觉增强 →…
自动化数据探索和可视化工具,提供从数据加载到专业报告生成的完整EDA解决方案。支持多种图表类型、智能数据诊断、建模评估和HTML报告生成。适用于医疗、金融、电商等领域的数据分析项目。
为代理系统设计和实现内存架构。在构建需要跨会话持久化状态、保持实体一致性或对结构化知识进行推理的代理时使用。
使用Google的Nano Banana(Gemini Image)API生成插图。在根据文本提示创建图像、插图、视觉内容或为文档/故事配图时使用。默认使用Pro模型,采用横向(16:9)长宽比。需要在环境中设置GOOGLE_API_KEY。
进行全面的新闻研究并生成专业的新闻简报。当用户提交新闻分析、情绪跟踪或竞争媒体报道研究的主题时使用。
从文本内容生成播客脚本。使用Tone.js和Howler.js进行音频混音。创建开场/结尾音乐、过渡效果以及音效。
文档重排序服务(Reranker)。基于深度学习模型对检索候选结果进行细粒度相关性打分与重新排序,显著提升检索结果的精准度(Top-K 准确率)。
使用AI模型(FLUX、Gemini)生成或编辑图像。适用于包括照片、插图、艺术作品、视觉素材、概念艺术在内的通用图像生成,但不包括技术图表或示意图。对于流程图、电路图、路径图和技术图表,请改用科学示意图技能。
在网上搜索视频素材并生成专业视频 - 使用yt-dlp、豆包TTS、Remotion渲染和背景音乐的自动化视频制作流程。
创建个性化的锻炼计划并提供运动指导
记忆系统专家,专注于分层记忆、整合以及基于结果的学习。当提到“记忆系统、记忆层次结构、记忆整合、遗忘策略、显著性学习、结果反馈、时间记忆层次、实体解析、记忆、zep、graphiti、mem0、letta、分层、整合、显著性、遗忘、ml-memory”时使用。
为Gemini 2.5 Flash Image(Nano Banana)生成优化的提示。用于图像生成、制作照片提示、艺术风格或遵循最佳实践的多轮编辑工作流程。
使用Whisper CLI进行本地语音转文字(无需API密钥)。
将视频转换为9:16竖屏格式(1080x1920),适用于TikTok、YouTube Shorts、Instagram Reels和Facebook Reels。支持智能裁剪(聚焦人脸/主体)、居中裁剪和信箱模式。保持纵横比和质量。
综合研究、分析和内容提取系统。使用可用的研究员代理进行多源并行研究。深入的内容分析与扩展思考。针对难以访问的网站进行智能检索。为242个以上的专业提示选择织物图案。当用户说'做研究'、'提取智慧'、'分析内容'、'查找关于...的信息',或请求网络/内容研究时使用。
在截图中添加手册风格的注释(红色框、箭头、标注、高亮)以用于技术文档。在创建需要视觉指示器指向用户界面元素的用户手册、教程或指南时使用。
理解并使用StickerNest的自我改进AI系统。当用户询问关于AI自我改进、提示版本控制、反思循环、AI评估、自动调整提示或AI评判系统时使用。涵盖了AIReflectionService、存储以及改进循环。