Fashion-VDM By AiBard123 November 14, 2024 - 2 min read Fashion-VDM是一种视频扩散模型,用于生成高质量的虚拟试穿视频,保持人物特征和动态一致性。 read more
Region-Aware Text-to-Image Generation By AiBard123 November 14, 2024 - 2 min read 该研究提出了一种区域感知的文本到图像生成方法,通过硬绑定和软细化实现精确的布局组合。 read more
VideoCaptioner By AiBard123 November 14, 2024 - 2 min read VideoCaptioner(卡卡字幕助手)是一款基于大语言模型的智能视频字幕处理软件,支持全流程字幕生成与优化。 read more
Lingma SWE-GPT By AiBard123 November 13, 2024 - 2 min read Lingma SWE-GPT是一个开源大语言模型,专注于软件工程领域的智能辅助和改进任务。 read more
Llama OCR By AiBard123 November 13, 2024 - 2 min read Llama OCR 是一款npm库,利用Llama 3.2 Vision进行免费OCR图像识别处理。 read more